アルゴリズム ダブルDQNで強化学習を強化
機械学習の中でも、強化学習は特に注目を集める学習方法の一つです。人間が教えなくても、機械が自ら試行錯誤を繰り返すことで、最適な行動を学ぶことができるという画期的な手法です。まるで赤ん坊が周りの世界と触れ合いながら、何が良くて何が悪いのかを学んでいくように、機械もまた、与えられた環境の中で、様々な行動を試しながら学習していきます。この学習の主人公となるのが「エージェント」と呼ばれるプログラムです。エージェントは、環境の中で行動を起こし、その結果として報酬を受け取ります。そして、より多くの報酬を得られる行動を学習し、その行動をとる確率を高めていきます。目標は、最終的に得られる報酬の合計値を最大にすることです。
この強化学習の分野において、近年大きな成果をあげた手法の一つに、「深い行動価値関数ネットワーク」、略して「深層価値関数ネットワーク」という手法があります。この手法は、人間の脳の神経回路網を模倣した「深層学習」と呼ばれる技術を使って、複雑な環境における学習を可能にしました。簡単に言うと、膨大な数の行動とその結果得られる報酬の関係性を、深層学習によって近似的に表現することで、エージェントは最適な行動を効率よく学習できるようになります。しかし、この画期的な手法にも弱点がありました。それは、行動の価値を本来よりも高く見積もってしまう傾向があることです。例えるなら、宝くじの当選確率を実際よりも高く見積もってしまうようなものです。この過大評価は、学習の効率を低下させる要因となります。
そこで、この過大評価問題を解決するために考案されたのが、「二重深層価値関数ネットワーク」です。この手法では、二つの深層価値関数ネットワークを用いることで、価値の推定精度を向上させ、より安定した学習を実現しています。まるで二人の専門家が別々に評価を行い、その結果を比較することで、より正確な価値を見極めるようなものです。
