アルゴリズム 方策勾配法:直接最適な行動を探る
方策勾配法は、機械学習の一分野である強化学習で用いられる、優れた学習方法です。この方法は、ある状況下で主体となるものが、どのような行動をとるべきか、その指針となるものを直接的に学習します。この指針のことを「方策」と呼びます。
従来の強化学習の方法、例えばQ学習では、まずそれぞれの状況における行動の良し悪しを数値化したもの、すなわち価値を推定する関数を学習します。そして、その価値の良し悪しに基づいて、どの行動をとるべきかを決めていました。言ってみれば、それぞれの行動の価値を一つ一つ評価してから行動を選択していたわけです。
一方、方策勾配法は、この価値を評価する関数を用いません。方策そのものを数値で表し、その数値を調整することで、最適な方策を探索します。これは、目的地までの詳しい地図を見ながら、どの道を通れば良いか考えるのではなく、方位磁石だけを頼りに、目的地へと進んでいく様子に似ています。地図を見ずに進むため、一見すると非効率的に思えるかもしれません。しかし、複雑な状況や、様々な行動をとることができる場合、地図を作るよりも、方位磁石を頼りに進む方が、最終的に目的地に早くたどり着けることがあります。
このように、方策勾配法は、価値関数を学習する必要がないため、状況が複雑な場合や、行動の種類が多い場合に特に効果を発揮します。そのため、近年注目を集めている学習方法と言えるでしょう。
