アルゴリズム REINFORCE:方策勾配法入門
機械学習の世界では、様々な方法で学習を行います。その中で、試行錯誤を通じて学習する手法を強化学習と言います。人間の子供がおもちゃで遊ぶうちに、どのようにすればうまく操作できるかを覚えていく過程に似ています。目的は、長い目で見て最も良い結果が得られる行動の仕方を見つけることです。
この行動の仕方を指針、つまり手順書のようにまとめて「方策」と呼びます。方策には、ある状況でどのような行動をとるべきかが記されています。例えば、迷路で行き止まりに突き当たったら、引き返すという指示が方策に含まれているかもしれません。強化学習では、この方策をより良いものへと改良していくことが重要です。
強化学習を実現するための手順は様々ありますが、その中でも「REINFORCE」は基本的な手法の一つです。REINFORCEは、方策勾配法という種類の学習方法に属します。方策勾配法の特徴は、行動の価値を評価するのではなく、方策そのものを直接的に調整していく点にあります。価値とは、ある行動をとった時にどのくらい良い結果が期待できるかを数値で表したものです。REINFORCEは、価値を介さずに、試行錯誤を通じて得られた結果をもとに、方策を少しずつ修正していくことで、最適な行動を見つけることを目指します。これは、まるで職人が経験を通して技術を磨いていくように、試行錯誤と改善を繰り返すことでより良い方策を学習していくのです。
