アルゴリズム 行動者と批評家:Actor-Critic手法
「行動主体」と「評価主体」は、難しい問題を解くための協力する二人組のようなものです。これは、試行錯誤を通じて学習する「強化学習」という方法で使われています。この方法では、「行動主体」は現在の状況に応じてどのような行動をとるかを決定する役割を担います。例えば、迷路にいるロボットの場合、「行動主体」は、右に曲がるか、左に曲がるか、まっすぐ進むかなどを決めます。「評価主体」は、「行動主体」が選択した行動の良し悪しを評価する役割を担います。ロボットが右に曲がって袋小路に入ってしまった場合、「評価主体」は低い点数をつけます。反対に、ロボットが左に曲がって出口に近づいた場合、「評価主体」は高い点数をつけます。「行動主体」は、「評価主体」から受け取った点数に基づいて、自分の行動を改善していきます。最初はランダムに動くロボットも、「評価主体」からの点数が高い行動を繰り返すことで、徐々に正しい道を選べるようになります。
「評価主体」は、環境からの報酬を基に評価基準を洗練させていきます。例えば、ロボットが迷路の出口に到達すると、大きな報酬が与えられます。この報酬を基に、「評価主体」は出口に近い行動ほど高い点数をつけるように評価基準を調整します。このように、「行動主体」と「評価主体」は互いに影響を与えながら学習を進めます。「行動主体」は「評価主体」の評価を参考にしながら行動を改善し、「評価主体」は環境からの報酬を参考にしながら評価基準を洗練させます。この二人組が協力することで、迷路を解くような複雑な問題に対する最適な行動を見つけ出すことが可能になります。まるで、先生と生徒のように、互いに教え合い、学び合う関係と言えるでしょう。「評価主体」はまるで先生のように、「行動主体」である生徒に適切な助言を与え、生徒は先生の助言を参考にしながら、より良い行動を学習していくのです。
