深層強化学習のDQN入門

アルゴリズム

2025.02.01

深層強化学習のDQN入門

深層強化学習のDQN入門

AIの初心者

先生、「DQN」って難しそうですが、簡単に言うとどんなものですか？

AI専門家

そうですね。簡単に言うと、ゲームの攻略方法をAIが自分で学習していく方法の一つです。スタートからゴールまで、より良い道順を見つけるように、試行錯誤しながら進んでいくんです。

AIの初心者

ゲームの攻略ですか！でも、どうやって学習していくのでしょうか？

AI専門家

ゴールに近づけばプラスの点、遠ざかればマイナスの点、ゴールに着けばたくさんの点数がもらえるルールを決めておきます。AIは、この点数をもとに、どの行動が良いか判断し、行動の記録を書き換えていきます。これを繰り返すことで、どんどん上手になっていくんです。割引率γは、より短い手順でゴールに着くことを優先するための値なんですよ。

DQNとは。

「人工知能」についての用語『ディー・キュー・エヌ』（ディー・キュー・エヌはディープマインド社によって発表された人工知能の強化学習という種類の計算方法の一つです。最初の図に示したように、出発点をA、到着点をIとした経路を考えます。まず、周りの状況から与えられる設計として、実際に到着点に近づけば１を足し、遠ざかれば１を引き、到着点に着けば１００を足すこととし、状況と行動に対応するキュー表というものを用意します。キュー表の最初の値は全て０とします。ディー・キュー・エヌではこのキュー表を更新し続け、その値が大きい行動がより良いというように学習を行います。キュー値の更新式に沿ってキュー表を更新し続けますが、ここで出てくるガンマは割引率といい、行動の手数が増えれば増えるほどその行動の価値は低いという情報を加味するための値となります。）について

はじめに

近年、人工知能の技術の中でも、試行錯誤を通して自ら学ぶ強化学習という分野が著しい進歩を遂げています。この技術は、まるで人間が経験を通して学習していく過程とよく似ています。囲碁や将棋といった、複雑な思考が求められるゲームの世界で、人間を上回る人工知能が登場したことで、強化学習の力は広く知られるようになりました。

強化学習は、人工知能が自ら様々な行動を試み、その結果から成功や失敗を学び、最適な行動を見つけ出すという学習方法です。ちょうど、子供が新しいおもちゃで遊び方を試行錯誤しながら覚えるように、あるいは、自転車の乗り方を練習するように、人工知能も経験を通して学習していきます。最初は上手くいかないことも多いですが、何度も繰り返し試みることで、徐々に上達していくのです。

この強化学習の中でも、特に注目を集めているのがDQN（ディーキューネットワーク）と呼ばれる技術です。DQNは、人間の脳の神経回路を模倣した仕組みを用いて、複雑な状況における最適な行動を学習することができます。例えば、ゲームで高得点を取るための戦略や、ロボットが複雑な動作を習得するために、DQNは非常に有効な手段となります。

DQNは、過去の経験を記憶し、その記憶に基づいて将来の行動を決定する能力を持っています。過去の成功体験や失敗体験から学び、より良い行動を選択することで、人工知能はますます賢くなっていきます。このように、DQNは試行錯誤を通じて学習する強化学習の中でも、特に高度な学習能力を持つ技術として、様々な分野で応用が期待されています。

経路探索問題

道案内の難しさを考えるために、簡単な道探しの課題を例に見てみましょう。出発地から目的地までの道筋を見つける問題です。出発地を「あ」、目的地を「い」とし、いくつかの場所を回りながら目的地を目指すとします。それぞれの場所の間の移動には点数が決まっており、目的地に近い場所に移動するとプラスの点数、目的地から遠い場所に移動するとマイナスの点数がもらえます。そして、目的地に到着すると大きなプラスの点数がもらえます。人工知能の目的は、何度も試しながら、最も多くの点数がもらえる道筋、つまり最適な道筋を見つけることです。

たとえば、「あ」から「い」まで行くのに、「あ」→「う」→「え」→「お」→「か」→「き」→「く」→「け」→「こ」→「さ」→「し」→「す」→「せ」→「そ」→「た」→「ち」→「つ」→「て」→「と」→「い」という道筋と、「あ」→「い」という直接の道筋があるとします。それぞれの移動で点数が変わるため、単純に短い道筋が良いとは限りません。もしかしたら、遠回りした方が最終的に高い点数になるかもしれません。

人工知能は、はじめはどの道が良いのか全く分かりません。そのため、最初は手探りで色々な道筋を試します。そして、それぞれの道筋でどれだけの点数が得られたかを記録していきます。プラスの点数が得られた移動は良い移動、マイナスの点数が得られた移動は悪い移動として学習していきます。この学習を繰り返すことで、人工知能はだんだん目的地への最適な道筋を理解していきます。まるで迷路を解くように、最初は行き止まりにぶつかったり、遠回りしたりしますが、徐々に最短ルートを見つけていくのです。このように、人工知能は試行錯誤を通して、より良い行動を選択することを学習していきます。そして最終的には、出発地「あ」から目的地「い」まで、最も高い点数が得られる最適な道筋を見つけ出すのです。

行動価値の学習

「行動価値の学習」とは、ある状況でどのような行動をとれば最も良い結果を得られるかを学ぶ手法です。様々な場面で、試行錯誤を通じて最適な行動を見つけることが求められます。例えば、囲碁や将棋のようなゲームでは、どの場所に駒を置くのが最善かを学ぶ必要がありますし、ロボット制御では、どのように動けば目的を達成できるかを学ぶ必要があります。このような問題を解決するために、行動価値の学習という考え方が用いられます。

行動価値の学習の中心となるのは、「行動価値」という概念です。これは、特定の状況で特定の行動をとった場合に、将来的にどれだけの報酬を得られるかを表す数値です。この数値が高いほど、その行動がその状況において良い行動であると判断できます。

行動価値を学習する代表的な手法の一つに、「Ｑ学習」があります。Ｑ学習では、「Ｑテーブル」と呼ばれる表を用いて行動価値を記録します。この表は、行に状態、列に可能な行動を対応させ、各セルにそれぞれの行動価値を格納します。学習は、試行錯誤を通じてこの表の値を更新していくことで行われます。

しかし、Ｑ学習は状態や行動の種類が多い複雑な問題には対応できません。これは、膨大な数の状態と行動の組み合わせを記録する必要があるためです。そこで、この問題を解決するために考案されたのが「ＤＱＮ（深層Ｑ学習）」です。

ＤＱＮは、Ｑ学習のＱテーブルを深層学習モデルに置き換えた手法です。具体的には、状態を入力として受け取り、各行動に対する行動価値を出力するような仕組みを作ります。この仕組みは人工神経回路網を用いて実現されます。深層学習を用いることで、複雑な状態や行動にも対応できるようになり、従来のＱ学習では難しかった問題にも適用できるようになりました。つまり、ＤＱＮは、人工神経回路網の学習能力を利用して、最適な行動価値を効率的に学習することを可能にした手法と言えます。

手法	説明	課題
行動価値の学習	ある状況でどのような行動をとれば最も良い結果を得られるかを学ぶ手法	–
Q学習	Qテーブルを用いて行動価値を記録し、試行錯誤を通じて更新	状態や行動の種類が多い複雑な問題に対応できない
DQN(深層Q学習)	Qテーブルを深層学習モデルに置き換え、状態を入力として受け取り、各行動に対する行動価値を出力	–

試行錯誤による学習

「試行錯誤による学習」とは、まさに人間が新しい技術を習得する過程とよく似ています。自転車に乗ることを考えてみましょう。最初はペダルを漕ぐことさえままならず、何度も転んでしまいます。しかし、転ぶたびにバランスの取り方やペダルの漕ぎ方を少しずつ調整し、最終的にはスムーズに自転車に乗れるようになります。まさにこれが、試行錯誤による学習です。

人工知能の分野でも、この試行錯誤の考え方を用いた学習方法が盛んに研究されています。代表的なものが「ＤＱＮ」と呼ばれる手法です。ＤＱＮは、ゲームの攻略などで優れた成果を上げています。ＤＱＮも人間と同じように、最初は全くの初心者で、ランダムな行動を繰り返します。まるでゲームのルールも知らない子供が、コントローラーのボタンを適当に押しているような状態です。

このランダムな行動の結果として、ゲームの画面は変化し、得点やペナルティといった結果が返ってきます。自転車で言えば、ペダルを漕いだ結果、バランスを崩して転んでしまう、あるいは少しだけ前に進む、といったことに相当します。ＤＱＮは、この結果をもとに、どの行動が良かったのか、悪かったのかを学習していきます。

学習の鍵となるのが「Ｑ値」と呼ばれる数値です。Ｑ値は、ある状態である行動をとった場合の価値を表しています。自転車の例で言えば、「この速度でハンドルをこれくらい切ると、バランスを崩さずに曲がれる」といった知識に相当します。ＤＱＮは、行動の結果得られた得点やペナルティをもとに、Ｑ値を更新していきます。

この更新には「ベルマン方程式」と呼ばれる計算式が使われます。この式は、「今の行動の価値は、次の状態でもっとも良い行動をとった場合の価値と、今の行動で得られた得点の和になる」という考え方に基づいています。自転車で言えば、「少しだけ前に進めた」という結果から、「今のペダルの漕ぎ方は、転ぶよりは良い」と判断し、Ｑ値を少しだけ高くする、といった具合です。

ＤＱＮは、この試行錯誤とＱ値の更新を何度も繰り返すことで、徐々に最適な行動を学習していきます。最初はランダムな行動しかできませんでしたが、学習が進むにつれて、まるで熟練者のようにゲームを攻略できるようになります。まるで、何度も転びながら練習を重ね、最終的にスムーズに自転車に乗れるようになる人間の学習過程と同じです。

割引率の役割

物の値打ちを将来に渡ってどう考えるか、というのは時として難しい問題です。将来得られる価値を現在の価値に換算する際に使うのが割引率です。割引率は、未来の価値をどれくらい今と同じくらい重視するかを決める大切な要素です。

割引率の値は０から１の間で決まります。この値が小さい場合は、未来の価値を今ほど重視しない、つまり目先の利益を優先する考え方になります。例えば、割引率が０に近い場合は、明日もらえる１００円よりも今日もらえる５０円の方を高く評価します。逆に割引率が１に近い場合は、未来の価値も今と同じくらい重視します。つまり、長期的な視点で物事を考えます。この場合、今日もらえる５０円よりも明日もらえる１００円の方を高く評価するでしょう。

人工知能の学習においても、この割引率は重要な役割を担います。例えば、ロボットに迷路の最短経路を見つけさせる場面を考えてみましょう。もし割引率が小さいと、ロボットは目先の行動を優先し、遠回りであってもすぐに報酬が得られる経路を選びがちです。一方、割引率が大きいと、ロボットは将来得られる大きな報酬を重視し、多少時間がかかっても最短経路を探そうとします。

経路探索の問題では、少ない手順で目的地に到達することが重要です。割引率を使うことで、手順が少ない経路により高い評価を与えることができます。具体的には、ロボットが行動するたびに報酬に割引率を掛け合わせます。すると、手順が多い経路ほど報酬の値が小さくなります。この仕組みによって、人工知能はより効率的な、つまり手順の少ない経路を学習することができるのです。

項目	説明	例
割引率	将来得られる価値を現在の価値に換算する際に使用する係数。0 から 1 の間の値をとる。	–
割引率が小さい場合 (0 に近い)	未来の価値を今ほど重視しない。目先の利益を優先する。	明日もらえる 100 円より今日もらえる 50 円の方を高く評価する。
割引率が大きい場合 (1 に近い)	未来の価値も今と同じくらい重視する。長期的な視点で物事を考える。	今日もらえる 50 円より明日もらえる 100 円の方を高く評価する。
人工知能における割引率の役割	将来の報酬をどの程度重視するかを調整する。	ロボットの経路探索
割引率が小さい場合	目先の報酬を優先し、遠回りでもすぐに報酬が得られる経路を選びがち。	–
割引率が大きい場合	将来の大きな報酬を重視し、多少時間がかかっても最短経路を探そうとする。	–
経路探索における割引率	手順が少ない経路により高い評価を与える。	ロボットが行動するたびに報酬に割引率を掛け合わせることで、手順が多い経路ほど報酬が小さくなる。

深層学習との融合

深層学習と結びつくことで、従来の強化学習手法であるＱ学習が抱えていた問題点を解消し、飛躍的な進化を遂げたのがＤＱＮです。この二つの技術の融合は、人工知能研究における革新的な出来事と言えるでしょう。

従来のＱ学習では、行動の価値を記録するＱテーブルと呼ばれる表を作成していました。この表は、あらゆる状態と行動の組み合わせに対応した値を保持する必要があります。例えば、ゲームの場面を状態、ゲームにおける操作を行動とすると、状態と行動の種類が増えるほど、Ｑテーブルは巨大化します。膨大な状態と行動を扱う複雑な課題では、テーブルの維持管理だけでも大変な負担となり、現実的な学習は困難でした。

ＤＱＮは、この巨大なＱテーブルに代わるものとして、深層学習モデルを採用しました。深層学習モデルは、人間の脳の神経回路を模倣した複雑なネットワーク構造を持ち、大量のデータからパターンや特徴を抽出することに優れています。画像認識や音声認識といった分野で目覚ましい成果を上げてきた深層学習モデルは、強化学習の分野にも革新をもたらしました。

ＤＱＮでは、状態を入力データとして深層学習モデルに与え、各行動に対する価値を出力として得ます。深層学習モデルは、経験を通じて学習し、より正確な価値を予測できるようになります。この仕組みにより、状態や行動の種類が膨大であっても、効率的に学習を進めることが可能になりました。

画像を直接入力データとして扱えるようになったことも、ＤＱＮの大きな利点です。ゲーム画面の画像をそのまま入力として深層学習モデルに与えることで、複雑な特徴抽出や状態表現を自動的に行うことができます。これにより、従来の方法では困難だった、画像認識を伴うゲームやロボット制御といった分野への応用が可能になりました。ＤＱＮは、強化学習の可能性を大きく広げ、人工知能の発展に大きく貢献したと言えるでしょう。

項目	従来のQ学習	DQN
行動価値の記録方法	Qテーブル（状態と行動の組み合わせに対応した値を保持する表）	深層学習モデル（状態を入力データ、行動の価値を出力データとする）
課題の規模	状態や行動の種類が増えるとQテーブルが巨大化し、現実的な学習が困難	状態や行動の種類が膨大でも効率的に学習可能
入力データ	–	画像を直接入力データとして扱える
その他	–	複雑な特徴抽出や状態表現を自動的に行うことが可能