テストデータ

記事数:(3)

機械学習と汎化性能とは？意味・過学習との関係・高め方を解説

学習した機械が、初めて見る情報にもうまく対応できる能力、これが汎化性能です。未知の情報に対する対応力と言い換えることもできます。たとえば、たくさんの犬の絵を見せて機械に犬を覚えさせたとします。学習後、機械が初めて見る犬の絵でも、「これは犬だ」と正しく判断できれば、汎化性能が高いと言えます。逆に、学習した犬の絵と全く同じ絵しか犬と認識できなければ、汎化性能が低いと判断されます。これは、機械が本質的な特徴を捉えていないことを意味します。つまり、耳の形や鼻の形、尻尾など、犬の種類に関係なく共通する特徴を理解していないのです。機械学習の目的は、現実の課題を解決することにあります。現実世界では、常に新しい情報が流れてきます。そのため、初めて見る情報にも対応できる能力、すなわち汎化性能の高さが重要になります。汎化性能を高めるには様々な工夫が必要です。学習に使う情報の量や質を調整したり、学習方法自体を改良したりします。まるで職人が技術を磨くように、様々な調整を経て性能を高めていくのです。高い汎化性能を持つ機械は、新しい状況にも柔軟に対応できます。未知の病気を診断する、将来の需要を予測するなど、様々な分野で精度の高い予測や判断を可能にし、私たちの生活をより豊かにする可能性を秘めていると言えるでしょう。

交差検証でモデルの精度を確かめる

機械学習の分野では、作った予測模型がどれほど使えるものなのかを確かめることがとても大切です。この確かめ方の一つに、交差検証と呼ばれるやり方があります。交差検証を使う一番の目的は、限られた学習データを最大限に活用して、模型の汎化性能を正しく評価することです。汎化性能とは、未知のデータに対しても、模型がどれほど正しく予測できるかを示す能力のことです。交差検証は、持っている学習データをいくつかのグループに分け、順番にそれぞれのグループを検証用のデータとして使い、残りのグループを学習用のデータとして模型を作る、という手順で行います。例えば、データを五つのグループに均等に分けたとしましょう。まず、最初のグループを検証用データ、残りの四つのグループを学習用データとして模型を作ります。次に、二番目のグループを検証用データ、それ以外の四つのグループを学習用データとして、また模型を作ります。これを五回繰り返すと、全てのグループが一度ずつ検証用データとして使われることになります。このようにして作った五つの模型の性能を平均することで、特定のデータの分け方による偏りを減らし、より確かな評価結果を得ることができるのです。例えば、たまたま学習用データに特徴的なデータが多く含まれていた場合、そのデータに特化した模型ができてしまう可能性があります。しかし、交差検証を行うことで、そのような偏りを抑え、様々なデータで模型の性能を検証することができるため、未知のデータに対してもきちんと予測できる、より信頼性の高い模型を作ることができるのです。つまり、交差検証は、限られたデータから、より多くのことを学び取り、より優れた模型を作るための、有効な手段と言えるでしょう。

汎化性能とは？未知データに対応する力をわかりやすく解説

機械学習では、様々な情報から規則性やパターンを見つけ出し、将来の予測や判断に役立てることを目指します。この学習の成果を測る物差しの一つに「汎化性能」があります。これは、学習中に一度も目にしたことのない、全く新しいデータに対しても、どれだけ正確に予測や分類ができるかを示す能力のことです。たとえば、大量の手書き数字画像を学習させて数字を認識するシステムを開発する場合を考えてみましょう。学習データとして「０」から「９」までの数字が書かれた何千枚もの画像を使い、それぞれの画像がどの数字を表しているかをシステムに覚えさせます。学習データに対する正答率が非常に高くても、それはまだほんの第一歩です。真の目標は、学習には使っていない、世の中に存在するあらゆる手書き数字を正しく認識できるシステムを作ることです。未知の手書き数字に対しても高い精度で認識できる、つまり学習データ以外でも高い性能を発揮できる能力こそが「汎化性能」なのです。汎化性能の低いシステムは、まるで教科書の内容は完璧に暗記しているのに、試験問題になると全く歯が立たない生徒のようです。学習データにだけ過剰に適応してしまい、学習データに含まれる些細な特徴や偏りにまで反応するようになってしまうのです。これでは、現実世界で遭遇する多様で複雑なデータに対応できません。真に役立つシステムを作るには、この汎化性能を高めることが何よりも重要です。そのためには、学習データに過剰に適応しすぎないように、様々な工夫を凝らす必要があります。たとえば、学習データの一部をわざと隠して学習させ、残りのデータで性能を検証する「交差検証」といった手法や、データに含まれるノイズの影響を抑える技術などがあります。これらの技術を駆使し、新しい状況や予期せぬデータにも対応できる、柔軟で頼もしいシステムを作り出すことが、機械学習開発における大きな課題と言えるでしょう。