アルゴリズム AIC:統計モデル選択の指標
赤池情報量基準(AIC)は、統計を使った色々な模型の中から、どれが一番良いかを決める物差しです。「良い模型」というのは、現実のデータに一番うまく合う模型のことです。AICを使うと、色々な模型を比べて、データに一番しっくりくる模型を選ぶことができます。
例えば、空の温度の変化を予想する模型を作りたいとします。温度は、日照時間や湿度、風の強さなど、色々な要素に影響されます。そこで、これらの要素を組み合わせて、色々な温度予想模型を作ってみます。一つ目の模型は日照時間だけを使うシンプルな模型、二つ目の模型は日照時間と湿度の両方を使う少し複雑な模型、三つ目の模型は日照時間、湿度、風の強さの全てを使うもっと複雑な模型、といった具合です。
さて、これらの模型の中で、どれが一番良いのでしょうか?単純にデータによく合うものだけを選んでしまうと、複雑すぎる模型を選んでしまう危険性があります。複雑な模型は、たまたま今のデータにはよく合うかもしれませんが、将来のデータにはうまく合わない可能性があるからです。これを「過学習」と言います。
AICは、模型の複雑さを考慮に入れて、過学習を防ぐことができます。AICは、「データへの当てはまりの良さ」と「模型の複雑さ」のバランスをうまくとって、一番良い模型を選んでくれます。具体的には、AICの値が小さいほど良い模型とされます。AICの値が小さいということは、データへの当てはまりが良く、かつ模型がシンプルであることを意味します。
このように、AICを使うことで、たくさんの模型の中から、データに一番良く合い、かつ過学習していない最適な模型を選ぶことができるのです。
