学習 決定係数R2:モデルの良さを測る
決定係数とは、統計モデル、特に回帰モデルの良し悪しを測る物差しのようなものです。回帰モデルとは、ある値を予測するために使われる数式で表される関係のことです。この物差しは、予測に使った数式がどれくらい実際の値に近いのかを示してくれます。具体的には、決定係数は、モデルが説明できるデータのばらつきの割合を表します。ばらつきとは、データが平均値からどれくらい離れているかを全体で見たものです。
決定係数は、0から1までの値を取ります。1に近いほど、モデルがデータによく合っていることを意味します。例えば、決定係数が0.8の場合、モデルがデータのばらつきの8割を説明できていると解釈できます。言い換えれば、実際の値と予測値の差、つまり誤差は全体の2割しかありません。残りの2割は、モデルでは説明できない部分です。もしかしたら、数式が複雑すぎたり、考慮されていない要素があるのかもしれません。
決定係数は「R2」とも呼ばれます。この値は、モデルの予測精度を評価する上でとても役立ちます。複数のモデルを比較する場合、R2が高いモデルの方が一般的に精度が高いと考えられます。また、モデルを改善する際にも、R2の値を指標として利用できます。例えば、数式に新たな要素を追加することで、R2の値がどれだけ向上するかを確認できます。
ただし、決定係数だけでモデルの良し悪しを全て判断できるわけではありません。例えば、データ数が少ない場合や、モデルが複雑すぎる場合は、決定係数の値が高くても、予測精度が低い可能性があります。そのため、決定係数だけでなく、他の指標も合わせて見ていくことが重要です。
