分散説明率とは？求め方・決定係数との違いをわかりやすく解説

アルゴリズム

2026.07.07

分散説明率とは？求め方・決定係数との違いをわかりやすく解説

分散説明率とは？求め方・決定係数との違いをわかりやすく解説

AIの初心者

「分散説明率」って何ですか？データのばらつきと関係があるらしいのですが、言葉だけだと難しく感じます。

AI専門家

簡単に言うと、データ全体のばらつきのうち、モデルや主成分がどれくらい説明できているかを示す割合だよ。たとえばテストの点数の違いを、勉強時間でどれくらい説明できるかを見るような考え方だね。

AIの初心者

勉強時間以外にも、睡眠時間や授業への集中度などが関係しそうです。そういう要素はどう考えればいいですか？

AI専門家

いい視点だね。分散説明率は、あくまで今のモデルや成分で説明できた範囲を表す数値なんだ。説明できなかった部分には、入れていない要因や偶然の変動が残っていると考えるとわかりやすいよ。

分散説明率とは。

分散説明率は、データのばらつきのうち、モデルや主成分によって説明できる割合を表す指標です。回帰分析、機械学習モデルの評価、主成分分析などで使われ、データの変動をどれだけ捉えられているかを確認する手がかりになります。

分散説明率は、統計や機械学習を学ぶときに出てくる重要な指標です。名前だけを見ると専門的ですが、考え方はそれほど複雑ではありません。ポイントは、データ全体のばらつきのうち、どれだけを説明できたかを見ることです。

この記事では、分散説明率とは何か、求め方、決定係数との違い、主成分分析での使い方、モデル評価での注意点を順に整理します。

分散説明率とは

分散説明率とは、データに含まれるばらつきのうち、モデル、特徴量、または主成分が説明できる割合です。たとえば売上が日によって変わる場合、その変動の一部は広告費、季節、曜日、価格などで説明できるかもしれません。一方で、偶然の変動やモデルに入っていない要因は説明しきれずに残ります。

このとき、説明できたばらつきの割合を数値で表したものが分散説明率です。一般には0から1、または0%から100%で表します。0.8であれば、全体の変動の約8割を説明できている、と読むのが基本です。

ただし、ここでいう「説明できる」は「原因が完全に分かった」という意味ではありません。統計的には、モデルや主成分がデータの変動パターンをどれだけ捉えているかを表します。つまり、分散説明率は因果関係の証明ではなく、ばらつきの捉えやすさを測る指標です。

項目	意味
全体のばらつき	実際のデータが平均や基準からどれだけ散らばっているか
説明できたばらつき	モデルや主成分で捉えられた変動の部分
説明できなかったばらつき	残差、ノイズ、モデルに含まれない要因などとして残る部分
分散説明率	全体のばらつきに対する、説明できたばらつきの割合

0から1の値をどう読むか

分散説明率は、値が大きいほど多くのばらつきを説明できていると解釈します。1に近いほどモデルや主成分がデータの動きをよく捉えており、0に近いほど説明できている部分が少ない状態です。

たとえば、りんごの価格変動を予測するモデルで分散説明率が0.8だったとします。この場合、価格変動の約80%はモデルで説明でき、残りの約20%はモデルでは説明しきれていない部分だと考えます。残った部分には、急な天候変化、流通事情、競合する果物の価格、観測誤差などが含まれるかもしれません。

実務では「何%以上なら良い」と一律には言えません。自然現象や人間行動のようにノイズが大きいデータでは、分散説明率が低めでも有用なモデルになることがあります。逆に、制御された環境のデータで値が高くても、未知のデータで同じ性能を出せるとは限りません。

分散説明率の求め方

分散説明率の基本は、全体のばらつきと説明できたばらつきを比べることです。直感的には、次の式で考えられます。

\(\text{分散説明率} = \frac{\text{説明できたばらつき}}{\text{全体のばらつき}}\)

回帰モデルでは、実測値と予測値の差を残差と呼びます。残差が小さいほど、モデルはデータの動きをよく捉えていると考えられます。残差として残ったばらつきが少なければ、説明できた割合は大きくなります。

回帰の文脈では、次のように「残ったばらつき」を使って表すこともあります。

\(\text{説明された割合} = 1 – \frac{\text{残差のばらつき}}{\text{全体のばらつき}}\)

ここで重要なのは、式を暗記することよりも、全体の変動から、モデルで説明できなかった残りを差し引いて考えるという見方です。残差が大きいほど説明できた割合は下がり、残差が小さいほど説明できた割合は上がります。

手順	見るもの	意味
1	全体のばらつき	実測値が平均や基準からどれだけ散らばっているかを見る
2	予測値や主成分	モデルや成分がどの変動を捉えているかを見る
3	残差	説明しきれずに残った差を見る
4	割合	全体に対して説明できた部分がどれくらいかを計算する

決定係数との違いと関係

分散説明率とよく一緒に出てくる指標に、決定係数があります。決定係数は、回帰モデルが目的変数のばらつきをどれだけ説明できているかを表す代表的な評価指標で、\(R^2\) と書かれます。

単純な回帰の説明では、分散説明率と決定係数はかなり近い意味で扱われます。どちらも、全体のばらつきのうちモデルが説明できた割合を見るからです。そのため、初学者はまず「どちらも説明力を見る指標」と押さえると理解しやすくなります。

一方で、厳密には使われる場面や計算の前提が異なることがあります。決定係数は回帰モデルの評価でよく使われ、実測値と予測値の残差をもとに計算します。分散説明率は、回帰だけでなく、主成分分析のような次元削減でも使われます。その場合は、各主成分が元データの分散をどれだけ受け持つかを示します。

したがって、決定係数は回帰モデルの評価、分散説明率はより広く「ばらつきの説明割合」を見る言葉として理解すると整理しやすいです。用語が出てきたら、回帰の話なのか、主成分分析の話なのかを確認しましょう。

指標	主な場面	見ていること
分散説明率	回帰、主成分分析、次元削減など	全体のばらつきのうち説明できた割合
決定係数	回帰モデルの評価	目的変数のばらつきをモデルがどれだけ説明したか
累積寄与率	主成分分析	複数の主成分を合わせてどれだけ分散を説明したか

主成分分析での使い方

分散説明率が特に重要になる場面の一つが、主成分分析です。主成分分析は、たくさんの変数を、情報をなるべく残したまま少ない軸にまとめる手法です。データの次元を減らすことで、可視化しやすくしたり、分析を扱いやすくしたりできます。

主成分分析では、第一主成分が最も大きなばらつきを説明し、第二主成分、第三主成分と進むにつれて、説明するばらつきは小さくなっていきます。各主成分の分散説明率を見ることで、それぞれの主成分が元データの情報をどれくらい受け持っているかを確認できます。

たとえば、第一主成分が50%、第二主成分が25%、第三主成分が10%を説明しているなら、最初の2つの主成分で75%、最初の3つで85%のばらつきを説明していることになります。このように複数の主成分を足し合わせた割合を累積寄与率と呼びます。

実務では、累積寄与率が80%や90%に達するところまで主成分を採用する、といった判断をすることがあります。ただし、この基準も絶対ではありません。分析の目的、説明のしやすさ、後続のモデル精度、失ってよい情報量を合わせて判断します。

モデル評価で使うときの注意点

分散説明率は便利な指標ですが、これだけでモデルの良し悪しを決めるのは危険です。まず、分散説明率は予測の正確さを直接保証しません。既存データのばらつきをよく説明していても、新しいデータに対して同じように予測できるとは限らないためです。

また、外れ値やデータ分布の偏りにも影響を受けます。極端な値が少数あるだけで、全体のばらつきや残差の見え方が変わり、分散説明率が実態より高く見えたり低く見えたりすることがあります。データの前処理や可視化を行い、指標の値だけでなく散布図や残差の傾向も確認しましょう。

さらに、値が高いからといって因果関係があるとは言えません。たとえば売上と気温に強い関係が見えても、それが直接の原因とは限らず、季節、キャンペーン、休日など別の要因が影響している可能性があります。

モデル評価では、目的に応じて他の指標と組み合わせることが大切です。回帰なら平均絶対誤差、平均二乗誤差、残差プロットなどを併用します。分類なら正解率、適合率、再現率、F値などを確認します。主成分分析なら分散説明率だけでなく、各主成分が何を表しているかも解釈します。

分散説明率を理解するための具体例

テスト点数を例に考えてみましょう。あるクラスで、生徒ごとのテスト点数にばらつきがあります。このばらつきの一部は、勉強時間で説明できるかもしれません。勉強時間が長い生徒ほど点数が高い傾向があるなら、勉強時間を使ったモデルは点数のばらつきをある程度説明できます。

しかし、点数は勉強時間だけでは決まりません。睡眠時間、体調、授業理解度、問題との相性、当日の集中力なども関係します。勉強時間だけを使ったモデルでは、これらの要因による違いは残差として残ります。

このとき分散説明率が0.6なら、「点数のばらつきの約60%は勉強時間のモデルで説明できた」と読みます。残りの40%は、モデルに入っていない要因や偶然の変動として残っている可能性があります。ここで大切なのは、60%という値を見て終わるのではなく、残った40%に何が含まれているかを考えることです。

同じ考え方は、りんご価格の変動、ECサイトの売上、広告効果、センサー値の変動などにも応用できます。どの例でも、分散説明率は「何がどれだけ説明できたか」を整理する出発点になります。

まとめ

分散説明率は、データ全体のばらつきのうち、モデルや主成分がどれだけ説明できているかを示す指標です。0から1、または0%から100%で表され、値が大きいほど説明できた変動が多いと解釈します。

回帰分析では決定係数と近い考え方で使われ、主成分分析では各主成分が元データの情報をどれだけ保持しているかを見るために使われます。特に主成分分析では、累積寄与率と合わせて、どこまで主成分を採用するかを判断します。

ただし、分散説明率が高いことは、予測精度、汎化性能、因果関係をそのまま保証するものではありません。外れ値、過学習、データ分布、目的に合った評価指標を確認しながら、他の指標と組み合わせて使うことが大切です。

更新履歴

日付	内容
2025年2月1日	初回公開
2026年7月7日	式の読み方とPCAでの判断材料を追記