相関係数の基礎知識:正の相関・負の相関・無相関の見分け方

相関係数とは?意味・求め方・見方をわかりやすく解説

AIの初心者

相関係数は、2つのデータの関係を表す数値だと聞きました。プラスやマイナスの意味がまだよく分かりません。

AI専門家

相関係数は、2つの数値データがどれくらい同じ向き、または反対向きに動くかを-1から+1の範囲で表す指標だよ。+1に近いほど正の相関、-1に近いほど負の相関、0に近いほど直線的な関係が弱いと読むんだ。

AIの初心者

では、相関係数が高ければ、一方がもう一方の原因だと考えてよいのでしょうか?

AI専門家

そこは特に注意が必要だね。相関係数は関係の強さを示すだけで、原因と結果を証明するものではない。この記事では、意味、求め方、散布図での見方、解釈の注意点まで順番に整理しよう。

相関係数とは

相関係数とは、2つの数値データの直線的な関係の強さと向きを表す指標です。値は-1から+1の範囲を取り、+1に近いほど同じ向きに変化する正の相関、-1に近いほど反対向きに変化する負の相関、0に近いほど直線的な関係が弱いことを意味します。

相関係数とは何を表す数値か

相関係数がマイナス1からプラス1までの範囲で関係の向きを表す図

相関係数は、2つの数値データの関係を1つの数値で要約するための指標です。たとえば、気温とアイスクリームの売上、広告費と売上、学習時間とテスト点数のように、2つの量が一緒に変化しているかを確認するときに使います。

相関係数の代表例は、ピアソンの積率相関係数です。一般に「相関係数」とだけ言う場合、このピアソンの積率相関係数を指すことが多くあります。ピアソンの相関係数は、2つの変数がどれくらい直線的に関係しているかを測ります。

値は-1以上+1以下です。+1に近いほど、片方が増えるともう片方も増える傾向が強くなります。-1に近いほど、片方が増えるともう片方は減る傾向が強くなります。0に近い場合は、直線的な関係が弱いと考えます。

重要なのは、相関係数は「関係の向き」と「直線的な強さ」を表す数値であり、原因を示す数値ではないという点です。相関係数が高いからといって、すぐに因果関係があるとは判断できません。

相関係数の値 読み方 散布図の傾向
+1に近い 強い正の相関 右上がりに点が並ぶ。 気温と冷たい飲み物の売上。
0に近い 直線的な相関が弱い 点がばらばらに散らばる。 サイコロの目と明日の気温。
-1に近い 強い負の相関 右下がりに点が並ぶ。 商品の価格と売れる個数。

正の相関・負の相関・無相関の見方

正の相関、負の相関、無相関を散布図で比較した図

相関係数を理解するときは、散布図とセットで見ると分かりやすくなります。散布図とは、横軸に一方の変数、縦軸にもう一方の変数を置き、各データを点として並べたグラフです。

正の相関は、片方が増えるともう片方も増える関係です。散布図では、点が右上がりに並びます。たとえば、気温が高い日ほど冷たい飲み物の売上が増える場合、正の相関があると言えます。

負の相関は、片方が増えるともう片方が減る関係です。散布図では、点が右下がりに並びます。たとえば、商品の価格が上がるほど購入数が減る場合、負の相関があると考えられます。「相関係数がマイナス」とは、関係が悪いという意味ではなく、2つの変数が反対向きに動く傾向があるという意味です。

無相関は、相関係数が0に近く、直線的な関係がほとんど見えない状態です。ただし、相関係数が0に近いからといって、2つの変数が完全に無関係とは限りません。曲線的な関係や、グループごとの違いが隠れている場合もあります。

種類 相関係数の範囲 意味 散布図
正の相関 0より大きい 一方が増えると、もう一方も増えやすい。 右上がり。
負の相関 0より小さい 一方が増えると、もう一方は減りやすい。 右下がり。
無相関 0に近い 直線的な関係が弱い。 点がばらばら。

相関係数の求め方

ピアソンの積率相関係数を平均と偏差から計算する流れ

ピアソンの積率相関係数は、2つのデータが平均からどの方向にどれくらい離れているかを見て計算します。厳密な式は少し長く見えますが、考え方は難しくありません。

まず、2つの変数それぞれについて平均を求めます。次に、各データが平均より大きいか小さいか、つまり平均との差を求めます。この平均との差を偏差と呼びます。

2つの変数の偏差が同じ向きに動くことが多ければ、相関係数はプラスになります。たとえば、xが平均より大きいときにyも平均より大きく、xが平均より小さいときにyも平均より小さいなら、正の相関です。

逆に、xが平均より大きいときにyが平均より小さく、xが平均より小さいときにyが平均より大きいことが多ければ、相関係数はマイナスになります。これが負の相関です。

計算では、各変数の単位やばらつきの大きさに左右されないように、標準偏差で割って調整します。そのうえで対応する値どうしの動きを集計すると、-1から+1の範囲に収まる相関係数になります。

手順 内容
1 2つの変数xとyのデータを用意する。
2 xとyそれぞれの平均を求める。
3 各データについて、平均からの差を求める。
4 平均との差が同じ向きに動くか、反対向きに動くかを集計する。
5 標準偏差で調整し、-1から+1の範囲の値として表す。

相関係数の強さの目安

相関係数は、値の符号だけでなく絶対値の大きさも見ます。絶対値とは、プラス・マイナスの向きを外した大きさです。たとえば、0.8と-0.8は向きは逆ですが、どちらも直線的な関係は強いと読みます。

目安として、0.7以上なら強い相関、0.4から0.7程度なら中程度の相関、0.2から0.4程度なら弱い相関、0.2未満ならかなり弱い相関と見ることがあります。ただし、この基準は分野やデータの性質によって変わります。

たとえば、人間の行動や社会現象を扱うデータでは、多くの要因が絡むため、0.3程度でも意味のある関係として扱われることがあります。一方、物理実験のように条件を細かく制御できる場面では、もっと高い相関が求められることもあります。

そのため、相関係数は数値だけで判断せず、散布図、データ数、外れ値、測定方法、背景知識と合わせて読む必要があります。

相関係数の絶対値 関係の目安 注意点
0.0から0.2程度 かなり弱い。 直線的な関係はほとんど見えにくい。
0.2から0.4程度 弱い。 データ数や外れ値の影響を確認する。
0.4から0.7程度 中程度。 実務上意味があるかを背景と合わせて見る。
0.7から1.0程度 強い。 因果関係と誤解しないよう注意する。

相関と因果関係は違う

相関関係が因果関係を意味しないことを共通要因で示す図

相関係数を読むときに最も重要な注意点は、相関関係と因果関係を混同しないことです。相関関係は、2つのデータが一緒に変化している状態を示します。一方、因果関係は、一方が原因となってもう一方に影響を与えている関係です。

たとえば、アイスクリームの売上と水辺の事故件数に正の相関が見られたとしても、アイスクリームが事故を増やしているとは言えません。どちらも気温が高い時期に増えやすい、という共通要因があると考えるほうが自然です。

このように、第三の要因によって2つのデータが同じように動いているだけの場合があります。また、偶然の一致、データの取り方、季節性、外れ値によって相関係数が大きく見えることもあります。

相関係数は、因果関係を調べるための出発点としては役立ちます。しかし、原因を主張するには、実験設計、時系列の前後関係、交絡要因の確認、ドメイン知識などが必要です。

AI・機械学習での使いどころ

AIや機械学習では、相関係数はデータ理解の初期段階でよく使われます。たとえば、売上予測モデルを作る前に、広告費、価格、季節、来店数などの変数が売上とどの程度関係しているかを確認できます。

また、特徴量同士の関係を見るためにも使います。似た情報を持つ特徴量が多すぎると、モデルによっては学習が不安定になったり、解釈が難しくなったりします。相関係数を見ることで、強く似ている特徴量を整理する手がかりになります。

ただし、相関係数だけで特徴量を選ぶのは危険です。相関係数は直線的な関係を測る指標なので、非線形な関係や複数の特徴量の組み合わせによる効果は見落とすことがあります。散布図やモデルの検証結果と合わせて判断することが大切です。

まとめ

相関係数は、2つの数値データの直線的な関係の強さと向きを、-1から+1の範囲で表す指標です。+1に近いほど正の相関、-1に近いほど負の相関、0に近いほど直線的な関係が弱いと読みます。

相関係数の求め方は、2つの変数がそれぞれの平均からどの向きにずれているかを見て、その動きがそろっているか反対なのかを集計する考え方です。代表的なものがピアソンの積率相関係数です。

一方で、相関係数は因果関係を証明するものではありません。共通要因、外れ値、データの範囲、非線形な関係に注意しながら、散布図や背景知識と合わせて解釈する必要があります。

項目 要点
範囲 -1から+1まで。
正の相関 片方が増えると、もう片方も増えやすい。
負の相関 片方が増えると、もう片方は減りやすい。
0に近い値 直線的な関係が弱い。ただし完全に無関係とは限らない。
注意点 相関は因果を証明しない。

更新履歴

日付 内容
2026年4月27日 相関係数の意味、ピアソンの積率相関係数の求め方、正の相関・負の相関・無相関の見方、相関と因果関係の違いを整理し、図解画像を4点追加しました。