相関係数の基礎知識

AIの初心者
先生、「相関係数」って一体何ですか?AIの勉強で出てきたんですけど、よく分かりません。

AI専門家
そうですね。「相関係数」は二つのものの関係の強さを表す数値です。例えば、アイスクリームの売上と気温の関係を考えてみましょう。気温が上がるとアイスクリームの売上も増える、つまり二つの間には関係がありそうですよね?その関係の強さを-1から1までの数字で表すのが相関係数です。

AIの初心者
なるほど。関係の強さを数字で表すんですね。でも、-1とか1とかはどういう意味ですか?

AI専門家
1に近いほど、二つのものは同じように変化する「正の相関」が強いことを意味します。気温が上がるとアイスクリームの売上も上がる、といった関係ですね。逆に-1に近いほど、一つが増えるともう一つが減る「負の相関」が強いことを意味します。例えば、マフラーの売上と気温の関係のように、気温が上がるとマフラーの売上は下がりますよね。そして0に近いほど、二つのものの間に関係がない「無相関」ということになります。
相関係数とは。
「人工知能」の話でよく出てくる「相関係数」について説明します。これは、数学や統計学、機械学習で使われる言葉で、二つのものの関係の強さを数字で表したものです。数字は1から0を通り過ぎて、マイナス1までの範囲で表されます。1に近いほど「強い正の相関」といって、二つのものが同じように変化する関係が強いことを意味します。例えば、気温が上がるとアイスクリームの売上も増えるといった関係です。0.3のように0に近づくほど関係は弱くなり、0に近い場合は「相関なし」で、二つのものは関係なくバラバラに変化します。例えば、サイコロの目と明日の天気のようにです。逆に、マイナス1に近い場合は「強い負の相関」といって、二つのものが反対向きに変化する関係が強いことを意味します。例えば、車のスピードが速くなると目的地に着くまでの時間は短くなるといった関係です。
相関係数とは

相関係数とは、二つのものの関係の強さを数字で表す方法です。この数字は、-1から1までの範囲で表されます。
1に近いほど、二つのものは同じように変化する関係にあります。例えば、都市の人口とアイスクリームの売上高を考えてみましょう。もし相関係数が1に近い場合、人口が多い都市ではアイスクリームの売上高も高い傾向があり、人口が少ない都市では売上高も低い傾向があることを示しています。つまり、人口が増えると売上高も増え、人口が減ると売上高も減る、同じ方向に変化する関係「正の相関」を示しているのです。
逆に、-1に近いほど、二つのものは反対に変化する関係にあります。運動時間と体重を例に考えてみましょう。もし相関係数が-1に近い場合、運動時間が長い人ほど体重は軽く、運動時間が短い人ほど体重は重い傾向があることを示しています。つまり、運動時間が増えると体重は減り、運動時間が減ると体重は増える、反対方向に変化する関係「負の相関」を示しているのです。
もし相関係数が0に近い場合、二つのものの間にははっきりとした関係がないと考えられます。例えば、靴のサイズと好きな色には、おそらく関係がないでしょう。靴のサイズが大きい人が必ずしも特定の色を好きというわけではないですし、その逆もまた然りです。このような場合は、相関係数は0に近くなります。
相関係数は、様々な分野で活用されています。経済学、社会学、医学など、二つのものの関係性を調べる必要がある場面で、相関係数は重要な役割を果たしています。ただし、相関係数はあくまで二つのものの関係の強さを示すだけで、因果関係(原因と結果の関係)を示すものではないことに注意が必要です。人口とアイスクリームの売上高の例では、人口が多いことがアイスクリームの売上高が高い直接の原因とは限りません。他の要因、例えば気温や所得水準なども影響している可能性があります。相関係数を解釈する際には、このような点に注意することが重要です。
| 相関係数の値 | 関係性 | 変化の向き | 例 |
|---|---|---|---|
| 1に近い | 強い正の相関 | 同じ向き | 都市の人口とアイスクリームの売上高 |
| -1に近い | 強い負の相関 | 反対向き | 運動時間と体重 |
| 0に近い | 相関関係なし | – | 靴のサイズと好きな色 |
正の相関

二つのものが共に増えたり減ったりする関係を正の相関と言います。片方が増えるともう片方も増え、片方が減るともう片方も減るという関係です。この関係の強さは相関係数という数値で表され、0から1までの間の値を取ります。
例えば、気温と冷たいお菓子の売れ行きについて考えてみましょう。気温が上がると、冷たいお菓子が食べたくなる人が増えるため、売れ行きも良くなります。逆に、気温が下がると冷たいお菓子はあまり売れなくなります。このように、気温と冷たいお菓子の売れ行きは共に増減するため、正の相関があると言えます。相関係数が1に近いほど、この関係はより強く、気温の変化が冷たいお菓子の売れ行きに大きく影響することを示します。
また、学習時間と試験の点数も正の相関関係にあると言えます。学習時間が長ければ長いほど、試験で良い点数が取れる可能性が高くなります。反対に、学習時間が短いと、良い点数が取れる可能性は低くなります。もちろん、学習方法や個人の能力など、試験の点数に影響する他の要素もたくさんありますが、一般的には学習時間と試験の点数は正の相関があると考えられます。
これらの関係をグラフに表すと、右上がりの線になります。そして、相関係数が1に近づくほど、点はより直線状に並び、二つのものの間の関係がより強いことを示します。反対に、相関係数が0に近い場合は、二つのものの間に関連性がほとんどないことを意味します。つまり、片方が変化しても、もう片方はあまり変化しないということです。
| 項目 | 説明 | 相関係数 | グラフの傾向 |
|---|---|---|---|
| 正の相関 | 二つのものが共に増えたり減ったりする関係。片方が増えるともう片方も増え、片方が減るともう片方も減る。 | 0 ~ 1 | 右上がり |
| 気温と冷たいお菓子の売れ行き | 気温が上がると売れ行きが上がり、気温が下がると売れ行きが下がる。 | 1に近いほど強い相関 | 右上がり |
| 学習時間と試験の点数 | 学習時間が長いほど試験の点数は高くなる傾向がある。 | 1に近いほど強い相関 | 右上がり |
負の相関

負の相関とは、二つのものの間に見られる、一方が増えるともう一方が減るという関係のことです。これを数値で表すのが相関係数で、負の相関の場合はマイナス1から0までの間の値を取ります。
例えば、車の速度と目的地までの到着時間を考えてみましょう。速度が上がれば上がるほど、到着時間は短くなります。これはまさに負の相関の一例です。速度が時速10キロメートルから20キロメートル、30キロメートルと上がっていくと、到着時間は短くなっていくでしょう。もしこの関係が完全に比例していれば、相関係数は-1になります。しかし、実際には道路状況や信号などの様々な要因が影響するため、相関係数は-1から0の間の値になります。値が-1に近いほど、二つのものの関係は強く、グラフにすると右下がりの直線に近くなります。
もう一つ、商品の値段と売れる個数の関係を考えてみましょう。一般的に、値段が上がると売れる個数は減ります。これも負の相関です。100円の商品が200円、300円と値上がりしていくと、買う人は減っていくと考えられます。こちらも相関係数は-1から0の間の値を取り、-1に近いほど、値段と売れる個数の関係は強いと言えます。グラフにすると、右下がりの直線に近くなります。
このように、負の相関は私たちの身の回りにたくさんあります。相関係数の値を見ることで、二つのものの関係の強さを理解することができます。値が-1に近いほど関係は強く、0に近いほど関係は弱くなります。このことを理解しておくと、様々な現象を分析する際に役立ちます。
| 項目1 | 項目2 | 相関関係 | 相関係数 | グラフ |
|---|---|---|---|---|
| 車の速度 | 目的地までの到着時間 | 負の相関 (速度が上がると到着時間は短くなる) | -1 から 0 の間 (-1に近いほど強い相関) | 右下がりの直線 ( -1に近いほど直線に近づく) |
| 商品の値段 | 売れる個数 | 負の相関 (値段が上がると売れる個数は減る) | -1 から 0 の間 (-1に近いほど強い相関) | 右下がりの直線 (-1に近いほど直線に近づく) |
無相関

無相関とは、二つのものの間に関連性がない状態のことです。たとえば、ある人の髪の毛の長さと、その人が好きな食べ物には、関連性はないと考えられます。髪の毛が長い人が特定の食べ物を好きというような傾向は見られないでしょう。他にも、今日サイコロを振って出た目と、明日の天気も無相関です。サイコロの出目が1だったとしても、明日の天気が晴れになるとは限りませんし、雨になるとも限りません。
無相関になっているかどうかを確かめる方法の一つに、相関係数というものがあります。相関係数は、二つのものの関連性の強さを表す数値で、無相関の場合は0に近くなります。二つのもののデータを集めて、グラフに点をプロットしてみると、無相関の場合は点がバラバラに散らばっている状態になります。たとえば、横軸に髪の毛の長さ、縦軸に好きな食べ物の番号をプロットしたグラフを想像してみてください。点が特定の規則に従わず、散らばっている様子が見てとれるはずです。
ただし、相関係数が0に近いからといって、必ずしも二つのものの間に全く関連がないとは限りません。これは注意すべき点です。相関係数は、直線的な関連性しか捉えることができません。つまり、二つのものの間に、直線では表せないような複雑な関連が隠れている可能性もあるのです。たとえば、ある植物の成長と気温の関係を考えてみましょう。気温が低すぎても高すぎても植物はよく育ちません。適度な気温のときに最もよく成長します。このような場合、グラフにプロットするとU字型のような曲線になり、直線的な関係ではありません。この場合、相関係数は0に近くなりますが、気温と植物の成長は無関係ではありません。気温は植物の成長に大きく影響を与えているのです。
このように、無相関とは二つのものの間に直線的な関係性がないことを意味しますが、他の形の関連性が隠れている可能性もあることを覚えておきましょう。

相関係数の解釈

二つのものの関係の強さを示す数値である相関係数は、その数値の大きさだけでなく、様々な要因を総合的に考えることで、より深く理解することができます。相関係数は、二つのものがどれだけ直線的に関係しているかを示すもので、原因と結果を示すものではありません。
例えば、暑い時期によく売れるアイスクリームと、水の事故の発生件数に正の相関、つまり二つの数字が同じように増減する関係が見られたとしても、アイスクリームを食べることで水の事故が起こりやすくなる、というわけではありません。おそらく、気温という共通の要素が、アイスクリームの売上と水の事故の発生件数、両方に影響を与えていると考えられます。気温が上がるとアイスクリームの売上が伸び、同時に水遊びをする人が増え、水の事故の発生件数も増加する、という関係です。このように、相関関係があるからといって、必ずしも原因と結果の関係があるとは言い切れません。他に影響を与えている要因がないか、注意深く考える必要があります。
また、相関係数を計算するデータの範囲やデータの数によっても、相関係数の値は変わります。同じ二つのものでも、広い範囲のデータを使うか、狭い範囲のデータを使うかで、相関係数の値は異なり、データの数が少ないと、たまたま強い相関関係が出てしまうこともあります。これらの要素にも注意深く検討する必要があります。相関係数の解釈には、数値だけでなく、背景にある事情や様々な要因を考慮することが大切です。
| 相関係数の理解 | 詳細 |
|---|---|
| 数値の大きさだけでなく、様々な要因を総合的に考える | 相関関係の強さを示すだけでなく、データの背景や状況を理解することが重要 |
| 直線的な関係性を示す | 二つのものがどれだけ直線的に関連しているかを示す指標であり、因果関係を示すものではない |
| 因果関係と相関関係の違い | アイスクリームの売上と水の事故の例のように、相関関係があっても因果関係があるとは限らない。共通の要因(気温)の影響を考慮する必要がある |
| データの範囲と数の影響 | データの範囲やデータの数によって相関係数は変化する。狭い範囲や少ないデータ数では、たまたま強い相関が出てしまう可能性もある |
| 注意深い解釈 | 数値だけでなく、背景にある事情や様々な要因を考慮し、注意深く解釈する必要がある |
まとめ

多くの情報の中から全体を簡潔に示すのがまとめの役割です。物事の関係を数値で表す手法の一つに相関係数があります。これは、二つの事柄がどれほど深く結びついているかを示すものです。例えば、ある製品の広告費と売上高の関係を調べるとします。広告費を増やすほど売上高も増える傾向がある場合、二つの事柄にはプラスの相関があると言えます。反対に、製品の価格と売上高の関係では、価格を高くすると売上高は下がる傾向があるかもしれません。この場合、二つの事柄にはマイナスの相関があると言えます。また、全く関係性が見られない場合もあります。例えば、ある商品の売上高と、全く関係のない他の商品の売上高の間には、相関がないと考えられます。相関係数の値は、プラス1からマイナス1までの範囲で表されます。プラス1に近いほど強いプラスの相関を、マイナス1に近いほど強いマイナスの相関を示します。そして、0に近いほど相関が弱いことを意味します。相関係数は、事柄同士の関係性を理解するための便利な道具ですが、注意すべき点もあります。相関関係があるからといって、必ずしも一方が他方の原因となっているとは限らないということです。例えば、アイスクリームの売上高と水難事故の発生件数にはプラスの相関が見られるかもしれません。しかし、アイスクリームが水難事故を引き起こしているわけではありません。どちらも気温が高い時期に増加するという共通の原因があるため、見かけ上相関しているように見えるだけです。このように、相関関係を因果関係と混同しないように注意し、他の要因やデータの特性を考慮しながら、相関係数を適切に利用することが大切です。そうすることで、情報の本質を見抜き、より良い判断を行うことができます。
| 相関関係 | 説明 | 例 |
|---|---|---|
| 正の相関 | 一方の値が増加すると、もう一方の値も増加する傾向。 | 広告費と売上高 |
| 負の相関 | 一方の値が増加すると、もう一方の値は減少する傾向。 | 製品価格と売上高 |
| 無相関 | 二つの事柄に関係性が見られない。 | ある商品の売上高と全く関係のない他の商品の売上高 |
| 相関係数 | 意味 |
|---|---|
| +1に近い | 強い正の相関 |
| -1に近い | 強い負の相関 |
| 0に近い | 相関が弱い |
注意点:相関関係と因果関係は異なる。他の要因やデータの特性を考慮し、相関係数を適切に利用する必要がある。(例:アイスクリームの売上高と水難事故の発生件数)
