隠れた関係?疑似相関を紐解く

AIの初心者
先生、「疑似相関」って、何ですか?よく分かりません。

AI専門家
そうだな。例えば、アイスクリームの売り上げと水難事故の発生件数には強い関係があるように見える。暑くなるとアイスクリームがよく売れるし、水遊びする人も増えるから水難事故も増えるよね。でも、アイスクリームの売り上げが水難事故を引き起こしているわけじゃないよね?

AIの初心者
確かに、アイスクリームをたくさん売っても水難事故は増えないですよね。じゃあ、二つのことが関係しているように見えても、本当は関係ないってことですか?

AI専門家
その通り! それが「疑似相関」だ。暑さという別の要因が、アイスクリームの売り上げと水難事故の発生件数の両方に影響を与えているから、一見関係があるように見えてしまうんだ。他に、靴のサイズと読解力も疑似相関だね。学年が上がると、靴のサイズも大きくなり、読解力も上がる。どちらも年齢が影響しているだけで、靴のサイズが読解力に影響を与えているわけではないよね。
疑似相関とは。
「人工知能」の話で出てくる「見せかけの繋がり」について説明します。「見せかけの繋がり」とは、本当は関係ない二つのことが、まるで関係あるように見えてしまうことです。例えば、人の数が増えると悪いことも増え、同時に店の数も増えるとします。そうすると、店の数が増えると悪いことも増えるという、本当は関係ないのに、関係あるように見えてしまいます。これは、人の数の増加という、別の共通の原因によって、見せかけの繋がりが見えてしまうのです。
疑似相関とは

疑似相関とは、二つの出来事が一見繋がっているように見えて、実は直接的な関係がない現象です。統計の数字の上では関連があるように見えても、実際には因果関係がないため、データを読み解く際に注意が必要です。まるで、目の錯覚に陥るようなもので、データ分析の落とし穴の一つと言えるでしょう。
例えば、夏の暑い時期に、アイスクリームの売り上げと水難事故の発生件数を見てみましょう。アイスクリームがよく売れるほど、水難事故も増えるというデータが出たとします。この結果だけ見ると、アイスクリームを食べることで水難事故が起こるという奇妙な関係があるように思えてしまいます。しかし、冷静に考えてみると、アイスクリームを食べることと水難事故に遭うことには、直接的な繋がりは考えにくいでしょう。
実は、この二つの出来事には、共通の原因が隠されています。それは「気温」です。気温が上がると、アイスクリームの需要が増えます。同時に、水辺で遊ぶ人も増えるため、水難事故の発生件数も増加するのです。このように、二つの出来事に共通して影響を与える第三の要因によって、あたかも二つの出来事に関係があるかのように見えてしまうのが、疑似相関なのです。
このことから、データ分析を行う際には、見えている数字のみに囚われず、背後に隠された共通の原因を探ることが重要です。表面的な相関関係に惑わされずに、論理的に因果関係を考えることで、正しい結論を導き出すことができるでしょう。

落とし穴への注意

物事の間違った繋がりを見抜けないと、間違った答えにたどり着き、的外れな行動をしてしまうことがあります。例えば、アイスクリームがよく売れる時期と海の事故が多い時期が重なっているという場合を考えてみましょう。この二つの出来事には繋がりがありそうに見えますが、実はどちらも暑い時期に起こりやすいという共通の原因があるだけで、直接の因果関係はありません。もし、この一見した繋がりを本物だと勘違いして、アイスクリームの販売を制限すれば海の事故が減らせると考えてしまうとどうなるでしょうか。アイスクリームの販売を制限しても、海の事故の本当の原因である暑さへの対策にはなりません。海の事故を減らすためには、監視員を増やす、海で遊ぶ人に注意を呼びかけるなど、暑さ対策に合わせた行動をとる必要があります。
他にも、ある町で靴屋の数が多く、病院の数も多いとします。この二つの事柄に関係性があるように見えるかもしれません。しかし、人口が多い町では、靴屋も病院も多くなるため、これは単に人口という共通の要因が影響しているだけかもしれません。靴屋の数を減らしても病院の数は減りませんし、病院の数を減らしても靴屋の数は減りません。
このように、一見関係がありそうな事柄でも、実は隠れた共通の原因によって繋がっているように見えているだけということがあります。このような間違った繋がりを見破るためには、物事の背後にある本当の原因を探ることが大切です。表面的な繋がりだけにとらわれず、なぜそのようなことが起こるのかを深く考えることで、より適切な解決策を見つけることができます。物事の本質を見極める目を養い、隠れた真実に気づくことで、より良い判断ができるようになるでしょう。
| 事象A | 事象B | 一見した関係 | 真の原因 | 誤った対策 | 適切な対策 |
|---|---|---|---|---|---|
| アイスクリームの売上増加 | 海の事故増加 | Aが増えるとBも増える | 暑さ | アイスクリーム販売制限 | 監視員増加、注意喚起など暑さ対策 |
| 靴屋の数の多さ | 病院の数の多さ | Aが多いとBも多い | 人口の多さ | 靴屋の数を減らす、病院の数を減らす | 記載なし |
見極めの方法

物事を見極めるには、表面的な数字の繋がりだけでなく、その背後にある仕組みを理解することが大切です。例えば、一見関係がありそうに見える二つの出来事があったとしても、本当に一方が他方を引き起こしているのか、それとも単なる偶然の一致なのかを注意深く見極める必要があります。
特に、二つの出来事が共に増えたり減ったりするような場合、一見すると関係がありそうに見えますが、実は共通の別の原因によって引き起こされている可能性があります。これを疑似相関といいます。例えば、アイスクリームの売り上げと水難事故の件数は、どちらも夏の暑い時期に増加します。しかし、アイスクリームの売り上げが水難事故を引き起こしているわけではありません。両者に共通する原因は、夏の暑さです。暑さのためにアイスクリームの消費量が増え、また水遊びをする人も増えるため、水難事故も増加するというわけです。
疑似相関を見抜くためには、様々な角度から物事を見る必要があります。まず、二つの出来事に共通して影響を与える第三の出来事がないかを探してみましょう。上の例のように、暑さのような共通の原因が隠れているかもしれません。次に、二つの出来事の時間的な順番を確認しましょう。原因となる出来事は、結果となる出来事よりも先に起こるはずです。もし順番が逆であれば、因果関係は成立しません。さらに、他の情報も調べてみましょう。他のデータと照らし合わせることで、新たな発見があるかもしれません。
このように、物事を見極めるには、数字だけでなく、様々な情報を総合的に判断することが重要です。早とちりせず、丁寧に事実関係を確認し、隠された繋がりを見つけることで、より正確な判断ができます。物事の本質を見抜く目を養い、的確な判断を下せるようになりましょう。
事例紹介

世の中には、一見すると繋がりがありそうなのに、実際には関係がない事柄がたくさんあります。これを疑似相関と言います。私たちの身近な例で考えてみましょう。たとえば、子供の靴の大きさと学力の関係です。もし統計データを取って分析した結果、靴のサイズが大きい子供ほど学力が高いという結果が出たとします。これは一見、靴のサイズが大きいと学力も高くなるという関係性があるように思えます。しかし、よく考えてみると別の理由が隠されているかもしれません。
靴のサイズが大きい子供は、一般的に年齢が高いと考えられます。年齢が高い子供は、当然ながら学習する期間も長く、より難しい内容を学んでいます。つまり、学習期間の長さや学習内容の高度化によって学力が高くなっているだけで、靴のサイズ自体が学力に影響を与えているわけではありません。この場合、年齢という第三の要素が、靴のサイズと学力の両方に影響を与えているため、あたかも靴のサイズと学力に関係があるように見えてしまうのです。これを疑似相関と言います。
他にも、アイスクリームの売上高と水難事故の発生件数も疑似相関の例としてよく挙げられます。アイスクリームの売上と水難事故の発生件数はどちらも夏に増加する傾向があります。しかし、アイスクリームをたくさん食べたから水難事故に遭うわけではありません。これは「気温」という第三の要素が両方に影響しているためです。気温が高いとアイスクリームの売上も伸び、水遊びをする人も増えるため、水難事故の発生件数も増加します。
このように、データを見ると一見関係がありそうに見えても、別の隠れた要因が影響している場合があるので注意が必要です。物事の間の本当の繋がりを理解するには、データの背後にある仕組みをきちんと考え、因果関係を論理的に確かめることが大切です。
まとめ

物事の間の関係を探ろうとするとき、数字の上では関係がありそうに見えても、実際には関係がない、あるいはもっと別の要因が隠れていることがあります。これを疑似相関といいます。データ分析を行う際に、この疑似相関に騙されてしまうと、誤った結論を導き出してしまいます。例えば、アイスクリームの売り上げと水難事故の発生件数には、一見すると正の相関があるように見えるかもしれません。アイスクリームが売れると水難事故が増えるというように。しかし、よく考えてみると、両者に共通する要因は「気温が高い」時期であることが分かります。暑い時期には、アイスクリームの売り上げも伸び、水遊びをする人も増えるため、水難事故も増加するのです。つまり、アイスクリームの売り上げと水難事故の発生には直接的な因果関係はなく、気温という第三の要因が影響している疑似相関なのです。
疑似相関に惑わされず、正しい分析を行うためには、データの背後にある仕組みを理解することが重要です。表面的な数字のみにとらわれず、なぜそのような関係が見られるのかを論理的に考え、様々な角度から検証する必要があります。例えば、複数のデータを使って分析したり、時間経過による変化を調べたりすることで、隠れた要因が見えてくることがあります。また、その分野の専門知識や経験も重要な判断材料となります。例えば、上記のアイスクリームと水難事故の例では、気温と水難事故の関係、気温とアイスクリームの消費量の関係についての知識があれば、疑似相関を見抜くことができます。
データ分析は便利な道具ですが、それだけで全てが分かるわけではありません。数字は物事を客観的に見るための材料の一つに過ぎないことを忘れてはいけません。データ分析を行う際には、常に疑似相関の可能性を意識し、数字の背後にある真の原因を探ろうとする姿勢が大切です。表面的な数字に惑わされず、様々な要因を考慮しながら、事象の真相を見抜く努力を続けましょう。
