外れ値:データ分析の落とし穴

AIの初心者
先生、「外れ値」って、ただ変な値っていうだけじゃないんですよね?よくわかっていないので教えてください。

AI専門家
そうだね、ただ変な値というだけではないんだ。真の値から大きく外れている値のことを「外れ値」と言う。例えば、クラスの平均身長を測ったときに、ほとんどの人が160cmくらいなのに、一人だけ250cmの人がいたら、その250cmは外れ値になる可能性が高いと言えるだろう。

AIの初心者
なるほど。じゃあ、その外れ値があると、どんな問題があるんですか?

AI専門家
いい質問だね。外れ値があると、例えば平均値が大きく変わってしまうなど、データの分析結果に大きな影響を与える可能性があるんだ。だから、外れ値を見つける「外れ値検知」が大切になる。もちろん、測定ミスのように明らかに間違っているものは取り除く必要があるけれど、中には貴重な情報を持つ外れ値もあるので、なんでもかんでも除去すれば良いというわけではないんだよ。
外れ値とは。
人工知能の話でよく出てくる「外れ値」について説明します。外れ値とは、集めたデータの中で、本来の値から大きく離れている値のことです。例えば、多くのデータがだいたい同じような値なのに、一つだけ極端に大きい値や小さい値がある場合、その極端な値が外れ値です。外れ値の中には、測り間違いや書き間違いといった原因がはっきりしているものもあり、これらは特に「異常値」と呼ばれることもあります。外れ値は、データの分析に大きな影響を与えることがあるので、見つけることが大切です。外れ値を見つける方法はいくつかありますが、代表的なのは、スミルノフ・グラブス検定や四分位範囲を使う方法です。外れ値が見つかったら、まずそれが測り間違いや書き間違いといった異常値かどうかを調べます。もしそうであれば、その値は分析から除外します。ただし、外れ値の中には、貴重な情報を持っているものもあるので、全てを外してしまうのは良くありません。外れ値を扱う際には、その値がなぜ外れているのかをよく考えることが大切です。
外れ値とは

外れ値とは、集めたデータの中で、他のデータから大きく外れた値のことです。まるで大勢の人々が集まっている中で、一人だけ遠く離れた場所に立っている人のように、他のデータとは明らかに異なる特徴を持っています。
例を挙げると、学校のクラス全体の平均身長が160cmだとします。ほとんどの生徒の身長は150cmから170cmの間に収まっている中で、一人だけ210cmの生徒がいると、この生徒の身長は外れ値と言えるでしょう。他にも、商品の売上のデータで、ほとんどの日は10万円前後なのに、ある一日だけ100万円の売上があった場合なども、この100万円の売上は外れ値と考えられます。
外れ値は、データの平均値やばらつきの程度を示す標準偏差といった統計値に大きな影響を与える可能性があります。例えば、先ほどの身長の例で、210cmの生徒がいると、クラス全体の平均身長は実際よりも高くなってしまいます。そのため、データの全体像を正しく把握するためには、外れ値の存在を常に意識する必要があります。
外れ値は、データを入力する際のミスや、測定機器の不具合などによって生じる場合もありますが、必ずしもそうとは限りません。例えば、画期的な新商品の発売によって売上が急増した場合など、何らかの特別な理由で外れ値が生じていることもあります。重要なのは、外れ値を見つけたときに、それがなぜ生じたのかをきちんと調べ、その原因を考えることです。場合によっては、外れ値の中にこそ、貴重な情報が隠されている可能性もあるからです。
| 項目 | 説明 | 例 |
|---|---|---|
| 外れ値 | 他のデータから大きく外れた値 | |
| 身長 | 平均160cmのクラスで210cmの生徒 | 平均身長が実際より高くなる |
| 売上 | 平均10万円に対し、ある日だけ100万円 | |
| 外れ値の影響 | 平均値や標準偏差に大きな影響 | |
| 外れ値の原因 | 入力ミス、測定機器の不具合、特別な理由(新商品発売など) | |
| 対応 | 外れ値の原因を調べ、考える |
外れ値の種類

データの中に、全体から大きく外れた値のことを外れ値と言います。この外れ値には、大きく分けて二つの種類があります。一つは、原因がはっきりと分かっているもの、もう一つは、原因が分かっていないものです。
原因が分かっている外れ値の多くは、何らかの間違いによって生じています。例えば、計測機器の故障で本来の値とは異なる値が記録されてしまったり、データを記録する際に誤って入力してしまったりすることがあります。このような間違いによって生じた外れ値は、異常値と呼ばれることもあります。異常値は、データ全体の傾向を歪めてしまうため、分析の邪魔になります。そのため、異常値は分析の前に取り除くことが一般的です。具体的には、異常値だと分かったデータを削除したり、正しい値に修正したりします。
一方、原因がすぐには分からない外れ値もあります。このような外れ値の中には、単なる間違いではなく、データの重要な特徴を表しているものもあります。例えば、ある商品の販売数のデータの中に、他の日と比べて飛び抜けて高い値があったとします。これは、一見すると外れ値のように見えますが、よく調べてみると、その日に特別な販売促進活動が行われていたことが原因かもしれません。また、新しい商品の発売日や、季節的な需要の変化など、様々な要因が考えられます。このような外れ値は、データの背後にある隠れた情報を教えてくれる貴重な手がかりになります。
このように、外れ値の中には、分析にとって邪魔になるものと、重要な情報を含んでいるものがあります。外れ値を見つけた時は、すぐに削除するのではなく、まずはその原因を注意深く調べる必要があります。原因を調べることで、データの質を高めたり、新しい発見に繋げたりすることができるのです。
| 外れ値の種類 | 原因 | 対処法 | 備考 |
|---|---|---|---|
| 原因が分かっている外れ値(異常値) | 計測機器の故障、データ入力ミスなど | 削除、修正 | データ全体の傾向を歪めるため、分析前に取り除く |
| 原因が分かっていない外れ値 | 不明(データの重要な特徴を表している可能性あり) | 原因を注意深く調べる | 隠れた情報を教えてくれる貴重な手がかりになる可能性あり |
外れ値を見つける方法

飛び抜けた値、いわゆる外れ値を見つける方法はいくつかあります。 データ全体の様子や、分析の目的によって、どの方法を使うかを選ぶ必要があります。
まず、データが左右対称の釣鐘型の分布、いわゆる正規分布をしていると仮定できる場合は、スミルノフ・グラブス検定が使えます。この方法は、統計的な計算に基づいて、ある値が外れ値と言えるかどうかを判断する方法です。まるで、たくさんのデータの中から、仲間はずれを探すようなものです。
次に、四分位範囲(IQR)を使った方法があります。これは、データを小さい順に並べたときに、真ん中50%のデータの範囲のことです。例えば、100個のデータがあれば、26番目から75番目までのデータの範囲がIQRです。このIQRを使って、データの上限と下限を決めます。具体的には、「IQRの1.5倍」に相当する値を、データの中央値の上側と下側にそれぞれ足したり引いたりすることで、上限と下限を計算します。そして、この上限と下限を超えた値を外れ値と判断します。この方法は、正規分布でないデータにも使える便利な方法です。
外れ値を見つけることは、データ分析でとても大切です。なぜなら、外れ値は分析結果に大きな影響を与えることがあるからです。例えば、平均値は外れ値の影響を受けやすい性質を持っています。外れ値があることで、本来のデータの傾向が見えにくくなる可能性があります。そのため、外れ値を適切に見つけて処理することで、より正確な分析結果を得ることができます。
| 方法 | 説明 | 適用範囲 |
|---|---|---|
| スミルノフ・グラブス検定 | 統計的な計算に基づいて外れ値を判断する。 | 正規分布のデータ |
| 四分位範囲(IQR)を使った方法 | データを小さい順に並べ、真ん中50%のデータの範囲(IQR)を計算し、IQRの1.5倍を中央値の上下に足し引きした範囲を超える値を外れ値とする。 | 正規分布でないデータにも適用可能 |
外れ値への対処

データ分析を行う上で、時折、他のデータから大きく外れた値、いわゆる外れ値が見つかることがあります。外れ値は、分析結果を歪める可能性があるため、適切な対処が必要です。まず初めに、見つかった外れ値が本当に異常な値なのかどうかを注意深く検討しなければなりません。例えば、データの入力ミスや計測機器の誤作動といった明らかな原因が特定できた場合は、元のデータを修正するか、分析からそのデータを除外することが妥当です。
しかし、原因がはっきりしない外れ値を安易に削除するのは危険です。なぜなら、一見異常に見えるデータの中にこそ、重要な情報が隠されている可能性があるからです。例えば、新商品の販売データの中に、他のデータと比べて極端に高い値があったとします。この値は、単なる入力ミスかもしれません。しかし、もしかすると、特定の地域で商品が予想以上に売れている、つまり市場に大きな需要が潜在していることを示しているかもしれません。このように、原因不明の外れ値は、新たな発見の糸口となることがあります。
ですから、外れ値を発見した場合は、まずその原因を徹底的に調べることが重要です。関係部署に問い合わせたり、追加のデータを集めたりすることで、外れ値が生じた背景を理解できるかもしれません。原因究明の結果、本当に分析に不要なデータだと判断した場合のみ、削除を検討しましょう。また、外れ値を削除するのではなく、分析手法を変えることで、外れ値の影響を軽減する方法もあります。例えば、平均値は外れ値の影響を受けやすいですが、中央値は影響を受けにくいといった特徴があります。分析の目的に合わせて、適切な統計量や分析手法を選ぶことが大切です。全体を俯瞰し、様々な角度からデータを検証することで、より正確で意味のある分析結果を得ることができます。

外れ値の重要性

多くの数値が集まったデータを扱う時、大半の数値から大きく外れた値を外れ値と言います。外れ値は、時として邪魔者扱いされ、分析から除外されてしまうこともあります。確かに、外れ値を含めたまま平均値を計算すると、全体の傾向を正しく捉えられない場合もあります。しかし、外れ値は必ずしも悪いものとは限りません。むしろ、貴重な情報を秘めていることが多く、無視すべきではありません。
たとえば、工場で作られた製品の品質検査を考えてみましょう。ほとんどの製品は基準を満たしているものの、ごく一部の製品の検査値だけが極端に低いとします。この低い値は外れ値です。このような外れ値は、製造過程に何らかの問題が生じていることを示す重要な信号です。もしかしたら、機械の不具合や作業手順の誤りなどが原因かもしれません。外れ値を無視して、全体の平均値だけで判断してしまうと、重大な問題を見逃し、不良品の出荷につながる可能性もあります。
また、お店の商品の売れ行きデータでも考えてみましょう。ほとんどの商品はある程度の数量が売れていますが、ある特定の商品だけが突出して売れているとします。これも外れ値です。この好調な売れ行きの理由は一体何でしょうか?商品の品質が良いのか、値段設定が適切なのか、それとも効果的な宣伝活動を行ったのか?外れ値を詳しく調べることで、売れ行きの要因を分析し、他の商品の販売戦略に活かすことができます。ひょっとしたら、新たな人気商品を生み出すヒントが隠されているかもしれません。
このように、外れ値はデータの背後に隠された重要な情報を示唆していることが多くあります。外れ値を単なる異常値として切り捨てるのではなく、なぜそのような値になったのかを丁寧に掘り下げて考えることが大切です。そうすることで、隠れた問題の発見や新たな発見につながり、より良い意思決定を行うことができます。
| 外れ値とは | 大半の数値から大きく外れた値 |
|---|---|
| 外れ値の捉え方 | 邪魔者扱いされることも多いが、貴重な情報を秘めている |
| 外れ値の例1:品質検査 | 極端に低い検査値は、製造過程の問題を示唆 |
| 外れ値の例2:商品の売れ行き | 突出した売れ行きは、成功要因の分析に役立つ |
| 外れ値への対応 | 切り捨てるのではなく、原因を丁寧に掘り下げて考える |
