スミルノフ・グラブス検定

記事数:(1)

アルゴリズム

外れ値:データ分析の落とし穴

外れ値とは、集めたデータの中で、他のデータから大きく外れた値のことです。まるで大勢の人々が集まっている中で、一人だけ遠く離れた場所に立っている人のように、他のデータとは明らかに異なる特徴を持っています。 例を挙げると、学校のクラス全体の平均身長が160cmだとします。ほとんどの生徒の身長は150cmから170cmの間に収まっている中で、一人だけ210cmの生徒がいると、この生徒の身長は外れ値と言えるでしょう。他にも、商品の売上のデータで、ほとんどの日は10万円前後なのに、ある一日だけ100万円の売上があった場合なども、この100万円の売上は外れ値と考えられます。 外れ値は、データの平均値やばらつきの程度を示す標準偏差といった統計値に大きな影響を与える可能性があります。例えば、先ほどの身長の例で、210cmの生徒がいると、クラス全体の平均身長は実際よりも高くなってしまいます。そのため、データの全体像を正しく把握するためには、外れ値の存在を常に意識する必要があります。 外れ値は、データを入力する際のミスや、測定機器の不具合などによって生じる場合もありますが、必ずしもそうとは限りません。例えば、画期的な新商品の発売によって売上が急増した場合など、何らかの特別な理由で外れ値が生じていることもあります。重要なのは、外れ値を見つけたときに、それがなぜ生じたのかをきちんと調べ、その原因を考えることです。場合によっては、外れ値の中にこそ、貴重な情報が隠されている可能性もあるからです。