外れ値

記事数:(2)

アルゴリズム

トリム平均:外れ値に強い平均値

データの真ん中あたりを測る代表的な方法として、平均値があります。これは全てのデータを足し合わせ、データの数で割ることで求まります。しかし、平均値は極端な値に弱いという欠点があります。例えば、ほとんどの人が4点か5点をつける顧客満足度調査で、少数の不満を持った人が1点をつけるケースを考えてみましょう。この場合、1点という極端な値が平均値を引き下げ、実際の顧客満足度よりも低い値を示してしまうかもしれません。 このような、データ全体から大きく外れた値を外れ値と言います。外れ値は測定ミスや、特別な事情によるものなど様々な理由で生じます。そして、外れ値が含まれるデータで平均値を使うと、データの真の姿を捉え損ねることがあります。 そこで、外れ値の影響を抑え、より正確なデータの中心を捉える方法として、トリム平均という手法が有効です。トリム平均は、データの両端から一定の割合のデータを取り除き、残りのデータで平均値を計算する方法です。先ほどの顧客満足度調査の例で言えば、両端から低い点数と高い点数を一定数取り除き、残りのデータで平均値を計算することで、極端な点数の影響を受けにくい、より実態に即した平均値を求めることができます。 トリム平均で取り除くデータの割合は、データの性質や外れ値の程度に応じて調整します。取り除く割合が多いほど、外れ値の影響は小さくなりますが、同時にデータの情報量も減少します。そのため、適切な割合を設定することが重要です。どの程度の割合でトリムすればよいかは、データの分布を見ながら判断する必要があります。
アルゴリズム

外れ値:データ分析の落とし穴

外れ値とは、集めたデータの中で、他のデータから大きく外れた値のことです。まるで大勢の人々が集まっている中で、一人だけ遠く離れた場所に立っている人のように、他のデータとは明らかに異なる特徴を持っています。 例を挙げると、学校のクラス全体の平均身長が160cmだとします。ほとんどの生徒の身長は150cmから170cmの間に収まっている中で、一人だけ210cmの生徒がいると、この生徒の身長は外れ値と言えるでしょう。他にも、商品の売上のデータで、ほとんどの日は10万円前後なのに、ある一日だけ100万円の売上があった場合なども、この100万円の売上は外れ値と考えられます。 外れ値は、データの平均値やばらつきの程度を示す標準偏差といった統計値に大きな影響を与える可能性があります。例えば、先ほどの身長の例で、210cmの生徒がいると、クラス全体の平均身長は実際よりも高くなってしまいます。そのため、データの全体像を正しく把握するためには、外れ値の存在を常に意識する必要があります。 外れ値は、データを入力する際のミスや、測定機器の不具合などによって生じる場合もありますが、必ずしもそうとは限りません。例えば、画期的な新商品の発売によって売上が急増した場合など、何らかの特別な理由で外れ値が生じていることもあります。重要なのは、外れ値を見つけたときに、それがなぜ生じたのかをきちんと調べ、その原因を考えることです。場合によっては、外れ値の中にこそ、貴重な情報が隠されている可能性もあるからです。