アルゴリズム トリム平均:外れ値に強い平均値
データの真ん中あたりを測る代表的な方法として、平均値があります。これは全てのデータを足し合わせ、データの数で割ることで求まります。しかし、平均値は極端な値に弱いという欠点があります。例えば、ほとんどの人が4点か5点をつける顧客満足度調査で、少数の不満を持った人が1点をつけるケースを考えてみましょう。この場合、1点という極端な値が平均値を引き下げ、実際の顧客満足度よりも低い値を示してしまうかもしれません。
このような、データ全体から大きく外れた値を外れ値と言います。外れ値は測定ミスや、特別な事情によるものなど様々な理由で生じます。そして、外れ値が含まれるデータで平均値を使うと、データの真の姿を捉え損ねることがあります。
そこで、外れ値の影響を抑え、より正確なデータの中心を捉える方法として、トリム平均という手法が有効です。トリム平均は、データの両端から一定の割合のデータを取り除き、残りのデータで平均値を計算する方法です。先ほどの顧客満足度調査の例で言えば、両端から低い点数と高い点数を一定数取り除き、残りのデータで平均値を計算することで、極端な点数の影響を受けにくい、より実態に即した平均値を求めることができます。
トリム平均で取り除くデータの割合は、データの性質や外れ値の程度に応じて調整します。取り除く割合が多いほど、外れ値の影響は小さくなりますが、同時にデータの情報量も減少します。そのため、適切な割合を設定することが重要です。どの程度の割合でトリムすればよいかは、データの分布を見ながら判断する必要があります。
