平均絶対偏差:データのばらつきを測る

AIの初心者
先生、「MAD」って聞いたんですけど、何のことですか?

AI専門家
MADは「平均絶対偏差」のことだよ。 データのばらつき具合を示す値の一つだね。

AIの初心者
ばらつき具合…ですか? 標準偏差とどう違うんですか?

AI専門家
標準偏差は偏差の二乗の平均を使うけど、MADは偏差の絶対値の平均を使うんだ。だから、MADの方が外れ値の影響を受けにくいんだよ。
MADとは。
「人工知能」に関する用語「平均絶対偏差」(数学、統計学、機械学習で使われる言葉で、平均との差の絶対値の平均のことです。平均偏差や絶対偏差と略されることもあります。)について
平均絶対偏差とは

データのばらつき具合、つまりデータがどれくらい散らばっているかを測る尺度の一つに、平均絶対偏差というものがあります。平均絶対偏差は、個々のデータがデータ全体の平均値からどれくらい離れているかを平均した値です。ばらつきが大きいほど、この値は大きくなります。
例を挙げて説明します。ある商品の1か月間の毎日の販売個数を記録したデータがあるとします。1か月の平均販売個数が10個だったとしましょう。もし、毎日ほぼ10個ずつ売れていれば、販売個数は平均値の10個の周りに集まっており、ばらつきは小さいと言えます。このような場合、平均絶対偏差は小さくなります。反対に、販売個数が日によって大きく変動する場合、例えば5個しか売れない日もあれば15個売れる日もあるなど、ばらつきが大きい場合、平均絶対偏差は大きくなります。つまり、平均絶対偏差を見ることで、データが平均値の周りに密集しているか、それとも広く散らばっているかが分かります。
平均絶対偏差の計算方法は、まず各データと平均値との差を求めます。次に、それぞれの差の絶対値、つまりプラスかマイナスかを無視した値を求めます。そして、これらの絶対値をすべて合計し、データの個数で割ります。この計算によって、データの平均的なずれが分かります。
データのばらつき具合を測る指標には、平均絶対偏差の他に標準偏差がよく知られています。どちらもデータの散らばり具合を表す指標ですが、平均絶対偏差は標準偏差よりも計算が簡単です。また、標準偏差は極端に大きな値や小さな値、いわゆる外れ値の影響を受けやすいですが、平均絶対偏差は外れ値の影響を受けにくいという特徴があります。そのため、外れ値を含むデータの場合には、平均絶対偏差を用いる方が適している場合もあります。
| 指標 | 計算方法 | 外れ値の影響 | その他 |
|---|---|---|---|
| 平均絶対偏差 | 各データと平均値の差の絶対値の平均 | 受けにくい | 計算が簡単 |
| 標準偏差 | 各データと平均値の差の二乗の平均の平方根 | 受けやすい | – |
計算方法

計算方法は、平均からのずれの平均的な大きさを測るものとして、とても単純です。まず、与えられた数値全体の平均値を求めます。平均値とは、全ての数値を足し合わせ、その数値の個数で割った値です。例えば、5, 7, 9, 11, 13 という五つの数値があった場合、これらの合計は45で、数値の個数は5なので、平均値は45を5で割った9になります。
次に、個々の数値と求められた平均値との差を計算します。差とは、二つの数値を引き算した結果のことです。例えば、数値5と平均値9の差は5から9を引いた-4です。同様に、数値7と平均値9の差は-2、数値9と平均値9の差は0、数値11と平均値9の差は2、数値13と平均値9の差は4となります。
ここで、それぞれの差の絶対値を計算します。絶対値とは、数値の符号(プラスやマイナス)を無視した大きさのことです。例えば、-4の絶対値は4、-2の絶対値は2、0の絶対値は0、2の絶対値は2、4の絶対値は4です。つまり、差が正の数でも負の数でも、絶対値は常に正の数または0になります。
最後に、これらの絶対値を全て足し合わせ、数値の個数で割ります。この計算によって得られる値が平均絶対偏差です。先ほどの例では、絶対値は4、2、0、2、4で、これらの合計は12です。数値の個数は5なので、12を5で割ると2.4となります。これが平均絶対偏差です。この数値は、データが平均値から平均的にどのくらい離れているかを示す指標となります。今回の例では、データが平均値9から平均的に2.4ずれているということを意味しています。
| ステップ | 説明 | 計算例 (数値: 5, 7, 9, 11, 13) |
|---|---|---|
| 1. 平均値の計算 | 全ての数値を足し合わせ、数値の個数で割る | (5 + 7 + 9 + 11 + 13) / 5 = 9 |
| 2. 個々の数値と平均値の差を計算 | 各数値から平均値を引く | 5 – 9 = -4, 7 – 9 = -2, 9 – 9 = 0, 11 – 9 = 2, 13 – 9 = 4 |
| 3. 差の絶対値を計算 | 各差の絶対値を求める | |-4| = 4, |-2| = 2, |0| = 0, |2| = 2, |4| = 4 |
| 4. 絶対値の平均を計算 | 全ての絶対値を足し合わせ、数値の個数で割る | (4 + 2 + 0 + 2 + 4) / 5 = 2.4 |
| 結果 (平均絶対偏差) | データが平均値から平均的にどのくらい離れているかを示す | 2.4 |
活用事例

平均絶対偏差は、データのばらつき具合を測る指標であり、様々な分野で活用されています。 製造業では、製品の品質管理において、製品の寸法や重量、強度といった様々な特性値のばらつきを評価するために用いられています。例えば、ある部品の直径を測ったデータから平均絶対偏差を計算することで、その部品の直径が規格値からどれくらいばらついているかを数値化できます。このばらつきが大きければ、製造工程に問題がある可能性があり、改善が必要となるでしょう。平均絶対偏差は、不良品の発生率を下げ、品質の安定化に役立ちます。
金融業界では、投資におけるリスク管理に平均絶対偏差が用いられています。過去の株価や債券価格の変動データから平均絶対偏差を計算することで、投資の収益率がどれくらい変動しやすいか、つまりリスクの高さを評価できます。変動が激しければリスクが高いと判断し、投資戦略の見直しが必要になるでしょう。また、複数の投資先の平均絶対偏差を比較することで、リスクとリターンのバランスを考慮した上で、最適な投資先を選ぶ判断材料にもなります。
気象分野では、気温や降水量、風速といった気象データのばらつきを分析するために平均絶対偏差が利用されます。過去のデータから平均絶対偏差を計算することで、異常気象の発生頻度や、気候変動の影響を評価できます。また、今後の気象予測の精度向上にも役立ちます。
医療分野では、患者の体温や血圧、心拍数などの生体データのばらつきを分析するために平均絶対偏差が活用されます。これらのデータのばらつきは、患者の健康状態を把握する上で重要な指標となります。平均絶対偏差を用いることで、病気の早期発見や、治療効果の判定に役立てることができます。このように、平均絶対偏差は、様々な分野でデータのばらつきを理解し、活用するための基本的な指標として、広く応用されています。
| 分野 | 用途 | 例 |
|---|---|---|
| 製造業 | 製品の品質管理 | 部品の寸法や重量、強度といった様々な特性値のばらつきを評価 |
| 金融業界 | 投資におけるリスク管理 | 株価や債券価格の変動リスク評価 |
| 気象分野 | 気象データのばらつき分析 | 異常気象の発生頻度や気候変動の影響を評価 |
| 医療分野 | 生体データのばらつき分析 | 患者の体温や血圧、心拍数などのばらつきから健康状態を把握 |
標準偏差との違い

数値の集まりがどのくらい散らばっているかを表す尺度として、標準偏差がよく知られています。標準偏差と平均絶対偏差はどちらも数値のばらつき具合を測るためのものですが、その計算方法は異なります。標準偏差は、まずそれぞれの数値と平均値との差を二乗し、それらをすべて足し合わせ、数値の個数で割った後、その平方根をとることで求められます。差を二乗するため、極端に大きい値や小さい値、いわゆる外れ値の影響を大きく受けるという特性があります。
一方、平均絶対偏差は、それぞれの数値と平均値との差の絶対値を計算し、それらをすべて足し合わせ、数値の個数で割ることで求められます。絶対値とは、数値の符号をプラスに変換した値のことです。例えば、-3の絶対値は3、5の絶対値は5です。平均絶対偏差は絶対値を用いるため、標準偏差に比べて外れ値の影響を受けにくいという特性があります。
例えば、ある商品の1日の売り上げ個数を1週間分記録したとします。ほとんどの日は10個前後売れるものの、ある1日だけキャンペーンを実施したため100個売れたとしましょう。この100個という値は他の値に比べて極端に大きく、外れ値とみなせます。このような場合、標準偏差は100個という値の影響を大きく受け、ばらつきが大きく出てしまう可能性があります。一方、平均絶対偏差では、100個という値の影響は標準偏差ほど大きく受けないため、より実態に近いばらつき具合を把握できます。
どちらの尺度も数値の散らばり具合を測る上で重要ですが、扱う数値の性質や分析の目的に合わせて適切な方を選ぶことが大切です。外れ値の影響を少なくしたい場合は平均絶対偏差を、より詳しい分析をしたい場合は標準偏差を用いるなど、状況に応じて使い分ける必要があります。
| 尺度 | 計算方法 | 外れ値の影響 | メリット | デメリット | 適した状況 |
|---|---|---|---|---|---|
| 標準偏差 | (1) 各数値と平均値の差を二乗 (2) それらを合計 (3) 数値の個数で割る (4) 平方根をとる |
大きい | より詳細な分析が可能 | 外れ値の影響を受けやすい | 詳細な分析が必要な場合 |
| 平均絶対偏差 | (1) 各数値と平均値の差の絶対値を計算 (2) それらを合計 (3) 数値の個数で割る |
小さい | 外れ値の影響を受けにくい | 標準偏差より情報量が少ない | 外れ値の影響を減らしたい場合 |
その他のばらつきの指標

データのばらつき具合を知ることは、データの特徴を掴む上でとても大切です。ばらつきの度合いを示す指標は、よく知られている平均絶対偏差や標準偏差以外にも、いくつか種類があります。それぞれ異なる性質を持つため、分析の目的やデータの特性に合わせて適切な指標を選ぶ必要があります。データのばらつき具合を測る指標として、まず挙げられるのは「範囲」です。「範囲」は、データ全体の中で最も大きい値と最も小さい値の差で計算します。計算方法は非常に簡単ですが、一つ欠点があります。それは、極端に大きい値や小さい値といった外れ値の影響を強く受けてしまうことです。例えば、ほとんどのデータが10から20の間に集中しているにも関わらず、一つだけ100という値があると、範囲は90と非常に大きな値になってしまいます。このような場合、「範囲」はデータの典型的なばらつき具合を示す指標としてはあまり適切ではありません。
次に、「四分位範囲」という指標があります。これは、データを小さい順に並べたときに、全体の75%の位置にある値(第3四分位数)と25%の位置にある値(第1四分位数)の差で計算します。「四分位範囲」は、「範囲」と比べて外れ値の影響を受けにくいという利点があります。これは、極端な値が全体の25%以内にある場合は「四分位範囲」の値に影響を与えないからです。よって、外れ値を含むデータのばらつきを調べたい場合には、「四分位範囲」が有用です。
その他にも、平均値からのデータのずれの平均を示す「平均絶対偏差」など、様々なばらつきの指標があります。状況に応じてこれらの指標を使い分けることで、データのばらつきをより正確に捉え、分析の精度を高めることができます。どの指標を使うかは、分析の目的、データの性質、そして何を重視したいかによって異なります。例えば、データの全体的なばらつきを大まかに知りたい場合は「範囲」、外れ値に左右されずにばらつきを把握したい場合は「四分位範囲」、平均からのずれを重視したい場合は「平均絶対偏差」といったように、目的に応じて使い分けることが重要です。
| 指標名 | 計算方法 | 長所 | 短所 | 適用場面 |
|---|---|---|---|---|
| 範囲 | 最大値 – 最小値 | 計算が簡単 | 外れ値の影響を受けやすい | データの全体的なばらつきを大まかに知りたい場合 |
| 四分位範囲 | 第3四分位数 – 第1四分位数 | 外れ値の影響を受けにくい | – | 外れ値に左右されずにばらつきを把握したい場合 |
| 平均絶対偏差 | 平均値からのデータのずれの平均 | – | – | 平均からのずれを重視したい場合 |
