アルゴリズム MedAE:機械学習の中央値誤差
機械学習の分野では、作った予測モデルが良いか悪いかを判断するために、色々な指標を使います。その指標の一つに、中央絶対誤差というものがあります。これは、よく「MedAE」と略されて呼ばれています。MedAEは、予測した値と実際の値がどれくらいずれているかを測るためのものです。
MedAEを計算するには、まずそれぞれのデータについて、予測値と正解値の差を調べ、その差の絶対値を求めます。絶対値とは、マイナスの符号を取り除いた値のことです。例えば、予測値が10で正解値が15だとすると、その差はー5ですが、絶対値は5になります。このようにして、全てのデータについて絶対値を求めます。
次に、求めた絶対値を小さい順に並べ替えます。そして、その中央の値を見つけます。もしデータの数が奇数個あれば、真ん中の値がMedAEになります。例えば、データが5個あれば、3番目の値が中央値であり、MedAEとなります。
もしデータの数が偶数個の場合、例えばデータが6個ある場合は、3番目と4番目の値の平均を計算し、その値をMedAEとします。
MedAEは、外れ値と呼ばれる極端に大きな値や小さな値の影響を受けにくいという長所を持っています。例えば、ほとんどのデータは予測値と正解値が近いのに、一部のデータだけ大きくずれているような場合、MedAEは大きく変わりません。これは、MedAEが中央の値に着目しているためです。一方、予測値と正解値の差を二乗して平均する二乗平均平方根誤差などは、外れ値の影響を大きく受けてしまうため、MedAEは頑健な指標と言われています。つまり、MedAEはデータに外れ値が含まれている場合でも、信頼できる指標と言えるのです。
