アルゴリズム RMSLE入門:誤差を正しく理解する
機械学習を用いて作った予測の良し悪しを正しく見極めるには、目的に合った評価方法を選ぶことが大切です。評価方法には様々な種類があり、それぞれの特徴を理解して使う必要があります。今回は、正の値を予測する問題でよく使われる「平均二乗対数誤差(へいきんにじょうたいすうごさ)」、略して「RMSLE」について説明します。
RMSLEは、予測値と実際の値がどれくらい離れているかを相対的に評価する方法です。たとえば、100万円の売り上げを90万円と予測した場合と、10万円の売り上げを9万円と予測した場合を考えてみましょう。どちらも金額の差は10万円ですが、RMSLEでは後者の予測をより正確だと判断します。これは、RMSLEが実際の値の大きさではなく、予測値と実際の値の比率に着目しているためです。100万円の場合、予測は実際の値の90%ですが、10万円の場合は90%です。つまり、RMSLEは売り上げ規模の大小に関わらず、予測の精度を相対的に評価するのです。
RMSLEは、対数を使って計算します。まず、予測値と実際の値の比の対数を取り、その差を二乗します。次に、全てのデータについて二乗した差の平均値を計算し、最後にその平方根を求めます。数式で表現すると少し複雑に見えますが、基本的な考え方は、予測値と実際の値の比率がどれくらい1に近いのかを見るということです。
RMSLEは、特に実際の値の範囲が広い場合に有効です。例えば、不動産価格や商品の売り上げなど、桁が大きく異なる値を予測する際に、RMSLEを使うことで、小さな値の予測精度も適切に評価できます。一方、RMSLEは実際の値が0に近い場合や負の値をとる場合には使えません。そのような場合は、他の評価方法を検討する必要があります。
