RMSLE

記事数:(2)

アルゴリズム

RMSLE入門:誤差を正しく理解する

機械学習を用いて作った予測の良し悪しを正しく見極めるには、目的に合った評価方法を選ぶことが大切です。評価方法には様々な種類があり、それぞれの特徴を理解して使う必要があります。今回は、正の値を予測する問題でよく使われる「平均二乗対数誤差(へいきんにじょうたいすうごさ)」、略して「RMSLE」について説明します。 RMSLEは、予測値と実際の値がどれくらい離れているかを相対的に評価する方法です。たとえば、100万円の売り上げを90万円と予測した場合と、10万円の売り上げを9万円と予測した場合を考えてみましょう。どちらも金額の差は10万円ですが、RMSLEでは後者の予測をより正確だと判断します。これは、RMSLEが実際の値の大きさではなく、予測値と実際の値の比率に着目しているためです。100万円の場合、予測は実際の値の90%ですが、10万円の場合は90%です。つまり、RMSLEは売り上げ規模の大小に関わらず、予測の精度を相対的に評価するのです。 RMSLEは、対数を使って計算します。まず、予測値と実際の値の比の対数を取り、その差を二乗します。次に、全てのデータについて二乗した差の平均値を計算し、最後にその平方根を求めます。数式で表現すると少し複雑に見えますが、基本的な考え方は、予測値と実際の値の比率がどれくらい1に近いのかを見るということです。 RMSLEは、特に実際の値の範囲が広い場合に有効です。例えば、不動産価格や商品の売り上げなど、桁が大きく異なる値を予測する際に、RMSLEを使うことで、小さな値の予測精度も適切に評価できます。一方、RMSLEは実際の値が0に近い場合や負の値をとる場合には使えません。そのような場合は、他の評価方法を検討する必要があります。
学習

平均二乗対数誤差:機械学習での活用

機械学習の分野では、作った模型の良し悪しを測る物差しが色々あります。その中で、平均二乗対数誤差(略してエムエスエルイー)は、どれくらい正解に近い値を予想できたかを測るのに役立ちます。特に、予想した値と本当の値の比率がどれくらい合っているかを重視したい時に使われます。 このエムエスエルイーは、対数誤差を二乗したものの平均で計算します。では、対数誤差とは一体何でしょうか。簡単に言うと、予想した値と本当の値、それぞれの対数の差のことです。例えば、予想が10で、本当の値が100だったとします。この時の対数誤差は、(100の対数)引く(10の対数)で計算できます。 ここで大事な点があります。対数誤差は、「(予想の対数)引く(本当の値の対数)」だけでなく、「(本当の値の対数)引く(予想の対数)」と計算しても構いません。どちらで計算しても、エムエスエルイーの値は変わりません。なぜなら、二乗することで、正負の符号の違いは関係なくなるからです。 対数を使うことで、大きな値の差は小さく、小さな値の差は大きく扱うことができます。例えば、10と100の差と、100と1000の差では、値としてはどちらも90ですが、比率で考えると前者は10倍、後者は10倍で同じです。対数を使うと、この比率の違いを捉えることができます。つまり、エムエスエルイーは予想と本当の値の比率のずれを重視した指標と言えるでしょう。