相対二乗誤差とは?意味・計算式・機械学習での使いどころを解説

相対二乗誤差とは?意味・計算式・機械学習での使いどころを解説

AIの初心者

『相対二乗誤差』とは何ですか?普通の誤差や二乗誤差と何が違うのか知りたいです。

AI専門家

相対二乗誤差は、予測値と実測値のズレを二乗し、その大きさを基準値で割って相対的に見る評価指標だよ。値の規模が違うデータを比べたいときに役立つんだ。

AIの初心者

相対的に見る、というのはどういうことですか?具体例があると分かりやすそうです。

AI専門家

例えば1000万円の商品を1010万円と予測した誤差と、100円の商品を200円と予測した誤差では、金額だけを見ると前者が大きく見えるよね。でも割合で見ると後者のほうが大きなズレだと分かる。相対二乗誤差は、このような規模の違いを考慮して評価する考え方なんだ。

相対二乗誤差とは。

相対二乗誤差は、統計や機械学習で使われる回帰モデルの評価指標の一つです。予測値と実測値の差を二乗し、その誤差を実測値やデータのばらつきなどの基準で割ることで、誤差を相対的な大きさとして捉えます。単純な誤差の大きさだけでなく、対象データの規模に対してどれくらい外れたのかを確認できる点が特徴です。

相対二乗誤差とは

相対二乗誤差の考え方

相対二乗誤差は、英語ではRelative Squared Errorと呼ばれ、RSEと略されることがあります。基本的な考え方は、予測値と実測値のズレを二乗し、そのズレを基準値で割って比較しやすくすることです。

機械学習では、モデルが出した予測がどれくらい正確かを評価する必要があります。例えば、住宅価格、商品の売上、来店者数、株価のような数値を予測する回帰モデルでは、予測値と実測値の差が小さいほど良いモデルだと考えられます。ただし、差の絶対額だけを見ると、もともとの値が大きいデータほど誤差も大きく見えやすくなります。

そこで相対二乗誤差を使うと、誤差を「そのデータの大きさに対してどれくらいのズレか」という形で見られます。1000万円の予測で10万円外れる場合と、100円の予測で100円外れる場合では、金額だけなら前者の誤差が大きく見えます。しかし、相対的には後者のほうが深刻なズレです。相対二乗誤差は、このような判断をしやすくするための指標です。

相対二乗誤差の計算式

相対二乗誤差の計算手順

\(
RSE_i = \left(\frac{y_i – \hat{y}_i}{y_i}\right)^2
\)

個々のデータに対する相対二乗誤差は、実測値を \(y_i\)、予測値を \(\hat{y}_i\) とすると、上のように表せます。まず実測値と予測値の差を取り、それを実測値で割って相対誤差にします。さらに二乗することで、プラス方向のズレもマイナス方向のズレも同じ「誤差の大きさ」として扱います。

\(
RSE = \frac{\sum_{i=1}^{n}(y_i – \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i – \bar{y})^2}
\)

一方、機械学習の評価指標としてRSEという場合、上のように「モデルの二乗誤差の合計」を「実測値が平均からどれくらいばらついているか」で割る定義が使われることもあります。この形では、モデルが単に平均値を予測する場合と比べて、どれくらい誤差を減らせているかを確認できます。

どちらの形にも共通するのは、二乗誤差をそのまま見るのではなく、基準となる量で割って相対化する点です。実務や論文、ライブラリでRSEという言葉を見たときは、どの式を指しているかを必ず確認しましょう。

具体例で見る相対二乗誤差

規模が異なる予測対象の比較

具体例として、家の価格と鉛筆の価格を比べてみます。1000万円の家を1010万円と予測した場合、差は10万円です。一方、100円の鉛筆を200円と予測した場合、差は100円です。金額だけを見ると、家の予測誤差のほうがはるかに大きく見えます。

しかし、割合で考えると見方が変わります。家の誤差は1000万円に対して10万円なので1%です。鉛筆の誤差は100円に対して100円なので100%です。つまり、予測対象の規模に対してどれだけ外れたかを見ると、鉛筆の予測のほうが大きく外れています。

この相対的なズレを二乗して評価するのが相対二乗誤差です。二乗することで大きな誤差がより強く反映されるため、モデルが一部のデータで大きく外している場合にも気づきやすくなります。

対象 実測値 予測値 通常の誤差 相対的な見方
家の価格 1000万円 1010万円 10万円 約1%のズレ
鉛筆の価格 100円 200円 100円 100%のズレ

機械学習での活用場面

機械学習モデル評価での活用場面

相対二乗誤差は、数値を予測する回帰モデルの評価で使われます。特に、対象ごとに値の規模が大きく異なる場合に便利です。住宅価格、企業の売上、地域別需要、商品単価、金融時系列などでは、同じ「誤差」でも、対象の規模によって意味が大きく変わります。

例えば売上予測では、大企業の売上と小規模店舗の売上を同じ金額単位で比べると、大企業側の誤差が大きく見えがちです。相対二乗誤差を使うと、売上規模に対してどれくらい外れたかを見られるため、異なる規模の対象をより公平に比較できます。

また、地域別の需要予測でも役立ちます。人口の多い地域と少ない地域では販売数や利用者数が違うため、通常の二乗誤差だけでは人口の多い地域の評価に引っ張られやすくなります。相対化した誤差を確認することで、規模の小さい地域でモデルが大きく外していないかも見やすくなります。

長所と短所

相対二乗誤差の長所は、規模の違うデータを比較しやすいことです。単位や桁が違う対象を扱うとき、通常の二乗誤差だけでは誤差の大きさがデータのスケールに左右されます。相対二乗誤差は、基準値に対するズレとして評価するため、モデルの性能をより一貫した目線で見られます。

もう一つの長所は、大きな誤差を強調できることです。誤差を二乗するため、少しのズレよりも大きなズレが評価値に強く反映されます。予測の大外しを避けたい場面では、この性質が役立ちます。

一方で、短所もあります。実測値や基準となる分母が0に近い場合、相対二乗誤差は極端に大きくなったり、計算できなくなったりします。また、二乗する性質上、外れ値の影響も受けやすくなります。データに異常値が含まれている場合は、前処理や別指標との比較が必要です。

観点 内容
長所 値の規模が異なるデータを比較しやすい。大きな誤差を強調して確認できる。
短所 0に近い実測値や外れ値に弱い。定義が文脈によって異なる場合がある。

他の評価指標との違い

評価指標を比較するダッシュボード

機械学習モデルの評価では、相対二乗誤差だけでなく、平均絶対誤差、平均二乗誤差、平方根平均二乗誤差、決定係数などもよく使われます。それぞれ見ている観点が違うため、目的に合わせて使い分けることが大切です。

平均絶対誤差は、実測値と予測値の差の絶対値を平均したものです。単位が元データと同じなので直感的に理解しやすく、外れ値の影響も二乗系の指標より抑えられます。平均二乗誤差は誤差を二乗するため、大きなズレを重く評価します。平方根平均二乗誤差は平均二乗誤差の平方根を取るため、元データと同じ単位で大きな誤差を見られます。

決定係数は、モデルがデータのばらつきをどれくらい説明できているかを見る指標です。値が1に近いほど当てはまりが良いとされますが、データの偏りや外れ値、モデルの前提によって解釈に注意が必要です。

指標 特徴 向いている確認
MAE 誤差の絶対値を平均する 平均的に何単位外れているか
MSE 誤差を二乗して平均する 大きな誤差を重く見たい場合
RMSE MSEの平方根を取る 元の単位で大きな誤差を確認したい場合
相対二乗誤差 二乗誤差を基準値で割って相対化する 規模の違う対象を比べたい場合
決定係数 ばらつきの説明度を見る モデルの当てはまりを確認したい場合

相対二乗誤差を使うときの注意点

相対二乗誤差を使うときは、まず分母を確認しましょう。実測値で割る定義では、実測値が0または0に近いと値が不安定になります。分散で割る定義でも、実測値のばらつきが極端に小さい場合は解釈が難しくなります。

次に、外れ値の扱いにも注意が必要です。二乗誤差を使う指標は、大きな誤差を強く反映します。これは長所でもありますが、入力ミスや異常値が混ざっていると、モデル全体の評価が一部のデータに引っ張られることがあります。評価前にデータの分布を確認し、必要に応じて外れ値の原因を調べましょう。

最後に、相対二乗誤差だけでモデルを選ばないことも重要です。モデルを使う目的が「大外しを減らすこと」なのか、「平均的なズレを小さくすること」なのか、「説明しやすさを重視すること」なのかによって、見るべき指標は変わります。相対二乗誤差、MAE、RMSE、決定係数を組み合わせると、モデルの性質を多面的に判断できます。

まとめ

相対二乗誤差は、予測値と実測値のズレを二乗し、基準となる値で割って相対的に評価する指標です。通常の二乗誤差ではデータの規模に引っ張られやすい場面でも、相対二乗誤差を使うと、対象の大きさに対してどれくらい外れたのかを見やすくなります。

特に、住宅価格、売上、需要、株価のように値の規模が大きく変わるデータでは有効です。ただし、実測値が0に近い場合や外れ値が多い場合は、評価が不安定になることがあります。式の定義を確認し、他の評価指標とあわせて使うことで、モデルの性能をより正確に判断できます。

更新履歴

日付 内容
2025年2月1日 初回公開
2026年5月16日 式の定義差、比較指標、0付近の注意点を補って再編集