Fβスコア:機械学習の評価指標

AIの初心者
「Fβスコア」ってよく聞くんですけど、何を表す指標なんですか?

AI専門家
Fβスコアは、AIや機械学習モデルの予測性能を評価する指標の一つだよ。特に、正しく見つけられたかと、見逃しが少ないかを同時に見たいときに使われるんだ。

AIの初心者
単なる正解率とは違うんですね。どんな考え方で計算するんですか?

AI専門家
適合率と再現率を組み合わせて計算するよ。さらにβという値を使うことで、正確さを重視するのか、見逃しの少なさを重視するのかを調整できるんだ。
Fβスコアとは。
Fβスコアとは、機械学習や統計で使われる評価指標の一つです。分類モデルが「どれだけ正確に予測できたか」と「どれだけ漏れなく対象を見つけられたか」を、適合率と再現率からまとめて評価します。値は0から1の範囲で表され、一般に1に近いほど性能が良いと考えます。
指標の概要

機械学習モデルを改善するには、性能を数字で確認できる評価指標が必要です。Fβスコアはその代表的な指標の一つで、適合率と再現率の両方を考慮して、分類モデルの性能を一つの値にまとめます。
適合率は、モデルが「正しい」と予測したもののうち、実際に正しかった割合です。一方、再現率は、本来見つけるべきもののうち、モデルがどれだけ見つけられたかを表します。たとえば医療診断では、病気の人を見逃すことと、健康な人を病気と判定することでは、影響の大きさが異なります。
このような場面で役立つのがFβスコアです。βの値を変えることで、適合率を重視する評価にも、再現率を重視する評価にも調整できます。βが1のときはF1スコアとなり、適合率と再現率を同じ重みで扱います。
Fβスコアは、病気の診断、迷惑メールの判定、情報検索、異常検知など、見逃しと誤検出の重みが同じではない問題で特に使いやすい指標です。
| 項目 | 内容 |
|---|---|
| 評価するもの | 分類モデルの適合率と再現率のバランス |
| 値の範囲 | 0から1。1に近いほど良い |
| 特徴 | βの値で適合率と再現率の重みを調整できる |
| 主な用途 | 医療診断、迷惑メール判定、情報検索、異常検知 |
計算方法

Fβスコアは、適合率と再現率を使って次の式で計算します。
| Fβ = (1 + β²) × (適合率 × 再現率) / (β² × 適合率 + 再現率) |
ここで重要なのはβの役割です。βが1より大きいほど再現率を重視し、βが1より小さいほど適合率を重視します。β=1の場合はF1スコアで、適合率と再現率を同じ重みで評価します。
たとえば、赤いリンゴを見つけるモデルを考えます。モデルが7個を赤いリンゴだと予測し、そのうち4個が本当に赤いリンゴなら、適合率は4/7です。実際には赤いリンゴが6個あり、そのうち4個を見つけられたなら、再現率は4/6です。Fβスコアは、この2つの値を目的に合わせた重みでまとめます。
病気の見逃しを避けたい場合は、再現率を重視するためβを大きくします。逆に、普通のメールを迷惑メールに分類する誤検出を避けたい場合は、適合率を重視するためβを小さくします。
活用事例

Fβスコアは、誤判定の種類によって損失が変わる問題で有効です。単に「当たった割合」だけを見るのではなく、見逃しと誤検出のどちらをどれだけ避けたいかを評価に反映できます。
医療診断では、病気の人を健康と判断する偽陰性が大きな問題になることがあります。この場合は、再現率を高く保つことが重要なので、βを大きくしたFβスコアが役立ちます。
迷惑メール判定では、重要な通常メールを迷惑メールに入れてしまう誤検出を避けたい場面があります。この場合は適合率を重視するため、βを小さめに設定する考え方が使えます。
情報検索では、検索結果に関連情報がどれだけ含まれるかと、必要な情報をどれだけ取りこぼさないかの両方が重要です。Fβスコアを使うと、検索サービスの目的に合わせて検索結果の品質を評価できます。
| 分野 | 重視したいこと | β設定の考え方 |
|---|---|---|
| 医療診断 | 病気の見逃しを減らす | βを大きくして再現率を重視 |
| 迷惑メール判定 | 通常メールの誤判定を減らす | βを小さくして適合率を重視 |
| 情報検索 | 関連性と網羅性のバランスを取る | 目的に応じてβを調整 |
長所と短所

Fβスコアの長所は、適合率と再現率を一つの数値で扱えることです。分類モデルを比較するとき、複数の値を見比べる前に全体感をつかみやすくなります。また、βによって重みを調整できるため、問題の目的に合わせた評価ができます。
一方で、Fβスコアだけを見ても、適合率と再現率のどちらが弱いのかは分かりにくいという短所があります。特にβが1以外の場合は、スコアの意味を誤解しないよう、元になった適合率と再現率も一緒に確認する必要があります。
また、データに強い偏りがある場合や、分類しきい値の選び方が重要な場合は、Fβスコアだけでは十分ではありません。混同行列、適合率、再現率、ROC曲線、AUCなども合わせて見ることで、モデルの特性をより正確に判断できます。
| 長所 | 短所 | 注意点 |
|---|---|---|
| 適合率と再現率をまとめて評価できる | 単独では内訳が分かりにくい | 適合率と再現率も併せて確認する |
| βで重みを調整できる | βの意味を理解していないと比較を誤りやすい | 業務上の損失に合わせてβを決める |
| 偏りのある分類問題で使いやすい | すべての評価課題に万能ではない | 他の評価指標と組み合わせる |
他の指標との比較

Fβスコアを理解するには、正解率やROC曲線、AUCとの違いも押さえておくと便利です。正解率は、全体のうち予測が当たった割合を示す分かりやすい指標です。しかし、データが大きく偏っている場合には注意が必要です。
たとえば、ある病気の患者が全体の1%しかいないデータでは、すべてを「病気ではない」と予測しても正解率は99%になります。ところが、このモデルは病気の人を一人も見つけられていません。正解率が高くても、目的に合った性能を持つとは限らないのです。
ROC曲線とAUCは、しきい値を変えたときにモデルが正例と負例をどの程度分けられるかを見る指標です。一方、Fβスコアは特定のしきい値での適合率と再現率のバランスを評価します。つまり、両者は見ている観点が異なります。
実務では、Fβスコアだけでモデルを選ぶのではなく、適合率、再現率、混同行列、ROC曲線、AUCなどを組み合わせて確認することが大切です。
| 指標 | 見るもの | 向いている確認 |
|---|---|---|
| 正解率 | 予測全体の当たりやすさ | データの偏りが小さい問題の概要確認 |
| Fβスコア | 適合率と再現率のバランス | 誤検出と見逃しの重みが異なる分類問題 |
| ROC曲線・AUC | しきい値を変えたときの識別性能 | モデル全体の分離能力の確認 |
まとめ
Fβスコアは、適合率と再現率を組み合わせて分類モデルを評価する指標です。βの値を変えることで、正確さを重視するのか、見逃しの少なさを重視するのかを調整できます。
β=1ならF1スコアとなり、適合率と再現率を同じ重みで扱います。βを大きくすると再現率を重視し、βを小さくすると適合率を重視します。この性質により、医療診断、迷惑メール判定、情報検索のように、誤判定の影響が場面ごとに異なる問題で使いやすくなります。
ただし、Fβスコアは便利な総合指標ですが、単独でモデルのすべてを判断するものではありません。適合率、再現率、混同行列、ROC曲線、AUCなども一緒に確認し、目的に合った評価を行うことが重要です。
更新履歴
| 日付 | 内容 |
|---|---|
| 2025年2月1日 | 初回公開 |
| 2026年4月29日 | Fβスコアの定義、計算方法、βの調整、活用例、他指標との違いを初心者向けに再構成 |
