AI性能指標とは？正解率・適合率・再現率をわかりやすく解説

AI活用

2026.06.21

AI性能指標とは？正解率・適合率・再現率をわかりやすく解説

AI性能指標とは？正解率・適合率・再現率をわかりやすく解説

AIの初心者

「性能指標」って種類が多くて混乱します。まず何を見ればいいですか？

AI専門家

性能指標は、AIモデルの成績を数字で見るための物差しです。全体の当たり具合を見る正解率、陽性と予測した結果の信頼性を見る適合率、実際の陽性をどれだけ拾えたかを見る再現率などがあります。

AIの初心者

正解率が高ければ、良いAIだと考えてよいのでしょうか？

AI専門家

正解率は大切ですが、それだけでは危険な場合があります。病気の検査なら見逃しを減らす再現率、迷惑メール判定なら誤検知を減らす適合率が重要になることがあります。混同行列を見ると、この違いを整理しやすくなります。

性能指標とは。

AI性能指標とは、機械学習モデルの予測がどれくらい目的に合っているかを数値で評価するための基準です。分類モデルでは、正解率、適合率、再現率、F値、混同行列などがよく使われます。重要なのは、指標の名前を覚えることではなく、どの間違いを減らしたいのか、どの判断を信頼したいのかに合わせて見る数値を選ぶことです。

AI性能指標とは何か

AI性能指標とは、AIや機械学習モデルの働きぶりを客観的に確認するための数値です。画像分類であれば「何枚を正しく分類できたか」、迷惑メール判定であれば「迷惑メールと判断したものが本当に迷惑メールだったか」、医療検査であれば「病気の人を見逃していないか」といった観点を数値にします。

性能指標が必要になる理由は、AIモデルの良し悪しが見た目だけでは判断できないからです。同じモデルでも、全体の正解数を重視するのか、見逃しを避けるのか、誤検知を減らすのかによって評価は変わります。そこで、目的に合う性能指標を選び、モデルの長所と弱点を分けて見ることが重要になります。

例えば、100枚の画像を犬か猫に分類するモデルなら、単純に正しく分類できた枚数を見ても大きな問題は起きにくいかもしれません。しかし、病気の検査や不正取引の検知では、間違い方によって影響が大きく変わります。健康な人を病気と判定する誤りと、病気の人を健康と判定する誤りでは、対策やリスクが違います。

そのため、AI性能指標は単なる点数ではありません。モデルを比較し、改善すべき箇所を見つけ、現場で使ってよいかを判断するための確認表です。学習中には性能の推移を見て過学習や学習不足を探し、運用後にはデータの変化によって性能が落ちていないかを確認する役割もあります。

役割	見ること	例
モデルの比較	複数のモデルの予測結果を同じ基準で比べる	候補Aと候補Bの正解率や再現率を比較する
弱点の把握	どの種類の誤りが多いかを確認する	陽性の見逃しが多い、誤検知が多いなどを調べる
運用判断	実際の用途で使える水準かを確認する	医療、金融、メール分類などで許容できる誤りかを見る

代表的な性能指標の意味と計算式

分類モデルで最初に押さえたい性能指標は、正解率、適合率、再現率です。どれも「どれくらい正しく予測できたか」を見る指標ですが、分母が違います。分母が違うため、同じ予測結果でも指標ごとの数値は変わります。

正解率は、すべての予測のうち正しかった割合です。全体の当たり具合を知るには分かりやすい指標ですが、データが偏っている場合には注意が必要です。例えば、病気の人が1000人中10人しかいないデータで、全員を健康と予測しても990人は当たるため、正解率は99%になります。しかし、このモデルは病気の人を一人も見つけられていません。

適合率は、モデルが「陽性」と予測したもののうち、実際に陽性だった割合です。迷惑メール判定でいえば、迷惑メールと判定されたメールが本当に迷惑メールだった割合に近い考え方です。適合率は、陽性予測の信頼性を見たいときに役立つ指標です。

再現率は、実際に陽性だったもののうち、モデルが陽性と予測できた割合です。病気の検査でいえば、病気の人をどれだけ見逃さず拾えたかを見る指標です。再現率は、見逃しを減らしたい場面で特に重要になります。

代表的な式は次のように表せます。ここで、\(TP\) は真陽性、\(TN\) は真陰性、\(FP\) は偽陽性、\(FN\) は偽陰性を表します。

\(
\mathrm{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN}
\)
\(
\mathrm{Precision}=\frac{TP}{TP+FP}
\)
\(
\mathrm{Recall}=\frac{TP}{TP+FN}
\)

指標	日本語での見方	重視する場面
正解率	全体のうち、どれだけ当たったか	クラスの偏りが小さく、全体の分類精度を見たい場合
適合率	陽性と予測したものが、どれだけ本当に陽性か	誤検知を減らしたい場合
再現率	実際の陽性を、どれだけ見逃さず拾えたか	見逃しを減らしたい場合

また、適合率と再現率をまとめて見たい場合にはF値が使われます。F値は、適合率と再現率の調和平均です。どちらか一方だけが高くてもF値は高くなりにくいため、バランスを見たいときの目安になります。ただし、F値も万能ではありません。誤検知と見逃しの重みが同じとは限らないため、業務上の損失や安全性も合わせて考える必要があります。

混同行列で予測の当たり外れを整理する

混同行列とは、モデルの予測結果と実際の正解を表にまとめたものです。分類問題では、予測が当たったか外れたかだけでなく、どの方向に間違えたのかを確認できます。特に二値分類では、真陽性、偽陽性、真陰性、偽陰性の4つに分けて考えます。

真陽性は、実際に陽性で、モデルも陽性と予測したケースです。病気の検査なら、病気の人を病気と判定できた場合です。真陰性は、実際に陰性で、モデルも陰性と予測したケースです。健康な人を健康と判定できた場合にあたります。

偽陽性は、実際には陰性なのに陽性と予測したケースです。健康な人を病気と判定する、普通のメールを迷惑メールと判定する、といった誤りです。一方、偽陰性は、実際には陽性なのに陰性と予測したケースです。病気の人を健康と判定する、不正取引を通常取引と見逃す、といった誤りです。

混同行列を見ると、正解率だけでは見えない誤り方が分かります。偽陽性が多いモデルは陽性と判定しすぎている可能性があり、偽陰性が多いモデルは陽性を見逃しやすい可能性があります。この違いが分かると、しきい値を調整する、学習データを追加する、別の特徴量を使うといった改善方針を立てやすくなります。

	実際は陽性	実際は陰性
陽性と予測	真陽性正しく陽性と判断	偽陽性陰性を陽性と誤判定
陰性と予測	偽陰性陽性を陰性と見逃し	真陰性正しく陰性と判断

目的に合わせた性能指標の選び方

AI性能指標は、モデルの用途に合わせて選びます。どの指標が最も重要かは、間違えたときの影響で変わるためです。単に数値が高い指標を探すのではなく、業務や学習の目的に照らして「避けたい失敗」を先に決めると選びやすくなります。

病気の検査では、病気の人を健康と判定する見逃しが重大です。この場合は、偽陰性を減らすことが重要なので、再現率を重視します。ただし、再現率だけを極端に上げると、健康な人まで陽性と判定しやすくなる場合があります。そのため、追加検査の負担や誤判定の影響も含めて調整します。

迷惑メール判定では、普通のメールを迷惑メールに入れてしまう誤検知が問題になります。重要な連絡が届かないリスクがあるため、適合率を確認する必要があります。一方で、迷惑メールが受信箱に残りすぎると利用者の負担が増えるため、再現率とのバランスも無視できません。

不正検知では、見逃しと誤検知の両方にコストがあります。不正を見逃すと損失につながりますが、正常な取引を止めすぎると利用者体験が悪化します。このような場面では、適合率、再現率、F値、しきい値ごとの変化を合わせて確認します。

用途	避けたい失敗	重視しやすい指標
病気の検査	病気の人を見逃す	再現率
迷惑メール判定	普通のメールを迷惑メール扱いにする	適合率
不正検知	不正の見逃しと正常取引の停止	適合率、再現率、F値
画像分類の学習	全体として分類精度が低い	正解率、クラス別の指標

初心者がつまずきやすい注意点

AI性能指標を読むときに最初に確認したいのは、指標の分母です。正解率は全データ、適合率は陽性と予測したデータ、再現率は実際に陽性だったデータを分母にします。分母が違うため、同じモデルでも「正解率は高いが再現率は低い」ということが起こります。

次に、データの偏りに注意します。陽性データが少ない場合、全体の正解率だけを見ると良いモデルに見えてしまうことがあります。分類先ごとのデータ数、混同行列、クラス別の適合率や再現率を確認すると、少数派のクラスを無視していないかを見つけやすくなります。

また、性能指標は学習に使ったデータではなく、未知のデータで確認することが大切です。学習データで高い数値が出ても、新しいデータで同じ性能が出るとは限りません。これは過学習と呼ばれる状態で、モデルが学習データに合わせすぎてしまうことで起こります。

最後に、性能指標は意思決定の材料であって、唯一の答えではありません。安全性、公平性、説明可能性、運用コスト、利用者への影響など、数値に表れにくい観点もあります。AIモデルを評価するときは、指標の高さだけでなく、その指標が目的に合っているかを確認することが重要です。

まとめ

AI性能指標は、AIモデルの予測結果を数値で評価し、比較や改善につなげるための基準です。正解率は全体の当たり具合、適合率は陽性予測の信頼性、再現率は実際の陽性をどれだけ拾えたかを表します。これらは似ているようで、見ている対象が違います。

分類問題では、混同行列を使うと真陽性、偽陽性、真陰性、偽陰性を整理できます。これにより、モデルがどのように間違えているのかが分かり、しきい値の調整やデータ追加などの改善につなげやすくなります。

初心者は、まず「何を陽性とするのか」「どの失敗を避けたいのか」「データに偏りがないか」を確認すると理解しやすくなります。AI性能指標は、単に高い数値を目指すためのものではなく、目的に合ったAIモデルを選び、改善し、安心して使うための道具です。

更新履歴

日付	内容
2025年2月1日	初回公開
2026年6月20日	指標ごとの分母、混同行列、用途別の判断軸を追記