APとは?平均適合率の意味・計算方法・mAPとの違いを解説

APとは?平均適合率の意味・計算方法・mAPとの違いを解説

AIの初心者

APってAIや物体検出の記事でよく見ますが、何を表す指標なんですか?

AI専門家

APはAverage Precisionの略で、日本語では平均適合率や平均精度と呼ばれる評価指標だよ。精度と再現率の関係を見ながら、モデルの性能を総合的に測るために使われるんだ。

AIの初心者

正解率とは違うんですか?

AI専門家

違うよ。正解率は一つの判定結果を見ますが、APは判定の閾値を変えたときの精度と再現率の動きをまとめて見る。特に、見つけたい対象が少ないデータや物体検出で役立つ指標なんだ。

APとは。

機械学習や物体検出で使われるAverage Precision(平均適合率)の意味、計算方法、mAPとの違いを整理します。

APが精度と再現率をまとめて評価するイメージ

AP(Average Precision)は、機械学習モデルの評価で使われる指標です。日本語では「平均適合率」または「平均精度」と呼ばれ、情報検索、画像分類、推薦システム、物体検出などで登場します。

APは、精度(Precision)と再現率(Recall)の関係を、複数の閾値にわたって総合的に評価する指標です。単に「当たった数が多いか」だけではなく、モデルが自信を持って出した予測の並びや、見つけたい対象をどれだけ拾えたかも含めて見ます。

たとえば、画像から不良品を見つけるモデルを考えると、正常品が圧倒的に多い場合は、すべてを正常と判定しても正解率は高く見えてしまいます。しかし、それでは本当に見つけたい不良品を見逃します。APはこのような場面で、予測結果の質をより実務に近い形で確認するために使われます。

APとは何か

APは、モデルの予測をスコア順に並べ、閾値を少しずつ変えたときの精度と再現率の変化をまとめた値です。値は一般に0から1の範囲で表され、1に近いほど、関連する対象や正しい検出を上位にうまく並べられていると解釈できます。

ここでいう精度は、モデルが「正しい」「対象がある」と判断したもののうち、実際に正しかった割合です。再現率は、実際に存在する正解のうち、モデルがどれだけ見つけられたかを表します。

APを理解するうえで重要なのは、精度と再現率にはトレードオフがあることです。判定を厳しくすれば誤検出は減りやすく精度は上がりますが、見逃しが増えて再現率は下がりやすくなります。逆に判定をゆるくすれば多くの対象を拾えますが、誤検出も増えます。

APは、この一か所だけのバランスを見るのではなく、さまざまな閾値でのバランスをまとめて評価します。そのため、単一の閾値で計算した精度やF値よりも、ランキング全体や検出モデル全体の傾向を把握しやすい指標です。

精度・再現率・PR曲線との関係

PR曲線で精度と再現率の関係を見る図

APは、PR曲線(Precision-Recall Curve)と深く関係します。PR曲線は、横軸に再現率、縦軸に精度を置き、閾値を変えたときの点をつないだ曲線です。

予測モデルは多くの場合、「これは対象である確率が0.92」「これは0.61」のようなスコアを出します。どのスコア以上を正例とみなすかを変えると、精度と再現率も変わります。この変化を可視化したものがPR曲線です。

APはPR曲線の下側の面積を近似した値として説明されることが多く、精度を高く保ったまま再現率を伸ばせるモデルほどAPが高くなります。つまり、欲しいものを多く見つけつつ、誤検出を抑えられるモデルが高く評価されます。

なお、APとPR-AUCは近い意味で使われますが、厳密には計算方法や補間の扱いが実装によって異なる場合があります。論文、ライブラリ、コンペティションの評価仕様では、どの定義で計算しているかを確認することが大切です。

APの計算方法

APをPR曲線下の面積として計算するイメージ

\(
AP = \int_0^1 p(r)\,dr
\)

APは概念的には、再現率を0から1まで変化させたときの精度 p(r) を積分して求めます。式で見ると難しく感じますが、要するにPR曲線の下にある面積を測る考え方です。

実際の計算では、連続した滑らかな曲線ではなく、予測結果をスコア順に並べた離散的な点を使います。スコアの高い予測から順に見ていき、正解が追加されるたびに再現率が上がり、その時点の精度が記録されます。

簡単な手順にすると、まず予測を信頼度スコアの高い順に並べます。次に、上から順に「正解か不正解か」を確認し、その時点の精度と再現率を計算します。最後に、再現率が増えた区間ごとの精度を足し合わせてAPを求めます。

APは、上位の予測に正解が多いほど高くなります。情報検索でいえば、検索結果の上位に本当に関連するページが並ぶほどAPは高くなります。物体検出でいえば、信頼度の高い検出結果が実際の物体とよく一致しているほど高い評価になります。

正解率・F値・AUCとの違い

正解率、F値、APの違いを比較する図

評価指標は目的によって使い分けます。正解率は全体のうち正しく予測できた割合で、直感的で分かりやすい指標です。ただし、正例と負例の数に大きな偏りがあると、重要な対象を見逃しても高い値になりやすい弱点があります。

F値は、精度と再現率の調和平均です。一つの閾値で精度と再現率のバランスを確認したいときに便利です。一方で、選んだ閾値に依存するため、モデル全体のランキング性能までは見えにくい場合があります。

APは、複数の閾値にわたる精度と再現率の動きをまとめて見るため、閾値を固定する前のモデル比較に向いています。特に、検出対象が少ない不均衡データや、検索結果の順位が重要なタスクで役立ちます。

指標 見るもの 向いている場面 注意点
正解率 全体で正しく予測できた割合 クラスの偏りが小さい分類 不均衡データでは高く見えすぎることがある
F値 一つの閾値での精度と再現率のバランス 運用閾値が決まっている分類 閾値を変えたときの全体像は見えにくい
AP 複数閾値での精度と再現率の関係 検索、推薦、画像分類、物体検出 計算定義や補間方法の確認が必要
ROC-AUC 真陽性率と偽陽性率の関係 分類器の全体的な識別性能比較 正例が少ない場面ではPR曲線のほうが実感に近いことがある

物体検出におけるAP、AP@0.5、mAP

物体検出でIoUとmAPを評価するイメージ

物体検出では、画像内の対象を見つけるだけでなく、位置を囲むバウンディングボックスが正しい位置にあるかも評価します。そのため、分類よりも評価が少し複雑になります。

検出結果が正解かどうかを判断する代表的な基準が IoU(Intersection over Union)です。IoUは、予測した枠と正解の枠がどれだけ重なっているかを表します。重なりが大きいほど1に近く、まったく重ならなければ0に近くなります。

AP@0.5は、IoUが0.5以上の検出を正解としてAPを計算する指標です。より厳しい評価では、IoU 0.75や、0.5から0.95まで複数の閾値を使います。

mAP(mean Average Precision)は、複数のAPを平均した値です。複数クラスのAPを平均する場合もあれば、複数のIoU閾値で計算したAPを平均する場合もあります。物体検出の論文やベンチマークで「mAP」と書かれている場合、どのIoU閾値、どのクラス、どのデータセットで平均しているかを確認する必要があります。

用語 意味 確認ポイント
IoU 予測枠と正解枠の重なり具合 正誤判定に使う閾値
AP@0.5 IoU 0.5以上を正解として計算したAP 比較的ゆるめの位置評価
AP@0.75 IoU 0.75以上を正解として計算したAP 位置ずれに厳しい評価
mAP 複数のAPを平均した値 平均対象がクラスかIoU閾値かを確認

APが使われる場面

APは、予測結果の順位や信頼度スコアが重要な場面で使われます。情報検索では、ユーザーが求める情報が検索結果の上位に並んでいるかを評価できます。上位に関連性の高い結果が多いほどAPは高くなります。

画像分類では、あるクラスに属する画像をどれだけ正しく上位に並べられるかを見るために使われます。マルチラベル分類のように、一つの画像に複数のラベルが付き得るタスクでも有用です。

推薦システムでは、ユーザーに提示した候補のうち、実際に好みに合うものが上位にあるかを評価します。単に当たったかどうかではなく、ランキングの順序が体験に直結するため、APの考え方と相性があります。

物体検出では、自動運転、製造ラインの外観検査、医療画像解析、防犯カメラ解析などで、対象を正しく見つけ、位置も適切に囲めているかを評価します。APやmAPは、こうしたモデルを比較する標準的な指標として使われています。

APを見るときの注意点と今後の評価

APは便利な指標ですが、APだけでモデルの良し悪しを完全に判断できるわけではありません。単一の値にまとまるため、どの再現率帯で精度が落ちているのか、どのクラスで弱いのか、どの種類の誤検出が多いのかは別途確認する必要があります。

APを読むときは、PR曲線、クラス別AP、混同行列、実際の予測例を合わせて見ることが重要です。物体検出なら、IoU閾値ごとのAPや、小さい物体・大きい物体ごとの性能も見ると、改善点を具体化しやすくなります。

また、検索や推薦では、上位表示の体験をより強く反映するNDCGなどの指標が使われることもあります。APは関連する項目を上位に集められているかを評価しやすい一方で、関連度に段階がある場合や、最上位数件の体験を重視したい場合は、別の指標との併用が現実的です。

実務では、APを「モデル比較のための代表値」として使い、最終判断では利用目的に合った複数の指標を確認します。安全性が重要な用途では見逃しを減らす再現率、誤検出がコストになる用途では精度、ランキング体験が重要な用途では上位結果の質も重視します。

まとめ

APは、精度と再現率の関係を複数の閾値で見て、モデルのランキング性能や検出性能を総合的に評価する指標です。PR曲線の下側の面積として理解すると、なぜ一つの閾値だけでは見えない性能を評価できるのかが分かりやすくなります。

正解率は分かりやすい一方で、不均衡データでは誤解を招くことがあります。F値は一つの運用点でのバランス確認に便利ですが、APは閾値を変えたときの全体像を見られる点に強みがあります。

物体検出では、IoUを使って検出の正誤を決め、AP@0.5やmAPとして性能を評価します。APの値を見るときは、計算定義、IoU閾値、対象クラス、PR曲線の形も合わせて確認すると、モデルの特徴をより正確に読み取れます。

更新履歴

日付 内容
2025年1月31日 初回公開
2026年5月12日 PR曲線、mAP、指標比較の説明を本文内で追える形に調整