物体検出の精度指標:mAPとは?計算方法・仕組み・注意点をわかりやすく解説

物体検出の精度指標:mAPとは?計算方法・仕組み・注意点をわかりやすく解説

AIの初心者

「mAP」ってなんですか?物体検出でよく見る指標なのでしょうか?

AI専門家

mAPは、物体検出モデルがどれくらい正確に対象物を見つけられるかを総合的に見る評価指標だよ。複数の物体カテゴリを扱うときに特に重要になるんだ。

AIの初心者

ただ正解した数を数えるだけでは足りないのですか?

AI専門家

物体検出では、何が写っているかだけでなく、どこにあるかも評価する必要がある。mAPは、見つけた物体の正しさ、見逃しの少なさ、位置の重なりを踏まえて性能を比べるために使われるんだ。

mAPとは。

mAPは「mean Average Precision」の略で、物体検出モデルの精度を評価する代表的な指標です。日本語では平均適合率、平均適合率精度などと説明されます。値は主に0から1、または0%から100%で表され、一般に大きいほど検出性能が高いことを示します。

mAPとは?物体検出の精度を総合的に見る指標

物体検出におけるmAPの全体像

mAPは、物体検出モデルが複数のカテゴリをどれだけ正確に検出できるかを平均して評価する指標です。物体検出では、画像の中にある「人」「車」「信号」「犬」などを見つけ、それぞれの位置を枠で囲みます。この枠はバウンディングボックスと呼ばれます。

画像分類であれば「画像に猫が写っているか」を当てれば評価できます。しかし物体検出では、猫だと判断するだけでは不十分です。猫の位置を正しく囲めているか、存在しない物体を誤って検出していないか、実際に写っている物体を見逃していないかも見ます。

そのため、単純な正解率だけでは性能を説明しきれません。mAPは、検出結果の正しさを表すPrecision、見逃しの少なさを表すRecall、予測枠と正解枠の重なりを表すIoUなどを踏まえて、モデル全体の検出性能を比較しやすくします。

用語 意味
物体検出 画像内の対象物の種類と位置を推定する技術
AP 1つのカテゴリに対するAverage Precision
mAP 複数カテゴリのAPを平均した評価指標
IoU 予測枠と正解枠がどれだけ重なっているかを示す値

物体検出でmAPが必要になる理由

物体検出モデルは、画像内の複数の物体を同時に扱います。自動運転であれば、車、歩行者、自転車、信号、標識などを同時に検出しなければなりません。監視カメラや工場検査でも、人物、製品、異常箇所など複数の対象を扱うことがあります。

ここで問題になるのは、カテゴリごとに検出の難しさが違うことです。大きく写った車は見つけやすくても、遠くの小さな標識や、背景に紛れた人物は見つけにくい場合があります。全体の検出件数だけを見ると、得意なカテゴリの成績に引っ張られて、苦手なカテゴリを見落とすことがあります。

mAPはカテゴリ別のAPを計算し、その平均を見ることで、複数クラスの物体検出性能をまとめて確認できるようにします。モデルAとモデルBを比べるとき、学習が進んでいるかを確認するとき、しきい値や学習条件を調整するときに使いやすい指標です。

PrecisionとRecallを先に理解する

PrecisionとRecallの違いを示す検出例

mAPを理解するには、まずPrecisionとRecallを押さえる必要があります。どちらも検出性能を見るための基本指標ですが、見ている観点が違います。

Precisionは、モデルが検出したもののうち、実際に正しかった割合です。たとえば、猫として10件検出し、そのうち8件が本当に猫だった場合、Precisionは80%です。誤検出が多いモデルほどPrecisionは下がります。

Recallは、実際に存在する正解のうち、モデルがどれだけ検出できたかの割合です。画像内に猫が10匹いて、そのうち8匹を検出できた場合、Recallは80%です。見逃しが多いモデルほどRecallは下がります。

PrecisionとRecallは、しばしばトレードオフになります。検出の条件を緩くすると多くの候補を拾えるためRecallは上がりやすくなりますが、誤検出も増えてPrecisionが下がることがあります。逆に、確信度の高い候補だけを残すとPrecisionは上がりやすくなりますが、見逃しが増えてRecallが下がることがあります。

指標 見るもの 低くなる主な原因
Precision 検出したものがどれだけ正しいか 存在しない物体を検出する、別カテゴリを誤検出する
Recall 正解物体をどれだけ拾えたか 小さい物体や見えにくい物体を見逃す

APとは?PR曲線の下の面積で1クラスを評価する

APを表すPrecision-Recall曲線と面積

APはAverage Precisionの略で、1つのカテゴリに対する物体検出性能をまとめた値です。たとえば「猫」カテゴリについて、信頼度の高い検出結果から順に並べ、しきい値を変えながらPrecisionとRecallを計算します。

この関係を横軸Recall、縦軸Precisionとして描いたものがPR曲線です。Recallを高めてもPrecisionを高く維持できるモデルは、PR曲線が上側に保たれ、APも高くなります。反対に、検出数を増やすほど誤検出が急に増えるモデルでは、曲線が下がりやすく、APも低くなります。

概念的には、APは次のようにPR曲線の下の面積として理解できます。

\(AP = \int_0^1 p(r)\,dr\)

ここで \(p(r)\) はRecallが \(r\) のときのPrecisionを表します。実際の評価では、データセットや評価実装によって補間方法や集計方法が異なるため、論文やベンチマークの数値を比較するときは評価条件も確認する必要があります。

mAPの計算方法

mAPは、各カテゴリでAPを求め、それらを平均して計算します。たとえば、車、歩行者、信号の3カテゴリを評価する場合、車のAP、歩行者のAP、信号のAPをそれぞれ計算し、最後に平均します。

\(mAP = \frac{1}{N}\sum_{i=1}^{N} AP_i\)

ここで \(N\) は評価するカテゴリ数、\(AP_i\) はカテゴリ \(i\) のAPです。たとえば、車のAPが0.90、歩行者のAPが0.80、信号のAPが0.70であれば、mAPは0.80になります。

  1. カテゴリごとに検出結果を信頼度順に並べる。
  2. 各検出が正解か誤検出かを、正解ラベルと位置の重なりで判定する。
  3. 信頼度しきい値を変えながらPrecisionとRecallを計算する。
  4. カテゴリごとのPR曲線からAPを求める。
  5. すべてのカテゴリのAPを平均してmAPを求める。

この流れを見ると、mAPは単なる「当たった数」ではなく、検出結果の順位、誤検出、見逃し、カテゴリごとのばらつきをまとめて評価する指標だと分かります。

IoUと信頼度しきい値が評価に与える影響

IoUによるバウンディングボックスの重なり判定

物体検出では、カテゴリが合っていても、位置の枠が大きくずれていれば正しい検出とは言えません。そこで使われるのがIoUです。IoUは、予測したバウンディングボックスと正解のバウンディングボックスがどれだけ重なっているかを示します。

\(IoU = \frac{予測枠と正解枠の重なり面積}{予測枠と正解枠を合わせた面積}\)

たとえばIoUしきい値を0.5に設定した場合、予測枠と正解枠の重なりが一定以上あれば正解として扱います。しきい値を0.75や0.95に上げるほど、より厳密な位置合わせが求められます。そのため、同じモデルでも「mAP@0.5」と「mAP@0.5:0.95」では数値が変わります。

また、検出結果には信頼度スコアが付きます。信頼度の低い候補まで採用すると見逃しは減るかもしれませんが、誤検出も増えます。mAPは、この信頼度しきい値を動かしたときのPrecisionとRecallの変化を含めて評価するため、モデルの振る舞いをより広く確認できます。

mAPの使いどころ

mAPを使ったモデル比較としきい値調整

mAPは、物体検出モデルを開発・運用するときの共通言語として使えます。新しいモデルを試したとき、データを増やしたとき、前処理や学習条件を変えたときに、改善が本当に起きているかを数値で確認できます。

代表的な使いどころは、モデル比較です。YOLO系のモデル、Faster R-CNN系のモデル、独自に学習したモデルなどを同じ評価データで比べると、どのモデルが全体として安定しているかを判断しやすくなります。

学習中の進捗確認にも使われます。エポックが進むにつれてmAPが上がっていれば、検出性能が改善している可能性があります。一方で、訓練データでは良いのに検証データでmAPが伸びない場合は、過学習、データ不足、ラベル品質の問題を疑います。

実運用では、mAPだけでなく、誤検出をどこまで許容できるか、見逃しがどれほど致命的かも考える必要があります。工場検査では欠陥の見逃しを減らしたい場合があり、監視用途では誤検出が多すぎると確認作業の負担が増えます。mAPは重要な指標ですが、運用目的に合わせた判断と組み合わせて使うのが現実的です。

mAPを見るときの注意点

mAPは便利な指標ですが、数値だけを見てモデルの良し悪しを決めるのは危険です。まず、評価条件が同じかを確認する必要があります。データセット、カテゴリ数、IoUしきい値、信頼度しきい値、評価スクリプトが違えば、同じmAPという名前でも単純比較できないことがあります。

次に、クラス別APを確認することが大切です。全体のmAPが高くても、特定のカテゴリだけ極端に低い場合があります。自動運転のような用途では、歩行者や信号など重要なカテゴリの性能が全体平均に埋もれると、実運用上のリスクを見落とします。

さらに、評価データが実際の利用環境に近いかも重要です。明るい昼間の画像だけで評価して高いmAPが出ても、夜間、雨天、逆光、混雑した場面で性能が落ちる可能性があります。mAPは評価データに対する性能なので、現場で必要な条件を含めた検証が欠かせません。

まとめ

mAPは、物体検出モデルの性能を評価するための代表的な指標です。1カテゴリごとのAPを計算し、それを複数カテゴリで平均することで、モデル全体の検出性能を把握できます。

理解の鍵になるのは、Precision、Recall、AP、IoUの関係です。Precisionは誤検出の少なさ、Recallは見逃しの少なさ、APはそれらのバランス、IoUは位置の正しさに関わります。mAPはこれらを踏まえて、複数カテゴリの物体検出性能を比較しやすくした指標です。

ただし、mAPは評価条件に左右されます。mAP@0.5とmAP@0.5:0.95を同じものとして扱わないこと、クラス別APを確認すること、実運用に近いデータで検証することが大切です。数値の高さだけでなく、どの条件で、どのカテゴリに対して、どのように改善しているのかを読むことで、mAPを実務や学習に役立てやすくなります。

更新履歴

日付 内容
2025年1月31日 初回公開
2026年5月28日 APとIoUの関係、評価条件の読み方を補って再編集