PR-AUCとは?適合率と再現率で分類モデルを評価する指標

AIの初心者
「PR-AUC」ってなんですか?AUCやROC-AUCは聞いたことがありますが、何が違うのでしょうか?

AI専門家
PR-AUCは、適合率と再現率の関係を表すPR曲線の下の面積だよ。特に、陽性データが少ない分類問題でモデルの性能を確認するときに役立つんだ。

AIの初心者
陽性データが少ないと、普通の評価指標では問題があるのですか?

AI専門家
例えば不正利用やまれな病気の検出では、ほとんどが陰性だよね。その場合、正解率だけを見ると見逃しの多いモデルでも良く見えることがある。PR-AUCは、見つけたい陽性をどれだけ正しく拾えているかに注目できるんだ。
PR-AUC(ピーアール・エーユーシー)は、分類モデルの性能を評価するための指標です。正式には「Precision-Recall AUC」、日本語では「適合率・再現率曲線下面積」や「PR曲線下面積」と呼ばれます。
PR-AUCは、陽性クラスが少ないデータで、モデルが本当に見つけたい対象をどれだけうまく検出できているかを見るために使われます。不正検知、医療診断、情報検索、レコメンドなど、見逃しと誤検知のバランスが重要な場面でよく使われます。

PR-AUCとは何か
PR-AUCは、PR曲線の下側の面積を数値化したものです。PR曲線は、横軸に再現率、縦軸に適合率を取り、分類モデルの判定しきい値を変えたときの性能を点として描いたグラフです。
分類モデルは、多くの場合「このデータは陽性である確率が0.82」のようなスコアを出します。そのスコアが一定のしきい値を超えたら陽性、下回ったら陰性と判定します。しきい値を変えると、陽性と判定される件数が変わり、適合率と再現率も変化します。
PR-AUCが高いほど、さまざまなしきい値で適合率と再現率を高く保ちやすいモデルだと考えられます。値は通常0から1の範囲で表され、1に近いほど良い性能を示します。
ただし、PR-AUCは「この値なら必ず十分」という絶対的な基準ではありません。陽性がどれくらい珍しいか、誤検知と見逃しのどちらが重いか、実際に運用するしきい値をどう決めるかによって、解釈は変わります。
| 用語 | 意味 | 確認したいこと |
|---|---|---|
| PR曲線 | しきい値を変えたときの再現率と適合率の関係を描いた曲線 | 陽性を拾う力と予測の正確さのバランス |
| PR-AUC | PR曲線の下の面積 | 複数のしきい値をまたいだ総合的な性能 |
| 使いやすい場面 | 陽性クラスが少ない分類問題 | 不正検知、医療診断、検索、推薦など |
適合率と再現率の違い
PR-AUCを理解するには、まず適合率と再現率の違いを押さえる必要があります。どちらも陽性判定に関わる指標ですが、見ている方向が異なります。
適合率は「陽性と予測したもののうち、本当に陽性だった割合」です。例えば病気の検査で100人に陽性反応が出て、そのうち80人が本当に病気だった場合、適合率は80%です。適合率が高いほど、誤って陽性と判定する「空振り」が少ないといえます。
再現率は「実際に陽性だったもののうち、モデルが陽性と判定できた割合」です。実際に病気の人が100人いて、そのうち60人を検査で見つけられた場合、再現率は60%です。再現率が高いほど、本来見つけるべき陽性を見逃しにくいといえます。
医療診断のように見逃しを避けたい場面では、再現率を重視することが多くなります。一方、重要なメールをスパム扱いしたくないスパムフィルターや、誤ったアラートを減らしたい監視システムでは、適合率も強く意識されます。

| 指標 | 定義 | 高いと何が良いか | 重視しやすい例 |
|---|---|---|---|
| 適合率 | 陽性と予測した中で本当に陽性だった割合 | 誤検知が少ない | スパム判定、異常アラート、審査業務 |
| 再現率 | 実際の陽性の中で正しく陽性と予測できた割合 | 見逃しが少ない | がん検診、不正検知、リスク検出 |
PR曲線の見方
PR曲線は、しきい値を変えながら適合率と再現率の組み合わせを並べたものです。横軸は再現率、縦軸は適合率です。右上に近い状態を長く保てるほど、陽性を多く拾いながら誤検知も抑えられていると考えられます。
しきい値を高くすると、モデルは自信のあるデータだけを陽性と判定します。そのため、陽性と判定したものの正確さ、つまり適合率は上がりやすくなります。一方で、本当は陽性なのにスコアが少し足りないデータを陰性にしてしまうため、再現率は下がりやすくなります。
逆に、しきい値を低くすると、多くのデータを陽性と判定します。再現率は上がりやすくなりますが、本当は陰性のデータまで陽性に含めやすくなるため、適合率は下がりやすくなります。
PR曲線は、このしきい値調整による「見逃しを減らすか、誤検知を減らすか」というトレードオフを視覚化する道具です。PR-AUCは、その曲線の下の面積として、全体的なバランスを1つの数値にまとめます。

PR-AUCの計算と値の目安
PR-AUCは、PR曲線の下の面積を計算して求めます。実務では、ライブラリがしきい値ごとの適合率と再現率を計算し、曲線下の面積を数値的に近似します。手作業で面積を細かく計算するより、Pythonのscikit-learnなどの評価関数を使うのが一般的です。
考え方としては、PR曲線を小さな区間に分け、それぞれの面積を足し合わせます。PR-AUCが1に近いほど、しきい値を変えても高い適合率と高い再現率を保ちやすいモデルです。0に近い場合は、陽性の検出性能が低い可能性があります。
PR-AUCの目安を見るときは、陽性率を必ず確認します。例えば陽性が全体の1%しかないデータでは、何も学習していないランダムな予測のPR曲線は低い水準になりやすく、陽性率そのものがベースラインの目安になります。したがって、別のデータセットのPR-AUCと単純に比べるのは危険です。
また、PR-AUCが高くても、実際に使うしきい値で誤検知が多すぎる、または見逃しが許容できないことがあります。モデル選定ではPR-AUCで候補を比較し、運用前には目的に合ったしきい値で適合率・再現率・件数を確認するのが現実的です。
PR-AUCが役立つ場面
PR-AUCが特に役立つのは、陽性クラスが少なく、見つけたい対象がデータ全体の一部に偏っている場面です。代表例はクレジットカードの不正利用検知です。不正が全体の0.1%しかない場合、常に「不正ではない」と予測するモデルでも正解率は99.9%になります。しかし、そのモデルは不正を1件も見つけられません。
医療診断でも同じ問題が起こります。まれな病気の検出では、健康な人のデータが圧倒的に多くなります。正解率だけでは「健康」と言い続けるモデルが良く見えることがありますが、診断支援で重要なのは、本当に注意すべき患者をどれだけ見つけられるかです。
情報検索やレコメンドでも、関連性の高い文書や商品は全体の中では一部です。PR-AUCを使うと、関連するものをどれだけ拾えたか、そして拾ったものがどれだけ正しかったかを同時に見やすくなります。

| 場面 | 陽性の例 | PR-AUCで見たいこと |
|---|---|---|
| 不正検知 | 不正取引 | 不正を見逃さず、通常取引への誤検知も抑えられるか |
| 医療診断 | 病気の疑いがある患者 | 見逃しを減らしつつ、不要な追加検査を増やしすぎないか |
| 情報検索 | 検索意図に合う文書 | 関連文書を多く拾い、無関係な結果を混ぜすぎないか |
| レコメンド | ユーザーが反応する商品 | 興味のある候補を逃さず、不要な推薦を減らせるか |
ROC-AUCやF値との違い
分類モデルの評価では、PR-AUC以外にもROC-AUC、F値、正解率などが使われます。どれか1つが常に正しいわけではなく、データの偏りと評価目的に合わせて選びます。
ROC-AUCは、真陽性率と偽陽性率の関係を見る指標です。幅広い分類問題で使われますが、陰性クラスが非常に多い場合、偽陽性率が小さく見えやすく、陽性検出の難しさが目立ちにくいことがあります。陽性が少ない問題では、PR-AUCの方が実感に近い評価になることがあります。
F値は、適合率と再現率を1つにまとめる指標です。代表的なF1値は、適合率と再現率の調和平均です。ただし、F値は特定のしきい値で計算されます。しきい値を変えるとF値も変わるため、複数のしきい値をまたいで性能を見たい場合にはPR-AUCが向いています。
正解率は直感的で分かりやすい一方、陽性と陰性の数に大きな偏りがあると誤解を招きやすい指標です。少数派の陽性を検出することが目的なら、正解率だけで判断しないようにします。

| 指標 | 主に見るもの | 向いている場面 | 注意点 |
|---|---|---|---|
| PR-AUC | 適合率と再現率の関係 | 陽性が少ない分類問題 | データの陽性率によって値の解釈が変わる |
| ROC-AUC | 真陽性率と偽陽性率の関係 | クラスの偏りが極端でない分類問題 | 陽性が少ない問題では良く見えすぎることがある |
| F値 | 特定しきい値での適合率と再現率 | 運用しきい値が決まっている評価 | しきい値を変えると値も変わる |
| 正解率 | 全体で正解した割合 | クラスの偏りが小さい問題 | 少数派の見逃しを隠すことがある |
初心者が誤解しやすい注意点
PR-AUCは便利な指標ですが、単独でモデルの良し悪しを決め切れるものではありません。まず、どちらを陽性クラスとして扱うかを確認します。PR-AUCは陽性クラスに強く依存するため、陽性の定義が変わると値の意味も変わります。
次に、PR-AUCの高さと運用上の使いやすさは同じではありません。PR-AUCが高いモデルでも、実際のしきい値でアラート件数が多すぎれば運用できないことがあります。逆に、PR-AUCが少し低くても、重要な範囲の再現率や適合率が十分なら実務上は使いやすい場合があります。
さらに、PR-AUCはデータセット間で単純比較しにくい指標です。陽性率が違うデータ、評価期間が違うデータ、ラベルの付け方が違うデータを比べると、数値差の理由がモデル性能以外にあるかもしれません。
PR-AUCを見るときは、PR曲線そのもの、選んだしきい値での適合率・再現率、陽性率、誤検知や見逃しのコストを合わせて確認することが大切です。
まとめ
PR-AUCは、適合率と再現率の関係を表すPR曲線の下の面積です。陽性クラスが少ないデータで、見つけたい対象をどれだけ正しく検出できているかを評価するときに役立ちます。
適合率は誤検知の少なさ、再現率は見逃しの少なさを表します。しきい値を動かすと両者のバランスが変わり、その全体像をPR曲線とPR-AUCで確認できます。
ROC-AUCやF値にもそれぞれ役割があります。偏りのある分類問題ではPR-AUCを有力な候補にしつつ、実際の運用ではしきい値、陽性率、誤検知と見逃しのコストまで含めて判断しましょう。
更新履歴
| 日付 | 内容 |
|---|---|
| 2025年2月1日 | 初回公開 |
| 2026年5月30日 | PR曲線の読み方とROC-AUCとの使い分けを補強 |
