PR曲線下面積:適合率と再現率の調和

PR曲線下面積:適合率と再現率の調和

AIの初心者

先生、「PR-AUC」ってなんですか?AUCは聞いたことがあるのですが、PR-AUCってAUCとどう違うんですか?

AI専門家

良い質問だね。AUCは「ROC曲線」の下の面積で、PR-AUCは「PR曲線」の下の面積で表されるんだったね。ROC曲線は「偽陽性率」と「真陽性率」で、PR曲線は「再現率」と「適合率」で表されるよ。つまり、PR-AUCは「再現率」と「適合率」の関係性をみる指標なんだ。

AIの初心者

「再現率」と「適合率」の関係性…ですか?ちょっとよくわからないです。

AI専門家

そうだね。例えば、がんの診断みたいに、陽性データの方が少ない場合を考えてみよう。陽性データが少ないと、AUCは高く見えてしまうんだ。そんな時にPR-AUCが役に立つ。PR曲線は陽性データの少なさに影響されにくいから、より正確なモデルの性能を評価できるんだよ。

PR-AUCとは。

統計学や機械学習で使われる「人工知能」に関する言葉である「ピーアール‐エーユーシー」について

概要

概要

機械学習の分野では、様々な指標を用いてモデルの良し悪しを評価します。その中で、PR曲線下面積(PR-AUC)は、特に偏りのあるデータにおいて、モデルの性能を測る際に重要な指標となります。偏りのあるデータとは、例えば、全体のデータの中で、注目したい事象の発生割合が非常に少ない場合を指します。クレジットカードの不正利用の検出や、稀な病気の診断などが、この例に当てはまります。このような状況では、単に全体的な正答率だけでモデルを評価すると思わぬ落とし穴に陥る可能性があります。

例えば、不正利用が全体の0.1%しかないとします。この時、常に「不正利用ではない」と予測するモデルを作ったとしましょう。このモデルは、一見99.9%の正答率を誇りますが、実際には不正利用を全く見つけることができません。このような状況で役立つのが、PR-AUCです。PR-AUCは、「適合率」と「再現率」という二つの指標を基に計算されます。適合率は、モデルが「不正利用あり」と予測した中で、実際に不正利用だった割合を表します。一方、再現率は、実際に不正利用だったもの全体の中で、モデルが正しく「不正利用あり」と予測できた割合を表します。PR-AUCは、様々な閾値における適合率と再現率の組み合わせをプロットしたPR曲線の下部の面積を計算することで得られます。この値は、0から1の範囲を取り、1に近いほど、適合率と再現率のバランスが良く、モデルの性能が高いことを示します。つまり、PR-AUCを用いることで、単純な正答率では見落とされてしまう、偏りのあるデータにおけるモデルの真の性能を評価することができるのです。具体的には、不正検知や医療診断など、偽陰性を極力減らしたい状況、つまり、実際には不正利用や病気であるにも関わらず、見逃してしまうことを避けたい状況において、PR-AUCは非常に有効な指標となります。

指標 説明 利点 有効な場面
PR-AUC (PR曲線下面積) 様々な閾値における適合率と再現率の組み合わせをプロットしたPR曲線の下部の面積。0から1の範囲を取り、1に近いほど適合率と再現率のバランスが良い。 偏りのあるデータにおいて、単純な正答率では見落とされてしまうモデルの真の性能を評価できる。 不正検知、医療診断など、偽陰性を極力減らしたい状況。
適合率 モデルが「不正利用あり」と予測した中で、実際に不正利用だった割合。 モデルの予測の正確性を示す。
再現率 実際に不正利用だったもの全体の中で、モデルが正しく「不正利用あり」と予測できた割合。 モデルが見逃す割合の少なさを示す。

適合率と再現率

適合率と再現率

物事を正しく見分ける能力を測るには、よく「適合率」と「再現率」という二つの考え方を使います。これらは、まるで車の両輪のように、組み合わせて使うことで初めて全体像が見えてきます。

まず「適合率」とは、ある検査で「陽性」と判断されたものの中で、実際に陽性だったものの割合です。例えば、病気の検査で100人に陽性反応が出たとします。このうち本当に病気を抱えていた人が80人だった場合、適合率は80%となります。つまり、適合率が高いほど、間違って陽性と判断する、いわゆる「空振り」が少ないと言えるでしょう。これは、濡れ衣を着せるような間違いが少ないことを示しています。

次に「再現率」ですが、これは実際に陽性であるもの全体の中で、検査によって正しく陽性と判定できたものの割合を指します。例えば、実際に病気を抱えている人が100人いるとします。ある検査でそのうちの60人を正しく陽性と判定できた場合、再現率は60%となります。つまり、再現率が高いほど、本来陽性であるものを見逃す、いわゆる「取りこぼし」が少ないと言えるでしょう。これは、本当に病気の人を見逃さない、という観点で重要です。

理想的なのは、もちろん適合率と再現率の両方が100%であることです。しかし、現実的にはそううまくいかない場合が多く、どちらかを優先するかの判断が必要となる場面も出てきます。例えば、がん検診のように見逃しを極力避けたい場合は、再現率を重視します。多少「空振り」が多くても、本当に病気の人を見逃さない方が大切だからです。一方、スパムメールのフィルターのように「空振り」を減らしたい場合は、適合率を重視します。重要なメールをスパムと間違えて削除してしまうと困るからです。このように、適合率と再現率は、目的に合わせてバランスを取りながら評価する必要があります。

これらの指標を理解することは、様々な予測モデルを正しく評価するために非常に重要です。目的に合った適切なモデルを選択するために、適合率と再現率は欠かせない指標となるでしょう。

指標 定義 例(病気の検査) 意味 重視する場面
適合率 陽性と判断されたものの中で、実際に陽性だったものの割合 100人に陽性反応、うち80人が実際に病気 → 適合率80% 空振り(誤検知)が少ない スパムメールフィルターなど、誤検知を避けたい場合
再現率 実際に陽性であるもの全体の中で、正しく陽性と判定できたものの割合 実際に病気の人100人、うち60人を正しく陽性と判定 → 再現率60% 取りこぼし(見逃し)が少ない がん検診など、見逃しを避けたい場合

PR曲線

PR曲線

PR曲線は、機械学習モデルの性能を測るための重要な道具です。この曲線は、様々な判定の基準値での適合率と再現率の関係を示すグラフとなっています。ここで、適合率とは、陽性と判定されたものの中で、実際に陽性であったものの割合を指します。一方、再現率とは、実際に陽性であるもの全体の中で、陽性と判定できたものの割合です。

機械学習モデルは、ある事象が発生する確率を予測します。例えば、ある顧客が商品を購入する確率、あるいはある患者が特定の病気を発症する確率などです。そして、この予測確率が事前に設定した基準値を超えた場合、その事象は発生すると判定、つまり陽性と判定します。この基準値のことを閾値と言います。

この閾値を調整することで、適合率と再現率のバランスを変えることができます。閾値を高く設定すると、陽性と判定されるためには高い確率が必要になります。そのため、陽性と判定されたものはより確実に陽性である可能性が高くなり、適合率は向上します。しかし、同時に、本当に陽性であるにもかかわらず、確率が閾値に達しないために陰性と判定されてしまうものが増え、再現率は低下します。

逆に、閾値を低く設定すると、低い確率でも陽性と判定されるようになります。そのため、実際に陽性であるものをより多く陽性と判定できるようになり、再現率は向上します。しかし、同時に、本当は陰性であるにもかかわらず、陽性と判定されてしまうものが増え、適合率は低下します。

PR曲線は、このように閾値の変化に伴う適合率と再現率のトレードオフの関係を視覚的に示すことで、モデルの性能を様々な視点から理解するのに役立ちます。曲線下の面積が大きいほど、モデルの性能が良いとされています。つまり、様々な閾値において、高い適合率と再現率を両立できていることを示しています。

PR曲線下面積の算出

PR曲線下面積の算出

適合率再現率曲線(PR曲線)は、分類モデルの性能を測る大切な道具です。横軸に再現率、縦軸に適合率をとり、様々な判定のしきい値におけるモデルの性能を描いた曲線です。この曲線の下の面積を計算したものが、PR曲線下面積(PR-AUC)と呼ばれます。

PR-AUCは、0から1までの値をとり、1に近いほど優れた分類モデルであることを示します。もしPR-AUCが1であれば、それは完全な分類モデル、つまり、あらゆるしきい値で適合率と再現率の両方が完璧なモデルです。逆に、PR-AUCが0に近い場合は、分類モデルの性能が低いことを意味します。

PR-AUCの値が大きいということは、様々なしきい値において、適合率と再現率のバランスがとれていることを示します。つまり、特定のしきい値に強く依存することなく、安定した性能を発揮するモデルと言えます。例えば、病気の診断モデルを考えた場合、PR-AUCが高いモデルは、診断の基準を厳しくしても緩くしても、高い適合率と再現率を維持できる可能性が高いです。

PR-AUCは、数値計算によって算出されます。具体的には、PR曲線を小さな長方形に分割し、それらの面積を合計することで近似的に計算します。この計算は、多くの統計解析ソフトやプログラミング言語のライブラリで簡単に行うことができます。

PR-AUCは、特にデータの偏りが大きい場合に、受信者動作特性曲線下面積(ROC-AUC)よりも優れた指標となります。ROC-AUCは、偽陽性率に注目しますが、データの偏りが大きい場合、偽陽性率はあまり変化せず、モデルの性能を正しく評価できない場合があります。一方、PR-AUCは、再現率と適合率に注目するため、データの偏りに影響されにくく、より信頼性の高い評価ができます。

項目 説明
適合率再現率曲線(PR曲線) 横軸に再現率、縦軸に適合率をとって、様々な判定のしきい値におけるモデルの性能を描いた曲線。
PR曲線下面積(PR-AUC) PR曲線の下の面積。0から1までの値をとり、1に近いほど優れた分類モデル。
PR-AUC = 1 完全な分類モデル。あらゆるしきい値で適合率と再現率の両方が完璧。
PR-AUC = 0に近い 分類モデルの性能が低い。
PR-AUCが高い 様々なしきい値において、適合率と再現率のバランスがとれている。特定のしきい値に強く依存することなく、安定した性能を発揮するモデル。
PR-AUCの算出方法 数値計算。PR曲線を小さな長方形に分割し、それらの面積を合計することで近似的に計算。
PR-AUCとROC-AUCの比較 データの偏りが大きい場合、PR-AUCはROC-AUCよりも優れた指標。ROC-AUCは偽陽性率に注目するが、データの偏りが大きい場合、偽陽性率はあまり変化せず、モデルの性能を正しく評価できない場合がある。PR-AUCは再現率と適合率に注目するため、データの偏りに影響されにくく、より信頼性の高い評価ができる。

活用事例

活用事例

PR-AUC(適合率-再現率曲線下面積)は、データの偏りが大きい場合に、モデルの性能を測るための重要な指標です。データの偏りとは、例えば、ある事象が起こる割合と起こらない割合が大きく異なることを指します。

不正を見つけるシステムを例に考えてみましょう。不正行為は、実際にはそれほど多く起こりません。つまり、不正がないデータに比べて、不正があるデータは非常に少ないです。このような場合、単純な正解率でシステムの良し悪しを判断すると、誤った結論に至る可能性があります。システムが「不正はない」と常に予測すれば、正解率は高く見えてしまうからです。しかし、これでは実際に不正が行われていても見逃してしまいます。これは、不正を見つけるという本来の目的を果たせていないことを意味します。PR-AUCは、このような状況でも、システムの真の性能を評価することができます。

PR-AUCは、「見つけ出すべきものを見つける能力(再現率)」と「見つけたものが本当に探し求めていたものである確率(適合率)」のバランスを考慮します。不正検知の場合、再現率は、実際に不正が行われた中で、システムが正しく不正を見つけた割合を表します。適合率は、システムが不正と判断したものの中で、実際に不正が行われていた割合を表します。PR-AUCは、この二つの指標を組み合わせ、偽陰性(不正を見逃してしまうこと)を減らしつつ、偽陽性(不正ではないものを不正と判断してしまうこと)も少なくする最適なバランス点を見つけるのに役立ちます。

医療診断も、PR-AUCが有効に活用される分野です。ある病気の発生率が低い場合、健康な人と比べて、病気の人のデータは少なくなります。このような状況でも、PR-AUCを用いることで、診断システムの性能を正しく評価できます。

PR-AUCは、不正検知や医療診断以外にも、インターネットで欲しい情報を探すシステムや、顧客におすすめの商品を提示するシステムなど、様々な分野で広く活用されています。このように、PR-AUCは、データの偏りに左右されずにモデルの性能を評価できるため、多くの分野で重要な役割を果たしています。

指標 説明 例(不正検知)
PR-AUC (適合率-再現率曲線下面積) データの偏りが大きい場合にモデルの性能を測る指標。再現率と適合率のバランスを考慮。 不正検知システムの性能評価
再現率 見つけ出すべきものを見つける能力。 実際に不正が行われた中で、システムが正しく不正を見つけた割合
適合率 見つけたものが本当に探し求めていたものである確率。 システムが不正と判断したものの中で、実際に不正が行われていた割合
活用例 不正検知、医療診断、情報検索、レコメンドシステムなど

他の指標との比較

他の指標との比較

機械学習モデルの良し悪しを見極めるには、様々な尺度があります。PR-AUCはその一つですが、他にもROC曲線下面積(ROC-AUC)やF値といった指標が存在します。それぞれの特徴を理解し、状況に応じて使い分けることが大切です。PR-AUCは、正解データと不正解データの割合に大きな偏りがある場合に特に有効な指標です。例えば、不正検知や医療診断など、正解データが非常に少ないケースでは、PR-AUCがモデルの性能を正しく反映します。

ROC-AUCは、正解を見つける能力(真陽性率)と、間違えて正解と判断する能力(偽陽性率)の関係を表す指標です。データの偏りの影響を受けにくいという長所がありますが、偏りが極端な場合には、PR-AUCの方がより適切な評価となります。正解データが少なく、不正解データが多い場合、ROC-AUCではモデルの性能が過大評価される可能性があるからです。

F値は、モデルの正確さ(適合率)と、正解データを見つけ出す能力(再現率)を組み合わせた指標です。一つの数値で両方の側面を評価できるため、分かりやすいという利点があります。しかし、F値は特定の判定基準における性能しか示すことができません。つまり、判定基準が変わるとF値も変化するため、様々な状況におけるモデルの性能を把握するには不向きです。

PR-AUCは、様々な判定基準における性能を総合的に評価できるという点で、F値よりも優れています。PR-AUCは、再現率と適合率の関係を示すPR曲線の下部の面積を表します。再現率は、全ての正解データのうち、どれだけの割合を正しく見つけられたかを示す指標で、適合率は、正解と予測したデータのうち、実際にどれだけの割合が正解だったかを示す指標です。PR-AUCが高いほど、様々な判定基準において、再現率と適合率のバランスが良いことを示しています。

指標 説明 長所 短所 適した状況
PR-AUC 再現率と適合率の関係を示すPR曲線の下部の面積。 様々な判定基準における性能を総合的に評価できる。正解データと不正解データの割合に大きな偏りがある場合に特に有効。 不正検知や医療診断など、正解データが非常に少ないケース。
ROC-AUC 正解を見つける能力(真陽性率)と、間違えて正解と判断する能力(偽陽性率)の関係を表す指標。 データの偏りの影響を受けにくい。 偏りが極端な場合には、PR-AUCの方がより適切。正解データが少なく、不正解データが多い場合、モデルの性能が過大評価される可能性がある。 データの偏りが少ない場合。
F値 モデルの正確さ(適合率)と、正解データを見つけ出す能力(再現率)を組み合わせた指標。 一つの数値で両方の側面を評価できるため、分かりやすい。 特定の判定基準における性能しか示すことができない。判定基準が変わるとF値も変化するため、様々な状況におけるモデルの性能を把握するには不向き。 特定の判定基準での性能評価。