PR-AUC

記事数:(2)

PR-AUCとは？適合率と再現率で分類モデルを評価する指標

機械学習の分野では、様々な指標を用いてモデルの良し悪しを評価します。その中で、ＰＲ曲線下面積（ＰＲ－ＡＵＣ）は、特に偏りのあるデータにおいて、モデルの性能を測る際に重要な指標となります。偏りのあるデータとは、例えば、全体のデータの中で、注目したい事象の発生割合が非常に少ない場合を指します。クレジットカードの不正利用の検出や、稀な病気の診断などが、この例に当てはまります。このような状況では、単に全体的な正答率だけでモデルを評価すると思わぬ落とし穴に陥る可能性があります。例えば、不正利用が全体の0.1%しかないとします。この時、常に「不正利用ではない」と予測するモデルを作ったとしましょう。このモデルは、一見99.9%の正答率を誇りますが、実際には不正利用を全く見つけることができません。このような状況で役立つのが、ＰＲ－ＡＵＣです。ＰＲ－ＡＵＣは、「精度」と「再現率」という二つの指標を基に計算されます。精度は、モデルが「不正利用あり」と予測した中で、実際に不正利用だった割合を表します。一方、再現率は、実際に不正利用だったもの全体の中で、モデルが正しく「不正利用あり」と予測できた割合を表します。ＰＲ－ＡＵＣは、様々な閾値における精度と再現率の組み合わせをプロットしたＰＲ曲線の下部の面積を計算することで得られます。この値は、０から１の範囲を取り、１に近いほど、精度と再現率のバランスが良く、モデルの性能が高いことを示します。つまり、ＰＲ－ＡＵＣを用いることで、単純な正答率では見落とされてしまう、偏りのあるデータにおけるモデルの真の性能を評価することができるのです。具体的には、不正検知や医療診断など、偽陰性を極力減らしたい状況、つまり、実際には不正利用や病気であるにも関わらず、見逃してしまうことを避けたい状況において、ＰＲ－ＡＵＣは非常に有効な指標となります。

アルゴリズム

APとは？平均適合率の意味・計算方法・mAPとの違いを解説

平均精度（略してＡＰ）は、情報検索や機械学習の分野、特に物体検出や画像分類といったタスクで、予測モデルの精度を測る大切な指標です。これは、平均精度という名前の通り、様々な状況下での精度を平均化したものと言えるでしょう。ＡＰを理解するには、まず精度と再現率という二つの概念を理解する必要があります。精度は、モデルが「正しい」と判断したものの中で、実際に正しいものの割合を示します。例えば、１０個のリンゴの中から、８個をリンゴと正しく予測し、残りの２個をミカンと誤って予測した場合、精度は８割となります。一方で、再現率は、実際に正しいもの全体の中で、モデルが正しく「正しい」と判断できたものの割合を示します。先ほどの例で言えば、全部で１０個のリンゴがある中で、８個を正しくリンゴと予測できたので、再現率も８割となります。ＡＰは、この精度と再現率の関係性を示すＰＲ曲線（精度－再現率曲線）の面積を計算することで求められます。ＰＲ曲線は、横軸に再現率、縦軸に精度をとって描かれる曲線です。モデルの予測の閾値（しきいち）を変えると、精度と再現率の値も変化します。この閾値を様々に変化させた時の精度と再現率の組み合わせをプロットしていくことで、ＰＲ曲線が描かれます。そして、この曲線の下側の面積がＡＰとなります。ＡＰは、様々な閾値における精度と再現率を考慮するため、単一の閾値で評価するよりも、より総合的なモデルの性能評価を可能にします。つまり、特定の状況下でのみ高い精度を出すモデルではなく、様々な状況下で安定して高い精度を出すモデルを評価する際に特に役立ちます。そのため、物体検出や画像分類といった、実世界の様々な状況を想定する必要があるタスクにおいて、重要な評価指標として用いられています。

アルゴリズム