アルゴリズム PR曲線下面積:適合率と再現率の調和
機械学習の分野では、様々な指標を用いてモデルの良し悪しを評価します。その中で、PR曲線下面積(PR-AUC)は、特に偏りのあるデータにおいて、モデルの性能を測る際に重要な指標となります。偏りのあるデータとは、例えば、全体のデータの中で、注目したい事象の発生割合が非常に少ない場合を指します。クレジットカードの不正利用の検出や、稀な病気の診断などが、この例に当てはまります。このような状況では、単に全体的な正答率だけでモデルを評価すると思わぬ落とし穴に陥る可能性があります。
例えば、不正利用が全体の0.1%しかないとします。この時、常に「不正利用ではない」と予測するモデルを作ったとしましょう。このモデルは、一見99.9%の正答率を誇りますが、実際には不正利用を全く見つけることができません。このような状況で役立つのが、PR-AUCです。PR-AUCは、「精度」と「再現率」という二つの指標を基に計算されます。精度は、モデルが「不正利用あり」と予測した中で、実際に不正利用だった割合を表します。一方、再現率は、実際に不正利用だったもの全体の中で、モデルが正しく「不正利用あり」と予測できた割合を表します。PR-AUCは、様々な閾値における精度と再現率の組み合わせをプロットしたPR曲線の下部の面積を計算することで得られます。この値は、0から1の範囲を取り、1に近いほど、精度と再現率のバランスが良く、モデルの性能が高いことを示します。つまり、PR-AUCを用いることで、単純な正答率では見落とされてしまう、偏りのあるデータにおけるモデルの真の性能を評価することができるのです。具体的には、不正検知や医療診断など、偽陰性を極力減らしたい状況、つまり、実際には不正利用や病気であるにも関わらず、見逃してしまうことを避けたい状況において、PR-AUCは非常に有効な指標となります。
