AI活用 二値分類の評価指標:正解率、適合率、再現率、F値
{機械学習の世界では、物事を二つに分ける方法は、様々な場面で使われています。例えば、迷惑メールかどうかを判断したり、病気かどうかを診断したりする際に、この二つのグループに分ける方法が役立っています。この方法を二値分類と言います。そして、この二値分類の良し悪しを測るためには、いくつかの指標が必要です。この指標を使うことで、どのくらい正確に二つのグループに分けられているかを調べることができます。本稿では、二値分類の指標の中でも特に重要な四つの指標について説明します。
まず、全体の中でどのくらい正しく分類できたかを表す指標が正解率です。これは、全体のデータの中で正しく分類できたデータの割合を示しています。しかし、正解率だけでは、分類の正確さを完全には把握できません。例えば、珍しい病気の診断の場合、ほとんどの人が病気ではないため、単純に全員を「病気ではない」と診断しても高い正解率が出てしまいます。しかし、これは実際には正しい診断とは言えません。
そこで、「病気である」と診断した人の中で、実際に病気だった人の割合を表す指標が適合率です。これは、診断の確実性を示す指標と言えます。一方で、実際に病気の人の中で、どのくらいの人を「病気である」と正しく診断できたかを表す指標が再現率です。これは、見落としがないかをチェックするための指標です。
適合率と再現率は、どちらか一方を高くしようとすると、もう一方が低くなる傾向があります。例えば、なるべく見落としを減らそうとして、多くの人を「病気である」と診断すると、再現率は上がりますが、誤診も増えるため適合率は下がります。逆に、確実な診断だけをしようとすると、適合率は上がりますが、診断数が少なくなり再現率は下がります。そこで、適合率と再現率のバランスを考えた指標がF値です。F値は、適合率と再現率の調和平均で計算され、両方の指標をバランス良く評価することができます。
これらの四つの指標、正解率、適合率、再現率、F値を理解することで、二値分類モデルの性能をより深く理解し、適切なモデルを選ぶことができます。それぞれの指標の特徴を踏まえ、状況に応じて適切な指標を用いることが重要です。
