アルゴリズム 偽陽性と偽陰性:2種類の過誤
機械学習の世界では、ものを二つに分ける二値分類という方法がよく使われます。例えば、迷惑メールかどうかを判断したり、病気かどうかを調べたりする時などがそうです。この二値分類の良し悪しを判断するには、様々な方法がありますが、特に重要なのが、真陽性、真陰性、偽陽性、偽陰性という四つの考え方です。
まず、実際に正しいものを正しく正しいと判断できた場合を真陽性と言います。例えば、本当に迷惑メールであるものを、迷惑メールだと正しく判断できた場合です。次に、実際に間違っているものを正しく間違っていると判断できた場合を真陰性と言います。迷惑メールではない普通のメールを、迷惑メールではないと正しく判断できた場合がこれに当たります。
一方で、実際には間違っているものを誤って正しいと判断した場合を偽陽性と言います。例えば、普通のメールを誤って迷惑メールだと判断してしまった場合です。最後に、実際には正しいものを誤って間違っていると判断した場合を偽陰性と言います。本当に迷惑メールであるものを、普通のメールだと誤って判断してしまった場合です。
このように、二値分類は単に正しく分類できたかどうかだけでなく、どのように間違えたのかを把握することが大切です。迷惑メールの例で言えば、偽陽性だと大事なメールを見逃してしまう可能性があり、偽陰性だと迷惑メールを受け取ってしまうことになります。それぞれの状況に応じて、どのタイプの間違いをより少なくするべきかを考え、この四つの指標を組み合わせて二値分類モデルの正確さや性能を評価します。これにより、より目的に合った適切なモデルを選ぶことができます。
