アルゴリズム 混同行列:分類モデルの評価指標
機械学習を用いて分類問題を扱う際に、作った模型の良し悪しを測ることはとても大切です。その際に役立つ道具の一つに混同行列があります。混同行列とは、模型が予測した結果と、実際に得られた結果が、どの程度合致しているのかを一覧にした表のことです。
例として、ある病気を診断する模型を作ったとしましょう。この模型を使って患者を検査した結果、陽性と診断される場合と陰性と診断される場合があります。そして、実際に患者が病気に罹患している場合と、健康な場合があります。混同行列は、これらの組み合わせから生まれる4つのパターンを整理して分かりやすく示してくれます。
混同行列は「真陽性」「偽陽性」「真陰性」「偽陰性」という4つの指標で構成されています。まず、「真陽性」とは、実際に病気であり、模型も陽性と正しく診断できた場合です。次に、「偽陽性」とは、実際には健康なのに、模型が陽性と誤って診断した場合です。「真陰性」は、実際に健康であり、模型も陰性と正しく診断できた場合です。最後に、「偽陰性」は、実際には病気なのに、模型が陰性と誤って診断した場合です。
これらの4つの指標を見ることで、模型の正確さや、どのような間違い方をしやすいのかといった傾向を掴むことができます。例えば、偽陽性の値が大きい場合は、健康な人を病気と誤診する傾向が強いことを示しています。反対に、偽陰性の値が大きい場合は、病気の人を見逃してしまう危険性が高いことを示しています。このように、混同行列は分類模型の性能を評価する上で非常に重要な役割を果たします。病気の診断以外にも、迷惑メールの判定や、商品の推薦など、様々な分類問題に応用できます。
