分類問題

記事数:(2)

アルゴリズム

混同行列:分類モデルの評価指標

機械学習を用いて分類問題を扱う際に、作った模型の良し悪しを測ることはとても大切です。その際に役立つ道具の一つに混同行列があります。混同行列とは、模型が予測した結果と、実際に得られた結果が、どの程度合致しているのかを一覧にした表のことです。 例として、ある病気を診断する模型を作ったとしましょう。この模型を使って患者を検査した結果、陽性と診断される場合と陰性と診断される場合があります。そして、実際に患者が病気に罹患している場合と、健康な場合があります。混同行列は、これらの組み合わせから生まれる4つのパターンを整理して分かりやすく示してくれます。 混同行列は「真陽性」「偽陽性」「真陰性」「偽陰性」という4つの指標で構成されています。まず、「真陽性」とは、実際に病気であり、模型も陽性と正しく診断できた場合です。次に、「偽陽性」とは、実際には健康なのに、模型が陽性と誤って診断した場合です。「真陰性」は、実際に健康であり、模型も陰性と正しく診断できた場合です。最後に、「偽陰性」は、実際には病気なのに、模型が陰性と誤って診断した場合です。 これらの4つの指標を見ることで、模型の正確さや、どのような間違い方をしやすいのかといった傾向を掴むことができます。例えば、偽陽性の値が大きい場合は、健康な人を病気と誤診する傾向が強いことを示しています。反対に、偽陰性の値が大きい場合は、病気の人を見逃してしまう危険性が高いことを示しています。このように、混同行列は分類模型の性能を評価する上で非常に重要な役割を果たします。病気の診断以外にも、迷惑メールの判定や、商品の推薦など、様々な分類問題に応用できます。
アルゴリズム

交差エントロピー:機械学習の要

機械学習、とりわけ分類問題を扱う上で、予測の正確さを評価する物差しの一つに交差エントロピーがあります。これは、本来の答えと機械が予測した答えの間の隔たりを測るものです。 たとえば、写真の判別で、ある写真が猫である確率を機械が予測するとします。このとき、写真の本当の分類(猫かそうでないか)と機械が出した予測値のずれ具合を、交差エントロピーは数値で表します。この数値が小さいほど、機械の予測は真実に近く、言い換えれば精度の高い予測と言えます。 では、交差エントロピーはどのように計算されるのでしょうか。まず、本来の確率と予測した確率のそれぞれに、対数を適用します。次に、それらの積を計算し、すべての事象について和を取ります。最後に、その符号を反転させます。計算式は複雑に見えますが、本質は真の値と予測値のずれを測るための工夫です。 交差エントロピーは、機械学習の学習過程でも重要な働きをします。学習とは、予測の正確さを高めるために機械の内部設定を調整する過程です。この調整は、交差エントロピーの値を小さくするように行われます。つまり、交差エントロピーを最小化することで、機械の予測精度を向上させることができるのです。 このように、交差エントロピーは機械学習において、予測精度の評価と学習の両面で欠かせない役割を担っています。機械学習の仕組みを理解する上で、交差エントロピーの理解は大変重要と言えるでしょう。