混同行列：分類モデルの評価指標

アルゴリズム

2025.02.01

混同行列：分類モデルの評価指標

混同行列：分類モデルの評価指標

AIの初心者

先生、『混同行列』って、予測と実際が４通りあるってどういうことですか？よくわからないです。

AI専門家

そうだね、少し難しいよね。例えば、ネコかイヌかをAIに判断させることを考えてみよう。実際はネコの写真なのに、AIがイヌと判断する場合もあるし、実際はイヌの写真なのにAIがネコと判断する場合もあるよね。他にも、AIが正しく判断する場合もある。

AIの初心者

ああ、なるほど。じゃあ、実際ネコで予測もネコ、実際ネコで予測はイヌ、実際イヌで予測はネコ、実際イヌで予測もイヌの４通りですね！

AI専門家

その通り！まさにそれが混同行列で表す４つの組み合わせだよ。この４つの組み合わせを見ることで、AIの性能を詳しく調べることができるんだ。

混同行列とは。

人工知能についての言葉である「混同行列」について説明します。データをグループ分けする問題において、予想した値と実際の値の組み合わせは、２かける２で４通りになります。この４通りの組み合わせを表にしたものを混同行列と言います。

混同行列とは

機械学習を用いて分類問題を扱う際に、作った模型の良し悪しを測ることはとても大切です。その際に役立つ道具の一つに混同行列があります。混同行列とは、模型が予測した結果と、実際に得られた結果が、どの程度合致しているのかを一覧にした表のことです。

例として、ある病気を診断する模型を作ったとしましょう。この模型を使って患者を検査した結果、陽性と診断される場合と陰性と診断される場合があります。そして、実際に患者が病気に罹患している場合と、健康な場合があります。混同行列は、これらの組み合わせから生まれる４つのパターンを整理して分かりやすく示してくれます。

混同行列は「真陽性」「偽陽性」「真陰性」「偽陰性」という４つの指標で構成されています。まず、「真陽性」とは、実際に病気であり、模型も陽性と正しく診断できた場合です。次に、「偽陽性」とは、実際には健康なのに、模型が陽性と誤って診断した場合です。「真陰性」は、実際に健康であり、模型も陰性と正しく診断できた場合です。最後に、「偽陰性」は、実際には病気なのに、模型が陰性と誤って診断した場合です。

これらの４つの指標を見ることで、模型の正確さや、どのような間違い方をしやすいのかといった傾向を掴むことができます。例えば、偽陽性の値が大きい場合は、健康な人を病気と誤診する傾向が強いことを示しています。反対に、偽陰性の値が大きい場合は、病気の人を見逃してしまう危険性が高いことを示しています。このように、混同行列は分類模型の性能を評価する上で非常に重要な役割を果たします。病気の診断以外にも、迷惑メールの判定や、商品の推薦など、様々な分類問題に応用できます。

	実際の状態
予測	陽性	陰性
陽性	真陽性	偽陽性
陰性	偽陰性	真陰性

真陽性と真陰性

物事を正しく見分ける力を持つ道具、例えば病気を見つける検査や、不良品を見つける装置などの良し悪しを判断するには、真陽性と真陰性の理解が欠かせません。これらの言葉は、道具による判断と真実がどれだけ一致しているかを表すものです。

まず、真陽性とは、道具が「ある」と判断し、実際に「ある」状態のことを指します。例えば、病気の検査で「病気あり」と診断され、実際に病気に罹患している場合がこれに当たります。これは、検査が正しく病気を見つけたことを意味し、病気の早期発見、早期治療につながる重要な結果です。

次に、真陰性とは、道具が「ない」と判断し、実際に「ない」状態のことを指します。病気の検査で言えば、「病気なし」と診断され、実際に健康な状態のことです。これは、検査が正しく健康状態を見抜いたことを示しています。不要な心配や治療を避けることができ、安心感を得られるでしょう。

このように、真陽性と真陰性は、道具がどれほど正確に物事を見分けられるかを示す指標です。真陽性と真陰性の割合が高ければ高いほど、その道具は信頼性が高いと言えます。例えば、病気の検査で真陽性と真陰性の割合が高ければ、その検査は正確に病気の有無を判断できると言えるでしょう。反対に、これらの割合が低ければ、検査結果の信頼性は低くなり、再検査が必要となる場合もあります。

真陽性と真陰性を理解することで、私たちは道具の性能を正しく評価し、より効果的に活用することができます。これは、医療診断や品質管理など、様々な分野で重要な役割を担っています。

道具の判断	真実	結果	意味
ある	ある	真陽性	道具が正しく「ある」と判断
ない	ない	真陰性	道具が正しく「ない」と判断

偽陽性と偽陰性

病気の診断のように、ある事柄について「陽性」か「陰性」かを判断する場面を考えてみましょう。この判断を機械学習モデルに任せる場合、モデルの予測が必ずしも正しいとは限りません。予測と実際の結果が食い違う場合、「偽陽性」と「偽陰性」という二つの種類があります。

まず、「偽陽性」とは、モデルが「陽性」だと判断したにもかかわらず、実際には「陰性」であった場合です。例えば、健康診断で、モデルが「病気あり」と診断したにもかかわらず、実際には健康だったという場合です。これは、無罪の人を有罪だと誤って判断するようなものです。無駄な検査や治療を行うことになり、精神的な負担もかかります。

次に、「偽陰性」とは、モデルが「陰性」だと判断したにもかかわらず、実際には「陽性」であった場合です。健康診断の例では、モデルが「健康」と診断したにもかかわらず、実際には病気が隠れていたという場合です。これは、有罪の人を無罪だと誤って判断するようなものです。病気の発見が遅れ、適切な治療の開始が遅れる可能性があり、深刻な結果につながる恐れがあります。

このように、偽陽性と偽陰性はどちらも望ましくない結果をもたらします。どちらの誤りがより深刻かは、状況によって異なります。病気の診断の場合、偽陰性は命に関わる可能性があるため、偽陽性よりも深刻な問題と言えるでしょう。このようなモデルの誤りを評価するために、混同行列という表を用いて、モデルがどれくらい正確に陽性と陰性を判断できているかを分析します。そして、その結果を基に、モデルの改良を行い、より正確な予測ができるように努めます。

予測結果	実際の状態	結果	例(健康診断)	例(裁判)	深刻度(病気の場合)
陽性	陰性	偽陽性	実際は健康なのに、病気と診断	無罪なのに有罪と判断	無駄な検査や治療、精神的負担
陰性	陽性	偽陰性	実際は病気なのに、健康と診断	有罪なのに無罪と判断	発見・治療の遅延、深刻な結果

指標の活用方法

機械学習モデルの良し悪しを測るには、様々な指標を組み合わせて使うことが大切です。混同行列から得られる真陽性、偽陽性、真陰性、偽陰性という四つの基本的な値は、様々な評価指標の土台となります。代表的な指標として、精度、再現率、F値などを紹介します。

精度は、陽性と判断したデータの中で、実際に陽性だったデータの割合を示します。例えば、100個のデータの中で、20個を陽性と予測し、そのうち15個が実際に陽性だった場合、精度は75%となります。精度は、陽性と予測したもののうち、どれだけが正しかったかを示す指標と言えます。

再現率は、実際に陽性であるデータの中で、モデルが陽性と予測できた割合です。先ほどの例で言えば、実際に陽性のデータが全体で20個存在し、そのうち15個を陽性と予測できた場合、再現率は75%です。再現率は、見つけるべき陽性データのうち、どれだけの割合を正しく見つけられたかを示す指標です。

F値は、精度と再現率の調和平均です。精度と再現率はトレードオフの関係にあることが多く、どちらか一方だけを高くしようとすると、もう一方が低くなってしまう傾向があります。そこで、F値を用いることで、精度と再現率のバランスを見て、モデルを評価することができます。

これらの指標をうまく組み合わせることで、モデルの性能を様々な角度から見極め、目的に合ったモデルを選ぶことができます。例えば、病気の診断では、実際には病気なのに健康と判断してしまう、つまり偽陰性を極力減らすことが重要です。このようなケースでは、再現率を重視してモデルを選ぶ必要があるでしょう。このように、混同行列とそこから算出される指標を活用することで、単なる正答率だけでなく、より詳しい分析が可能になります。

指標	説明	計算方法	例
精度	陽性と判断したデータの中で、実際に陽性だったデータの割合	陽性と予測し実際に陽性だった数 / 陽性と予測した数	予測陽性20個中15個正解 → 75%
再現率	実際に陽性であるデータの中で、モデルが陽性と予測できた割合	陽性と予測し実際に陽性だった数 / 実際に陽性だった数	実際陽性20個中15個正解 → 75%
F値	精度と再現率の調和平均	2 * 精度 * 再現率 / (精度 + 再現率)	–

まとめ

分類の正誤を組み合わせた表である混同行列は、機械学習モデルの性能評価において欠かせない道具です。この表は、実際の値とモデルが予測した値を比較することで、モデルの得意不得意を明らかにするのに役立ちます。混同行列の中核をなすのは「真陽性」「偽陽性」「真陰性」「偽陰性」の四つの指標です。

まず、「真陽性」とは、実際に陽性であるものを正しく陽性と予測できた場合を指します。次に、「偽陽性」は、実際は陰性なのに誤って陽性と予測してしまった場合です。反対に、「真陰性」は、実際に陰性であるものを正しく陰性と予測できた場合を指し、「偽陰性」は、実際は陽性なのに誤って陰性と予測してしまった場合です。

これらの四つの指標を組み合わせることで、様々な評価指標を算出できます。例えば、全体の予測のうち、正しく予測できた割合を示す「正確度」や、実際に陽性であるものの中で正しく陽性と予測できた割合を示す「再現率」、陽性と予測したもののうち、実際に陽性であった割合を示す「適合率」などがあります。これらの指標を比較検討することで、モデルの全体的な性能だけでなく、どのような誤りを犯しやすいのかといった具体的な特徴を把握することが可能になります。

例えば、ある病気の診断モデルを評価する場合、偽陰性を最小限に抑えることが重要になります。なぜなら、病気を見逃してしまうと、適切な治療が遅れ、患者の健康に深刻な影響を与える可能性があるからです。一方、スパムメールのフィルターでは、偽陽性を低く抑えることが重要になります。重要なメールをスパムと誤って分類してしまうと、大切な情報を見逃してしまう可能性があるからです。このように、評価指標のどれを重視するかは、解決しようとする問題によって異なります。

混同行列は、単なるモデル評価のツールにとどまらず、事業における意思決定を支える重要な情報源でもあります。新商品の売れ行き予測や顧客の行動分析など、様々な場面で活用されています。混同行列を正しく理解し、活用することで、より確度の高い予測と、より効果的な意思決定を行うことができるようになります。

指標	説明
真陽性(TP)	実際に陽性であるものを正しく陽性と予測できた場合
偽陽性(FP)	実際は陰性なのに誤って陽性と予測してしまった場合
真陰性(TN)	実際に陰性であるものを正しく陰性と予測できた場合
偽陰性(FN)	実際は陽性なのに誤って陰性と予測してしまった場合
正確度	全体の予測のうち、正しく予測できた割合
再現率	実際に陽性であるものの中で正しく陽性と予測できた割合
適合率	陽性と予測したもののうち、実際に陽性であった割合