適合率:機械学習の精確さを知る

AIの初心者
先生、「AI」の用語で『Precision』(プレシジョン)ってよく聞くんですけど、どういう意味ですか?

AI専門家
そうだね。「Precision」は日本語で「適合率」と言うんだけれど、AIが「正しい」と判断したものの中で、実際にどれだけ正しかったのかを表す割合のことだよ。

AIの初心者
実際にどれだけ正しかったのか…? もう少し分かりやすく教えてもらえますか?

AI専門家
例えば、AIが10個のリンゴの中から赤いリンゴを5個選んで、「これが赤いリンゴだ」と判断したとする。でも、実際に赤いリンゴは3個だった場合、適合率は3/5 = 0.6になる。つまり、AIの判断の60%が正しかったということだね。この値は1に近づくほど良いとされていて、1.0に近いほどAIの判断は正確だと言えるんだよ。
Precisionとは。
人工知能の分野でよく使われる「精度」という用語について説明します。これは統計学や機械学習で使われ、正しく判別できた割合を表す数値です。この値は1.0に近づくほど、性能が良いことを示します。
適合率とは

適合率とは、機械学習のモデルが「正しい」と判断したものの中で、実際にどれだけが正しかったのかを示す割合のことです。これは、モデルの予測の確実性を評価する重要な指標の一つです。
例えば、猫の画像を見分けるように訓練された画像認識モデルを考えてみましょう。このモデルに100枚の画像を見せて、どれが猫か判断させたとします。その結果、モデルは100枚中80枚を猫だと判断しました。そして、その80枚のうち、実際に猫の画像だったのは60枚だったとします。この場合、適合率は60/80 = 0.75、つまり75%となります。
残りの20枚は、犬や鳥など、猫以外の何かを誤って猫だと判断したことを意味します。このように、適合率はモデルがどれくらい「的確」に判断できているかを示す指標です。高い適合率は、モデルが自信を持って「正しい」と判断したものが、実際に正しい可能性が高いことを示しています。
適合率は、理想的には1.0、つまり100%に近い値が望ましいです。100%の適合率は、モデルが「正しい」と判断したものが全て実際に正しいことを意味します。しかし、現実世界の複雑な問題を扱う機械学習では、100%の適合率を達成することは非常に困難です。データの不足やノイズ、モデルの複雑さなど、様々な要因が誤った判断につながる可能性があります。
適合率は、他の指標、例えば再現率と合わせて使われることがよくあります。再現率は、実際に正しいもの全体の中で、モデルがどれくらい正しく見つけられたかを表す指標です。これらの指標を組み合わせることで、モデルの性能をより多角的に評価することができます。例えば、高い適合率と低い再現率は、モデルが慎重に判断しているものの、多くの正しいものを見逃している可能性を示唆しています。目的に合わせて、適合率と再現率のバランスを調整することが重要です。
| 指標 | 説明 | 計算式 | 例 |
|---|---|---|---|
| 適合率 (Precision) | モデルが「正しい」と判断したものの中で、実際にどれだけが正しかったのかを示す割合 | 適合率 = (実際に正しいもの) / (モデルが正しいと判断したもの) | 100枚中80枚を猫と判断し、そのうち60枚が実際に猫だった場合、適合率は60/80 = 75% |
適合率の計算方法

適合率とは、機械学習モデルが「正しい」と判断したものの中で、実際にどれだけが正しかったのかを示す指標です。
たとえば、たくさんの写真の中から猫の写真を選び出すように指示したとします。このとき、モデルが猫と判断した写真の中に、本当に猫が写っている写真の割合が適合率です。
適合率は、次の式で計算します。
適合率 = 真陽性 ÷ (真陽性 + 偽陽性)
ここで、「真陽性」とは、実際に猫の写真で、モデルも猫と正しく判断できた写真の枚数です。「偽陽性」とは、実際には猫ではない写真なのに、モデルが誤って猫と判断した写真の枚数です。
具体的な例で考えてみましょう。100枚の写真の中から、モデルが猫の写真を20枚選び出したとします。この20枚のうち、実際に猫の写真は15枚でした。残りの5枚は犬や鳥など、猫以外のものが写っていました。この場合、真陽性は15、偽陽性は5です。
適合率は 15 ÷ (15 + 5) = 0.75 となります。つまり、モデルが猫と判断した写真のうち、75%が実際に猫の写真だったということです。
この式からわかるように、偽陽性、つまり誤った判断の数が増えると、分母が大きくなり、適合率は下がります。反対に、真陽性の数が増えても、偽陽性の数が少なければ、高い適合率を維持できます。つまり、本当に猫の写真を多く見つけられたとしても、同時に猫ではないものも猫と判断してしまうと、適合率は低くなってしまうのです。
適合率は、モデルの信頼性を評価する重要な指標の一つです。高い適合率は、モデルが正確な判断をしていることを示しています。猫の写真を選び出すだけでなく、病気の診断や商品の推薦など、様々な場面で適合率は利用されています。
| 指標 | 説明 | 計算式 |
|---|---|---|
| 適合率 | 機械学習モデルが「正しい」と判断したものの中で、実際にどれだけが正しかったのかを示す指標 | 適合率 = 真陽性 ÷ (真陽性 + 偽陽性) |
| 真陽性 | 実際に猫の写真で、モデルも猫と正しく判断できた写真の枚数 | – |
| 偽陽性 | 実際には猫ではない写真なのに、モデルが誤って猫と判断した写真の枚数 | – |
| 写真枚数 | モデルが猫と判断した枚数 | 実際に猫の写真だった枚数 | 真陽性 | 偽陽性 | 適合率 |
|---|---|---|---|---|---|
| 100 | 20 | 15 | 15 | 5 | 0.75 |
適合率の重要性

機械学習の模型を評価する上で、模型がどれほど正確に目的のものを捉えているかを示す「適合率」は極めて重要です。特に、間違った陽性判定、つまり実際には該当しないものを該当すると判断してしまうことが大きな損害に繋がる状況では、高い適合率が求められます。
例えば、病気の診断を考えてみましょう。もし病気に罹患していない人を罹患していると誤診すれば、必要のない検査や治療が行われ、患者にとって肉体的にも精神的にも、そして経済的にも大きな負担となります。検査や治療に伴う苦痛や不安、費用などは計り知れません。また、スパムメールの判定も適合率が重要となる場面の一つです。重要なメールをスパムと誤って分類してしまうと、ビジネスチャンスの喪失や顧客との信頼関係の崩壊に繋がりかねません。取引先からの重要な連絡を見逃したり、顧客からの問い合わせに対応できなかったりするなど、取り返しのつかない事態を引き起こす可能性があります。
このように、適合率の重要性は、その模型が用いられる状況によって大きく異なります。医療診断のように人命に関わる状況では非常に高い適合率が求められますが、商品のおすすめ機能のように多少の誤判定が許容される状況では、必ずしも極端に高い適合率が必要とは限りません。重要なのは、それぞれの状況に応じて適切な適合率の値を設定し、模型の性能を評価することです。適合率だけに注目するのではなく、他の指標と組み合わせて総合的に判断することで、より効果的な模型の開発と運用が可能となります。状況に応じて、偽陽性を減らすことに重点を置くのか、それとも見逃しを減らす方に重点を置くのかを適切に判断する必要があります。そのためには、それぞれの状況における損失や利益を慎重に考慮する必要があります。つまり、適合率は単なる数字ではなく、その背後にある状況や影響を理解した上で評価すべき重要な指標なのです。
再現率との関係

機械学習モデルの性能を測る指標として、「適合率」と並んで重要なのが「再現率」です。この二つは、まるでシーソーのようにバランスを取りながら変動することがよくあります。片方を上げようとすると、もう片方が下がる、そんな関係性です。では、再現率とは一体どのような指標なのでしょうか。
再現率は、本来陽性であるもの全体の中で、モデルが正しく陽性と判定できたものの割合を表します。例えば、たくさんの猫の画像の中から、猫の画像を正しく選び出すタスクを考えてみましょう。この場合、実際に猫の画像であるもの全体を「本来陽性」とします。そして、モデルが「猫」と判断した画像のうち、実際に猫だった画像の数を、本来の猫画像全体の数で割った値が再現率になります。つまり、すべての猫画像のうち、どれだけの猫をモデルが見つけられたかを表す指標と言えるでしょう。
具体的な例を挙げると、100枚の猫の画像があるとします。モデルが猫と判断した画像は80枚で、そのうち実際に猫だったのは60枚だったとしましょう。この場合、再現率は60/100 = 0.6、つまり60%となります。残りの40枚の猫画像は、モデルが見つけられなかった、つまり「見逃し」となります。
適合率と再現率は、どちらか一方を高くしようとすると、もう一方が低くなる傾向があります。例えば、猫を見つけるモデルの感度を上げて、少しでも猫っぽいものを見つけ出すようにすると、猫ではないものを猫と誤って判断する可能性が高くなります。これは適合率の低下につながります。逆に、確実に猫だと判断できるものだけを猫と判断するようにすると、猫を見逃す可能性が増え、再現率が低下します。そのため、タスクの目的や性質に応じて、どちらの指標を重視するかを慎重に判断する必要があります。猫の画像検索のように、多少猫以外の画像が混ざっても多くの猫画像を見つけたい場合は再現率を重視し、医療診断のように誤診が許されない場合は適合率を重視するなど、状況に応じた使い分けが重要です。
| 指標 | 定義 | 例 | 特徴 |
|---|---|---|---|
| 再現率 | 本来陽性であるもの全体の中で、モデルが正しく陽性と判定できたものの割合 | 100枚の猫画像のうち、モデルが猫と判定した80枚のうち、実際に猫だった60枚。再現率 = 60/100 = 0.6 (60%) |
|
| 適合率 | モデルが陽性と判定したもの全体の中で、実際に陽性であるものの割合 | モデルが猫と判定した80枚のうち、実際に猫だった60枚。適合率 = 60/80 = 0.75 (75%) |
|
適合率の活用例

適合率は、様々な場面で活用されています。検索の分野を例に見てみましょう。インターネットで調べ物をするとき、検索窓にキーワードを入力すると、たくさんの結果が表示されますね。この時、表示された結果のうち、本当に自分が探している情報と合致するものの割合が、適合率です。例えば、100件の結果が表示され、そのうち20件が求めていた情報だった場合、適合率は20%となります。適合率が高いほど、無駄な情報に惑わされずに、必要な情報に素早くたどり着くことができます。
商品の推薦にも、適合率は役立っています。インターネット通販などで、「おすすめ商品」として表示される商品がありますね。このおすすめ商品の中で、実際にユーザーが購入した商品の割合が適合率です。例えば、10個の商品が推薦され、そのうち2個を購入した場合、適合率は20%です。適合率が高いほど、ユーザーの好みに合った商品を的確に推薦できていると言えるでしょう。
クレジットカードの不正利用を見つける場面でも、適合率は重要な役割を果たします。不正利用ではないかと疑われた取引のうち、実際に不正利用だった取引の割合が適合率です。例えば、不正利用の疑いがあるとされた10件の取引のうち、実際に不正利用だった取引が8件だった場合、適合率は80%となります。適合率が高いほど、本当に不正利用を見つける精度が高いことを示します。ただし、この場合、不正利用を見逃さないようにすることも大切です。つまり、不正利用の疑いがあると判断した中に、実際は不正利用ではない取引が含まれてしまう可能性も考慮する必要があるのです。このように、適合率は様々な分野で活用され、私たちがより便利で安全な生活を送る上で役立っています。
| 分野 | 例 | 適合率の計算 | 意味 |
|---|---|---|---|
| 検索 | 100件の結果のうち、20件が求めていた情報 | 20/100 = 20% | 求めていた情報に素早くたどり着ける割合 |
| 商品の推薦 | 10個のおすすめ商品のうち、2個を購入 | 2/10 = 20% | ユーザーの好みに合った商品を推薦できている割合 |
| クレジットカードの不正利用検知 | 不正利用の疑いがあるとされた10件のうち、8件が実際に不正利用 | 8/10 = 80% | 本当に不正利用を見つける精度 |
より良いモデルを目指して

機械学習の模型作りにおいて、目的に合った結果を正しく出す割合である適合率を高めることは、常に大切な目標です。より正確な模型を作るためには、様々な工夫が必要です。まず、模型の学習に使う情報の質を高めることが重要です。質の高い情報とは、正確で偏りがなく、目的に合った情報のことです。情報の量を増やすだけでなく、不要な情報を取り除いたり、情報の不足を補ったりすることで、模型の学習効果を高めることができます。次に、目的に合った計算方法を選ぶことも大切です。様々な計算方法があり、それぞれに得意な問題や不得意な問題があります。問題の種類や情報の性質に合わせて、最適な計算方法を選ぶ必要があります。また、計算方法の設定を細かく調整することも重要です。設定を調整することで、模型の性能を大きく左右することがあります。最適な設定を見つけるためには、何度も試し、結果を比較する必要があります。さらに、適合率だけでなく、見つけるべき結果をどの程度見つけられたかを示す再現率や、適合率と再現率を組み合わせたF値など、他の指標も合わせて考えることが重要です。これらの指標は、模型の性能を様々な角度から評価するのに役立ちます。適合率だけを重視すると、再現率が低くなるなど、バランスが悪くなることがあります。複数の指標をバランス良く高めることで、総合的に優れた模型を作ることができます。このように、情報の質、計算方法の選択と調整、そして複数の指標による評価。これらの要素を地道に改善していくことで、より信頼できて実際に役立つ機械学習の模型を作ることができるでしょう。
