アルゴリズム 予測精度を測る指標たち
機械学習の良し悪しを測るには、目的に合った方法を選ぶことが大切です。様々な測り方がありますが、二つの選択肢から一つを選ぶ問題では、正しさの割合、的中率、網羅率、そしてこれらのバランスを示すF値がよく使われます。これらの測り方は、それぞれ違う角度から良し悪しを見て、全体像をつかむのに役立ちます。
例えば、病気かどうかを見分ける仕組みを評価する場合を考えてみましょう。全体の予測がどれだけ合っているかだけでなく、実際に病気の人を正しく病気と判断できているか、健康な人を誤って病気と判断していないかなど、色々な視点からの評価が必要です。こうした場合、これらの測り方を組み合わせて使うことで、多角的な評価ができます。
正しさの割合は、全体の予測のうち、どれだけ正解していたかを示す単純な指標です。しかし、データの偏りがある場合、この指標だけでは不十分なことがあります。例えば、ある病気の患者が非常に少ない場合、全て健康と予測しても高い正答率が出てしまう可能性があります。
的中率は、病気と予測した人の中で、実際に病気だった人の割合を示します。これは、病気と予測した結果の信頼性を評価する際に役立ちます。一方、網羅率は、実際に病気の人の中で、どれだけ正しく病気と予測できたかの割合です。これは、見落としを少なくしたい場合に重要な指標となります。
F値は、的中率と網羅率の調和平均で、両者のバランスを重視する場合に用いられます。病気の診断のように、見落としも誤診も避けたい場合には、F値が有用な指標となります。このように、それぞれの測り方が何を示し、どのように使い分けるべきかを理解することで、機械学習の仕組みをより適切に評価し、改善につなげることができます。
