Recall

記事数:(2)

アルゴリズム

再現率:機械学習の精度を測る

「再現率」とは、機械学習の出来栄えを測る物差しの一つで、見つけ出すべきものを見つける能力を表す数値です。たとえば、病気の人を診断する機械があるとします。実際に病気の人がいる中で、機械が正しく病気だと判断できた人の割合が再現率です。言い換えると、本当に病気の人を見落とさずに、どれだけ捉えられているかを示す大切な数値です。 この数値は、0から1までの間の値で表され、1に近いほど性能が良いとされます。理想的には1、つまり100%を目指しますが、現実的には他の要素との兼ね合いも考える必要があるため、必ずしも100%を目指すことが最良とは限りません。たとえば、病気ではない人を誤って病気と診断してしまう可能性も考慮に入れる必要があります。 再現率が高いほど、見落としは少なくなりますが、その分、本来は病気ではない人を病気と診断する可能性も高まることがあるのです。これは、魚を捕る網の目を大きくする様子に似ています。網の目を大きくすれば多くの魚を捕まえられますが、同時に小さな魚も逃してしまいます。逆に、網の目を小さくすれば小さな魚も捕まえられますが、大きな魚は網にかかりません。つまり、状況に応じて適切な網の目、つまり適切な再現率を設定する必要があるのです。 具体的な例として、迷惑メールの判別を考えてみましょう。再現率の高い判別機は、ほとんどの迷惑メールを正しく迷惑メールと判断できます。しかし、普通のメールを迷惑メールと誤って判断する可能性も高くなります。逆に、再現率の低い判別機は、普通のメールを誤って迷惑メールと判断する可能性は低くなりますが、多くの迷惑メールを見逃してしまう可能性があります。このように、再現率は、他の要素とのバランスを考えながら調整する必要がある大切な指標です。
アルゴリズム

予測精度を測る指標たち

機械学習の良し悪しを測るには、目的に合った方法を選ぶことが大切です。様々な測り方がありますが、二つの選択肢から一つを選ぶ問題では、正しさの割合、的中率、網羅率、そしてこれらのバランスを示すF値がよく使われます。これらの測り方は、それぞれ違う角度から良し悪しを見て、全体像をつかむのに役立ちます。 例えば、病気かどうかを見分ける仕組みを評価する場合を考えてみましょう。全体の予測がどれだけ合っているかだけでなく、実際に病気の人を正しく病気と判断できているか、健康な人を誤って病気と判断していないかなど、色々な視点からの評価が必要です。こうした場合、これらの測り方を組み合わせて使うことで、多角的な評価ができます。 正しさの割合は、全体の予測のうち、どれだけ正解していたかを示す単純な指標です。しかし、データの偏りがある場合、この指標だけでは不十分なことがあります。例えば、ある病気の患者が非常に少ない場合、全て健康と予測しても高い正答率が出てしまう可能性があります。 的中率は、病気と予測した人の中で、実際に病気だった人の割合を示します。これは、病気と予測した結果の信頼性を評価する際に役立ちます。一方、網羅率は、実際に病気の人の中で、どれだけ正しく病気と予測できたかの割合です。これは、見落としを少なくしたい場合に重要な指標となります。 F値は、的中率と網羅率の調和平均で、両者のバランスを重視する場合に用いられます。病気の診断のように、見落としも誤診も避けたい場合には、F値が有用な指標となります。このように、それぞれの測り方が何を示し、どのように使い分けるべきかを理解することで、機械学習の仕組みをより適切に評価し、改善につなげることができます。