アルゴリズム 再現率:機械学習の精度を測る
「再現率」とは、機械学習の出来栄えを測る物差しの一つで、見つけ出すべきものを見つける能力を表す数値です。たとえば、病気の人を診断する機械があるとします。実際に病気の人がいる中で、機械が正しく病気だと判断できた人の割合が再現率です。言い換えると、本当に病気の人を見落とさずに、どれだけ捉えられているかを示す大切な数値です。
この数値は、0から1までの間の値で表され、1に近いほど性能が良いとされます。理想的には1、つまり100%を目指しますが、現実的には他の要素との兼ね合いも考える必要があるため、必ずしも100%を目指すことが最良とは限りません。たとえば、病気ではない人を誤って病気と診断してしまう可能性も考慮に入れる必要があります。
再現率が高いほど、見落としは少なくなりますが、その分、本来は病気ではない人を病気と診断する可能性も高まることがあるのです。これは、魚を捕る網の目を大きくする様子に似ています。網の目を大きくすれば多くの魚を捕まえられますが、同時に小さな魚も逃してしまいます。逆に、網の目を小さくすれば小さな魚も捕まえられますが、大きな魚は網にかかりません。つまり、状況に応じて適切な網の目、つまり適切な再現率を設定する必要があるのです。
具体的な例として、迷惑メールの判別を考えてみましょう。再現率の高い判別機は、ほとんどの迷惑メールを正しく迷惑メールと判断できます。しかし、普通のメールを迷惑メールと誤って判断する可能性も高くなります。逆に、再現率の低い判別機は、普通のメールを誤って迷惑メールと判断する可能性は低くなりますが、多くの迷惑メールを見逃してしまう可能性があります。このように、再現率は、他の要素とのバランスを考えながら調整する必要がある大切な指標です。
