アルゴリズム 画像認識の立役者:VGG徹底解説
視覚幾何学集団(VGG)とは、英国オックスフォード大学の視覚幾何学集団が開発した、画像の中のものを判別する技術です。この技術は、2014年に行われた画像判別競技会で素晴らしい成果を上げ、その後の画像判別技術の進歩に大きく貢献しました。
VGGの優れている点は、画像の特徴を掴み取る部分を何層にも重ねた構造にあります。この掴み取る部分は畳み込み層と呼ばれ、層を重ねるほど、複雑な特徴を捉えることができます。VGGは、この畳み込み層の作り方に工夫を凝らし、高い正解率を実現しました。
具体的には、3×3という小さな枠を複数重ねることで、広い範囲の特徴を捉えることを可能にしました。ちょうど、虫眼鏡で一部分を見るだけでなく、全体を少しずつずらしながら見ていくことで、より多くの情報を得られるようなものです。また、たくさんの情報の中から重要な情報だけを選び出す作業、すなわち間引きと呼ばれる処理を行うことで、計算の負担を軽くしながらも、大事な特徴は残すことに成功しました。これは、たくさんの本の中から重要な部分だけを抜き出して要約を作るような作業に例えることができます。
VGG以前は、畳み込み層で使う枠の大きさは様々でしたが、VGGは小さな3×3の枠を使うことで、層を深くすることができ、より複雑な特徴を捉えることができるようになりました。また、間引き処理を効果的に行うことで、計算の負担を軽減しながらも、高い正解率を維持することができました。これらの工夫により、VGGは画像判別の分野に大きな進歩をもたらし、その後の画像判別技術の基礎となりました。現在、私たちがスマートフォンなどで手軽に画像判別を利用できるのも、VGGの技術が発展してきたおかげと言えるでしょう。
