アルゴリズム 画像認識の革新:Vision Transformer
近年、図解を解釈する技術は目覚ましい進歩を遂げています。これまで、図解解釈の中心的な役割を担ってきたのは、畳み込みニューラルネットワークと呼ばれる手法でした。この手法は、図解の限られた範囲の特徴を捉えることに長けており、多くの図解解釈の作業で高い正確さを実現してきました。しかし、この手法には、視野が狭いという欠点がありました。図解全体の繋がりを理解するには、広い視野が必要となります。この課題を解決するために、様々な工夫が凝らされてきましたが、抜本的な解決策には至りませんでした。2020年にグーグルが発表した視覚変換機(Vision Transformer)は、この状況を大きく変える可能性を秘めた、画期的な図解解釈の模型です。視覚変換機は、文字列の解釈の分野で成功を収めた変換機の模型を図解解釈に応用したもので、畳み込みニューラルネットワークを使うことなく、従来の手法に基づく模型に匹敵する、あるいはそれを超える正確さを達成しました。視覚変換機の登場は、図解解釈の分野に新しい風を吹き込み、今後の発展に大きな影響を与えるものと期待されています。視覚変換機は図解全体の繋がりを捉える能力に優れており、従来の手法が苦手としていた作業でも高い性能を発揮します。例えば、図解の中に描かれた物体の位置関係を理解する作業や、図解全体の意味を理解する作業などです。視覚変換機は、図解を断片と呼ばれる小さな領域に分割し、それぞれの断片を埋め込みベクトルに変換します。これらの埋め込みベクトルは、変換機の符号化器に入力され、自己注意機構によって処理されます。自己注意機構は、各断片間の関係性を捉えることで、図解全体の繋がりを理解することを可能にします。これは、従来の手法では難しかった、図解の全体像を把握する能力を飛躍的に向上させたと言えるでしょう。
