学習 局所表現:言葉のベクトル表現
計算機は、数を扱うことが得意です。しかし、言葉のような記号を直接理解することはできません。そこで、言葉を計算機が理解できる数に変換する必要があります。この変換方法の一つが、局所表現と呼ばれる手法です。局所表現では、単語一つ一つに固有の番号を割り当てます。そして、その番号に対応する場所に1を、それ以外の場所に0を配置したベクトルを作成します。これをワンホットベクトルと呼びます。
例として、「りんご」「みかん」「ぶどう」の三つの言葉を考えてみましょう。「りんご」には1番、「みかん」には2番、「ぶどう」には3番を割り当てます。すると、「りんご」を表すベクトルは、1番目の要素が1、それ以外の要素が0となります。具体的には、(1,0,0)のようなベクトルになります。同様に、「みかん」は2番目の要素が1、つまり(0,1,0)というベクトルで表されます。「ぶどう」は3番目の要素が1、つまり(0,0,1)というベクトルで表されます。このように、各単語は独立したベクトルで表現されます。
この局所表現には、単語間の関係性が全く考慮されていないという特徴があります。「りんご」と「みかん」はどちらも果物ですが、ベクトル上では全く関連性がないものとして扱われます。例えば、「りんご」と「みかん」のベクトルの内積を計算すると0になります。これは、「りんご」と「みかん」のベクトルが直交していることを意味し、数学的には類似性が全くないことを示しています。また、語彙が増えるごとにベクトルの次元数が増加するため、計算量が増大するという問題点もあります。これらの問題点を解決するために、分散表現と呼ばれる別の表現方法が用いられることもあります。
