LLM 局所表現:言葉のベクトル化
私たちは、日々の暮らしの中で、様々な手段を使って気持ちを伝え合っています。話す言葉だけでなく、身振り手振りや表情、文字なども使います。コンピュータも私たちと同じように言葉を扱うためには、言葉を数字に変換し、矢印のようなもの(ベクトル)で表す必要があります。なぜなら、コンピュータは数字を使って計算や処理を行うからです。
言葉をベクトルで表す方法はたくさんありますが、その中でも基本的な方法の一つに局所表現というものがあります。局所表現は、ある言葉が現れた時、その言葉の前後にある言葉との関係性に着目します。例えば、「読書が好きです」という文では、「読書」という言葉の前後に「好き」という言葉があることで、「読書」の意味をある程度理解することができます。このように、周りの言葉との関係性から、その言葉が持つ意味を捉えるのが局所表現です。
局所表現は、一つ一つの言葉に番号を付け、その番号を使ってベクトルを作るという簡単な方法です。例えば、「私は本を読むのが好きです」という文と「私は映画を見るのが好きです」という文があるとします。「本」と「映画」という言葉は違いますが、同じように「読む」や「見る」といった言葉と一緒に使われます。局所表現では、このような言葉の使われ方の共通点を捉えて、似た意味を持つ言葉は似たようなベクトルで表現されます。
しかし、局所表現だけでは、言葉の細かい意味の違いや、文脈全体の意味を捉えることは難しいという欠点もあります。例えば、「明るい部屋」と「明るい未来」の「明るい」という言葉は、同じ言葉ですが、それぞれ異なる意味で使われています。局所表現では、このような文脈に依存した意味の違いをうまく表現できません。そこで、より高度な表現方法として、分散表現といった手法も開発されています。
