トークンとは?意味・仕組み・活用例をわかりやすく解説

トークンとは?AIが言葉を扱うための単位をわかりやすく解説

AIの初心者

「トークン」って何ですか?AIの記事やChatGPTの説明でよく見かけます。

AI専門家

トークンは、文章をAIやコンピュータが扱いやすいように分けた小さな単位のことだよ。単語だけでなく、助詞、記号、単語の一部がトークンになることもあるんだ。

AIの初心者

つまり、文章をそのまま読むのではなく、細かい部品に分けてから処理するということですか?

AI専門家

その通り。AIはトークンを手がかりにして、文章の意味を捉えたり、翻訳したり、新しい文章を生成したりする。だからトークンは、自然言語処理を理解するための基本になるんだ。

トークンとは。

AIや自然言語処理で使われる「トークン」は、文章を機械で扱うために区切った言葉の単位です。文字数や単語数と似て見えますが、実際の分け方はモデルや目的によって変わります。

はじめに:トークンはAIが文章を読むための単位

文章が小さなトークンに分かれる概念図

AIの学習やChatGPTのような大規模言語モデルの説明では、「トークン」という言葉がよく登場します。トークンとは、ひとことで言えば文章をコンピュータが処理しやすい粒度に分けた単位です。

人間は「今日は良い天気ですね。」という文を見れば、自然に意味を読み取れます。しかしコンピュータは、文章をそのまま感覚的に理解しているわけではありません。まず文章を小さな単位に分け、その単位を数値に変換し、モデルの中で計算できる形にします。この最初の区切りとして使われるのがトークンです。

たとえば「今日は良い天気ですね。」は、「今日」「は」「良い」「天気」「です」「ね」「。」のように分けられます。この一つひとつがトークンとして扱われる場合があります。句点の「。」も文の終わりを示す大切な情報なので、単なる飾りではなく処理対象になります。

トークンとは何か

日本語文がトークンへ分割される説明図

トークンは、文章を分析したり生成したりするための最小単位です。ただし「最小」といっても、常に1文字になるわけではありません。単語、助詞、句読点、記号、単語の一部など、処理の目的に合ったまとまりがトークンになります。

「私は猫が好きです。」という文なら、「私」「は」「猫」「が」「好き」「です」「。」のように分けられます。「私」や「猫」は意味を持つ語ですが、「は」や「が」のような助詞も文の関係を示す重要な要素です。AIが文の構造を理解するには、こうした小さな役割語も無視できません。

自然言語処理では、トークンに分ける処理を「トークン化」と呼びます。トークン化された単位は、その後に数値へ変換され、機械翻訳、要約、検索、文章生成などの処理へ渡されます。つまりトークンは、人間の言葉と機械の計算をつなぐ入口にあたります。

トークンは単語とどう違うのか

単語、形態素、サブワードの粒度比較

トークンを理解するときに注意したいのは、トークンと単語は必ずしも同じではないという点です。英語のように空白で単語が分かれている言語では、トークンが単語に近く見えることがあります。しかし日本語では単語の境目が空白で示されないため、分割には別の判断が必要です。

たとえば「食べられる」は、場面によって「食べ」「られる」のように分けられます。「食べ」は動作の中心、「られる」は受け身や可能などの意味に関わる部分です。このように、単語をさらに細かい意味の単位に分けると、活用や表現の違いを扱いやすくなります。

一方で、大規模言語モデルでは「サブワード」と呼ばれる単語より細かい単位が使われることもあります。未知の単語や珍しい表記でも処理しやすくするためです。たとえば長い専門用語を、意味や出現頻度に応じて複数の部分に分けることがあります。

単位 考え方
単語 辞書に載るようなまとまりで区切る 空、青い、猫
形態素 意味や文法上の役割を持つ最小単位で区切る 食べ、られる、ます
サブワード モデルが扱いやすい頻度や文字列のまとまりで区切る 長い語を複数の部分に分ける
記号・句読点 文の区切りや意味を示す要素として扱う 。、!、?

トークン化の仕組みと日本語での難しさ

トークン化は、文章をただ機械的に切るだけの作業ではありません。英語なら空白を手がかりにしやすい一方、日本語は「私は猫が好きです」のように語と語の間に空白がありません。そのため、日本語では文の中から意味のある区切りを推定する必要があります。

このように日本語の文章を単語や意味の単位に分ける処理は「分かち書き」と呼ばれます。また、単語をさらに細かく分析して品詞や活用を見分ける処理は「形態素解析」と呼ばれます。たとえば「読み書き」を「読み」「書き」に分けると、複合語の中にある複数の動作を扱いやすくなります。

ただし、どの分け方が正解かは一つに決まりません。「東京都」を「東京都」と一つのまとまりで扱う場合もあれば、「東京」「都」に分ける場合もあります。地名として検索したいのか、行政区分を分析したいのかによって、適切な粒度は変わります。

さらに、LLMで使われるトークナイザーはモデルごとに異なります。同じ文章でも、あるモデルでは少ないトークン数になり、別のモデルでは多くなることがあります。正確なトークン数が必要なときは、対象モデルに対応したトークンカウントツールで確認するのが確実です。

トークンが使われる場面

トークンが翻訳や要約や検索に使われる流れ

トークンは、自然言語処理のさまざまな場面で使われています。代表的なのは機械翻訳です。翻訳システムは元の文をトークンに分け、それぞれの関係を見ながら別の言語の表現へ変換します。英語の「I have a pen.」を処理するときも、「I」「have」「a」「pen」「.」のような単位が意味理解の手がかりになります。

文章要約でもトークンは重要です。長い文章を短くまとめるには、どのトークンが中心的な意味を担っているか、どの部分が補足情報なのかを見分ける必要があります。ニュース記事の要約や報告書の概要作成では、この判断が要約の品質に影響します。

検索エンジンでも、入力された検索語はトークンに分けられます。検索キーワードと文書内のトークンを照合することで、関連するページを探しやすくなります。チャットボットや音声認識、文章生成でも、トークンは言葉を機械で扱うための共通した土台として使われます。

活用場面 トークンの役割
機械翻訳 原文の構造を分け、訳文の単位へ対応づける
文章要約 重要な語句や文脈を見つけ、短い文章にまとめる
検索 検索語と文書内の語句を照合しやすくする
チャットボット 入力文を理解し、回答文を生成する材料にする
音声認識 音から推定した言葉を、処理しやすい単位で扱う

LLMでトークン数が重要になる理由

LLMの入力と出力でトークン数が管理されるイメージ

ChatGPTのようなLLMでは、トークン数が特に重要です。LLMは入力された文章をトークンに変換し、その続きとしてもっとも自然なトークン列を予測しながら文章を生成します。そのため、入力も出力もトークン単位で扱われます。

トークン数は、主に三つの場面で影響します。第一に、モデルが一度に扱える文脈の長さです。長い記事、議事録、仕様書などを入力すると、上限を超えた部分は扱えなかったり、要約が必要になったりします。第二に、出力できる文章量です。回答が途中で止まる場合、出力上限に近づいている可能性があります。第三に、API利用時の料金です。多くのサービスでは、入力トークンと出力トークンの量に応じて費用が決まります。

ここで大切なのは、トークン数は文字数と同じではないという点です。日本語の短い文章でも、モデルのトークナイザーによっては想像より多いトークン数になることがあります。反対に、よく使われる語やまとまりは少ないトークンで表される場合もあります。

トークンを学ぶときの注意点

初心者がつまずきやすいのは、「トークン=単語」と固定して考えてしまうことです。単語に近い場合もありますが、助詞、記号、単語の一部、複数語のまとまりがトークンになることもあります。したがって、トークンは「モデルや処理が文章を扱うための区切り」と考えるほうが正確です。

また、トークン化の結果は目的によって変わります。検索では検索語と文書の一致を見つけやすい分け方が重要です。翻訳では文法や意味の関係を捉える分け方が重要です。LLMでは、学習時に使われたトークナイザーとの整合性が重要になります。

実務でトークン数を気にする場面では、概算だけで判断しないことも大切です。長文をAIに入力する、API費用を見積もる、プロンプトを短くする、といった作業では、対象モデルのトークンカウンターで確認すると失敗を減らせます。

まとめ

トークンとは、文章をコンピュータやAIが処理しやすいように分けた言葉の単位です。単語だけでなく、助詞、句読点、記号、単語の一部もトークンとして扱われます。

自然言語処理では、文章をトークンに分けてから数値化し、翻訳、要約、検索、文章生成、チャットボットなどに利用します。日本語は空白で単語が区切られないため、分かち書きや形態素解析の考え方も重要になります。

LLMでは、トークン数が入力できる長さ、出力できる量、API費用に関わります。文字数や単語数と完全には一致しないため、正確な数が必要な場合は対象モデルのトークナイザーで確認しましょう。トークンを理解すると、AIがどのように言葉を読み、考え、文章を作っているのかを追いやすくなります。

更新履歴

日付 内容
2025年2月1日 初回公開
2026年5月24日 単語との違いとLLMでの数え方を本文に追加