フォルマント周波数とは?声の音色を決める共鳴の仕組み

フォルマント周波数とは?声の音色を決める共鳴のピーク

AIの初心者

先生、「フォルマント周波数」って何ですか?音の高さとは違うんですか?

AI専門家

フォルマント周波数は、声や楽器の音の中で特に強く響く周波数帯のことだよ。音の高さを表すピッチとは別で、「あ」と「い」の違い、声の明るさ、楽器らしい音色などを聞き分ける手がかりになるんだ。

AIの初心者

同じ高さで話しても、母音が違って聞こえる理由と関係がありますか?

AI専門家

その通り。口の開き方、舌の位置、唇の形が変わると、声道で強調される周波数が変わる。AIの音声認識や音声合成でも、このような音響的な特徴は重要な手がかりになるよ。

フォルマント周波数とは

フォルマント周波数とは、声道や楽器の共鳴によって、音の中で特に強く現れる周波数帯のことです。人の声では、声帯が作った音が口や喉の空間を通る間に、特定の周波数が強調されます。この強調された周波数のピークがフォルマントで、低いほうから第一フォルマント、第二フォルマント、第三フォルマントのように呼ばれます。

声道の形によって特定の周波数が強調されるフォルマント周波数のイメージ

フォルマント周波数の基本

音には、1つの周波数だけでなく、さまざまな周波数成分が含まれています。人の声も同じです。声帯の振動によって音のもとが作られ、その音が喉、舌、口腔、唇などで形作られる声道を通ることで、特定の周波数が強く響きます。

このとき、スペクトル上で山のように盛り上がる部分がフォルマントです。フォルマント周波数は、その山がどの周波数にあるかを表します。つまり、フォルマント周波数は音の高さそのものではなく、音色や母音らしさを決める共鳴の位置です。

たとえば、同じ高さで「あ」と「い」を発声しても、聞こえる母音は変わります。これは声帯の振動数だけでなく、口の形や舌の位置によって強調される周波数が変わるためです。私たちは、その違いを手がかりに母音や話し手の声質を聞き分けています。

用語 意味
フォルマント 音のスペクトルの中で、共鳴によって強く現れるピーク。
フォルマント周波数 フォルマントのピークが現れる周波数。
声道 声帯から唇までの音の通り道。口や舌の形で共鳴が変わる。
ピッチ 声の高さとして感じられる成分。主に声帯の振動の速さに関係する。

ピッチとフォルマントの違い

フォルマント周波数を理解するときに混同しやすいのが、ピッチとの違いです。ピッチは、声の高さとして感じられる特徴です。低い声、高い声という印象は、主に声帯の振動の基本周波数に関係します。

一方、フォルマントは、声道の共鳴によってどの周波数帯が強調されるかを表します。声帯が同じ高さの音を出していても、口の開き方や舌の位置が変われば、フォルマントの位置は変わります。その結果、同じピッチでも「あ」「い」「う」「え」「お」のように違う母音として聞こえます。

楽器でも似たことが起こります。同じ音階の音をフルートとバイオリンで鳴らすと、高さは同じでも音色は違って聞こえます。これは、楽器ごとの構造や共鳴の違いによって、強調される周波数成分が異なるためです。

観点 ピッチ フォルマント
主な役割 声や音の高さを決める。 母音、音色、声質の違いを決める。
人の声での要因 声帯の振動の速さ。 口、舌、喉、唇による声道の形。
低い声、高い声。 同じ高さでも「あ」と「い」が違って聞こえる。

母音ごとに第一フォルマントと第二フォルマントのピークが異なるイメージ

第一フォルマントと第二フォルマント

フォルマントは、低い周波数側から順に、第一フォルマント、第二フォルマント、第三フォルマントと呼ばれます。母音の聞き分けでは、特に第一フォルマントと第二フォルマントが重要です。

第一フォルマントは、口の開き具合と関係が深い特徴です。一般に、口を大きく開く母音では第一フォルマントが高くなり、口の開きが小さい母音では低くなります。たとえば「あ」は口を開くため第一フォルマントが高めになり、「い」や「う」は低めになりやすい傾向があります。

第二フォルマントは、舌の前後位置と関係します。舌が前にある「い」のような母音では第二フォルマントが高く、舌が後ろにある「う」や「お」では低くなりやすい傾向があります。母音は、第一フォルマントと第二フォルマントの組み合わせによって大まかな位置を整理できます。

種類 主な関係 母音理解での見方
第一フォルマント 口の開き具合と関係しやすい。 口を大きく開く母音ほど高くなりやすい。
第二フォルマント 舌の前後位置と関係しやすい。 舌が前にある母音ほど高くなりやすい。
第三フォルマント以降 声質、話者性、細かな音色に関係する。 母音以外の音響特徴や声の個性の分析にも使われる。

なぜ音声AIで重要なのか

音声認識では、マイクに入った音声をそのまま文字に変換しているわけではありません。音声を短い時間ごとに区切り、周波数成分の変化を分析し、母音や子音、単語の候補を推定します。フォルマントのような共鳴の特徴は、音声の構造を理解するうえで基本的な手がかりです。

現在の音声認識では、ニューラルネットワークがメルスペクトログラムなどの特徴量から複雑なパターンを学習することが多くなっています。それでも、フォルマントの考え方を知っていると、なぜ母音が区別できるのか、なぜ録音環境や発音の違いで認識結果が変わるのかを理解しやすくなります。

音声合成でも、フォルマントは重要です。自然な声を作るには、単に高さや音量を調整するだけでは足りません。母音らしさ、声の明るさ、こもり具合、話者らしさを再現するには、周波数成分のバランスを適切に整える必要があります。

音声をスペクトルとして分析しAIで認識や合成に活用するイメージ

分野 フォルマント周波数との関係
音声認識 母音や発音の違いを捉えるための音響的な手がかりになる。
音声合成 自然な母音、声質、明瞭さを作るための調整に関係する。
話者分析 声道の特徴や発声の癖を分析する材料になる。
音楽・歌声 声の響き、歌唱法、楽器の音色の違いを理解する手がかりになる。

フォルマント周波数を見るときの注意点

フォルマント周波数は便利な概念ですが、実際の音声は単純ではありません。同じ母音でも、話す人、声の高さ、発話速度、録音環境、前後の音によってスペクトルは変わります。そのため、フォルマントだけを見れば必ず正確に音が判定できる、というものではありません。

また、声の高さが変わると、スペクトルの見え方も変わります。特に高い声では、倍音の間隔が広くなるため、フォルマントのピークを読み取りにくい場合があります。音声分析では、波形、スペクトログラム、メル周波数ケプストラム係数、ニューラルネットワークの特徴抽出など、複数の方法を組み合わせて判断します。

それでも、フォルマント周波数は、音声の基礎を理解するうえで非常に重要です。声の高さと音色を分けて考えられるようになると、音声認識、音声合成、歌声分析、楽器音の理解がぐっと整理しやすくなります。

まとめ

フォルマント周波数とは、声道や楽器の共鳴によって、音の中で特に強く現れる周波数のピークです。声の高さを表すピッチとは異なり、母音の違い、音色、声質を聞き分けるための重要な特徴です。

人の声では、口の開き方、舌の位置、唇の形によって声道の共鳴が変わります。その結果、第一フォルマントや第二フォルマントの位置が変わり、「あ」「い」「う」「え」「お」のような母音の違いとして聞こえます。

AIの音声認識や音声合成では、音声を周波数成分として分析し、発音や声質のパターンを扱います。フォルマント周波数を理解すると、音声AIがなぜ人の声を区別できるのか、また自然な合成音声を作るには何が必要なのかを考えやすくなります。

更新履歴

2026年4月26日:記事全体をリライトし、フォルマント周波数の定義、ピッチとの違い、第一・第二フォルマント、音声AIでの活用を整理しました。説明用画像を3点追加しました。