MFCC

記事数:(2)

アルゴリズム

音声認識の鍵、メル周波数ケプストラム係数

近年、音声を使った技術が、広く使われるようになってきました。携帯電話での音声による検索や、家庭にある機器との会話は、今では当たり前の光景となっています。こうした技術を支えるのが、人の声を機械が理解できる形に変換する技術です。その変換処理で重要な役割を担うのが、メル周波数ケプストラム係数(略してエムエフシーシー)です。これは、音色の特徴を捉えるのに役立ちます。本稿では、このエムエフシーシーとは何か、音声認識でどのように役立っているのかを説明します。 まず、エムエフシーシーは、音の波形データから計算される数値列です。この数値列は、人間が音の高低をどのように感じるかという点に着目して作られています。人間の耳は、低い音よりも高い音に対して、音の高さの違いを敏感に感じ取ります。エムエフシーシーは、この人間の聴覚特性を考慮に入れて計算されます。具体的には、音声を周波数ごとに分解し、人間の聴覚特性に合わせてまとめた後、さらに処理を加えて得られます。 エムエフシーシーは、音声認識において、音声を特定の音(例えば、「あ」や「い」など)に分類するために利用されます。音声認識では、入力された音声がどの音に当たるのかを判断する必要があります。この時、エムエフシーシーは、音の特徴を捉えた数値列として用いられます。それぞれの音は異なるエムエフシーシーのパターンを持つため、入力された音声のエムエフシーシーと、あらかじめ登録されている各音のエムエフシーシーを比較することで、どの音に一番近いかを判断することができます。 このように、エムエフシーシーは、人間の音の感じ方を考慮した計算方法によって、音色の特徴を適切に捉え、音声認識において重要な役割を果たしています。音声認識技術の進化に伴い、エムエフシーシーの重要性はさらに増していくと考えられます。
アルゴリズム

音声認識の鍵、メル周波数ケプストラム係数

私たちが音を聞き分けられるのは、音の高さ、大きさ、そして音色の三つの要素のおかげです。音の高低は、音の振動の速さ、つまり周波数によって決まります。高い音は速く振動し、低い音はゆっくり振動しています。音の大小は、音の波の大きさ、つまり振幅によって決まります。大きな音は波が大きく、小さな音は波が小さいです。そして音色は、音の波形の違いによって生み出されます。同じ高さ、同じ大きさの音でも、楽器によって異なる音に聞こえるのは、この音色の違いがあるからです。 この音色を捉える有力な方法の一つに、メル周波数ケプストラム係数(略してエムエフシーシー)と呼ばれるものがあります。これは、人間の耳の仕組みを模倣した計算方法で、音の特徴を数値化することができます。人間の耳は、高い音よりも低い音に対して敏感に反応するようにできています。エムエフシーシーは、この人間の耳の特性を考慮に入れて、音の周波数成分を分析します。 具体的には、まず音声を短い時間ごとに区切り、それぞれの区間で周波数分析を行います。そして、人間の耳の感度に合わせた特別な尺度を使って、周波数ごとのエネルギーの分布を計算します。最後に、この分布をさらに変換して、音色を表す特徴的な数値を抽出します。これがエムエフシーシーです。 エムエフシーシーは、まるで音の指紋のようなものです。同じ音であれば、エムエフシーシーも同じような値になります。逆に、異なる音であれば、エムエフシーシーも異なる値になります。この性質を利用することで、音声認識や音声検索、音声合成など、様々な音声処理技術で音声を識別することができます。例えば、音声認識では、入力された音声のエムエフシーシーを計算し、あらかじめ登録されている音声のエムエフシーシーと比較することで、どの音声に一番近いかを判断し、認識を行います。