このファイルは、3年春学期科目「音声情報処理」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。このテキストには講義ノートの記述より多くの情報を含んでいます。講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 「学生用ページ」「レポート提出システム」 から、その日の「宿題」レポートを提出してください。 〆切は 次回授業日の前日 23:59 です。 _/_/_/ 第四回 ケプストラム分析(2) _/_/_/ 【講義ノート】ホルマント 母音などの周期をもつ音声を発声するためには、まずは声帯を振動させ、定常的に周期のある音をつくります。声帯音源の音をバイブレーションピックアップを装着して観測すると、ブザーのような「ブー」という音で、この音は高い周波数の倍音をたくさん含んでいます。 声帯音源でつくられた音波は「声道」を伝わっていきます。声道とは気管と口鼻腔からなり、特に「舌」と「顎」の位置関係によって、様々な声道の形状をつくることができます。 大雑把に言うと、途中で太さの変化する「空気の管」を舌と顎で制御できるということです。 皆さんは中学か高校の理科の授業で、試験管の途中まで水を入れ、管の口を吹くことで「ポー」という音を鳴らす実験をしたことがあるかも知れません。実はこのとき、音の高さを決めているのは、試験管に入っている水ではなくて、水のない部分の「空気の管」の長さなのです。 「空気の管」の形状によって、特定の周波数が強調される現象を「共鳴」といいます。共鳴によって強調される周波数(特定の高さ)を「共鳴周波数」といいます。 私たちは、母音を発声するとき、舌と顎の位置関係で共鳴現象を起こし、いくつかの周波数を強調することで、「音色」すなわち「スペクトル」を変化させるのです。 定常的な音声(母音など)を発声するには 声道(気管、口腔、鼻腔)の形状により 「特定の周波数」を強調するのです。 この共鳴によって生じる、音声スペクトル上のエネルギー集中のことを「ホルマント」と呼びます。ホルマント=共鳴周波数と考えてよいです。 講義ノートに ⇒ ホルマント (スペクトル上のエネルギー集中) とメモしておきましょう。 ホルマントは母音ごとに複数存在します。周波数の低い順に F_1(第一ホルマント)、F_2(第二ホルマント)と呼ぶことになっています。 一つ注意は、番号は「周波数の低い順」に付けるということです。共鳴の強さの順ではありませんので、間違えないようにしてください。 講義ノートに -周波数の低い順に F1(第一ホルマント)、F2(第二ホルマント)と呼ぶ とメモしておきましょう。 【講義ノート】ホルマント (2) ある特定の誰かに注目すると、母音の種類によって F_1(第一ホルマント)、F_2(第二ホルマント)の 周波数領域が決まります。 よって、信号処理によって音声のホルマント周波数を調べれば、その母音が「いえあおう」のどれかがわかる。なんと音声認識ができてしまうわけです。 まあ、話はそう簡単ではないのは、実はホルマント周波数には大きな個人差があることがわかっています。Aさんの「あ」のホルマント周波数は、Bさんの「あ」のホルマント周波数と同じとは限らないので、ここでは「なにか工夫が必要」くらいに思っておいてください。 男声と女声のホルマント周波数には大きな差があります。年齢によっても大きな差があります。さらに、ホルマント周波数は。声の高さや、その音素の前後の音素の影響も受けることが知られています。 個人差の要因として、 (男、女、子供) とメモしておきましょう。 ホルマント周波数に影響を与える要因として 声の高さ、前後の音素の種類 とメモしておきましょう。 【講義ノート】ホルマント (3) これは、日本人成人話者男女の典型的なホルマント周波数の例を示した表です。 母音の種類によって、また話者の性別によって、ホルマント周波数がずいぶん変化することがわかります。 性別の違いによるホルマント周波数の違いは、声道長の違いが影響しています。男性の方が女性よりも平均身長が高く、それに伴って声道も長い傾向があります。また男性には、声変わりという身体的変化があって、実効的に声道が長くなります。 といっても、これらは「例」に過ぎません。皆さんがPC上にプログラムを作って、自分の声のホルマント周波数を調べると、きっとまた違う値になります。 あくまで参考値と思ってください。 が、まあ、ここから大きく離れることもないわけですね。「典型的」というのはそういうことです。 図に下記の説明を加えておいてください。 ・典型的なホルマント周波数の例  - 男性 - 女性 【講義ノート】ホルマント (4) 前にも見た「じょうやく」という単語の、サウンドスペクトログラムです。 横軸に時間、縦軸に周波数を配し、濃度で音響成分の強さ(パワー)を表現します。 さあ、どこがホルマントなんでしょうか? 母音の種類によってホルマント周波数が変わるのが観察できますか? 【講義ノート】発声機構と信号表現 さてここで、信号処理の復習をしましょう。「ディジタル信号処理」「メディア信号処理」を履修した方は、思い出しながら話を聞いてください。 発声機構を、音源→共鳴→放射、と下から上に並べて書きました。これは、音源=声帯、共鳴=声道、放射=口唇・鼻腔、の位置関係に合わせて、下から上に並べました。 3つの緑の枠内に下から「音源」「共鳴」「放射」と記入しましょう。 声帯音源で作られる、ほぼ周期的な信号(「波形」)を今、時間の関数として「s(t)」と書くことにします。 ほぼ周期的な「信号源」 とメモしておきましょう。 次に、共鳴と放射を合わせて、ひとつの「伝達系」と見ます。伝達系の特性は「インパルス応答」すなわち「その伝達系にある一瞬の信号(インパルス)が入力された後、どのような出力が出続けたか」で記述されます。これも時間の関数になるので「v(t)」と書きます。 「伝達系」のインパルス応答 とメモしておきましょう。 さて、この発声機構から出力される音声信号「g(t)」は、この式に示す「畳み込み積分」で計算できます。 1 g(t) = ∫ s(τ) v(t-τ) dτ 0 すごい式が出てきました。実際の計算はコンピュータにまかせるとしても、なかなかイメージが掴めない「畳み込み積分」です。 【講義ノート】発声機構と信号表現 (2) さて、ところが、前回勉強したフーリエ変換によって、この発声機構の特性を周波数(スペクトル)領域で表現すると、式がとても簡単になります。 音源波形 s(t), 伝達系インパルス応答 v(t), 音声波形 g(t) をフーリエ変換し、各々のパワースペクトルを S(ω), V(ω), G(ω) とすると、関係式はなんと G(ω) = S(ω)×V(ω) ただの掛け算になるのですね。これはわかりやすい。 「音源のスペクトルと伝達系のスペクトルを単純に掛けるだけで音声のスペクトルが計算できる」。 「時間領域の畳み込み積分は、周波数領域ではただの掛け算になる」ということです。 緑の矢印は「フーリエ変換」を表しています。枠内に記入しておきましょう。 下の式は「パワースペクトル」を表しています。黄色の枠にメモ。 【講義ノート】ケプストラム 今日の話はこれからです。パワースペクトルの対数をとって、さらにフーリエ変換したものを「ケプストラム」(cepstrum)といいます。 ・パワースペクトルの対数のフーリエ変換  =「ケプストラム」 (cepstrum) と記述してください。 記号「ln」は自然対数をとることを意味しています。対数は「底」が違うと値が変わってしまいますが、「底」として「ネイピア数 (e)」を用いるのが「自然対数」(Natural Logarithm, ln)です。 その前にある、ふにゃふにゃした記号は「F」の花文字です。フーリエ変換を表しています。 さて「時間領域の畳み込み積分は、周波数領域では掛け算になる」のでした。ケプストラムはパワースペクトルの対数をとるので、対数の性質として掛け算が足し算になります。 F(ln G(ω)) = F(ln S(ω)) + F(ln V(ω)) 【講義ノート】ケプストラム (2) 整理してみましょう。 時間領域では、音源波形と伝達系インパルス応答の「畳み込み積分」で音声波形が計算される。 パワースペクトル領域では、音源パワースペクトルと伝達系パワースペクトルの「積」で音声パワースペクトルが計算される。 ケプストラム領域では、音源ケプストラムと伝達系ケプストラムの「和」で音声ケプストラムが計算される。 【講義ノート】ケプストラム (3) ケプストラムの用語について触れておきます。 「ケプストラム」(cepstrum) という用語は、「スペクトル」(spectrum) の「spec」を逆順に入れ替えた造語です。おしゃれですね。 ・スペクトル ⇔ ケプストラム  (spectrum)   (cepstrum) スペクトルのグラフの横軸は周波数でした。ケプストラムのグラフの横軸は「ケフレンシー」(quefrency)です。「周波数」(frequency) の「fr」と「qu」を入れ替えた造語です。おいおい。 ・周波数   ⇔ ケフレンシー  (frequency)   (quefrency) まだまだ、 スペクトル領域で、特定の周波数成分を通したり遮断したりする機構を「フィルタ」(filter) といいます。ケプストラム領域で、特定のケフレンシー成分を通したり遮断したりする機構を「リフタ」(lifter) といいます。「fil」を逆順に入れ替えた造語です。 ・フィルタ   ⇔ リフタ  (filter)    (lifter) 【講義ノート】リフタによる信号源と伝達系の分離 さて、これまで勉強してきたように ケプストラム領域では、信号源と伝達系が「和」 になります。式の上の説明に記述しておきましょう。 信号源というのは声帯で生成された周期信号のことです。声の「大きさ」「高さ」がここで決まります。 伝達系というのは舌と顎でつくられた声道形状の引き起こす共鳴で「音色」がここで決まります。 特に「高さ」音程成分と「音色」スペクトル概形成分が、ケプストラム領域では和として混合されています。それならば、リフタによって両者を分離できる可能性があります。 式の下につけられたピンクの枠の中に各々「音程成分」「スペクトル概形成分」とメモしてください。 ⇒ リフタによって両者を分離 も記述しておきましょう。 【講義ノート】ケプストラムによるスペクトル概形分析 実際に、ケプストラムとリフタを用いて、母音 /a/ のスペクトル概形を求めた例を見てみましょう。 図の横軸が周波数。0 Hz 〜 6000 Hz の範囲が表示されています。縦軸は各周波数成分の強さと思ってください。 青い線がフーリエ変換を用いて求めたスペクトルの形状です。 周期性を持つ信号のスペクトルは、その基本周波数とその整数倍の周波数のみに値を持つ「線」状のスペクトルになります。フーリエ変換を用いて普通にスペクトルを求めると、この周期性の影響でスペクトルは「ぎざぎざ」の形状になります。ぎざぎざの間隔は基本周波数と一致します。 赤い線がケプストラムとリフタを用いて、音程成分を取り除き、スペクトル概形成分を描いたもの。 青い線のフーリエ変換によるスペクトルは周期性によるぎざぎざに邪魔されて、どこにホルマントがあるか見つけるのが難しい。 赤い線のケプストラムによるスペクトル概形は、形状がずっと滑らかで、ホルマント周波数(エネルギーの集中)が判断しやすいことがわかります。 図の右側に2つ黄色い枠があります。各々、 音源の周期成分を除いた「スペクトル概形」を求めることができる ホルマント周波数を判定しやすい と記入しておいてください。 【講義ノート】ケプストラム処理の流れ 音声波形をフーリエ変換しスペクトルを計算する。 各周波数成分のパワーを求め、パワースペクトルを計算する。 各周波数成分の自然対数をとり、対数パワースペクトルを計算する。 対数パワースペクトルのフーリエ変換をとり、ケプストラムを計算する。 ケプストラムのピークより基本周波数(ピッチ周波数)を判定する。 ケプストラムのピークよりちょっと下にカットオフケフレンシー(q_cut)を決定する。 ケフレンシー (0 〜 q_cut) を通過させる低域通過リフタによって、音程成分を除去。 低域通過リフタを通したケプストラムに逆フーリエ変換を行い、スペクトル概形を得る。 --