このファイルは、3年春学期科目「音声情報処理」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。このテキストには講義ノートの記述より多くの情報を含んでいます。講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 「学生用ページ」「レポート提出システム」 から、その日の「宿題」レポートを提出してください。 〆切は 次回授業日の前日 23:59 です。 _/_/_/ 第十二回 話者認識 _/_/_/ 【講義ノート】話者認識とは ・「誰が」話しているか判定する技術 さて、人間同志の会話では、私たちは相手が誰だかわかって話をしていますね。 人間とコンピュータの会話でも、入力された音声から相手が誰かを判断して、発話内容を選ぶようにすれば、より人間らしい会話ができそうです。 コンピュータに「すみませ〜ん、お願いします」と話しかけて、「あっ、山田さんこんにちは」と答えてくれたら、盛り上がりますよね。 話者認識は、より人間的な応答をする音声対話システムの構築に役立ちます。 【講義ノート】話者認識と話者照合 実は「誰が」話しているか判定する技術には、その使われ方の違いから「話者認識」と「話者照合」の2種類の区分があります。 ・話者認識 (Speaker Recognition)  - 音声対話システムが、話し相手が誰かを判定し、適切な対話に結びつける 前述のように音声対話システムの入り口に配置し、話し相手が誰かを判定し、適切な対話に結びつける使い方を「話者認識 (Speaker Recognition)」といいます。 ・話者照合 (Speaker Verification)  - 個人を認証する技術の一つ。本人がどうかを判定する。詐称者の棄却が重要 これに対し、例えば家の玄関で「ただいまかえりました〜」と発声すると、発話者が本人であるがどうかを判定して家の鍵を開けてくれる、といった使い方が考えられます。こちらは音声で個人認証をしているわけですね。「話者照合」と呼ばれる使い方です。この場合、本人じゃない人が本人のふりをして発声する音声を棄却することが重要になります。 【講義ノート】音声認識と話者認識(1) それから「音声認識」と「話者認識」の違いについても説明しておきましょう。 音声認識というのは、ある音声が何を言っているか判定する技術です。 音声の特徴は、音素の違いや話者の違いで大きく変動するわけですが、 誰の音声でも同じように認識するためには、話者の違いを吸収して、音素の違いを強調することが必要です。 ・音声認識  - 何と言っているか判定する  - 話者の違いを吸収し、音素の違いを強調 話者認識というのは、誰が話しているか判定する技術です。 さっきと逆に、今度は音素の種類は関係なくなる。音素の違いを吸収して、話者の違いを強調することが必要になります。 ・話者認識  - 誰が話しているか判定する  - 音素の違いを吸収し、話者の違いを強調 「音声認識」と「話者認識」、技術的に共通の部分もたくさんあるのですが、パターンのどこに目を向けるかという視点が大きく違っているのです。 【講義ノート】音声認識と話者認識(2) 「音声認識」と「話者認識」の大きな技術的違いの一つに、処理の対象となる音声の長さがあります。 ・音声認識  - 音声の比較的短い区間(30~100ms)を音素に対応づける 音声認識においては、意味の違いを生じせしめる「音素」を精度よく認識することが重要になります。よって処理対象の時間長さは音素の長さである比較的短い区間(30~100ms)になります。 ・話者認識  - 音声区間全体(~数秒)の 「特徴分布」 を話者に対応づける 一方、話者認識においては、ある人の音声が特徴空間にどんな形で広がっているかが重要になります。よっていろいろな音素がまんべんなく含まれるように、音声区間全体が処理対象になります。 【講義ノート】GMMスーパーベクトル(1) ・GMM (Gaussian Mixture Model)  - 複数の正規分布を混合して特徴分布を表現 さて、これまで説明してきた通り、話者認識にはその話者の長時間の音声が、どのような特徴空間に広がっているのか、を表現する手法が必要となります。 音声の特徴は、音量やら音高やら、音色を表すスペクトルやらさまざまなものがありますので、それらの作る「特徴空間」は多次元でかつ複雑なものになります。 この複雑な分布を、単純な「正規分布」ガウス分布ともいいますが、その正規分布の複数の和で表してしまおうというのが、GMM (Gaussian Mixture Model)、日本語で言うと混合ガウスモデルです。 p(x)= ... この式で N( ) で表されているのが、ひとつひとつの正規分布です。k 番目の正規分布に、π_k という重みをつけて、全部足してやるという簡単な式になっています。 なお正規分布を式で書くと、このように表されます。確率・統計の授業を受けた人はきっと見おぼえがありますね。 【講義ノート】GMMスーパーベクトル(2) ・複数の正規分布の和で複雑な分布を表現 実例で見てみましょう。図の青い線が音声のとある特徴量に関する分布です。結構複雑な形になっていることがわかります。 これを、下の方にある、緑、赤、紫の正規分布の和として表現するわけです。ひとつひとつの正規分布は単峰の単純な形状ですが、それらをいくつか足し合わせれば、もっと複雑な分布形状も作れてしまうということです。 【講義ノート】GMMスーパーベクトル(3) いよいよ、話者の特徴空間を GMMスーパーベクトルで表現します。 ・音声特徴(例えば MFCC m 次元)の各次元の分布に、  混合数 n のGMMを適用 まずは、音声特徴(例えば MFCC m 次元)の各次元の分布に、混合数 n のGMMを適用します。一つの正規分布は、平均 μ_k、分散 σ^2_k、混合係数 π_k、の3つのパラメータで表現できます。一つの GMM は m × n × 3 個のパラメータで表現されます。 ・GMMを構成する正規分布の平均 μ_k を全て並べ   m×n 次元ベクトルにする   ⇒ GMMスーパーベクトル ここで、分散と混合係数を無視して正規分布の「平均」のみに注目します。これを特徴数と混合数だけ集めると m × n 次元のベクトルができます。これを GMMスーパーベクトルと呼びます。 ・その話者の音声特徴分布全体を表現 GMMスーパーベクトルによって、その話者の音声特徴分布全体を表現します。 【講義ノート】i-ベクトル法(1) GMMスーパーベクトルは、話者の特徴空間を表す強力な表現手法なのですが、パラメータ数すなわちベクトルの次元数が m × n になるため、次元数が非常に大きくなり扱いにくいという問題を持っています。 そこで、多変量解析の一手法である「院試分析」を用いて、より少ない次元に情報を圧縮します。これが i-vector です。 ・GMMスーパーベクトルは、次元数が非常に  大きくなり、扱いにくい   ⇒ 因子分析を用いて次元圧縮する i-vector の因子分析では「話者」による変動分と「チャネル」すなわち録音や伝達による変動分を合わせて扱います。 GMMスーパーベクトル M_u を、話者とチャネルに依存しない成分 m と、話者とチャネルに依存する成分 T×w_u 、ノイズεの和として分解します。この式中で w_u と表される部分が i-vector と呼ばれる圧縮されたベクトルです。 M_u を指す吹き出しに「GMMスーパーベクトル」とメモ。 m を指す吹き出しに「話者とチャネルに依存しない成分」とメモ。 T を指す吹き出しに「話者とチャネル部分空間を規定する行列」とメモ。 w_u を指す吹き出しに「i-vector(全因子ベクトル)」とメモ。 ε を指す吹き出しに「ノイズ」とメモ。 【講義ノート】i-ベクトル法(2) i-ベクトル法は、強力かつ効率的な手法であるために、話者照合の分野における標準的な手法であるとされています。 i-ベクトル法の因子分析を行う際には、話者内変動の補正が性能に大きな影響を与えるという報告があります。 また、部分空間表現に基づくアプローチや PLDA 法と組み合わせるなど、盛んに研究が続いています。 ・近年の話者認識システムの多くは、i-vector に基づいて構築されている ・話者内変動の補正が重要  - 部分空間表現に基づくアプローチ  - PLDA (Probabilistic linear discriminant analysis) --