このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第十二回 確率分布に基づく仮説検定(2) _/_/_/ 前回より「検定」という技術について説明しています。 この授業で焦点をあてて説明してきた、ベイズ統計の作法では、あることがらをはっきり断言するのではなく、確率分布で示すというやり方をします。 しかし時として、白黒はっきりと結論を出したいこともあります。 「検定」はこのための手段を提供してくれます。 前回は簡単な例で、実際に検定の手順をなぞってみました。今回はやや複雑な例で、やはり検定を試してみましょう。 【講義ノート】ケーススタディ (2) 今回のケーススタディは「音声認識」です。実は、私の専門領域は音声認識で、川端研に卒研で配属された学生は、こんなテーマに取り組むかもしれない。 さて、10単語の音声認識を研究しました。コンピュータに向けて、1から10までの、どれかの数字を発声します。コンピュータは、どの数字が発声されたのかをあてる、という問題です。 学生が新しい手法を考えました。協力してくれる被験者を集めて、音声認識実験をしてみたところ、男性の被験者10名に対して、数字音声認識率 70% が得られました。 また、女性の被験者3名に対して、同じく数字音声認識実験をしてみたところ、こちらは 75% でした。これはね、ちょっと注目すべきなんです。 実は音声認識は男性の声の認識よりも女性の声の認識の方が難しいといわれています。もし、ほんとうに女性の声でよい性能がだせるのであれば、それは革新的な手法を考案できたのかもしれない。 これは期待できる。ほんとうに女性で性能が出るならば、この学生は無事卒業できるわけです。白黒はっきりさせたいですよね。 【講義ノート】ケーススタディ (2) (つづき-2) 帰無仮説を立てましょう。言いたいことの反対の仮説を立てる。今、女性の認識率が男性の認識率よりよいと言いたいわけですから、帰無仮説は、 「男女で認識率に差がない」とします。 これはすなわち、男女の認識率の母集団が共通である、ということです。 「認識率」という確率変数はどのような確率分布をするのでしょうか? 各発声データが「正しく認識されたか否か」というのは二者択一の事象ですので、「二項分布」が使えそうです。 二項分布は、n が十分大きければ「正規分布」で近似できます。この線で考えてみましょうか。 【講義ノート】ケーススタディ (2) (つづき-3) 認識率の確率分布を考えます。 n 個の音声を、比率πで正しく認識する、わけですから、正答数 X は二項分布 B(n, π)に従います。 E(X) = n π V(X) = n π(1-π) 認識率というのは、全データ中の正答数の割合ですから P = X/n で計算できます。 思い出しましょう。線形変換 Y = a X に対する平均、分散はどうなるのだったでしょうか。そうです。平均は a 倍され、分散は a^2 倍になるんでした。 よって、認識率 P (= X/n) に対し、 E(P) = (1/n) E(X) = (1/n) n π = π V(P) = (1/n)^2 V(X) = (1/n)^2 n π(1-π) = (1/n) π(1-π) となります。 【講義ノート】ケーススタディ (2) (つづき-4) 平均と分散が分かりましたので、これを基に、認識率 P の確率分布を正規分布で近似します。男性の音声認識率を P_1、女性の音声認識率を P_2 とします。 認識率の差は P_2 - P_1 となります。 男性のデータ数を n_1、女性のデータ数を n_2 とします。 男性の音声認識率 P_1 は、平均π、分散 (1/n_1)π(1-π) の正規分布で近似します。 女性の音声認識率 P_2 は、平均π、分散 (1/n_2)π(1-π) の正規分布で近似します。 すると男女の認識率の差は、このような式になりますね。 【講義ノート】補足(1) ここで、確率変数の「独立性」について説明しておきます。 二つの確率変数 X, Y が「独立」であるとは、X, Y の同時確率密度関数 h(x, y) が各々の確率密度関数の積 f(x) g(y) であることをいいます。 二つの確率変数 X, Y について、各々の平均からの偏差を掛け算して期待値をとったものを「共分散」といいます。 【講義ノート】補足(2) 二つの確率変数 X, Y を引き算したもの、これもまた確率変数になるわけですが、確率変数 X-Y の平均は、どうなると思いますか? E(X-Y) = ... 式をずっと追って行って、 X, Y の独立性を仮定すると、なんと簡単に E(X-Y) = E(X) - E(Y) と、確率変数 X-Y の平均は、各々の平均 E(X) と E(Y) の差、 E(X)-E(Y) で求まることがわかります。X, Y が独立の場合の話です。 【講義ノート】補足(3) 次は、分散を考えてみましょう。 二つの確率変数 X, Y を引き算したもの、確率変数 X-Y の分散は V(X-Y) = ... 式をずっと追って行って、 X, Y の独立性を仮定すると、おや不思議なことに、確率変数 X-Y の分散が、各々の平均 E(X) と E(Y) の和、 E(X)+E(Y) で求まることがわかります。 確率変数の差をとったのに、分散は「和」になるんですね。やっぱり分散は一筋縄じゃない。 【講義ノート】ケーススタディ (2) (つづき-5) では、具体的に数字を入れていってみましょう。 男性の被験者10名が10数字を発声しています。データの個数は100個です。 n_1 = 100 音声認識率 70% p_1 = 0.7 女性の被験者3名が10数字を発声しています。データの個数は30個です。 n_2 = 30 音声認識率 75% p_2 = 0.75 認識率の差は p_2 - p_1 = 0.05 男女の認識率の共通の母集団のパラメータπは π=(100x0.7+30x0.75)/(100+30)=0.71 【講義ノート】ケーススタディ (2) (つづき-6) 男女の音声認識率の差 P_2 - P_1 は、 平均 0, 分散 0.71 (1-0.71)((1/100)+(1/30)) = 0.095 の正規分布になります。分布の横軸が認識率の差です。 認識率の差が 0.05 よりも大きくなる確率は、図の領域の積分によって求められます。コンピュータで計算してみると、約 0.30 となりました。 すなわち、帰無仮説 H0 のもとで、認識率の差 p2-p1 が 0.05 以上になる確率は結構大きいと分かりました。 【講義ノート】ケーススタディ (2) (つづき-7) 以上、まとめると、帰無仮説のもとで認識率の差 p2-p1 が 0.05 以上になる確率は 30% ある。 よって、帰無仮説 H0:「男女で認識率に差はない」を、有意水準 5% で棄却できない。 すなわち「女性のほうが認識率が高いように見えるのは偶然であり、統計的な有意性はない」という結論になってしまいました。 --