このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第十一回 確率分布に基づく仮説検定(1) _/_/_/ 【講義ノート】検定とは? この「情報科学のための確率・統計」という授業は、普通の確率・統計とちょっと違って、「ベイズ統計」に基づく工学的なものの考え方をお話してきました。 ベイズ統計の作法では「このコインは公平か」という問いに対して、きっぱりと「公平である」とか「公平でない」とか答えません。 じゃあどうするのかというと「表の出る確率の事後確率分布」を示して「分かるのはここまで」といって終わってしまうんです。 数学的には、観測結果から得られる最大の情報を確率分布が保持しているので、これでいいんですけど…、まあ、ちょっと困ることもありますよね。 例えば、お客さんのところに営業に行って「ご契約頂ければ収益が上がります」と言いたいじゃないですか。「収益が上がる確率分布はこのような形状をしていて…」などと説明していたら、こいつ何言ってんだと思われます。白黒はっきりさせたい。 今回は、この白黒はっきりさせる方法をお話したいとおもいます。それは「統計的仮説検定」という技術です。 「統計的仮説検定」 (testing statistical hypothesis) は、 観測結果すなわち標本の統計的性質に基づいて、ある主張の正誤を合理的に判断するための手法です。 「統計的仮説検定」は正確な名前ですが、長いので、普段はシンプルに「検定」(test)と呼びます。この授業の中で以後「検定」ということばが出てきたら、それは資格検定とは何の関係もなくって、この「統計的仮説検定」のことです。 【講義ノート】検定とは? (2) 白黒はっきりさせたい課題として、例えば 「あるコインを5回投げたら、5回続けて表が出た。このコインは公平だろうか?」 何回もやってきた、コイン投げ課題ですね。これを検定してみましょう。 それから、 「ある自動車のニューモデルが発売されて一ヶ月が経った。カタログでは燃費が向上してるというが、ほんとうだろうか?」 燃費問題ですね。これも検定してみましょう。 もうひとつ、これは卒業研究ですね。 「音声認識のプログラムを何人かの被験者に使ってもらったところ、男性よりも女性のほうが音声認識率がよいような気がした。女声向きの新手法を発明できたのか?それ ともただの偶然?」 さあ、どんな結論が得られるのでしょうか。果たして、この学生は卒業できるのでしょうか? 【講義ノート】検定の手順 検定は以下の3つの手順で行います。ちょっとした視点の転換が必要です。 1. 主張したい仮説と反対の仮説(帰無仮説)H_0 をたてる まず、言いたいことの「逆の」仮説を立てます。なんでかというと、後で「この仮説間違ってる」と棄却するためのものだからです。結局、無に帰るから帰無仮説。 主張したい仮説を「帰無仮説」 H_0 と対立する仮説として、 「対立仮説」H_1 と記すこともあります。 言いたいことの反対のことを主張する「帰無仮説」を立てる。 2. 帰無仮説を正しいと仮定し、観測結果の確率を計算する 次に、帰無仮説を正しいと仮定して、観測結果の確率を計算します。この確率が小さければ、そんなことはめったに起こらないわけですから、前提とした「帰無仮説が間違っている」ことになる。 3. この確率が、ある値(有意水準という)よりも小さければ、帰無仮説 H_0 を棄却する 最後に、計算した確率と、設定した小さな値 0.01 とか 0.05 とか、を比べて、計算した確率が小さければ「帰無仮説 H_0 は間違っていた」として棄却します。棄却というのは捨てるということです。 この小さな値のことを「有意水準」といいます。0.01 のとき「有意水準1%」、0.05 のとき「有意水準5%」といいます。 対立する帰無仮説が棄却されれば、めでたく、 「主張したい仮説は有意水準?%で統計的に有意である」 と述べることができます。 【講義ノート】検定の手順 (2) 実際にやってみましょう。 「あるコインを5回投げたら、5回続けて表が出た」という観測結果に基づいて「このコインは公平でない」ことを検定してみましょう。 表の出る確率を連続型の確率変数と考えましょう。 有意水準は5%とします。 まず、帰無仮説を立てます。 1. 帰無仮説:コインはほぼ公平 (0.4