このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第三回 確率と確率分布(2) _/_/_/ 【講義ノート】確率変数 数量に対応づけた事象を「確率変数」と呼びます。英語で「random variable」。 数量って分かりますね。1, 2, 3 とか、18.5 とか数で表現される量のことです。 さて、これまで見てきた確率的な「事象」には、数量に対応づけられるものもあれば、対応づけられないものもあります。 例えば、コインを投げて表が出るか裏が出るか、という事象は確率変数になりません。「表」「裏」は数量ではないからです。 いいですね。数量に対応づけられる事象が「確率変数」です。 確率変数の例を挙げましょう。 「あるサイコロを投げて出る目の数」 これいいですね。目の数は数量です。 「あるコインを10回投げて表の出る回数」 これもいけます。「表」「裏」は数量ではありませんが「表の出る回数」は数量です。 「あるクラスの男子学生の身長」 これもいいですね。身長の値は数量です。連続型の確率変数になります。 【講義ノート】累積分布関数 さて、ちょっと思い出しましょう。前回より「確率と確率分布」というテーマで話をしているんでした。確率の話はだいぶしましたね。では「確率分布」っていうのは何のことでしょう。 そこでまず、累積「分布」関数について説明します。 ある入力 x に対し出力 F(x) が決まる概念を「関数」というんでした。 今、ある数量に対応づけられた事象、確率変数というんでしたね。確率変数 X に対して、入力 x が等しいか大きい確率 P ( X ≦ x ) を x の関数とみて「累積分布関数」と呼びます。 実例で行ったほうが分かりやすい。 サイコロがあって、1から6の目が同じ確率 (1/6) で出るものとします。 x が 1 より小さいときは、そんなサイコロの目はありませんから、確率は 0 です。 x が 1 以上、2 より小さいときは、 1 の目が出る確率ですから、確率は 1/6 。 x が 2 以上、3 より小さいときは、 1 か 2 の目が出る確率ですから、確率は 2/6 。 x が 3 以上、4 より小さいときは、 1 か 2 か 3 の目が出る確率ですから、確率は 3/6 。 というふうに、ずっと確率を調べていくと。この図のように階段上のグラフができます。 これが、累積分布関数です。グラフの横軸には確率変数 X のとり得る値が数量の順に並べてあり、入力 x はそれを順にたどっていきます。縦軸は確率になります。グラフの右端で累積された確率は必ず 1 になります。 なるほど、何であえて確率変数、すなわち「数量に対応づけた事象」という概念を導入したかがこれで分かりました。要するに一列に並べて累積したかったからなんですね。 【講義ノート】累積分布関数(2) さっきの例は、サイコロを題材にしたので、確率変数の値が「離散的」になる例でした。 確率変数は「連続的」であっても構いません。 例えば「あるクラスの男子学生の身長」を測定すれば、少数点以下いくらでも精度がとれますから、これは連続型の確率変数になります。 累積分布関数は例えば、この図のようになります。離散型の場合に観察された不連続点が、この例ではなくなっています。 実は次の段階で超関数という概念を使うと、これらの不連続点はあってもいいんですが、ここでは簡単のため、ないと考えておきましょう。 横軸が連続型確率変数の場合も、縦軸は確率になります。グラフの右端で累積された確率は必ず 1 になります。 【講義ノート】確率密度関数 連続型の確率変数 X に対し、有限個の点を除いて連続な非負の関数 f(x) によって、X の累積分布関数 F(x) が次のように書けるとき、f(x) を X の「確率密度関数」「probability density function」 と呼びます。 x F(x) = ∫ f(t) dt -∞ 【講義ノート】累積分布関数と確率密度関数 要するに確率密度関数というのは累積分布関数を微分したもの、導関数と考えてよいでしょう。 ある確率変数の値に対する、累積分布関数の「傾き」をグラフに表したのが「確率密度関数」になります。 一つ注意したいのは、累積分布関数の縦軸は確率ですので、例えば0〜1の範囲に入るといった確率の性質を満たしますが、確率密度関数の縦軸は「積分すると確率になる値」であって確率ではありません。よって、1 より大きい値になっても何の問題もありません。 【講義ノート】確率分布 離散型確率分布と連続型確率分布を横に並べて対比してみましょう。 離散型確率分布は、横軸の離散的な確率変数のとびとびの場所にのみ値を持つ、剣山のようなグラフになります。縦軸は確率です。確率を全部足すと 1 になります。 連続型確率分布は、横軸の連続的な確率変数に対して、おおむね滑らかなグラフになります。縦軸は確率密度であって、確率ではありません、ある範囲で積分するとはじめて確率になります。確率変数の定義域全体で積分すると 1 になります。 【講義ノート】ケーススタディ(離散型) 具体的な事例で確率分布を作図してみましょう。 「コイン投げ」を考えます。今、3種類のコインがあるとしましょう。コイン 1 は、普通のコインじゃありません。中に錘(おもり)が仕込んであって実は表が出にくい。表の出る確率が 0.4 であるコインとします。 コイン 2 は普通のコインで、表と裏が 0.5 ずつの確率で出る。公平なコイン。 コイン 3 はまた偏ったコインですが、今度は表が出やすい。表の出る確率が 0,6 であるコインとします。 表の出る確率が 0.4, 0.5, 0.6 の 3 枚のコインがあるということです。 さて、この 3 種類のコインから、一枚選びます。見かけ上は全然どのコインだか分かりません。 このコインを 10 回投げてみたら、なんと 10 回全部、表が出たとします。このコインは 3 種類のコインのうち、どれでしょうか。 直感的には、表の出やすいコイン 3 だと思います。でもね、思うだけじゃだめですよね。ちゃんと数学的根拠を示して判定することを学びましょう。 実はこの問題は、まさに今勉強している「離散型確率分布」を求める問題に他ならないのです。 【講義ノート】ケーススタディ(離散型)(2) 確率の問題を考えるときに「紙に書いて」考えることが重要です。 頭の中で整理しているつもりでも、なにかとこんがらがって、間違った結果になることが、はなはだよくあります。「紙に書いて」考えることを、習慣づけましょう。 さてまず、実験結果を「事象A」とします。 「事象A:10 回投げたら 10 回続けて表がでた」と書いておきます。 次に完全系を作ります。 「完全系: {B_1, B_2, B_3}、コインは 3 種類のうちどれか」 ここで「 _ 」は添え字を表しています。 いま、1 枚選んだコインが、コイン 1 であってかつコイン 2 であるなんてことはあり得ませんから、この事象集合は「互いに排反」です。また、選んだコインは必ずこの 3 種類のどれかですから、{B_1, B_2, B_3}のうち、必ずどれかは起こります。大丈夫、完全系になってますね。 「^」を指数を表す記号とします。「x^y」は x の y 乗を表します。 さて、選んだコインがコイン 1 であるとして、コイン投げで 10 回続けて表が出る確率は、 P(A|B_1) = (0.4)^10 = 1.049 × 10^{-4} 選んだコインがコイン 2 であるとして、コイン投げで 10 回続けて表が出る確率は、 P(A|B_2) = (0.5)^10 = 9.766 × 10^{-4} 選んだコインがコイン 3 であるとして、コイン投げで 10 回続けて表が出る確率は、 P(A|B_3) = (0.6)^10 = 60.47 × 10^{-4} と計算できます。電卓が必要です。 【講義ノート】ケーススタディ(離散型)(3) ベイズの定理により、     P(B_i) P(A|B_i)    P(B_i|A) = -------------------     3     Σ P(B_j) P(A|B_j)     j=1 選んだコインが 3 種類のコインのどれであるかについて、特に情報がないので、先験確率には一様な(全部同じ)値を与えます。全部足して 1 になる必要があるので、すなわち、    P(B_1) = P(B_2) = P(B_3) = 1/3 分母を計算しましょう。    3    Σ P(B_j) P(A|B_j) = (1/3) { 1.049 + 9.766 + 60.47 }× 10^{-4}    j=1     = (1/3) 71.29 × 10^{-4} よって、    P(B_1|A) = (1/3) 1.049 × 10^{-4} / (1/3) 71.29 × 10^{-4} = 0.015    P(B_2|A) = (1/3) 9.766 × 10^{-4} / (1/3) 71.29 × 10^{-4} = 0.137    P(B_3|A) = (1/3) 60.47 × 10^{-4} / (1/3) 71.29 × 10^{-4} = 0.848 この例では「(1/3)」とか「10^{-4}」は約分できるので、計算が楽ですね。 【講義ノート】ケーススタディ(離散型)(4) これらの計算結果をもとに、離散型確率分布を作図してみましょう。 あるコインを 10 回投げたら、10 回続けて表が出た。そのコインが、コイン 1, 2, 3 のどれかである場合、その確率分布は次の通り。 各コインの表の出る確率を離散型確率変数として横軸に配しています。縦軸は、ベイズの定理によって計算した事後確率です。 事後確率って何だったか、おさらいしておきましょうね。 事後確率 P(B_i|A) とは、事象 A を条件とする、事象 B_i の確率です。観測結果 A から、その基となっている事象が B_i である可能性を示します。 判断したい事柄が「選んだコインは3種類のどれなのか」でした。事後確率分布 P(B_i|A) (i=1, 2, 3) は、その可能性を確率分布の形式で与えてくれるわけです。 例えば、p=0.4 のところに、事後確率が 0.015 ほどありますね。10 回投げてずっと表が出るコインでも、そのコインがコイン 1 (p=0.4) である可能性がわずか (0.015) ながらあるということです。 p=0.5 のところに、事後確率が 0.137 ありますね。10 回投げてずっと表が出るコインですから、直感的にはとうてい公平なコインだとは思えないのですが、実は 10 回投げてずっと表が出るコインが公平 (p=0.5) である可能性は 13.7% もあるのです。 p=0.6 のところに、事後確率が 0.848 ありますね。10 回投げてずっと表が出るコインがコイン 3 (p=0.6) である可能性は 84.8% であることが分かります。まあ、妥当な結果です。 ここで、ベイズ統計の作法について触れておきます。すなわち、ベイズ統計では「選んだコインは3種類のどれなのか」という問いに、「選んだコインはコイン i です」と直接的に答えずに、その事後確率分布を示して終わる、ということです。 実は、数学的には、この観測結果から一意にどのコインか判定することはできず、得られる最大の情報を、確率分布が保持しているのです。 無理な判定を行わず、確率分布を示すに留めるのが「ベイズ統計」の作法です。 【講義ノート】「確率」を理解するキーポイント (再掲) 【講義ノート】母集団の2重構造 (離散型) この講義の最初に、確率を理解するキーポイントとして、 「標本」「抽出単位」「母集団」が何であるか見極めることが大事、という話をしました。 今やったばかりの「3 種類のコイン」ケーススタディについて考えてみましょう。 実は、この問題の母集団はこのような2重構造になります。 まずは選ばれる「コインの母集団」があります。下の大きな楕円がそれです。この中に、抽出単位(3 種類のコイン)がたくさん入っています。コイン投げの実験をする前は、3 種のコインのどのコインが選ばれたかは同じ可能性を持っていますので、3 種のコインが 1/3 ずつの割合で含まれています。コインの母集団を特徴づけるパラメータは「コインの確率分布」です。 このコインの母集団から、一枚のコインを選ぶ矢印が第一段目の「標本抽出」になります。青い点が選ばれたコイン(=標本)です。この選ばれたコインについて、コイン投げ結果(表/裏)の母集団が存在します。 中段の楕円がこの「コイン投げの母集団」を表しています。抽出単位は「表」「裏」。表の出る確率を p として、表:裏が p : (1-p) の割合で入っています。 コイン投げの母集団から、観測結果を選ぶ矢印が第二段目の「標本抽出」になります。上段の楕円が観測結果「10 回投げたら 10 回続けて表」(=標本)です。 このように母集団と標本抽出の絵を書いてみると、「3 種類のコイン」ケーススタディが、何を行っていたのかがイメージしやすくなります。 はじめに、コインの母集団に含まれるコインの割合は、一様(全部同じ)としました。これは、選んだコインが 3 種類のコインのどれであるかについて、情報がなかったためです。ところが、このコインを何回か投げてみると、その観測結果とベイズの定理を用いて、事後確率分布としてコインの割合を推定できるようになりました。 この問題は「離散型確率分布」の推定問題だったのですね。 --