このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第四回 確率と確率分布(3) _/_/_/ 【講義ノート】ケーススタディ (離散型2) 「3 種類のコイン」ケーススタディにおいて、観測結果を「n 回投げたら k 回表が出た」と一般化しておきましょう。 表の出る確率が 0.4, 0.5, 0.6 の3枚のコインがある。一枚のコインを選び、そのコインを n 回投げたら、k 回表が出た、そのコインは3枚のコインのうちどれか? この条件のもとに各コインの条件付き確率 P(A|Bi) を求めます。 【講義ノート】ケーススタディ (離散型2)(2) 「事象A:n 回投げたら k 回表がでた」 「完全系: {B_1, B_2, B_3}、コインは 3 種類のうちどれか。表の出る確率 p_1, p_2, p_3」 具体的な数値ではなく抽象化しておきます。 ここで「 _ 」は添え字を表しています。 選んだコインがコイン i であるとして、コイン投げ n 回のうち、k 回表が出る確率は、 n P(A|B_i) = ( ) (p_i)^k × (1 - p_i)^{n-k} k 「^」は指数を表す記号です。 n また記号 ( ) は n 個のものから k 個を選ぶ組み合わせの数を表します。 k 前後の括弧は n と k を覆うように縦に長く書きます。 階乗「!」を使って次のように計算します。ただし「n! = n × (n-1) ×…× 1」。 n n! ( ) = -------------- k k! × (n-k)! 各コインの条件付き確率を講義ノートに書きましょう。「 _ 」は添え字に、「 ^ 」は指数に、組み合わせ数の括弧は縦長にしてください。 【講義ノート】ケーススタディ (連続型) 前回のケーススタディを思い出しましょう。「表の出る確率が 0.4, 0.5, 0.6 の 3 枚のコインのうち一枚選ぶ」というのは、何か不自然ですね。そんな 3 枚のコインがどうして準備されているのでしょうか。 現実の状況としては「ここに 1 枚のコインがある。表の出る確率は公平 (0.5) でないかも知れない」とするほうが、ずっと自然です。これを、 「表の出る確率 p が様々な値をとるコインのうち一枚選ぶ」と考えます。 前回のケーススタディにおいては、確率分布の横軸すなわち確率変数が、0.4, 0.5, 0.6 という飛び飛びの値をとっていました。これを「離散型」と呼びます。 今回のケーススタディにおいては、確率分布の横軸すなわち確率変数が連続した様々な値をとります。これを「連続型」と呼びます。 では、今回のケーススタディ、行ってみましょう。 表の出る確率が様々な無数のコインがあります。あるコインを 10 回投げたら、10 回続けて表が出ました。さてその選んだコインの表の出る確率はいくらでしょうか? これは、連続型確率分布 (確率密度関数) を求める問題です。 【講義ノート】母集団の2重構造 (連続型) この問題の母集団の構造を理解しましょう。 まずは選ばれる「コインの母集団」があります。下の大きな楕円がそれです。この中に、抽出単位(表の出る確率 p が様々な値であるコイン)がたくさん入っています。コイン投げの実験をする前は、どのコインが選ばれたかは同じ可能性を持っています。コインの母集団を特徴づけるパラメータは「表の出る確率の分布」です。 図の右側に「コインの母集団(無限個の要素)と書きましょう。」 このコインの母集団から、一枚のコインを選ぶ矢印が第一段目の「標本抽出」になります。青い点が選ばれたコイン(=標本)です。矢印のそばに「標本抽出(一枚選ぶ)」と書きましょう。 この選ばれたコインについて、コイン投げ結果(表/裏)の母集団が存在します。 中段の楕円がこの「表裏のの母集団」を表しています。右側に「表裏のの母集団」と書きましょう。抽出単位は「表」「裏」。表の出る確率を p として、表:裏が p : (1-p) の割合で入っています。 コイン投げの母集団から、観測結果を選ぶ矢印が第二段目の「標本抽出」になります。矢印のそばに「標本抽出(コイン投げ)」と書きましょう。 上段の楕円が観測結果「10 回投げたら 10 回続けて表」(=標本)です。 この観測結果とベイズの定理を用いて、事後確率分布として「表の出る確率の分布」を推定します。 この問題は「連続型確率分布」の推定問題です。 【講義ノート】ケーススタディ (連続型) (2) 実験結果を「事象A」とします。 「事象A:10 回投げたら 10 回続けて表がでた」 次に完全系を作ります。 「完全系: { B(p) }、表の出る確率は 0≦p≦1 の範囲」 いま、1 枚選んだコインの表の出る確率が 0,5 であってかつ 0.6 であるなんてことはあり得ませんから、この事象集合は「互いに排反」です。また、表の出る確率は必ず 0≦p≦1 の範囲に入りますから、{ B(p) }のうち、必ずどれかは起こります。完全系です。 表の出る確率 p のコインを 10 回投げて k 回表が出る確率は、 10 P(A|B(p)) = ( )× p^k × (1-p)^{10-k} k となります。講義ノートに書きましょう。「 _ 」は添え字に、組み合わせ数の括弧は縦長にしてください。 【講義ノート】ケーススタディ (連続型) (3) 連続型のベイズの定理です。 第2回の最後のページをここに転記しましょう。概念を思い出しながら、吹き出しを埋めていきます。 連続型の Bayes の定理の左辺値は「事後分布」です。吹き出しを埋めておきましょう。 右辺の分子のはじめの要素は「事前分布」です。原因となる変数の実験・観測前の分布です。吹き出しを埋めておきましょう。 右辺の分子の右側の要素は「条件付き確率」です。吹き出しを埋めておきましょう。 右辺の分母は、正規化のための定数です。連続型の場合、左辺の事後分布は「積分して1」という条件を満たす必要があります。これに合わせて、右辺の分母にも積分が行われています。いずれにしても、計算結果は定数で、この分母は「事後分布の総面積が 1 になるように正規化」するための定数を表しています。吹き出しを埋めておきましょう。 【講義ノート】ケーススタディ (連続型) (4) このベイズの定理を用いて、事後分布を求めましょう。 p(B(p)) P(A|B(p)) p(B(p)|A) = ---------------------------- 1 ∫ p(B(q)) P(A|B(q)) dq 0 分子の第一要素は事前確率です。表の出る確率に対して事前に情報がなければ、一様分布を与えます。すなわち、 p(B(p)) = 1 (0≦p≦1) 条件付き確率は、前々ページで求めた値です。 10 P(A|B(p)) = ( )× p^k × (1-p)^{10-k} k 分母は、事後分布を定義域(0≦p≦1)で積分して 1 になるための正規化定数です。 ベイズの定理にこれらの式を代入して整理すると、結局次式の事後(確率)分布が得られます。 p(B(p)|A) = C × p^10 (C は定数) 【講義ノート】ケーススタディ (連続型) (5) あるコインを 10 回投げたら 10 回続けて表が出た。そのコインの表の出る確率が p である事後確率分布は図のようになります。全体の面積が 1 であることに注意してください。 10 回投げて 10 回表が出るようなコインはいかなるコインなのか?という質問に対し、ベイズ統計はこのように「p の事後確率分布」をもって答えるのです。 【講義ノート】ケーススタディ (連続型) (6) 観測結果を「コインを n 回投げたら k 回表が出た」とするとき、いろいろな n と k の値に対する事後確率分布の例を、図に示しています。 左側の図は「n 回投げて全部(n 回)表が出た」場合の分布です。観測回数が多くなるに従って、分布が右の方に偏っていくことがわかります。 右側の図は「n 回投げて半分(n/2 回)表が出た」場合の分布です。分布の中心はずっと p=0.5 にありますが、観測回数が多くなるに従って、分布が集中していくことがわかります。 観測回数が同じでも、偏る場合と偏らない場合で、分布の集中の程度が異なることがわかります。不公平があることは少ない標本からでも言えるが、公平であることは多くの標本があってもなかなか言えません。 --