このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第五回 いろいろな確率分布 (1) _/_/_/ 前回及び前々回の授業において「確率分布」という概念を導入しました。 確率分布というのは一言でいうと、横軸に確率変数をとって、縦軸に確率(離散型)または確率密度(連続型)を配したグラフのことです。 ある実験結果、観測結果に基づいて、ある確率現象の特性、すなわち母集団のパラメータを推定する問題において、「推定されるパラメータの値は○○」というふうに、一つの値に決めてしまわずに、「そのパラメータを確率変数とする確率分布」をもって答えるのが、ベイズ統計学の流儀です。 ということで、今回より2回に渡って、いろいろな確率分布を紹介していきたいと思います。 【講義ノート】一様分布 まず、一様分布です。一様分布は確率変数の定義域内で偏りのない分布です。 「定義域」って何だったか復習しておきましょう。関数「 y = f(x) 」において、入力 x の取りうる値の範囲が「定義域」、出力 y の取りうる値の範囲が「値域」です。 離散型一様分布は次のような式で表されます。講義ノートの空白に書いておきましょう。 p_k = 1 / N (k=1, ... , N) 確率変数は離散値 k です。定義域は k=1, ... , N 。確率変数の値 N 種類に対して偏りのない、すなわち同じ確率を与えて、かつ全部足して 1 にならなければいけないので、確率は 1 を N 等分して、全部同じ値 1/ N になります。 連続型一様分布は次のような式で表されます。講義ノートの空白に書いておきましょう。 連続型の場合は、あえて「連続」をつけないことが多いですね。一様分布といえば普通は連続一様分布のことです。 f(x) = 1 / (b-a) (a≦x≦b) = 0 (x<a, b<x) 確率変数は連続値 x です。定義域は (a≦x≦b) 。定義域の範囲の x に対し偏りのない、すなわち同じ確率「密度」を与えて、全範囲で積分して 1 にならなければいけないので、 このような式が出てきます。 【講義ノート】一様分布の例 確率変数の定義域内で偏りのない、離散一様分布および(連続)一様分布を図に描いてみましょう。 左側に、離散一様分布を描いてください。縦軸は「確率」。同じ確率値がずっと与えられ、確率の総和が 1 になるように。同じ高さが続く棒グラフを描いてください。 右側に、(連続)一様分布を描きましょう。縦軸は「確率密度」。確率ではないので注意。横軸に a と b を決めて、その間で同じ確率密度がずっと与えられ、全体の面積が 1 になるように、四角い箱の形をしたグラフを書いてください。 【講義ノート】一様分布(を仮定)する統計量 ページの表題に「(を仮定)」がついているのはなぜでしょう。 実は、私たちの生活する自然界の中で、一様分布するような現象はほとんどないのです。実際には何かの変動があり、一様分布から外れます。 じゃあいったい一様分布は何に使うんですかと聞きたくなりますね。 実は、問題を簡単にしたり、わかりやすくするために、理想的な確率事象を「仮定」するために使います。 例えば 「正確なサイコロの各目の確率」とか 「偏りのないコインの表裏の確率」とか もうひとつ、実はこれが一番使うかもしれない。 「ベイズ推定における先験確率」とか。 ベイズの定理を用いて、事後確率分布を求めるに際し、先験確率や事前分布を与える必要がありました。でも、まだ実験も観測もしていないのに、どう与えろというのでしょう。 全ての可能性が対等にあると考え「一様分布を仮定する」のです。 【講義ノート】二項分布 次は「二項分布」です。実は二項分布は「コイン投げ」で既に出てきていました。 確率 p の事象を n 回試行するとき、その事象が k 回生起する確率分布を「二項分布」 (binomial distribution) といいます。 確率変数は k です。k は回数ですから、離散型確率変数です。 二項分布は n と p の値が与えられると、分布の形状が一意に決定できます。 分布の形状を決定するパラメータ n, p を明示して、二項分布を B(n, p) と表記することがあります。 k を確率変数とする「二項分布」B(n, p) は次式のように定義されます。 n p_k = ( ) × p^k × (1-p)^{n-k} k 「 _ 」は添字を表します。 「 ^ 」は指数を表します。 n また記号 ( ) は n 個のものから k 個を選ぶ組み合わせの数を表します。 k 二項分布の定義式は記憶しておきましょう。 確率変数は k です。離散型です。分布の形状を決めるパラメータ n と p の意味を知っておきましょう。n は試行回数です。p はその事象の起きる確率です。 確率分布の定義式を記憶するにあたり、何が確率変数で、何が分布の形状を決定するパラメータかを、しっかり頭に入れておいてください。これらが入れ替わると、同じ式なのにまったく違う分布になってしまいます。はなはだ注意が必要です。 【講義ノート】二項分布の例 表の出る確率 0.5 のコインを 15 回投げたうち k 回表が出る確率分布を作図してみてください。式は、 15 p_k = ( ) × p^k × (1-p)^{15-k} k 15! = --------------- × (0.5)^15 k! × (15-k)! 確率変数(横軸)は、表の出る回数 k です。 結構大変ですね。PCの利用をお勧めします。 【講義ノート】二項分布する統計量 ある事象が「生起するかしないか」という2者択一の状況における、基本的な確率分布は二項分布になります。 ・コインの表裏 ・社会統計の標本調査 ・品質管理(不良品の確率)など・・・ 【講義ノート】二項分布の近似 二項分布は、ある事象が「生起するかしないか」という2者択一の分布なので、非常に応用範囲が広く便利なのですが、一つやっかいなことがあります。 それは、分布の形状を決めるパラメータが n と p の2つあって、その組み合わせによって千差万別の分布形状を取りうるということです。 2つ前のページで、簡単な二項分布の作図をして頂きましたが、いかがでしたか結構大変だったのではないでしょうか。n と p の組み合わせで、毎回この作図に取り組むのはなかなか手間のかかることです。 そこで、特定の条件の下で、二項分布を別の分布で近似することが考案されました。 試行回数 n、事象の確率 p、その積を λ = n p と表します。 この λ が小さい (<10) とき 二項分布を「ポアソン分布」で近似 (n→∞) することができます。 また λ が大きいとき 二項分布を「正規分布」で近似 (n→∞) することができます。 【講義ノート】ポアソン分布 事象の確率 p が小、試行回数 n が大なら、二項分布を λ = n p のポアソン分布で近似することができます。数学者 Poisson 先生のお名前が分布の名前になっています。 「λ」はギリシャ文字の小文字で「ラムダ」と読みます。 k を確率変数とする「ポアソン分布」(Poisson distribution) は、次式のように定義されます。 λ^k p_k = e^{-λ} ------- k! 「 _ 」は添字を表します。 「 ^ 」は指数を表します。 「 e 」はネイピア数と呼ばれる値です。自然対数の底ともいいます。 「 ! 」は階乗を表します。 ポアソン分布の定義式は記憶しておきましょう。 確率変数は k です。k は回数ですから、離散型確率変数です。 ポアソン分布は、試行回数 n と事象の起きる確率 p の積として計算されるパラメータ「λ」が与えられると、分布の形状が一意に決定できます。 分布の形状を決定するパラメータ λ を明示して、ポアソン分布を P(λ) と表記することがあります。 【講義ノート】ポアソン分布と二項分布 試行回数 n と事象の起きる確率 p の積が 2.0 になるいくつかの二項分布と、λ= 2.0 のポアソン分布の形状を比較してみましょう。 一番下の赤い線がポワソン分布です。 n が小さいうちはあまり似ていませんね。二項分布をポワソン分布で近似するためには、試行回数を十分大きくとらなければいけないことがわかります。 【講義ノート】ポアソン分布する統計量 二項分布において、 ・事象の確率 p が十分に小さく、 ・多数回の試行 n → ∞ が可能で、 ・λ(= n p) が比較的小さい (<10)場合 ポワソン分布で近似することができます。 n × p が小さく、n が十分大きいわけですから、事象の確率 p はかなり小さくなります。 このような、事象の起こる確率が非常に小さい現象のことを、稀に起きる現象「稀現象」といいます。ポワソン分布は、稀現象の統計によく見られます。例えば、 ・大量生産における不良品数 ・単位時間当たりの電話呼数 ・すいた道の自動車通過台数 --