このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第九回 統計的計算手法 (3) _/_/_/ 【講義ノート】標本平均・標本分散 ある母集団があります。例えば、ある学年の学生の身長データを全部集めたものとしましょう。母集団の全要素を用いて計算した、平均・分散を「母平均」「母分散」といいます。 図の、母集団の右の矢印の後ろに「母平均・母分散」と書きましょう。 さて、この母集団から標本抽出を行います。例えば、n 人を無作為に選ぶという操作です。 選ばれた要素の集合を「標本」というのでした。 標本に含まれる要素を用いて計算した、平均・分散を「標本平均」「標本分散」といいます。 図の、標本の右の矢印の後ろに「標本平均・標本分散」と書きましょう。 さて、標本は標本抽出するたびに違うものが選ばれますので、「標本平均」「標本分散」の値は標本抽出を行うたびに、違う値になります。 そうです。「標本平均」と「標本分散」は確率変数になるのです。 【講義ノート】標本平均の確率分布 無作為に選んだ n 人の学生の身長を x_1, x_2, …, x_n とするとき、 「標本平均」(書きましょう)を次式のように定義します。 1 n x~ = --- 煤@x_i n i=1 ここで、「x~」は「x」の上に上線を引いた記号と読み替えてください。標本平均を表す記号としては「x~」を使うことが多い。母平均は「μ」でしたね。違いに注意しましょう。 この式、どこかで見たことありませんか。そうです、高校ではこの標本平均を平均として習っているのです。つながりましたね。 「標本分散」(書きましょう)を次式のように定義します。 1 n s^2 = --- 煤@(x_i - x~)^2 n i=1 標本分散を表す記号としては「s^2」を使うことが多い。母分散は「σ^2」でしたね。違いに注意しましょう。 もう一点、注意しなければならないのは、標本分散の計算で各実現値 x_i と「標本平均」 x~ の差をとって二乗していることです。差をとる相手は「母平均」μではないことに注意しましょう。 【講義ノート】標本平均の確率分布 (2) 確率変数である標本平均「X~」が、どのような確率分布になるか考えていきましょう。 母集団は母平均μ、母分散σ^2の正規分布に従うと仮定します。 1 n 1 n E(X~) = E( --- 煤@X_i ) = --- E( 煤@X_i ) n i=1 n i=1 ここで、X_i と X_j の独立性から E(X_i + X_j) = E(X_i) + E(X_j) 1 n 1 E(X~) = --- 煤@E(X_i) = --- n μ n i=1 n = μ 「標本平均の確率分布」の平均は母平均と一致することが分かりました。 【講義ノート】標本平均の確率分布 (3) 「標本平均の確率分布」の分散を求めます。 1 n 1 n V(X~) = V( --- 煤@X_i ) = ----- V( 煤@X_i ) n i=1 n^2 i=1 ここで、X_i と X_j の独立性から V(X_i + X_j) = V(X_i) + V(X_j) 1 n 1 E(X~) = ----- 煤@V(X_i) = ----- n σ^2 n^2 i=1 n^2 σ^2 = ------ n 「標本平均の確率分布」の分散は母分散とは一致せず、標本の大きさ「n」の影響を受けることが分かりました。 【講義ノート】標本平均の確率分布 (4) 以上、まとめると、母集団が母平均μ、母分散σ^2の正規分布に従うとき、標本平均の確率分布は、 σ^2 E(X~) = μ , V(X~) = ------ n の正規分布に従う。すなわち f(x) = ... 確率変数としての標本平均の確率分布が求まりました。 一点補足で注意しておきます。上の「f(x)=...」の式は「標本平均の確率分布」を表す式であって、「正規分布の定義式」ではありません。よく間違える人がいます。形が似ていますが違う式です。 【講義ノート】ケーススタディ ある学年の男子学生の中から、無作為に n 人を選び、身長を計測したとします。 このとき、学年全体の男子学生の身長の(母)平均μはいくらでしょうか? 簡単のため母分散σ2は既知とします。 これが、連続型確率分布(確率密度関数)を求める問題であることは、もうお判りでしょう。 【講義ノート】ケーススタディ(つづき-2) 事象A: 身長の標本平均 h を計測 完全系{B(μ)}:母平均の値がμ 母平均がμのとき標本平均 h が観測される確率密度関数は 1 (h-μ)^2 p(A|B(μ)) = ------------------ exp( - ------------ ) sqrt(2πσ^2 /n) 2σ^2 /n 【講義ノート】ケーススタディ(つづき-3) ベイズの定理により [一様分布を仮定↓]「↓前頁で求めた式」 p(B(μ)) P(A|B(μ)) p(B(μ)|A) = -------------------------- ∞ ∫ p(B(x)) P(A|B(x)) dx -∞ [↑面積が1になるように正規化] [↓ h は標本平均] (h - μ)^2 = C exp( - ------------ ) 2σ^2 /n [C は定数↑] [↑母分散は既知] 【講義ノート】ケーススタディ(つづき-4) 標本 n 人の身長データの平均(標本平均「h」)より、学年全体の男子学生の身長の平均(母平均μ)をベイズ流に推定するために、事後確率分布を描画します。 太い青線が母集団の分布 N(μ、σ^2)。 標本数 n=2, 10, 100 について、事後確率分布を描画してみると、n が大きくなるにつれて「母平均」の推定精度が高まっていくことが分かります。 【講義ノート】大数の(弱)法則 標本数を大きくしていくと「母平均」の推定精度が高まっていくことが分かりました。 このことを「大数の(弱)法則」と言います。覚えておきましょう。 互いに独立で同一の分布を持つ確率変数列 X_1, X_2, … , X_n において、 E(X_i) =μ が存在するならば、統計量 1 X~_n = --- (X_1 + x_2 + ... + X_n) n は、n を大きくするにつれてμに収束する。 「標本数を増やせば標本平均は真の平均(母平均)に近づく」ということです。 重要です「大数の法則」ということばを、忘れないようにしましょう。 【講義ノート】母集団の2重構造 いつもの「母集団の2重構造」の図で、今日のケーススタディを見ておきましょう。 まずは選ばれる「大学の母集団」があります。下の大きな楕円がそれです。この中に、抽出単位(平均身長の異なる(仮想的)大学)がたくさん入っています。身長データの標本抽出をする前は、どの大学が選ばれたかは同じ可能性を持っています。大学の母集団を特徴づけるパラメータは「身長の母平均」です。 この大学の母集団から、ある大学を選ぶ矢印が第一段目の「標本抽出」になります。青い点が選ばれた大学(=標本)です。 この選ばれた大学について、身長の母集団が存在します。 中段の楕円がこの「身長の母集団」を表しています。抽出単位は学生の「身長」。連続型確率変数です。 身長の母集団から、学生を選ぶ矢印が第二段目の「標本抽出」になります。 上段の楕円が標本「n 人の身長」です。 この調査結果とベイズの定理を用いて、事後確率分布として、その大学の「身長の母平均」を推定します。この問題は「連続型確率分布」の推定問題です。 --