このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第七回 統計的計算手法 (1) _/_/_/ 前回までに、確率、及び確率分布について一通りのお話をしてきました。ところで、この科目のタイトルは「情報科学のための確率・統計」というものでしたね。「確率」と「統計」、もう一つ「統計」という話題があるっていうことです。 さて、というわけで、今回より3回にわたり「統計的計算手法」について説明していきたいと思います。まあ、とは言うものの、話を聞いているうちに、あれ一緒かなと、気づいて頂けるのが一番いい。確率も統計も、そうか実は同じ土俵の話なんだな…というのが分かってくればしめたものです。 【講義ノート】平均 まず「平均」の概念を勉強しましょう。 確率変数X の「平均」(mean)をこの式のように定義します。これは確率変数が離散型の場合です。 重要な式を書き間違ってはいけないので、空白にせずノート中に数式を記述していますが、 この式は重要です。絶対忘れてはいけません。 ところで皆さんの中には、高校で習った平均と式が違う、と気づかれた方もいるかも知れません。 いや、「平均」を初めて習います、という方はいいです。この式を確実に暗記してください。 式が違うぞ、と思った方。実は、皆さんが高校で習ってきた平均は「標本平均」という概念です。そのうちちゃんと出てきます。そこでもう一度違いに触れます。 さて、絶対忘れてはいけない、平均の定義式を見ましょう。 確率変数 X の平均を E(X) という記号で表します。 確率変数 X の平均とは、X に関する N 回の試行の結果(実現値) x_i にその確率分布 p_i を掛けて、総和をとったものです。 平均を表すのに E() という記号を使うのは、平均 (mean) を期待値 (expected value) とも呼ぶからです。Expected の「E」です。式の脇に吹き出しをつけて、メモを入れておきましょう。平均と期待値は完全に同じものです。名前が違うだけ。 右辺の「x_i」は、確率変数「X」の実現値(個々の施行の結果)です。吹き出しをつけて、メモを入れておきましょう。 右辺の「p_i」は、(X の実現値に対する)確率分布の値です。吹き出しをつけて、メモを入れておきましょう。 この式は重要です。記憶しておきましょう。式で覚えるというよりも、 「平均は確率変数と確率を掛けて足す」くらいに考えたほうが覚えやすいかも。 【講義ノート】平均 (2) さて、連続型だとどうなるでしょう。 確率変数X の「平均」(mean)をこの式のように定義します。これは確率変数が連続型の場合です。 確率変数 X の平均とは、X の実現値) x にその確率密度関数 f(x) を掛けて、x の定義域で積分したものです。 左辺は離散型と一緒ですね。離散型でも連続型でも、平均は E(X)。 右辺の「x」は、確率変数「X」の実現値です。吹き出しをつけて、メモを入れておきましょう。 右辺の「f(x)」は、(X の実現値に対する)確率密度関数です。吹き出しをつけて、メモを入れておきましょう。 なお、試行ごとに違う値をとる抽象的な確率変数には「X」のように大文字、各々の試行で得られる値(実現値)には「x」のように小文字を使う習慣があります。まあ、例外もあったりするので、「習慣」くらいに思っておいてください。 【講義ノート】平均 (3) さて、平均とは 確率変数 X の実現値 x にその確率分布を掛けて総和または積分をとったもの。 ⇒「期待値」(expected value) とも呼ばれます。 平均にはもう一つ重要な性質があります。それは、2乗誤差 ∞ err = ∫ (x-μ)^2 f(x) dx -∞ を最小化するということです。 確率変数 X は試行の度にいろいろな値をとりますが、何か一つ「代表値」を定めたいと思ったとします。代表値からの実現値のずれを式に示す2乗誤差で測るとき、実は代表値として「平均」を採用したときに、2乗誤差が最小になります。 言い換えれば、平均とは2乗誤差を最小にする代表値であるといえます。 【講義ノート】分散 さて、次は「分散」の概念を勉強しましょう。 確率変数X の「分散」(variance)をこの式のように定義します。これは確率変数が離散型の場合です。 重要な式を書き間違ってはいけないので、空白にせずノート中に数式を記述していますが、 この式は重要です。絶対忘れてはいけません。 確率変数 X の分散を V(X) という記号で表します。 確率変数 X の分散とは、実現値と平均の差を2乗したものについて、もう一度平均を求めたものです。E() が 2回使われていますね。 外側の平均を、離散型の平均の定義に従って、総和で書くと下の式になります。 【講義ノート】分散 (2) 確率変数X の「分散」(variance)をこの式のように定義します。これは確率変数が連続型の場合です。 重要な式を書き間違ってはいけないので、空白にせずノート中に数式を記述していますが、 この式は重要です。絶対忘れてはいけません。 上の式は離散型も連続型も全く同じです。 外側の平均を、連続型の平均の定義に従って、積分で書くと下の式になります。 【講義ノート】分散 (3) 何ページか前に「平均とは2乗誤差を最小にする代表値」であると述べました。 実は「分散とはそのときの最小2乗誤差の値」そのものです。 ⇒ 「平均のまわりの分布の広がり」 式で書くと、このようになります。 V(X) = min ... 【講義ノート】平均と分散 平均と分散の性質をまとめておきましょう。 ・平均とは2乗誤差を最小化する値 ⇒ 「期待値」「分布の代表値」 式は要記憶。 ・分散とはそのときの最小2乗誤差の値 ⇒ 「平均のまわりの分布の広がり」 式は要記憶。 【講義ノート】平均と分散 (2) 確率変数 X と定数 a, b から作られる「aX+b」という量はまた確率変数になります。 確率変数 aX+b の平均を求めてみましょう。 E(aX+b) = ∫(aX+b) f(x) dx 「+」を展開し、定数「a」「b」を積分の外に括り出します。 E(aX+b) = a ∫ x f(x) dx + b ∫ f(x) dx ∫ x f(x) dx = E(X) ←(平均の定義) ∫ f(x) dx = 1   ←(確率分布を積分すると 1) E(aX+b) = a E(X) + b とっても分かりやすい結果が出てくれました。 【講義ノート】平均と分散 (3) 確率変数 aX+b の分散を求めてみましょう。 V(aX+b) = ∫(a x + b - a E(X) - b)^2 f(x) dx b が±で消えて、定数「a」を積分の外に括り出す。 V(aX+b) = a^2 ∫ (x - E(X))^2 f(x) dx ∫ (x - E(X))^2 f(x) dx = V(X) ←(分散の定義) V(aX+b) = a^2 V(X) 分散は平均と違って妙な形になりました。「b」はどこかに消えてしまいましたね。「a」は2乗で聞いてくるようです。 分散は一筋縄ではいかないようです。 【講義ノート】平均と分散 (4) さて、ここで複数の確率変数の「独立性」について述べておきます。 ・独立性  - 独立な確率変数 X と Y に対し次式が成立 h(x,y) = f(x) g(y) 但しここで、 h(x,y): X, Y の同時確率密度関数 f(x) : X の確率密度関数 g(y) : Y の確率密度関数 とします。 【講義ノート】平均と分散 (5) 独立な確率変数 X と Y に対し、確率変数「X+Y」の平均を求めてみましょう。 E(X+Y) = ∫∫ (x+y) h(x,y) dx dy 独立性より、h(x,y) = f(x) g(y) E(X+Y) = ∫∫ (x+y) f(x) g(y) dx dy 「+」を展開し、「x」「y」の積分に入らないほうを外に括り出す。 E(X+Y) = ∫x f(x) dx ∫ g(y) dy + ∫f(x) dx ∫y g(y) dy ∫x f(x) dx = E(X) ←(平均の定義) ∫y g(y) dy = E(Y) ←(平均の定義) ∫f(x) dx = 1 ←(確率分布を積分すると 1) ∫g(y) dy = 1 ←(確率分布を積分すると 1) E(X+Y) = E(X)・1 + 1・E(Y) E(X+Y) = E(X) + E(Y) おっ、なかなかいいですね。分かりやすい結果です。 【講義ノート】平均と分散 (6) 独立な確率変数 X と Y に対し、確率変数「X+Y」の分散を求めてみましょう。 V(X+Y) = ... 地道に式を追って行ってください。 ∫∫(x-μ_x)(y-μ_y)h(x,y)dxdy =∫∫(x-μ_x)(y-μ_y)f(x)g(y)dxdy =∫∫(x・y - x・μ_y - y・μ_x +μ_x・μ_y)f(x)g(y)dxdy =∫x f(x)dx ∫y g(y)dy -μ_y∫x f(x)dx ∫g(y)dy -μ_x∫f(x)dx ∫y g(y)dy +(μ_x・μ_y)∫∫f(x)g(y)dxdy = μ_x・μ_y - μ_y・μ_x - μ_x・μ_y + μ_x・μ_y = 0 V(X+Y) = ... V(X+Y) = V(X) + V(Y) + 0 V(X+Y) = V(X) + V(Y) E(X+Y) = E(X) + E(Y) と同じように分散も和になるのですね。一見シンプルに見えますが実はそんなに甘くありません。 【講義ノート】平均と分散 (7) 今度は確率変数の和ではなく、差を考えてみましょう。 独立な確率変数 X と Y に対し、確率変数「X-Y」の分散を求めます。 V(X-Y) = ... 地道に式を追って行ってください。 V(X-Y) = ... V(X-Y) = V(X) + V(Y) + 0 V(X-Y) = V(X) + V(Y) 独立な確率変数の「差」からつくられる新しい確率変数の分散は、もとの確率変数の分散の「和」になることが分かります。 確率変数の和でも差でも、その分散は「和」。やはり分散は一筋縄ではいきませんね。 【講義ノート】平均と分散 (8) 前に「正規分布」という確率分布を勉強しました。正規分布の形状を定めるパラメータ「μ」と「σ^2」は、実はこの確率分布の「平均」と「分散」になっています。 分散「σ^2」の平方根「σ」を標準偏差といいます。 標本点が、正規分布の「μ±σ」の範囲に入ることを、「1σ(ワンシグマ)に入る」といいます。分布の約 68% がこの範囲に入ります。「ありがち」な実験結果だね、という意味です。 標本点が、正規分布の「μ±2σ」の範囲の外にあることを、「2σ(ツーシグマ)から外れる」といいます。分布の約 95% の範囲に入ってない。あまり見られない「外れた」実験結果である、という意味になります。 --