このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 _/_/_/ 第十三回 漸近的なパラメータ推定 _/_/_/ この講義を締め括るテーマとして、ベイズ統計の最もベイズ統計らしいところが前面に出る「漸近的なパラメータ推定」の話をしたいと思います。 【講義ノート】観測データは漸増する 皆さんが将来、実際に現場でいろいろなデータ収集を行う際に、一度に全てのデータが出そろっているという状況は稀にしか起こりません。 観測されるデータは日々逐次的に集まってくる、というのが現実のデータ収集です。そうです、観測データは「漸増」するのです。 例えば、気象データ。その日の気温や気圧などのデータは、日に日に観測され次の日の気象予測に使われます。台風が接近してきたとき、天気予報で、台風の進路が次々と頻繁に変わっていくのは見たことがあるんじゃないですか? 株価とか、もっとすごいですね。証券取引所にいれば、リアルタイムで株価の情報は更新されるようすを見ることができます。ネットには 15分遅れて、情報が提供されます。ネットをリアルタイムにしないのは、ネットワークロボットによる売り買いを防ぐためですが、まあ、それば別の話。 この図のように、観測データすなわち標本は、観測開始から観測終了まで、継続的に観測を続けることによって、だんだん増えていきます。観測データは漸増するのです。 【講義ノート】観測データは漸増する (2) 観測を開始してから、十分な観測データが集まったら観測を終了し、そこで統計をとって事後分布を求める、というのは単純で分かりやすい手順ですが、現実の観測においては、観測が継続している途中で、そこまでの統計をとって、そこまでの結果を示したいというのはよくあることです。 図のように、ある程度データが集まったところで一度統計処理を行う。またある程度データが蓄積したところで再度統計処理を行う。観測が終了したら、全部のデータを使って統計をとる。これによって各段階の統計情報、典型的には事後分布を求めていくわけですが、ちょっと効率が悪いですね。 例えば、この一回目の統計には、図の左側 1/3 のデータを使いますが、次に二回目の統計には、図の左側から 2/3 のデータを使って統計計算を行い、さらに最終段階では全部のデータを使って統計計算を行う。使われるデータが重複していることに気がつきます。また、ある時点の統計計算を行うときに、過去の観測データを全部記憶しておかなければならないのも、記憶容量の観点から問題です。 もっと効率的な方法はないのでしょうか? 【講義ノート】漸近的な確率分布推定 さて、ここでこの講義で何度も勉強したベイズの定理を思い出してみましょう。 ベイズの定理の左辺値、連続型の場合、事後分布を求めるものでした。右辺の分子は、先験確率の分布すなわち事前分布と、観測データから求めた条件付き確率の積になっていました。 この事前分布に対して、分布に対する知識がなければ「一様分布」を仮定する、とこれまでお話してきましたが、実は、分布に対する知識があれば、それを使うべきだとも言えるわけです。 【講義ノート】漸近的な確率分布推定 (2) そこで、ベイズの定理をこのような書き方に変更してみます。 まず左辺、観測データを何段階かに分け、その n ステップめの、推定される事後分布をこのように書いてみます。 次に右辺、前のページで事前確率だったところを、直前のステップの統計計算で求めた確率分布、すなわち n-1 ステップめの、事後分布を使うことにしましょう。また、条件付き確率のところは n ステップめで増加した分の観測データから求めた条件付き確率にします。 記号がいろいろ変わっているので注意してください。 式に付けられた吹き出しが空白になっています。自分で記入して、その概念をしっかり理解しましょう。 【講義ノート】漸近的な確率分布推定 (3) 今説明した、ベイズの定理を用いて、直前のステップの事後分布を、現在のステップの事前分布として利用する考え方に基づいて、漸近的な確率分布推定の流れを書き直してみました。 横軸は時間の流れです。観測を継続すると、漸時、観測データが増加していきます。今、データが3段階に観測されるものとしましょう。 左側 1/3 のデータが入力されたところで、統計計算を行い事後分布を推定します。 続く 1/3 のデータが入力されると、前のステップで求めた事後分布を次のステップの事前確率として用いて、また新しく入力されたデータから条件付き確率を求め、ベイズの定理に基づいて事後分布を「更新」します。 後はこれの繰り返しです。次のステップのデータが入力されると、前のステップで求めた事後分布を事前確率として用いて、また新しく入力されたデータから条件付き確率を求め、ベイズの定理に基づいて事後分布を更新します。 (吹き出しに「直前のステップの事後分布を事前分布として利用」と記入しておきましょう。) さて、このようにベイズ統計の考え方を用いれば、観測データが逐次的に増加する場合でも、そのステップにおける統計を行うだけで、そこまでの蓄積データ全てを用いて統計を行うのと同等の結果を得ることができます。 観測データが逐次的に増加するシチュエーションは、まさに「ベイズ統計の得意分野」といっても過言ではありません。 【講義ノート】漸近的なパラメータ推定 さて、ここまでで既に、観測データが逐次的に増加する状況において、どのようにベイズの定理を利用するかについて、もうわかってしまいましたね。 でも、これで終わり、というわけではありません。もう少し、話を続けます。 ここまででお話しした通り、観測データが逐次的に漸増する場合、各データステップにおいて、前のステップの事後分布を次のステップの事前分布として使うというのが、ベイズ推定における逐次的統計処理の骨子なのですが、いかんせん、なんといってもベイズ流なので、継承されていくのは「確率分布」なわけです。 皆さんご存じの通り、確率分布というのは「グラフ」ですね。グラフというのは各横軸に対して縦軸の値を与えるわけで、結構な記憶容量が必要です。もうちょっと簡素化できないか? 確率分布を簡素化する典型的な方法は、その確率分布を「代表値」で表してしまうことです。 コイン投げの問題を思い出してみましょう。あるコインを n 回投げたら k 回表が出た。このコインの表の出る確率 p の推定値は、この図のような確率分布になるのでしたね。思い出しましょう。 この分布を代表値で表すには、どんなパラメータが適切でしょうか? いろいろ考えられますが、一つには確率分布の「平均」を用いることが考えられます。 【講義ノート】平均 確率変数 X の平均はどうすれば計算できるか覚えてますか? 連続型の場合はこのような式になります。 確率変数の実現値を x 確率密度関数を f(x) を掛けて、積分すればよいんでしたね。 よーし、じゃあ、さきほどのコイン投げの問題の、確率分布の平均を求めてみましょう。 その前にまず、補題を解いておきます。 【講義ノート】補題 今、とある確率分布が、このような式で与えられるものとします。 αとβは各々正の実数とします。実際には複素数の場合もアリですが、ここでは実数としておきましょう。 実はこれは「ベータ関数」あるいは「第一種オイラー積分」と呼ばれるものです。より詳しく知りたいかたは、自分で調べてみましょう。 この確率分布の平均を計算します。 確率変数 p と確率密度関数 f(p) の積を積分します。p は確率なので、0 から 1 の範囲で積分すれば十分です。 まず、p を掛けた分で、分子の p^{α-1} が p^αになります。 次のページへ続く。 【講義ノート】補題 ' 補題の続きです。 分子を部分積分します。部分積分、高校の数学で勉強していますね。思い出しましょう。忘れちゃったという人は、後で復習してちゃんと思い出しておきましょうね。この程度の数学は、この科目に限らず、これから常識のように必要になります。 分子を部分積分したら、さらにちょっと工夫して、このように変形します。何故このように変形するのか、次のページで使うからです。 【講義ノート】補題 '' さらに、補題の続きです。 一行目の式は、分子を部分積分して変形した式です。 これを分母で割ると、二行目の式になります。 左辺と右辺の第二項は平均の定義により E(P) ですね。 右辺の第一項は分子と分母が同じです。1 ということです。よって、 E(P) = (α/β) (1 - E(P)) これを E(P) について解けばよい。各自導出して見てください。結局、 E(P) = (α / (α+β)) と求まります。 【講義ノート】補題 (再掲、結果つき) 3ページ前の「補題」は未完成でした。今度はちゃんと値を入れています。 確率分布 f(p) = C p^{α-1} (1-p)^{β-1} の平均は (α / (α+β)) となります。 【講義ノート】漸近的なパラメータ推定 (2) ようやく準備が整いました。 コイン投げ問題の確率分布。あるコインを n 回投げたら k 回表が出たという観測のもとに、このコインの表の出る確率 p の推定値の確率分布の平均を求めてみましょう。 確率分布の式は f(p) = C p^k (1-p)^{n-k} でした。これと、補題の f(p) = C p^{α-1} (1-p)^{β-1} を見比べると、 k = α - 1 n - k = β - 1 という関係が成り立ちます。 よって、確率分布の平均は E(P) = (α / (α+β)) = ((k + 1) / ((k + 1) + (n - k + 1)) = (k + 1) / (n + 2) と求まります。 これを、コイン上げ問題の確率分布の代表値とします。 【講義ノート】漸近的なパラメータ推定 (3) この図は前にも出てきた図です。 コイン投げの問題において、あるコインを n 回投げたら k 回表が出たという観測結果が得られているときに、このコインの「表の出る確率 p 」の推定値の確率分布です。 この確率分布を代表する値として、確率分布の平均を使いましょう。図の吹き出しに、代表値 μ = (k + 1) / (n + 2) を記述しました。 【講義ノート】漸近的なパラメータ推定 (4) さて、このようにして求めた、コイン投げ問題の確率分布の代表値を、漸時、観測データが増加していく状況に適用してみましょう。 横軸は時間の流れです。観測を継続すると、漸時、観測データが増加していきます。今、データが3段階に観測されるものとしましょう。 左側 1/3 のデータが入力されたところで、統計計算を行い事後分布の代表値を求めます。n_1 回のコイン投げを行って k_1 回表が出たとすると、その代表値は (1 + k_1) / (2 + n_1) となります。 続く 1/3 のデータが入力され、統計計算を行い事後分布の代表値を求めます。n_2 回のコイン投げを行って k_2 回表が出たとすると、その代表値は (1 + k_1 + k_2) / (2 + n_1 + n_2) これの繰り返しです。次のステップのデータが入力されると、前のステップで求めた事後分布を事前確率として用いて、統計計算を行い事後分布の代表値を求めます。n_3 回のコイン投げを行って k_3 回表が出たとすると、その代表値は (1 + k_1 + k_2 + k_3) / (2 + n_1 + n_2 + n_3) と求まります。 これらのことから、直前のステップまでの試行総数と表の出た総数を記憶しておき、次のステップでそれにそのステップの試行数と表の出た回数を積算していけば、非常に少ない記憶量、計算量で、確率分布に対する漸近的なパラメータ推定が行えることが分かります。 漸近的なパラメータ推定は、ベイズ統計の最もベイズ統計らしさが現れる使い方といえましょう。 --