皆さん、おはようございます。 このファイルは、2年春学期科目「工学のための確率と統計」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」の PDF ファイルをダウンロードし、印刷しておいてください。講義ノート中には、わざと空白にしてある部分があり、このテキストに従ってそれらを埋めていってください。特に重要な部分を手書きすることによって記憶を強化するねらいがあります。 講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 同じ場所に「宿題」を提示します。「学生用ページ」「レポート提出システム」 から、その日のレポートを提出してください。 〆切は 次回授業日前日の 23:59 です。 (注)「情報工学課程/知能・機械工学課程の配当年度(2年生)」でない履修者は、 レポート提出システムの設定を行う必要があるので、授業開始日以前に 下記の情報を川端まで連絡してください。「学生番号」「氏名」「メールアドレス」 さて、それでは「確率・統計」の勉強を始めましょう。 _/_/_/ 第一回 確率と母集団 _/_/_/ 【講義ノート】「確率」を理解するキーポイント さて、皆さんは日常生活の中で 確率 ということばをよく聞いているとは思いますが、どのように理解していますでしょうか? 生活の中では確率ということばは、いろいろな意味で使われていて、曖昧性のあるものです。大学で習う確率にはもう少し厳密な意味を与えていきたい。 ここでは確率を規定する3つの概念を紹介します。 確率現象を正しくとり扱うためには、その確率を規定する「標本」「抽出単位」「母集団」が何であるかを、見極める必要があります。 また、もう一点、その母集団を特徴づける「パラメータ」が何であるか、見極める必要があります。 これらの学術用語は重要です。講義ノートにしっかり書き込んで、記憶するようにしましょう。 【講義ノート】標本と母集団 確率現象を正しくとり扱うためには、まず 母集団 (population) が何であるかはっきりさせる必要があります。母集団というのは「起こりうる全ての事象の集合」です。後でもっと具体的な例を出します。 抽出単位 (sampling unit) というのは、母集団を構成する要素の種類、すなわち起こりうる事象の種類を意味しています。 無作為に母集団から一個の事象を取り出すことを、標本抽出 (sampling) といいます。 標本抽出を何回も行って、取り出された事象の集合を、標本 (sample) といいます。 さてそれでは講義ノートの「・」の後に「標本」「標本抽出」「抽出単位」「母集団」を書き込んでください。また右の方にある図との対応を考えて、図中にこれらの用語を書き込んでみてください。 下のほうにある大きな楕円が母集団です。起こりうる全ての事象の集合です。 母集団の要素となるたくさんの黒点が抽出単位です。抽出単位を選んで上方に引き出している矢印が標本抽出、選ばれた要素の集合(上のほうにある小さな楕円)が標本ということになります。 【講義ノート】ケーススタディ (1) 学術用語が次々と出てきて、緊張して来たのではないでしょうか? 簡単な実例によって、難しそうな概念が実はそんなにたいそうなものではないことを見ていきましょう。 コイン投げというゲームがあります。一枚の硬貨を親指で弾いて上方に回転させて投げ、反対側の手の甲の上で受けます。硬貨の表が出る(上になる)か裏がでるか。典型的な確率現象になります。 「コインを投げると」のあたりに「試行(trial) (=標本抽出)」と記述しましょう。 ある実験を行って結果を観察することを試行といいます。英語で trial 、実はこれが標本抽出に対応します。 「表か裏が出る」のあたりに「事象(event) (=標本)」と記述しましょう。 ある実験を行って観察された結果を事象といいます。英語で event 、これが標本に対応します。 さて、この現象の抽出単位は何? 母集団は何? 【講義ノート】コイン投げの母集団 コイン投げにおいて、起こりうる事象は「表」か「裏」の2種類です。よってこの2つが抽出単位(起こりうる事象の種類)になります。 コインを投げた結果(抽出単位)が多数個集まったものが、この現象の母集団です。コインを投げる回数に制限はありませんので、この母集団の要素数は無限個です。表の出る割合 p のコインの母集団には「表」と「裏」が p : 1-p の比率で含まれます。 この母集団の性質は、そのコインの表の出る割合 p のみで決まります。前掲の「確率を理解するキーポイント」のページで、その母集団を特徴づける「パラメータ」が何であるか、見極めることが大事であると述べました。まさにこのケースでは「表の出る割合 p」が母集団を特徴づけるパラメータになっています。 【講義ノート】コイン投げの定式化 さて、だいぶイメージが掴めてきたと思いますので、ここでコイン投げ問題を次のように定式化します。 「あるコインを過去 n 回投げた結果から、そのコインの表が出る確率 p を推定」 する問題。この定式化は、確率の推定問題になります。またこれは、 「標本中に含まれる『表』の割合から、母集団中に『表』が含まれる割合 p を推定」 する問題でもあります。母集団のパラメータ推定問題になります。 このように、確率の推定問題が実は母集団のパラメータ推定問題と同じ構造を持っていることが分かります。 【講義ノート】ケーススタディ (2) コイン投げの問題は簡単で分かりやすい例になっていますが、実験的過ぎてこれが何の役に立つのかあまりピンときません。次は、コイン投げよりももう少し現実的な問題に目を向けてみましょう。 マーケッティングに関係する CRM 例題を考えます。CRM とは Customer Relationship Management の略で、顧客管理と訳されます。その一端を紹介します。 ある企業が新製品を発売しようとするとき、いったいどれだけの数、その製品を製造するか判断しなければなりません。 作りすぎて売れ残れば不良在庫を抱え、損失が出てしまいます。 では少なめに作ればよいかというとそうでもなくて、供給が十分であれば売れたはずの製品を売れなかったということで、機会損失 (Opportunity loss)が生じます。 このために、新製品の発売に先行してアンケート調査を行い、製造数の見当をつける必要があります。 ちょっと単純化しますが、「このような製品が発売されたら購入しますか?」と、一点のみ質問して回答をもらいます。 全ての顧客にアンケートを実施するのは不可能なので、無作為に選んだモニタと呼ばれる人たちに依頼して回答をもらいます。 【講義ノート】アンケート調査の母集団 おっと、標本と母集団の絵が再登場しました。 アンケート調査の母集団って、いったい何でしょうか? 起こりうる事象は「買う」か「買わない」かです。この製品の想定顧客一人一人が、製品発売後にこの製品を買うか買わないか(抽出単位)の事象集合が、この問題の母集団です。母集団のパラメータ「新製品を買う人たちの割合 p」が知りたい。 想定顧客から無作為にモニタを選ぶことが標本抽出になります。 モニタから得たアンケート回答の集合が標本になります。 右下に「想定顧客(=母集団)」と書いておきましょう。 選択の矢印は「モニタの選択(=標本抽出)」ですね。 選ばれた事象の集合は「アンケート回答(=標本)」となります。 【講義ノート】コイン投げとアンケート調査 現実のアンケート調査では ・いろいろな観点の多岐にわたる質問項目を設定 ・「買うつもり」と答えた人がほんとうに買うとは限らない など、一見、より複雑に見えます。しかし、 母集団のパラメータ推定問題としての構造は ・「標本中に含まれる『買うつもり』の人々の割合から、 母集団中の『買うつもり』の人々の割合 p を推定」 する問題になっていて、実はコイン投げとアンケート調査は同型なのです。 --