皆さん、こんにちは。 このファイルは、3年春学期科目「音声情報処理」の授業において、口頭で説明する内容をテキスト(.txt)に書き起こしたものです。 事前に科目のHPにアクセスして「講義ノート」「宿題」の PDF ファイルをダウンロードし、印刷しておいてください。このテキストには講義ノートの記述より多くの情報を含んでいます。講義ノートの行間に、テキストの説明を書きこんで行くことをお勧めします。最後にプリントを綴じれば、将来必要になったときに見返せる自分の「講義ノート」ができあがります。 「学生用ページ」「レポート提出システム」 から、その日の「宿題」レポートを提出してください。 〆切は 次回授業日の前日 23:59 です。 (注)「情報科学科/人間システム工学科の配当年度(3年生)」でない履修者は、 レポート提出システムの設定を行う必要があるので、授業開始日以前に 下記の情報を川端までご連絡してください。「学生番号」「氏名」「メールアドレス」 さて、それでは「音声情報処理」の勉強を始めましょう。 _/_/_/ 第一回 音声とは何か _/_/_/ 【講義ノート】音声とは何か この授業の科目名である音声情報処理というのは、いったい何でしょうか。 まあ、音声信号を対象とする情報処理だろうな、と見当は付きますが、では、いったい 音声 とは何でしょうか。 まず、音声というのは、人間にとって日常最も慣れ親しんだ 情報伝達 の手段であるということに注意を向けておきましょう。 私たちは、画像や音声やテキストやいろいろな情報媒体、メディアに囲まれて生活しているわけですが、朝起きて、まずやることは「おはよう」と誰かとあいさつをすることです。誰かと会って誰かと話すたびに、私たちは「音声」によるコミュニケーションを行っています。日常最も慣れ親しんだ情報伝達の手段というのは、そういう意味です。 人間が声を出すためには、肺、喉、気管、口などいろいろな器官を使って声を出します。 それらの発声器官を使っていろいろな「音」を出せるのですが、そのうち 意味の伝達に使用される ものを「音声」といいます。 いいですか、「声」「voice」と「音声」「speech」は違うということでです。意味の伝達に係るものが音声であって、意味の伝達に係らないものは音声とは言わない。例えば「いびき」は声ですが音声じゃない。「寝言」「独り言」は微妙ですね。でも、これらは誰かに意味を伝達したくて発声しているものではないので、やはり音声とは考えません。 繰り返しますが、意味の伝達に使用される声を「音声」という。「音声」とするのです。このことが、後で音素やアロフォンという概念を説明するときに重要になってきます。 【講義ノート】発声器官 さて、さきほどちょっと触れた発声器官について、詳しく見て行きましょう。まず。この絵には描かれていませんが、下の方に肺があります。声を出すときは、肺から息を吐き出して、気管から口腔に空気を流します。 気管の入り口に、「声帯」「vocal chord」という筋肉の襞があります。 ちょっと喉の外側に指で触れて「あ〜」と発声して見てください。どこか震えてるところがあるはずです。ここが声帯です。 さて、このページにはまた戻ってくるとして、この声帯の仕掛けを見ておきましょう。 【講義ノート】発声器官(2) この絵は声帯の拡大図です。真ん中の空間が空気の通り道で、まわりが声道の肉。 声帯のところには内輪状咽頭筋という筋肉があります。声を出すときは、肺から息を吐き出しながら、この内輪状咽頭筋に力を入れて、空気の通り道を閉じてしまいます。 風船を膨らますのを想像してください。息を吐き続けていますので、肺から声道までの圧力が高くなっていきます。呼気圧といいます。どんどん圧力が高くなると、筋肉が圧力に負けて「ぷっ」と空気が漏れます。空気が漏れると圧力が下がってまた筋肉襞が閉じる。 また圧力が上がる、漏れる、閉じる、が繰り返されて、断続的な空気の振動が作られます。これが音声の重要な要素である「母音」の音源となります。 空気の振動というのは実は「音」のことです。空気の圧力の高いところと圧力の低いところが交互に繰り返されて、空間を伝わっていきます。 この声帯で作られる音は、ここにバイブレーションピックアップを装着して、直接音を聞いてみると、ブザーのような音「ブー」という音が聞こえます。 (前のページに戻る) 【講義ノート】発声器官 に戻ってきました。声帯で生成された音は「口腔」を通って唇から外に放射されます。口腔を囲む「舌(ゼツ)」「口蓋」「顎(ガク)」「歯」「唇」が、いろいろな音のバリエーションを作るのに関係します。また「鼻腔」を通って鼻から外に放射されます。 これらの気管のうち、特に「舌(ゼツ)」と「顎(ガク)」が重要です。 「舌(ゼツ)」というのは要するに「シタ」のことですね。 「顎(ガク)」というのは要するに「アゴ」のことです。でも、用語ですから 「シタ」とか「アゴ」とか呼ばないようにしましょう。そのうちまた出てきます。 【講義ノート】発声の機構 さて、発声器官について概観してきました。これらの器官を使って。私たち人間はいろいろな音声を発声できます。 前のページで説明した、声帯の振動に基づく音源を「声帯音源」といいます。発声に使う音源には、もう一種類「乱流音源」というものがあります。 舌や顎の位置をうまく調整すると、声道の途中に狭いところ「狭め」を作ることができます。呼気圧をかけて、この狭めに強く息を通過させると、そこで空気の流れが乱れ「乱流」が発生します。「ザー」という雑音のような音です。 声帯音源に基づく音声の特徴は、声帯で一定周期で空気が励起させられるため、「周期性」を持つということです。一方、乱流音源に基づく音声の特徴は、周期性を持たず雑音的であるといえます。 私たち人間は、この二つの「音源」を組み合わせて発声を行いますが、これだけでは意味の伝達に十分ではありません。さらに「共鳴」を用いて、音色にバリエーションを与えます。 声道を構成する、気管、口腔、鼻腔の形状により特定の周波数を強調し、音声の「音色」を変化させます。この点につきましては、次回以降詳しく掘り下げていきます。 最後に、唇、歯、鼻腔より空気中に空気の振動を放射します。 【講義ノート】音声波形 さて、音声の生成機構について、ざっと述べてきました。 今回の授業の最後に、音声をコンピュータに取り込んで「信号」として処理するために必要な事項について説明しておきます。 音声は「音」「sound」の一種です。 音は空気の弾性振動です。空気が弾性体であるというのは説明しなくてもいいですね。風船を膨らましてみると分かります。あらゆる気体は弾性体。 余談ですが「(主として)」と書いてあるのは振動媒体は空気でなくても音は伝わるからです。水でもよいし、鉄棒の一方に耳をあてると、遠くの振動が聞こえたりしますね。 この弾性体中を、圧力の高いところと低いところが交互に繰り返されて、音が伝わっていきます。私の口を中心とする球面上に同じ圧力の面ができます。その波が伝わっていって、この部屋中に極めて複雑に空気圧の分布が作られます。これが音の本質です。 しかし、この部屋全体の圧力分布を総合的にとらえるのは大変すぎます。もっと効率的な方法はないのでしょうか。 そこで空間中の一点に注目します。そこにマイクを置くと考えてもよいし、皆さんの耳があると考えてもよい。この一点に注目し、その点における空気の圧力が時間的にどのように変化するかを測定します。 するとこの絵にあるように、横軸に時間、縦軸に空気の圧力をとって、グラフで表現することができます。この表現法を「波形」「waveform」といいます。圧力を振幅にとって 波形 表示します。次回以降よく出てきますので、しっかり覚えていてください。 --