音楽を創るための“真似”の科学
ー音楽分野におけるデザイン再利用とその展開ー

VIDEO
さきがけ研究成果報告ビデオ

さきがけライブ(2005年 1/28(金) 東京国際フォーラム) 片寄発表

科学技術振興機構 2004年 第1回基礎研究報告会シンポジウム「ITが変える世界と生活」

戦略的創造研究推進事業 さきがけタイプ「協調と制御」領域
関西学院大学理工学部 情報科学科 片寄晴弘

研究の背景とねらい

 音楽や映像、造形や舞踊など、非言語メディアのデザインやイメージを言葉で伝えることは簡単なことではない。そうするより,直接、事例を参照し、特徴を伝える方がはるかに容易である。職業的なデザイン分野、特に、コンテンツプロダクションにおいては、例えば「ビートルズのあの編曲」、「スタンリー・キューブリック後期作品のシーン展開」などのように、具体的な目標事例を掲げてデザインイメージの伝達・共有をはかり、その上で、具体的な制作プロセスに入ることが多い。これまでの制作プロセスの多くは、“人間の作業”として実施されてきたが、ますます高まりつつあるコンテンツ需要に対応するため、計算機処理による代替・支援が求められている。
 本研究では、ユーザが目標事例を設定し、その特徴を転写することで音楽スタイルや雰囲気、演奏表現を作りだすシステムの開発を課題としている。分かりやすく言うと、“真似”によって、音楽を創るインタフェースを提供することを課題としている。この方式を用いれば、ユーザは、専門的な知識を持ち合わせていなくても、音楽を創ることが可能となる。現在までに、演奏における表情付け、ミックスダウン(商用音楽制作における最終工程)を対象として、音楽の基本構造とデザイン特徴(elaboration)の抽出とデザイン転写技術の開発を進めてきた。音楽分野での取り組みを起点に、幅広い対象に適用可能なデザイン転写方式を確立することが本研究の最終的なねらいである。


基本となる考え方

 デザインの工学的インタフェースとしては、感性工学と呼ばれる手法が知られている。一般的に、感性工学は次のような方法論を採用している。1) 多数の形容詞(情緒表現)によって評定したデザイン素材に対する印象を多変量解析によって低次元の特徴量空間に縮約する、2) その特徴量空間内の距離が感性的な近さに対応することを利用してメディアの提示や選択などを行う、3) GUI 等の技術で特徴空間内に配置したメディアをブラウズし,操作する。感性工学は「車」「眼鏡」「商標」等の検索インタフェースを中心に実績を上げてきた。しかしながら、デザイン上のideosyncratic (そのコンテンツをそのコンテンツたらしめている) な特徴を言葉で表現することは難しく、また対応する情緒表現があったとしても次元を縮約する際にうもれてしまうことが多々ある。それゆえ、感性工学は、生成系のデザインタスクを支援するという用途においては本質的に機能しないという問題点があった。これに対し、本研究では、図1に示すように、デザインの機微や個人差を情緒表現で記述することなく、事例参照し、elaboration を転写することでデザインを支援するインタフェースを提唱する。

図1.音楽分野におけるデザイン転写のイメージ
例えば,音楽の骨組みとして「きよしこのよる」,編曲として,「エナジーフロー」,ギターのソロとして,「E.Claptonのレイラ」,ミックスダウン事例として「小林武史のバラッド」を与えることで,音楽を完成させるシステムの構築を目指している.
片寄晴弘, 平田圭二, 原田利宣, 平賀瑠美, 笠尾敦司:事例に基づくデザイン支援と評価基盤の構築,人工知能学会誌,Vol.18, No.1 SP-A, pp.24-28, 2003.

elaborationの転写を行うためには、デザイン事例の基本構造とelaborationを分離し、さらに、elaborationと因果律を持つ構造をシステム内外で表現できるようにしておく必要がある。既存の音楽情報の記述表現形式としては、楽譜情報に基づく記述(MusicXML など)や演奏情報の記述が可能なMIDIが存在する。これらは、音響としての音楽情報を完全に記述しうるものではないが、それぞれの階層において、elaboration を記述することが可能である。また、因果律の記述としては,たとえば,音楽構造に対するナイーブな理解(フレーズやグループ構造など)が下位レベルでのelaborationの構成に密接に関係するという性質が表現できることが望まれる[1]。

図2.音楽の記述レベルとelaboration
片寄, 平田, 原田 , 平賀, 笠尾, 宮田:非言語メディアのデザイン支援の課題と可能性,人工知能学会第18回全国大会1E3-01 (2004.5) paper
片寄, 平田, 原田, 平賀, 笠尾: 事例に基づくデザイン支援と評価基盤の構築, 人工知能学会第16回全国大会 (2002.5 ベストプレゼンテーション賞受賞,近未来チャレンジ採択

図3.音楽以外のデザインにおける事例の活用例(東京工芸大学 笠尾敦司氏提供
デジタル写真をベースに,モジリアニのタッチを転写した作品例.人間の視覚処理に基づいて入力映像を解析し,タッチ(特に,色使い)を転写している.
片寄, 平田, 原田 , 平賀, 笠尾, 宮田:非言語メディアのデザイン支援の課題と可能性,人工知能学会第18回全国大会1E3-01 (2004.5) paper


具体的な取り組み(システム)

 音楽における事例参照型デザイン支援を実施するにあたり、以下に示すモデル、システム、ツール群の開発を行った。

具体的な取り組み(主要評価系研究)

展望

演奏の表情付け、編曲(伴奏付け)、ミックスダウンの各音楽タスクにおいて、事例を利用したデザイン転写手法を検討し、システム化を進めた。コンテンツに対する需要が高まっている中、本研究は、生成系のデザインタスクを支援する本質的なアプローチとして期待されている。ここでの成果は、芸術に対する理解を深めるツール、新しいアミューズメントとしての応用も見込まれている。現在、多岐にわたる音楽タスクを統合的に取り扱うデザイン転写モデルの実装を進めている。今後は、モーションやアニメーションを含む時系列メディアへの展開をはかり、我が国のコンテンツデザイン領域の発展に貢献していきたい。


演奏表情抽出ツール

演奏レンダリング(表情付け)は、本研究の中でも最も力を入れた研究対象の一つである。演奏レンダリングにおいてデザイン転写を行う際、演奏におけるelaboration として、テンポ推移や各音の演奏制御情報(演奏表情データ)を抽出し、データベース化を行うことが第一の課題となる。時に、一曲の中で3倍のテンポ変化が起こるような表情豊かな楽曲に対し、拍の量子化を行い、elaborationを抽出することは容易ではない。ここでは、作業の効率化を目的として、スパースな楽譜ガイドデータ(例えば、数小節につき一つのメロディ音)をガイドとして用い、DPとHMMを用いて、演奏レベルのelaborationを抽出するツールを作成した(図4)。ブーニンやルイサダ等,現在までに100超曲の演奏表情データベースを作成している。演奏表情データの可視化例を図5に示す。

図4.演奏表現におけるelaboration 抽出処理概要

図5.演奏表現におけるelaboration 抽出結果
ショパンワルツOp.64, No,2の7〜8小節目(左図)の音大ピアノ科卒2名の演奏表現例(右図).横軸がテンポ,縦軸が音量に対応する.演奏表現上での特徴の差が見て取れる.
豊田健一,片寄晴弘,野池賢二:音楽解釈研究のための演奏 deviation データベースの作成,情処研報,2003-MUS-51, pp.65-70,2003.8
Ken'ichi Toyoda, Kenzi Noike, and Haruhiro Katayose: Utility System for Constructing Database of Performance Deviations, Proc. ISMIR2004, pp.373-380 (2004.10) paper


演奏表情データ表示ならびにグルーピングルール(拡張GPR)適用ツール

前節の処理によって抽出したデータのピアノロール形式での可視化ツールの実装を行った。加えて、認知的音楽構造解析理論 GTTM(A Generative Theory of Tonal Music)の音楽グループ解析ルール(GPR)を、音量やOffset-Onset Intervalなど、演奏表現パラメータを考慮した形に拡張し、それらを表情のついた演奏に対して適用することによって,グループ境界候補を提示する機能を実装した。この機能により、グループ構造と演奏表現の関係を一見でとらえることが出来るようになった。演奏レンダリングモデル作成時のチェックに使用された他、音楽教育用途での利用が期待されている。

図6.演奏表情データ表示と拡張GPRによるグループ境界候補提示
ショパンワルツOp.64, No,2の7〜8小節目(左図)の音大ピアノ科卒2名の演奏表現例(右図).横軸がテンポ,縦軸が音量に対応する.演奏表現上での特徴の差が見て取れる.
野池, 橋田, 竹内, 片寄: 聴取者傾向を加味したGTTMグルーピング規則適用の演奏表情パラメータへの拡張, 情処研究報告, 2004-MUS-57, No.3 (2004.11)


演奏表情テンプレートを利用する演奏インタフェース

iFP は拍打・指揮型の演奏インタフェースである(図7)。演奏者は指揮ジェスチャセンサ、または、 MIDIキーボードを用いてテンポと音量を与える。演奏表情データをテンプレートとして利用することで、演奏上のニュアンスが付加される。名ピアニストの手を借りた演奏感覚、あるいは、名奏家を指揮しているような感覚を味わうことができる。

図7.演奏表情テンプレートを利用する演奏インタフェース: iFP
片寄晴弘, 奥平啓太, 橋田光代:演奏表情テンプレートを利用したピアノ演奏システム:sfp, 情報処理学会論文誌, Vol.44, No.11,pp.2728-2736 (2003)
Haruhiro Katayose and Keita Okudaira: Using an Expressive Performance Template in Music Conducting Interface, Proc.NIME04, pp.124-129 (2004.6) paper

図8.iFPのパラメータ設定インタフェース
Haruhiro Katayose and Keita Okudaira: sfp/punin: A Rendering Interface using Expression Model, the IJCAI-methods for automatic music performance and their applications public rendering contest, Acapulco, pp.11-16, 2003.


ミックスダウンデザイン支援インタフェース

ミックスダウンとは、レコーディングによって録音された各トラックの音素材に対し、音量や音像定位の調節とエフェクタによる音質加工処理を施し、最終的にステレオトラックにまとめ上げる作業である。ミックスダウンにおけるエフェクタや音量、音像定位の設定情報が異なれば、同じ音素材を用いても、楽曲の印象は大きく異なる。技能と経験の乏しいアマチュアにとって、自分のイメージ通りにミックスダウンを実施することは簡単なことではない。ここでは、経験豊富なミキシングエンジニアの持つミックスダウンのデザインを再利用する環境の提供に向け、楽音の種類・奏法の分類、各トラック情報に基づく音楽構造の解析機能を実装し、また、アノテーション方式に関する検討を行った。

図9.ミックスダウン のためのデザイン支援
谷井 章夫, 後藤 真孝, 片寄 晴弘: ミックスダウンデザインの抽出と適用, 第2回 情報科学技術フォーラム (FIT 2003) 情報技術レターズ, LF-003, pp.109-110 (2003.9 FIT論文賞)


アテンションの移動に基づく演奏レンダリングモデル

芸術の中でも音楽は、他の芸術と比較すると、データ記述・理論化が進んだ領域であるといえるが、芸術表現を創り出すための決定的な計算モデルは存在しておらず、現在、世界各国で研究が進められている。そのような中で、本研究グループでは、楽曲の各パートに対するアテンション(注意)の移動に着目し、次に挙げることを基本とする演奏生成モデルを提案した。1)それぞれのパートに独立に演奏表情をつける。2)アテンションの移動の際、当該の音の音長を延ばす。3)複数パートの発音時刻がグループ構造境界で一致するよう、オンセットタイミングのスケーリングを行う。このモデルに基づき、ショパン作曲「幻想即興曲」の中間部のレンダリングを実施したものが、NIME04-RENCON Award(演奏生成の聞き比べコンテンスト)の受賞作品となった。

図10.「幻想即興曲」におけるアテンションの移動
http://www.m-use.net/research/WALTS/


音楽経験に基づく統合型音楽生成アーキテクチャ

今までに、音楽能力を発揮する数多くの計算機システムが作られてきたが、そのほとんどは、作・編曲、表情付け、自動伴奏、セッションなど、個別の音楽タスクの実施を対象として作られたものである。ところが、各タスクの機能面に着目すると、予め与えられた、あるいは、何らかの手段で内発的に生成された“種”に対して、長期記憶を参照しながらデータを付加する、あるいは、“種”を詳細化するという共通の性質がある。詳細化過程は“補完”と読み替えることも可能である。補完過程自体は、未来の予測スケジューリングが必要なインタラクティブなタスクであっても、リアルタイム性が要求されない静的なタスクであっても、基本的には、同じアルゴリズムでの構成が可能である。長期記憶による自律的なデータ生成とリアルタイムに入力される信号への反応とのバランス制御をインタラクティブに行う機構を持つシステムは、作・編曲システムや音楽解釈システムなどの静的なタスクを実施するシステムを包含すると考えてよいだろう。このような観点から、本研究グループは、過去の音楽聴取体験に基づく予測補完処理を主眼とする音楽生成モデル(図 11)を提案してきた。音楽聴取体験の利用に当たっては、スケーラブルなデータマッチング(類似性判定)が必要となる。現在はベイジアンネットを利用し、Reductionレベルの抽象化制御を行うアプローチでシステムを構成しつつある。

以上の考え方に基づき、「演奏レンダリングシステムCOPER」、「流しのミュージシャン風の自動伴奏プロトタイプシステム 豊次郎」の実装を行った。

図11.音楽経験に基づく統合型音楽生成アーキテクチャ
片寄晴弘,豊田健一: 聴取経験に基づく予測補完型音楽生成アーキテクチャに関する考察, 情報処理学会研究報告, 2004-MUS-56, No.11 (2004.8)
片寄他:音楽認知情報処理に関する3つのアプローチ,情報処理学会研究報告, 2004-MUS-57, No.8 (2004.11)


Rencon プロジェクト(パフォーマンスレンダリングコンテスト)

演奏レンダリングシステムの研究においては、これまでにも、個々の研究において、手法や生成結果の評価がなされてきた。しかしながら、1)それぞれの研究が取り上げている対象曲が異なる、2)人間(システム制作者)の介入の程度が異なるなどの問題が有り、システム間でのレベルや達成度の比較が困難な状況にあった。また、生成結果の評価については、主観的な評価が不可欠である。そこで、我々は、2002年度より、演奏生成システムが生成した演奏をコンテスト形式で評価する取り組み(Rencon = performance RENdering CONtest)を推進してきた。これまでに、 ICAD, IJCAI, NIMEなどの国際会議に併設する形でRencon イベントを実施してきた。

図12.Rencon プロジェクト
平賀瑠美, 平田圭二, 片寄晴弘: 蓮根:目指せ世界一のピアニスト, 情報処理, Vol.43, No.2, pp. 136-141 (2002.2)


音楽グループ聴取傾向の分析

人間の音楽聴取モデルの構築を目指し、音楽グループ認知を題材とした分析的研究も進めている.音楽におけるグループ認知については、「局所的なゲシュタルトevidence の積み上げと、(伝統的西洋音楽特有の)典型的なフレーズ表現スキーマが、拮抗する形で最終的なグループが認知される」という作業仮説を設け、聴取実験を行った.その結果から,ゲシュタルト重視系の被験者グループ、フレージング重視系の被験者グループ、さらに、メロディパート重視系の被験者グループを抽出した。被験者グループ間で嗜好する音楽ジャンル、どのような聞き方で音楽を楽しむかの調査を実施したところ、図13に示す結果が得られた。スキーマ形成に関連するデータが取得できたものと考えている。

図13.音楽グループ聴取タイプと音楽嗜好との関係
片寄他:音楽認知情報処理に関する3つのアプローチ,情報処理学会研究報告, 2004-MUS-57, No.8 (2004.11)


NIRSを利用したiFP実施時の芸術的没頭の計測

iFPは、名演奏の事例を参照しながら、自身の演奏プランに基づいて実時間で演奏を生成するインタフェースである。当初は、演奏デザインインタフェースの構成を目的にシステム化を進めたが、プレイ時に、他の音楽系ゲームとは全く異なった演奏感(気持ち良さ)が得られることが確認された。芸術分野における事例の利用は、デザインにおける生産性の向上に加え、「能動的な鑑賞」を提供するツールとしての可能性を有している。そこで、この効果を確認するために、「事例の利用」、「身体性(インタフェース)」、「鑑賞にかかわるモード」の効果を、主観評価、および、NIRSを用いた脳活動の計測によって確認する実験を行った。主観評価と前頭前野正中部の脳活動計測の双方において「能動的な鑑賞」における芸術的没頭を示唆するデータが得られた(図14)。

図14.音楽聴取,演奏システムプレイ時の脳活動の計測.
NIRSを用いて前頭前野正中部(Fz)の脳血流を観測した結果.一般に,没頭・集中時に,Fz部におけるoxyヘモグロビン(図中:赤線表示)が減少すると言われている.上図は,iFPの操作に慣れた音楽経験者が,「星に願いを」を,a):聞き流した場合,b):弾いているつもりで音楽を聴いた場合,c):iFPを用いて プレイ(演奏モデルあり,指揮インタフェースの利用)した場合,の計測結果である.d)は,単に手振りをした際の計測結果である.気持ち良さの内観と一致する結果が得られている.
片寄晴弘:音楽における没入感に関する検討−技能の拡張と身体性の視点から− 音楽とエンタテインメント,日本バーチャルリアリティ学会誌, No.9, Vol.1, pp.10-14, 2004. paper
Haruhiro Katayose and Keita Okudaira: iFP A Music Interface Using an Expressive Performance Template, Entertainment Computing 2004, Lecture Notes of Computer Science, Vol. 3166, Springer (2004.9)


参考文献