音楽情報科学研究会 » 歴代主査エッセイ：平田圭二

これからのSIGMUS10年間へ向けて

やはり音楽生成システムの研究は難しかった．これがSIGMUSで20年間研究をやってきた素直な感想です．というわけで，これからのSIGMUS10年間へ向けて，生成に取り組む際の私なりの研究ポリシーを述べようと思います．

まず，音楽生成システムに関しては目的ではなく方法を議論すべきだと思います．音楽生成システムの基本的な目的は，現時点での正解集合(コーパス)に含まれていないけれど，ある特徴を満たしたりある効果をもたらすような音楽を生成することです．一般に，生成される解を表現する空間はとても広いので，正解が満たすべき特徴について必要十分条件(仕様)を与えることは難しく，もたらされる効果についても何をどこまで考慮すればいいのか不明な場合が殆どです．よって多くの場合，音楽生成システムの目的として解の必要条件しか与えられず，いきおい目的の表現はどうしても曖昧になってしまいます．例えば，制作者だけが満足すれば十分な音楽を創ることや，100年間聴き続けられる音楽を創ることなどです．このような曖昧にしか表現できない目的に関して，正しいか/適切かを議論することにはあまり意味があるとは思えません．

次に，音楽生成システムに関する方法を研究するため，以下3つの指針を掲げたいと思います：

1. アッパーコンパチな方法
2. 方法の改善点が明らかになるような評価
3. 正確な記述と簡潔な記述とのトレードオフの克服

まずアッパーコンパチな方法とは，以前の方法で生成できた音楽(コンテンツ) が新しい方法でも生成できるという意味です．つまりアッパーコンパチならば，これまでの表現も新しい表現も可能ですから，間違いなくより表現力の高い方法ということになります．もちろん歴史を振り返れば，そうでない方法もありました．例えば，サンプリング音源は，アコースティック楽器の生演奏を聴取した時の微妙な音色の差異や臨場感を捨て去ってしまいましたが，デジタル化がもたらす大きな恩恵を受けました．あるいは例えばFrancois Pachetが開発したContinuatorは，ユーザが弾くフレーズを実時間で学習しユーザらしい応答フレーズを生成するシステムです．Continuatorはユーザらしくない応答フレーズを生成できませんが，応答フレーズが実時間でタイミング良く生成される点とその場で弾くだけという入力の簡便さゆえに，様々な状況や場面で様々に利用されるに至っています．これらの方法は，それまでの音楽表現のある一部分を失ってしまったけれど，それを補って余りあるメリットをもたらしたことで生き残りました．そういう前例を踏まえて，新しい生成技術を提案する時には基本的にまずアッパーコンパチを目指そうと言いたいと思います．しかしどうしてもアッパーコンパチが達成できない時は，つまりそれまでの音楽表現のある一部分を失ってしまう時は，その一部分が何であり，それを補って余りあるメリットが何であるかを明示的に述べるべきだと思います．

方法の改善点が明らかになるような評価とは，方法の改善に貢献するような評価項目を設定するという意味です．一般に，音楽生成システムを実現する時は，既存の方法と新しく考案した方法を組み合わせます．従って，既存の方法の選び方は妥当だったのか，その考案した方法は意図通りの効果を発揮していたか，組み合わせ方は適切だったのかを調べるために，さらにどう改善すれば良いのかを検討するために評価項目を設定し評価を行うわけです．これが方法に関する評価です．また，評価とは比較することですから，方法に関して従来システムと比較を行うのが正しい評価だと思います．ところが実際には，音楽生成システムの方法ではなく目的に関する評価をしている研究発表が散見されます．例えば，ある音楽生成システムの目的が明るい曲を生成することだとすると，明るい曲を生成したかどうかを評価するわけです．目的に関する評価と方法に関する評価はきちんと区別すべきだと思います．また比較することを考えていない入力データを用いた研究発表も散見されます．例えば，複雑な入力データに対する複雑な出力だけを示し，システムの振舞を報告し評価とするような場合です．従来システムとの比較を可能とするような入力データをうまく設定し，その出力データに基づいて方法の改善点を明らかにすべきだと思います．

最後に，正確な記述と簡潔な記述はトレードオフの関係にあるので，これらをできるだけ両立させることを目的に置いて，その方法に関する評価をしようと言いたいと思います．まずトレードオフについてです．音楽生成システムの開発者/ユーザは，ある意図をもって音楽を生成するためにそのシステムを作ります/使います．従って，どんな音楽を生成したいのかを何らかの形式で記述してシステムに伝えなければなりません．多くの場合，開発者ならばソフトウェアによって，ユーザならばシステムの制御・操作によって意図を伝えるでしょう．いずれにしても，ある領域と形式(記述法)を定めてその中で意図や対象を記述しなければなりません．この記述法に関して2つの指標が考えられます．1 つは正確さです．それは例えば解像度のようなもので，どれだけ正確かつ詳細に記述できるかという指標です．もう1つは簡潔さです．人にとっての可読性，機械にとっての操作性・構文解析の容易さの指標です．記述するコストと読み取るコストの和と考えてよいでしょう．最も望ましいのは正確かつ簡潔な記述法ですが，一般にこれらを両立させるのは難しいです(*)．例えば，人間が楽器を演奏したサウンドをMIDIと楽譜で記述する場合を比較してみましょう．MIDIコマンドのタイミングや音量のデータを調整するコストをかければ，人が楽器を演奏している際に生じるタイミングや音量の逸脱までかなり正確に記述できます．一方，楽譜ではそのような逸脱を記述できない代わりに，記述に要するコストは低くなります．このように，音楽生成システムでの記述法に関する正確さと簡潔さのトレードオフは永遠に避けて通れない共通課題です．従ってこのトレードオフを克服する技術開発は，どんな音楽生成システムにとっても必ず意味があると思っています．

以上3点に留意して音楽生成システム研究に取り組めば，反駁可能な研究結果の積み重ねが実現できるのではないかと思っています．

2012, 11/23 函館にて

謝辞：草稿に対して竹川佳成氏(公立はこだて未来大学)から貴重なコメントを頂きました．

(*) ちなみに，正確さ vs 簡潔さは，expressiveness vs tractability とも generality vs efficiency とも言われます．

歴代主査エッセイ：平田 圭二

これからのSIGMUS10年間へ向けて

歴代主査エッセイ：平田圭二