話し上手なコンピューター

A.アーロン
E.アイディ
J.F.ビトレリ
200509

日経サイエンス 2005年9月号

9ページ
( 1.8MB )
コンテンツ価格: 611

 米国では,たいていの大企業に電話をかけると,コンピューターとの会話から始まる。最近まで,電話の自動応答システムは,あらかじめ録音しておいたフレーズをつなぎ合わせるだけだった。まるでロボットのようなぎこちない声で,「アナタガオカケニナッタバンゴウ,5,5,5,5,1,2,1,2,ハ……」と聞こえてきて,がっかりしたものだ。
 この10年でコンピューターの音声はかなりわかりやすく聞き取れるようになってきた。しかし,研究者はさらに難しい課題に取り組んでいる。人間の話し方により近づけようと,口調や言い回しまでも調整できる技術を確立しようというのだ。そうすれば,コンピューターがもっとうまく意味を伝えられるようになると考えている。この困難な目標を達成するには,会話を構成する要素を深く理解するとともに,声の音量や高さ,タイミング,アクセントなどの微妙な効果に配慮する必要がある。
 世界中の企業や公共施設は,音声応答の情報サービスに年間数十億ドルを費やしている。ここには音声認識や言語理解,データベース検索,テキスト生成,そして音声合成といったさまざまな技術が用いられている。合成音声は,録音した人間の声から単語などの断片をつなぎ合わせて作られており,この出来がシステムの良し悪しを左右する。より表現力豊かな音声なら,電話する側にとって心地よく,好印象な通話になるはずだ。
 音声合成技術は急速に進歩しており,近いうちに,さまざまな新サービスを受けられるようになるだろう。文字情報でしか利用できなかった最新ニュースや天気予報を音声で伝えられたり,ディスプレーを使わずに人間と機械が対話できれば,カーナビが適切な道順を読み上げたり,電子メールのメッセージを電話ひとつで検索できたりするだろう。やがては,ゲームや映画にも音声合成技術が使われ,登場人物に真に迫った声を出させるようになるかもしれない。