スマートフォンのSiriやOK Googleなどでも使われている「音声認識・合成技術」。昨年7月には、東芝デジタルソリューションズも、この技術を利用した新たなサービス「コエステーション」を発表した。“コエ”のマーケットが急速に拡大している今、国立情報学研究所の准教授・山岸順一氏にその技術の最前線を聞いた。(清談社 岡田光雄)
人間のアイデンティティである
「声」を「コエ」に
コエビジネスの根幹をなしているのが、音声認識・合成技術。これは人間の声をコンピューターに認識・識別させ、さらには人間の声を人工的に合成し作り出す技術のことである。
BCCリサーチ社によると、音声認識・合成技術関連の世界市場規模は、2011年には470億ドル(5兆2749億円)だったが、17年中には1130億ドル(12兆6823億円)に達すると見込まれている。位置情報を読み上げるカーナビや、スマホの音声認識、“しゃべる家電”で有名なIoTデバイスなど、生活の中にも着実に浸透しはじめている。
ただし、ボーカロイドといった例外はあるものの、これまでの製品を見ると、音声技術が使われている製品の大半は、コエの“質”には、それほど重きが置かれていなかった印象がある。しかしここ最近は消費者ニーズの高まりによって、コエの質が必要とされるケースが急増しているようだ。
それを象徴するのが医療分野である。
例えばALS(筋萎縮性側索硬化症)などにかかり、声を失った患者は通常、意思伝達装置(重度障碍者用伝達装置)というものを利用する。この機器は、手の指先、足、目のまばたきなどでスイッチを操作して、文章を作成したり読み上げたりできる装置だが、音声技術の向上によって、そのコエを自分自身の声と同じものにする研究が進んでいるのだ。