誰が話したかは、
アイコン表示で一目瞭然

 解析が終了すると、会話がテキストで表示される。従来の音声認識ソフトは、話者が一人でないと認識率が大きく下がるものが多いが、CLOVA Noteは話者を判別できるのが最大のウリ。アイコンも分けられているので、誰の会話なのかが一目瞭然(りょうぜん)だ。もちろん、最初は「参加者1」「参加者2」となっているので、アイコンをクリックして名前を入力する。話者を変更する区間で「全体区間」を選んで「変更」をクリックすれば、名前が一括変換される。

 この話者の判別精度は、ほぼ完璧と言っていい。発声が重なったときなどに、たまに誤認識も起きるが、普通に話している分にはまったく問題なし。人間の耳では声質や話し方が似ていると感じる人もきちんと分けてくれるので、とても助かるのだ。会話ごとに「柳谷」「吉岡」などと話者をタイピングする必要もない。

 今回はサンプルとして、ダイヤモンド・オンライン編集部が毎週火曜日の夜に行っているTwitterのSpaceを録音したものを利用した。話者は2人、音声認識することを意識せず自然に話しているものだが、画面を見るとどれくらいの精度でテキスト化されているかが分かるはずだ。

音声認識が完了。音声認識するつもりでなく話しているものだが、二人の会話がかなりの精度でテキスト化されている音声認識が完了。音声認識するつもりでなく話しているものだが、二人の会話がかなりの精度でテキスト化されている 拡大画像表示
アイコンをクリックして話者の名前を入力。「全体区間」を選択して「変更」をクリックするアイコンをクリックして話者の名前を入力。「全体区間」を選択して「変更」をクリックする 拡大画像表示