「不完全」だからこそ、リリースに踏み切った理由

ところが、特に日本語の音声認識技術は精度は低く、「議事録の記録用」に使う以前での問題も多い。Rimo Voiceの実力はどうなのだろうか。

「Rimo Voiceも正直言って完璧な状態とは言えません。ただ音声認識技術はGoogleもAPI(ソフトウェアの機能を共有する仕組み)を公開しているので、それを使えばそれなりに精度の高いプロダクトはつくれます。問題は、市場への参入タイミングです。プロダクトの精度は高いほうがいいわけですが、精度ばかりを追い求めてしまうと参入タイミングがどんどん遅れてしまいます。であれば、完璧な状態じゃなくてもいいので、今のタイミングで飛び込もうと思ったんです」(相川氏)

そこでRimo Voiceは、音声認識が曖昧になってしまった部分の文字色があえて薄くなる仕様にした。また、音声データとテキストデータをリンクさせ、文字色が薄い部分をクリックすれば、該当箇所を簡単に聞き直すこともできる。

画像提供:Rimo合同会社

「いわゆる書き起こしサービスは、音声データをテキスト化した後、自分で誤字脱字を直すことを前提にしています。Rimo Voiceは、音声データとテキストデータがひも付いているので、間違っている可能性がある箇所を簡単に検索できます。音声データに検索機能がついた状態をイメージすると分かりやすいかもしれません」

「議事録は『言った・言わなかった』が肝心なので、紙などで文字に残す。避けるべきは『どこで何を言ったのかがわからない状態』です。それならば、音声データと検索機能をかけ合わせたほうが活用されるのではないか、と考えました」(相川氏)

もうひとつの狙いは、テキスト化した後の手直しを簡略化し、多くのユーザーが触れやすくすることにある。当然だが、音声認識のような技術はデータが集まれば集まるほど、精度が高まる。競合サービスが先行していることもあり、後発であるRimo Voiceとしては「いかに使ってもらえるか」が要になるのだ。

「このサービスは、たくさん使ってもらえて初めて価値が生まれます。Rimo Voiceの画面上で簡単に修正や編集できれば、利用率も上がる。今後は、複数人で同時編集できるようにしたいとも考えています」(相川氏)

文字起こしで実現したいのは「組織内の透明化」

Rimo Voiceが最終地点として目指すのは、組織内における「情報の透明化」だ。GoogleやGitHubのような海外のIT企業では、経営会議での会話がオープンで、重要事項が内密に決まることはあまりない。相川氏が実現したたいのは、そういった重要な会議での会話をテキスト化することにある。