文が完結しないのに訳し始める
最新「同時通訳」の実力

 さて、DeepLからリリースされる予定の「同時通訳」だが、これを紹介する同社イベントの様子は見つけられなかったものの、公式サイトにアップされているデモムービーを見ると、本当にまさしくこれぞ「同時通訳」と言えるものになっている。

 動画内で、日本人男性が「それでは早速、当社のグローバル戦略について話し合いましょう」と日本語で発言する。それに対して英訳が「Let's jump right into talking about our strategy」と生成される。

 従来だと、元となる言語が一文完結しないと(日本語で言うなら句点「。」まで来ないと)訳文は生成されない。文章の形が決定しないうちは翻訳ができなかった。

 しかしDeepLのデモムービーでは「それでは早速、当社の」のところまでで、英訳が「Let's jump right into」(意:「早速○○を始めましょう」)が生成されているのである。元の文ではまだ「始めましょう」と言っていないのに英訳では「jump into / 始めましょう」と言っていて、しかもそれが日本語を文末まで聞くと正解なのである。なぜこのようなことが可能になるのか。

※なお、無論デモムービーだから編集はたくさん入っているだろうが、アプリが同時通訳を行っているスピード感もあまり編集でいいようにしてしまうと今度は単なる詐欺ムービーとなるので、「そこまで過度な美化は編集で施していないだろう」という素直でピュアな心にもとづく視点での視聴であることを、一応お断りしておく。

 こうした同時通訳では、ストリーミングNMTという技術が用いられている公算が大きい(あるいは、DeepLの同時通訳はストリーミングNMTに近い挙動を示している)。

 これは、ざっくり言うと「翻訳を進めながら次を予測して随時翻訳を決定していく」ような技術である。そして次に来る語を聞いて、予測とのズレを修正するための適切な語を決定して出力し、それをやっている間にも次に来る語をまた予測している……という具合である。AIが2層構造になって間断なく無駄なく働き続けている。

 考えてみれば、これは我々人間が日常的に会話を紡ぐ際の言葉の選択のプロセスに似ている。