「ある単語が、他のどの単語と何回一緒に使われているかに注目して、単語を膨大な数値の塊として表現することによって、コンピューターに実装されるニューラルネットで翻訳ができるようになった」(隅田氏)

 しかし、派生語や固有名詞を含めると単語の数は相当である。ある言語の単語数が仮に100万語あるとしよう。見出し数100万語の辞書に、他のどの単語と何回一緒に使われているかという数値を記載しなければならない(これをコンピューターでは100万次元のデータを持つという)。言い換えると、メガ*メガでテラ(106*106 = 1012 =1,000,000,000,000〈一兆〉)バイトのメモリに数値を入れることになり、あまりに膨大なので、実際には、数学的なテクニックで処理可能な次元を圧縮して計算する。

 NMTの翻訳精度が圧倒的に高かったことから、自動翻訳はNMTが主流になった。機械学習が分野横断できる技術であることから、自動翻訳分野以外の研究者の参入もあり、自動翻訳の進化のスピードは桁違いに上がった。革新のスピードは、RBMTからEBMT/SMTまでに約40年、SMTの第2世代までに約20年、NMTまでに約10年、その後現在の第3世代NMTまでが約5年と、どんどん短縮されている。

 そして2020年、前述したEBMTの手法が復活してNMTの上に追加された。言い換えると、入力した文と類似した文が対訳データにあるかどうかを検索し、類似対訳があれば、それを参考にして自動翻訳し、類似対訳がなければNMTで翻訳する。多くの専門的な分野で、さらに高精度の翻訳ができる技術が確立できた。

 世界にはおよそ7000の言語があると言われ、グーグル翻訳はおよそ100の言語に対応しているが、NICTでは、英、中、韓、仏、西、タイ語、インドネシア語など10言語を重点的に研究している。日本語と英語は構造面で非常に遠く、日英双方向の翻訳に取り組んだ知見は、他の言語ペアの研究にも役立つのだ。敷衍すると、世界の言語の5割を占める、日本語と同じSOV(主語、目的語、動詞の語順の)言語と、4割を占める英語のようなSVO(主語、動詞、目的語の語順の)言語の対応はもちろん、SOV同士の日韓双方向翻訳や、SVO同士の英仏双方向翻訳では、より誤りの少ない翻訳を実現できる。

「日本での需要がある言語に絞り、より高性能、高精度の品質を確保し、他を圧倒することができ、また運用のコストパフォーマンスもよくなる。研究基盤があるので、カバーしていない言語は、必要に応じていつでも追加して開発できる」(隅田氏)