翻訳の個性を生み出すのは
“お勉強”に用いられる「モデル」の違い

 ガソリンエンジンやディーゼルエンジンもあれば、電気自動車はエンジンではなくモーターを積んでいる。エンジン・モーターが違えば車の個性も大きく違う。そういう違いが翻訳サービス間にあるのである。

 DeepL翻訳やGoogle翻訳に使われているのはNMTというもので、これは翻訳専門のAIモデルである。ディープラーニングでせっせとお勉強を積み、自然で高精度の翻訳が可能となっている。

 一方、ChatGPTはLLM(大規模言語モデル。Large Language Model)というのを使っている。こちらは翻訳専門ではなく多用途で、要約とか作文とか、言葉周りのあれこれをやるモデルである。正確性を欠くこともあるが文脈理解と、語感や感情のニュアンスを出すのがうまかったりする。

 それぞれ一長一短なのだが、LLMが色々良いところもあるとわかってきていて、最近のDeepL翻訳について、公式からの明言はないものの「NMTとLLMを組み合わせたハイブリッド方式になってきているのでは」と見る研究者もいるようである。

 なお、同じNMTを使うDeepL翻訳とGoogle翻訳の違いはどこから生まれているのかというと、どうやら学習に用いられているデータが異なっていることに起因している。

 DeepLでは厳選された「質の高い」(※公式はこう説明しているが基準は明確にされていない)対訳データをもとに“お勉強”をしているらしい。

 対するGoogle翻訳は何を参考にお勉強しているか実はわからないのだが、DeepLより対応している言語が多かったりスラングに強かったりするので、インターネット上の雑多で膨大な例文で学んでいるのではないかという話もある。

 上記の通り「DeepLはフォーマル、Googleはくだけた言い回しに強い」というのが通説であったが、近年は両者ともに苦手を克服しつつあるのかクオリティもだいぶ近づいてきていて、試しに今DeepLにスラング混じりの文をいくつか訳させたが問題なくちゃんとスラングとして翻訳した。