Google翻訳やDeepLなど機械翻訳の進歩がすさまじい。どのような技術革新があったのか。さらに精度が上がるとコミュニケーションはどう変わるのか。また日本人が英語を勉強する必要がなくなる日が来るのか。長らく機械翻訳に携わる第一人者のNTTコミュニケーション科学基礎研究所 協創情報研究部 言語知能研究グループ上席特別研究員永田昌明氏と本連載『組織の病気』著者である秋山進氏が2回に分けて「進歩がすさまじい機械翻訳の現在と未来」について語り合う。前編では、機械翻訳の発展、ニューラルネットワークの画期的な技術革新について、詳しく、わかりやすく解説してもらった。(取材・構成/ライター 奥田由意)
冷戦時代に始まり
ヘッジファンドと同じ技術も
秋山 4~5年前にGoogle翻訳をいじっていて、急にレベルが上がったと思ったんです。そして、2~3年前自動翻訳サービスの「DeepL」が出て、とても精度が高く、もうこれがあれば、英語を勉強しなくていいかもしれないと思いました。ここ数年で急激にレベルが上がった背景や近年までの機械翻訳の変遷を教えてください。
永田 歴史を振り返ると、戦中に暗号解読などに使われていたであろう、コンピューターの原理ができました。戦後すぐにそれが世に出ます。そして、米ソの対立が深まった冷戦中、アメリカの国防省はロシアを徹底的に研究するため、ロシア語を英語に翻訳するプロジェクトを創設しました。多額の投資をして、「ルールベース」という方法で自動翻訳が始まりました。「彼女がケーキを食べた(She ate the cake.)」というとき、日本語は主語、目的語、動詞の順、英語はS主語、V動詞、O目的語です。動詞と目的語の順番をひっくり返せばいいという規則があることがわかります。そして、彼女が=she、食べた=ateなど個々の単語の対訳辞書を作ります。入力構文構造(主語、目的語、動詞などの要素の順番など)を解析して、語順の変換規則(動詞と目的語をひっくり返す)を適用して、辞書を置き換えると、翻訳できる、それをコンピューターに実装します。こうすれば、原理的には自動翻訳ができるのです。
ただ、人間の言語表現は多彩なので、いくらルールを加えても追いつかない。ルールが増えると管理できるルールの数の限界が来ます。人間の管理できるルールの数の限界は1000くらいです。それ以上になると、新しいルールを足しても精度は上がらず、矛盾が起きる。ただ、人間はこの研究を50年も頑張り続けました。
秋山 永田さんも頑張ったんですか(笑)。
永田 いえ。ルールベースの次の時代、90年代の「統計翻訳」の頃から参画しました。ルールベースでいくらやっても成果が上がらないので、ニューヨークのIBMのワトソン研究所の研究員たちが「統計的機械翻訳(統計翻訳)」に着手しました。すでに翻訳された言語のペアのデータをたくさん集めて統計分析し、語順の変換規則、対訳辞書に相当するものを学習するしくみです。これはそこそこうまくいきました。
ところが、91~92年にアメリカは大不況に見舞われ、IBMも大幅な人員削減を余儀なくされました。研究員たちはウォールストリートに流れ、ヘッジファンドとして有名になったルネサンス・テクノロジーズという会社で高頻度取引(ハイ・フリークエンシー・トレーディング)といって、コンピューターが株価や出来高などを瞬時に判断し、超高速の自動注文で売買取引を行うためのプログラムを作りました。根幹にあるのは、時系列で変化していくものについて、すぐ先の状態を当てるもので、コンマ何秒後の株価を予測するアルゴリズムですが、これが実は統計翻訳と同じ技術なのです。研究員たちはウォールストリートでヘッジファンドに関わって巨額の富を得ました。しかし、統計翻訳自体はほどなく廃れてしまいました。