対アラブ、対中で
再び盛り上がる

 01年に9.11テロが起こり、アメリカは今度はアラブを敵視し始めました。経済的・軍事的に存在感が圧倒的な中国も重要で、アラビア語・中国語を英語にする技術に国防省が多額の投資をし、再び統計翻訳研究が盛り上がりました。その結果を実用化したのが2016年にニューラル翻訳が登場する前のGoogle翻訳だったのです。

秋山 大量のデータから、法則性を見つけ、単語の対応付けもするのが、統計翻訳ですか。

永田昌明ながた・まさあき/NTTコミュニケーション科学基礎研究所 協創情報研究部 言語知能研究グループ 上席特別研究員。1985年京都大学工学部情報工学科卒業。1987年京都大学大学院工学研究科情報工学専攻修士課程修了後、NTT入社。専門は文脈・状況に基づくニューラル機械翻訳。機械翻訳、質問応答、固有表現抽出、文字認識誤り訂正、日本語形態素解析、統計的対話モデル、HPSGに基づく構文解析など多数のプロジェクトに参画、論文多数。同志社大学非常勤講師も務める。

永田 そうですね。大量なデータから単語対応ができると、確率付きの対訳辞書ができますよね。たとえば、彼女という言葉を英語に訳す場合、sheの場合、herの場合、girlfriend等の場合があり、sheと訳すのが適当な場合は7割、herが2割、girlfriendが1割だとわかっているとします。このように確率的対訳辞書があるなら、単語対応もできますよね。文章の中の単語それぞれについて、一番高い確率の単語の組み合わせを計算して求めれば、文章を翻訳できます。確率の高いものの組み合わせを挙げると単語対応が決まってくる。単語対応が決まれば、確率的対訳辞書もできる。どちらかが決まればどちらかが決まるという鶏と卵のような関係です。計算上はランダムな初期値を入れて出発して、片方から相手(確率的対訳辞書から対訳文における単語対応、すなわち彼女という語の訳に当たる単語she)を求め、また相手側から片側を求める(対訳文における単語対応の出現頻度から確率的対訳辞書、すなわち彼女がsheに翻訳される確率は7割)というふうに、ぐるぐる計算を回していくと、そこそこ適当な値で収束します。これが統計翻訳の基本原理です。

秋山 そして次がいよいよAIを使った画期的なニューラルネットワークやディープラーニングの出番ですね。

永田 AIを用いたニューラルネットワークの研究は1950年~60年頃、1980~90年頃、2013年以降の3回のブームがありました。13年は区切りの年で、画像認識の分野でニューラルネットワークで大きな成果がありました。深層学習、ディープラーニングで多数の画像を読み込ませると、AIがネコの画像の特徴を自分で獲得したという例が有名です。他の分野でも新しい成果が生まれました。そのうちのひとつとしてニューラル機械翻訳があります。16年秋、Googleのニューラルマシーントランスレーション(GNMT)が発表されました。ニューラルネットワークを使った機械翻訳であるGoogle翻訳です。9月に中国語・英語間、ドイツ語・英語間などの翻訳サービスが始まり、11月から日本語が加わり、大きな衝撃を与えたと思います。

 ニューラル機械翻訳の精度のGNMTのテストでは、6点を最高点として、前の時代の統計翻訳とニューラル機械翻訳を見比べると、スペイン語やフランス語など欧州の言葉と英語の間の翻訳は統計翻訳でもある程度点数が高く、中国語・英語間の翻訳は前の時代には4点で、ニューラル機械翻訳で5点になりました。日本語と英語の間は3点くらいから5点まで上がり、日英がもっとも劇的に上がったのです。

秋山 その前の統計翻訳時代でも欧米間は言語が似ているので、結構精度が高かったのですね。