機械翻訳

対応する翻訳文を統計的手法で発見
勃発する新たな競争

 ウェブ上にある無料の翻訳サービス。その代表格である「グーグル翻訳」は、64種類に及ぶ言語同士で、単語、文、あるいはウェブページごと翻訳できる。

 このグーグル翻訳で使われているのは「統計的機械翻訳」と呼ばれる技術である。その名の通り、統計学の手法を用いているのだ。

 その原理を説明すると、まず原文と訳文の両方が存在するデータベースを用意する。例えば政府機関の公文書や、新聞・雑誌記事、学術論文などには、複数言語に翻訳されたものが多い。このような言語データを「パラレルコーパス(対訳言語資料)」と呼ぶ。こうした原文と訳文の“ペア”を大量に集め、対応して登場する確率が高い単語の表を作る。それを基に、新たな入力文に対して、最も対応する確率の高い訳語を見つけ、それを並べて翻訳文を生成するというわけだ。

 機械翻訳の手法として古くから用いられ、研究されてきたのは、機械に言語の文法構造を理解させ、大量の語彙を覚えさせることで翻訳させるという「ルールベース」の手法だった。人間が言語を習得するのと同じアプローチといえる。

 しかし、われわれにとって外国語の習得が大変なのと同様、言語によって文法構造は千差万別だし、一つの単語にはたくさんの意味があることが多く、ルールベースではなかなか正確な翻訳文を生成することは難しかった。例えば「Time flies like an arrow」を「時蝿は矢を好む」と訳してしまったという笑い話もある。

 その点、統計的機械翻訳は、言語の文法構造がわからなくても、言語の対応関係を推定できるパラレルコーパスが存在し、そのデータが大量であればあるほど翻訳の精度が向上する。また、当然ながら言語構造は似通っていたほうが精度は高くなる。ドイツ語とフランス語といった同じインド・ヨーロッパ語族間では比較的正確に機械翻訳ができる。

 もちろん、現状ではまだ完璧とは言い難い。しかし「翻訳には、自分が読むために訳す“インバウンド”と、他者に読ませるための“アウトバウンド”があるが、大意がわかればよしとするインバウンドでは機械翻訳が普及していくだろう」と、「日本翻訳ジャーナル」の編集長で、機械翻訳の動向に詳しい河野弘毅・翻訳センター業務推進部長代理は予測する。

 現在、グーグルを筆頭に統計的機械翻訳を手がける企業は、パラレルコーパスの獲得競争に火花を散らしている。パラレルコーパスは、これまでの翻訳活動によって積み上げられた“資産”だ。「これからは、その資産をいかに上手に運用するかという発想が大事になる」(河野氏)。

 グーグルは昨年3月、欧州特許庁(EPO)と提携。EPOに機械翻訳技術を提供する代わりに、欧州特許条約締結国で使用される28言語に日本語、中国語、韓国語、ロシア語を加えた計32言語のパラレルコーパスを手に入れた。

 グローバル化が進むIT業界ではインテル、オラクルなどが参加するTAUS(Translation Automation User Society)という組織が、製品マニュアルのパラレルコーパスを提供し合うなどで、産業分野での機械翻訳の実用化に向け、積極的に活動している。

 こうした動きに対し、日本はどうか。英語が使えるグローバル人材を育成すると称して幼児期からの英語教育に予算を割くより、パラレルコーパスの整備と機械翻訳の開発に国家プロジェクトとして取り組んだほうが、よほど未来のためになるのではないだろうか。

(記事転載元:『週刊ダイヤモンド』2013年3月30日号特集「最強の武器 統計学」P61~63/編集スタッフ:清水量介、鈴木崇久、深澤 献、藤田章夫)