EBMTは類似対訳がある場合に高精度を達成できる一方、対訳データの質に過敏であるという欠点があった。EBMT と並行して研究されていた統計的機械翻訳(SMT、Statistical Machine Translation)のアルゴリズムを変えたフレーズベースのSMTが2003年に提案され、対訳データの質に対して頑健で精度も向上したことから、一定の普及を実現した。フレーズすなわち単語列に基づいて翻訳するというものだ。日本語から英語の場合、日本語文をフレーズで区切ったあとフレーズ毎に英語に翻訳し、SOV(主語、目的語、動詞)からSVO(主語、動詞、目的語)に語順を並べ変える。SMTの名の通り「確率」が主役である。
次の5つの日本語文と英訳文を見てほしい。
1. 京都駅はどこですか → Could you direct me to Kyoto station?
2. 駅はどこですか → Where is the station?
3. トイレはどこですか → Where is the restroom?
4. タクシー乗場はどこですか → Where is the taxi stand?
5. ここはどこですか → Where am I?
フレーズ「どこですか」に注目すると、5例のうち3例、つまり60%が「Where is」と翻訳できることがわかる(※)。このように、対訳データから、(1)各フレーズの訳語としてありうる訳とその確率が自動的に得られる。
(※)「どこですか」の場合は「Where is」 60%、「Could you direct me to」 20%、「Where am」 20%といった具合に
同様に、(2)語順変更の確率、(3)英文のフレーズの並びの確率も獲得できる。沢山の訳文の候補を生成して、(1)(2)(3)から得られる全体の確率が最大になる訳文を選択するのだ。SMTは大きく性能を伸ばし、特に、SOVやSVO等の同グループ内の言語間でかなりの高精度となったが、フレーズという単位で部分を組み合わせるという手法の限界から、特に、グループを跨ぐ言語の間(例、SOVである日本語とSVOである英語の間)の翻訳では実用化しうる精度が出せなかった。
しかし、その後、2014年、AIのコア技術である深層学習(ディープラーニング)を使った入力文全体を読み込んでから翻訳する技術(NMT、Neural Machine Translation)に関する技術が登場し、自動翻訳の精度は劇変した。NMTは「対訳データに基盤を置く点はEBMT・SMTと同じだが、そこからの翻訳知識の取り込み方式、翻訳の計算方式が違う」と隅田氏は語る。カギになるのは、ある単語と一緒に使う「共起する単語」である。
「電車」という単語は、たとえば、「電車に乗る」「電車を運転する」というように、「乗る」「運転する」という単語と一緒に使われている。しかし、特殊な比喩でもない限り、「電車が鳴く」とは言わないし「電車」が「食べる」とは一緒に使われることはない。
「自動車」は「乗る」「運転する」など、一緒に使われる単語が「電車」と似ている。一方、「犬」は「鳴く」と一緒に使われるが、「乗る」「運転する」と一緒に使われることはほぼない。
このように、文章中の単語の出現を分析することで、「電車」と「自動車」とは互いに似ており、「電車」と「自動車」は「犬」とは似ていないことを、機械に区別させることができる。