さらに、特許は常に新しい用語やコンセプトが出てくるので、特許庁から提供される対訳データに基づいて翻訳システムを更新し、加えて特許庁からフィードバックを得て改良しており、性能改善は停滞することがない。翻訳システムはいつもup-to-dateだ。
製薬分野でも、英国のアストラゼネカと協力し、「治験実施計画書」の自動翻訳に取り組み、国内で新薬を申請するためにかかる翻訳の期間を4週間から2週間に半減させた。日本国内で発売する新薬の申請は日本語の文書でなければ承認されないため、やはり翻訳の精度と速度が決定的に重要だ。これにより、新薬はより早く患者に届き、新薬の収益化も前倒しできる。
ほかにも、トヨタと中国語の自動車法規の翻訳を手がけたり、SMBC日興証券とアナリストレポートの翻訳を高精度化したり、半導体や契約書などの分野もカバーする。
VoiceBiz等多数あるスマホ・アプリの形態の製品も、観光関係者(例えば、舞妓、芸妓)、美容院、飲食店、小売店、さらには、病院関係者(医師、看護師、窓口)、救急車の救急救命士、自治体窓口などで広く使われている。2020年6月には警察庁が全国47都道府県に配備したスマホに音声翻訳のアプリを搭載した。
「交番、自治体窓口、救急車、診療所などは、日本にいる外国人が困りごとがあったり病気になったりしたときにまず頼る先である。そこで言葉が通じることが日本という国の安心感、信頼感にもつながる」(隅田氏)
ちなみに、有名なグーグル翻訳では「トイレが流れません」を“The toilet doesn't flow.”(トイレが(そのものが)流れない)と誤訳するが、NICTの翻訳は、“The toilet doesn't flush.”(トイレの水が流れない)と「正しい」翻訳となる。
自動翻訳はなぜ飛躍的に向上したか
「AIによる機械学習」で世界は一変
自動翻訳の性能は、数年前から飛躍的な向上を続けている。ここで、簡単に自動翻訳発展の歴史を振り返ってみよう。
1980年代までは、規則翻訳(RBMT、Rule-Based Machine Translation)だった。原文を解析して、単語や語順を変換し、訳文を生成する。解析のための文法規則と、単語や語順の変換規則と、語形変化等の文生成のための規則をつくり、それを利用して翻訳するのだ。しかし、各言語に内在する複雑な特性の変換を説明しきる単純な規則は存在せず、改良のために次々と例外処理を積み重ねていって、制御が困難な水準まで規則(Rule)の数が膨れ上がりRBMTは行き詰まった。
そこで、RBMTで中心に据えられた抽象的な規則を追求するという考えは捨て去る必要があった。1984年に、抽象規則の対極にある具体的なデータを中心に据える用例翻訳(EBMT、Example-based Machine Translation)という手法が提案された。
EBMTは、長年の翻訳活動で蓄えられた質の高い対訳データ(同じ意味の原文と訳文を文レベルで集めたもの)を大規模に集めたものから、入力側が類似した対訳データを検索し、この対訳データの訳文側を自動的に修正して翻訳するという方法である。EBMTは人間が英作文する過程をヒントにしたもので、現在の対訳データから機械学習するAI翻訳につながる基盤を作った。