awsPhoto:123RF

アマゾンの利益の大部分をたたき出す、法人向けのクラウドサービス、アマゾン・ウェブ・サービス(AWS)事業。日本でも数多くの企業が導入している。知らない間に、新聞の見出しばかりか、記事までもAWSを使ったAIが書き、ラジオのニュースまで読み上げる。
※本稿は、横田増生著『潜入ルポamazon帝国』(小学館)の一部を再編集したものです。

アマゾンのクラウドが
朝日新聞を校正し、見出しをつける

 朝日新聞は、過去30年に書かれた900万本の見出しと記事をデータベースとして保存している。同社はこれを、単に過去の記事というだけでなく、アマゾン・ウェブ・サービス(AWS)上で、ディープラーニング(深層学習)のアプリケーションを活用することで、未来につなげる“宝の山”に変えることはできないか、と考えた。

 AWSとは、アマゾンが運営する法人向けのクラウドサービスのことで、実際にサーバーを購入・設置することなくネット上に作る仮想サーバーや大量のデータを保存するストレージ、データベースなど多岐にわたるサービスを提供している。

 朝日新聞のメディアラボのエンジニアである田森秀明はこう話す。

「われわれの部署で現在、AWSを使って注力しているのは、自動校正と自動での見出し生成、あるいは自動要約などの新聞作業の効率化です」

 通常、新聞記事ができるまでには、記者が書いた生原稿に、デスクが赤字を入れるという校正作業をへて新聞に掲載される。校正作業には、文章から不要な文字を取り除くアラインメントや、順序の移動、文章の分割などが含まれる。

 朝日新聞では、記者が書いた生の原稿とデスクが校正した後の原稿を一組としてAWS上のストレージである《S3》に保存して、独自に作ったアプリケーションを使うことで、記者が書いた原稿が、自動的に校正されるような仕組みを作っている。

 たとえば、記者が「大阪府へに移った高齢者の方の2倍」という文章を書いたとすると、それがAWS上の自動校正をへて「大阪府移った65歳以上の人の2倍に上る」という文章ができるようにする。田森はこう話す。

「新聞社内に残っているのは、校正後の原稿で、記者が書いた生原稿というのはこれまで、記者自身のコンピュータの中に眠っていたんです。けれど、このプロジェクトを進めるにおいて、記者の書いた生原稿というのは宝物なので、ぜひ校正後の原稿とペアで取っておいてほしい、と頼んでいるところです。現場に無理を言って、3年分ぐらい取っておいてもらっています。いままでゴミだと思っていた生原稿のようなデータも、データの保存容量が膨大になり、それをコンピュータに蓄積したものを、分析するディープラーニングというシステムができると、ゴミだと思っていたデータに大きな価値が出てくるんです。この自動校正エンジンについては、現在、特許を申請しています」

 たとえば、自動校正エンジンを用いれば、「リニア新幹線が開業し、その後は名古屋から大阪に伸びる予定だ」という場合、「延びる」と自動的に正しい漢字に変換する。「熊谷署が100人体制の捜査本部を設置」を「100人態勢」に変える。

 この校正の精度を高めるには、これから数年にわたって、記者の生原稿と校正後の原稿を集め、さらにアプリケーションに学習させる必要がある。

 一方で、見出しの生成となると、すでに30年分のデータの蓄積があるため、これはほぼ完成に近い。

 次に2種類の見出し群を4本ずつ並べる。片方は編集者がつけた見出しで、もう片方がAWSによってつけられた見出しだ。

 さて、どちらがAWSによってつけられた見出しだろうか。

1・日比谷図書館を千代田区に移管 都教委が正式合意
2・「上司がパワハラ」海自事務官が提訴
3・子育て応援施設、空き店舗に移転 和歌山ぶらくり丁商店街
4・晩秋の風物詩「松の腹巻き」鶴岡

(1)都、区と正式合意 日比谷図書館の千代田区移管
(2)海上事務次官、パワハラ提訴 佐世保「ストレス休職」
(3)空き店舗に子育て拠点 和歌山の商店街に明日オープン NPOの施設、移転
(4)松も冬支度、幹に「腹巻き」鶴岡