人工知能やクラウド技術などの進化を追い続けている小林雅一氏の新著、『生成AI―「ChatGPT」を支える技術はどのようにビジネスを変え、人間の創造性を揺るがすのか?』が発売された。同書では、ChatGPTの本質的なすごさや、それを支える大規模言語モデル(LLM)のしくみ、OpenAI・マイクロソフト・メタ・Googleといったビッグテックの思惑などがナラティブに綴られており、一般向けの解説書としては決定版とも言える情報量だ。
その一部の紹介する本連載の第5回は、生成AIを生み出すきっかけとなった衝撃の論文について解説する。

2017年に全てが始まったPhoto: Adobe Stock

2017年のブレイクスルー

 人工知能の始まりとなるダートマス会議から優に半世紀以上もの歳月を費やしても、AIはいま一歩のところで私達の話す言葉を理解できなかった。

 この自然言語処理の「最後の壁」を突破したのが、「トランスフォーマー」と呼ばれる新しい方式のニューラルネットだ。

 この方式が初めて提唱されたのは、2017年にグーグルの研究チームが発表した「Attention Is All You Need(注意こそ必要とされるすべてだ)」という論文である。これが自然言語処理に革命をもたらすと同時に、その後登場する大規模言語モデルのバイブルとしてAI研究者の間に広まっていったのだ。

 8人の共著者が名を連ねる同論文の第1著者は、インド出身のAI研究者アシシュ・ヴァスワニ(Ashish Vaswani)。2017年には、グーグルにいくつかあるAI開発部門の1つ「グーグル・ブレイン」に所属していた。

 当時、グーグル・ブレインの研究チームは米エヌビディア製の高速GPU(グラフィクス・プロセシング・ユニット)を何個もフル稼働させて、ヴァスワニらが発案したトランスフォーマー方式の機械翻訳システムを開発していた。

 その研究成果をまとめた論文は同年12月、米カリフォルニア州のロングビーチで開催されるAI関連のトップ学会「NeurIPS(ニューリップス)」で発表されることになっていた。

 論文締め切り日の前夜、ヴァスワニと共著者の1人エイダン・ゴメス(AIdan Gomez)は、グーグルの社屋で論文の執筆作業に没頭していた。このときヴァスワニは30代に入って間もない気鋭の研究者、ゴメスはカナダのトロント大学からグーグルに来ていたインターン(実習生)であった。

 その晩は2人とも徹夜を覚悟していた。それでも日付が変わってから何とか論文を書き終えると、2人は小会議室の床に横たわってようやく眠りに就くことができた。

 翌朝、誰かがその部屋に入ろうとして押し開けたドアが、床で寝ていたゴメスの頭にぶつかって彼は目を覚ました。時計を見ると締め切り時間の直前だったので、すぐそばにあったパソコンから大慌てで論文をオンライン投稿した。

 当時の様子を、ゴメスは次のように回想している。

「アシシュ(ヴァスワニ)はその晩、私に『この論文は非常に大きな出来事になる。(AI開発の)ゲーム・チェンジャーになることは間違いない』と語ったが、私にはその確信がなかった。むしろベンチマーク・テストで多少の性能アップにはつながる(が、所詮はその程度)だろうと思ったのだ。しかし蓋を開けてみると、彼の言ったことがまったく正しかった」

「トランスフォーマー」はどこがすごい?

 この論文のなかで、トランスフォーマーの中核要素として考案されたのが「自己注意(Self Attention)」と呼ばれるメカニズム(仕組み)だ。

 自己注意メカニズムはニューラルネットに入力された文章の各単語を、他のすべての単語との関係性に基づいて重み付けする。つまり、ある単語から見て、別の単語が「自分にとってどの程度関係していて重要なのか」を計算するのである。

 このような仕組みによって、文脈に応じた単語のベクトル表現が得られる。つまり単語の意味やそれが指す対象などは固定されず、むしろ周囲との関係性によって変化する。こうした柔軟な言語表現が(前回の)「ピッチャー」「ビール」「ジョッキ」「それ」など複雑な文脈の理解を助けるとともに、あたかも人間が書いたかのような自然な文章の生成を可能としたのである。

 またトランスフォーマー・モデルは構造的には直列的なネットワーク構造のRNNよりも、むしろ並列的な構造のCNN(畳み込み型ニューラルネット)とよく似ている。このためトランスフォーマーは多数の単語を逐次的(順番)に処理するRNNとは対照的に、すべての単語を同時並列的に処理することができる。

 これは前述の自己注意メカニズム、つまり個々の単語を他のすべての単語との関係性に基づいて重み付けする仕組みを可能にすると同時に、大量の文書などビッグデータの処理に要する時間を大幅に削減することができる。また非常に長い文章のなかで、遠く離れた単語同士の依存関係を捉えるにも効果的だ。

 ちなみになぜ「自己注意」メカニズムと呼ばれるかというと、そうした「重み付け」によって各単語が他の単語に対して、あたかも「注意」を払っているかのように見えるからだ。このような重み付けの計算が「自身」も含めたすべての単語に対しておこなわれるため、「自己」注意と呼ばれるのだ。