人工知能やクラウド技術などの進化を追い続けている小林雅一氏の新著、『生成AI―「ChatGPT」を支える技術はどのようにビジネスを変え、人間の創造性を揺るがすのか?』が発売された。同書では、ChatGPTの本質的なすごさや、それを支える大規模言語モデル(LLM)のしくみ、OpenAI・マイクロソフト・メタ・Googleといったビッグテックの思惑などがナラティブに綴られており、一般向けの解説書としては決定版とも言える情報量だ。
その一部の紹介する本連載の第7回は、大規模言語モデル(LLM)の誕生とその特徴について解説する。
大規模言語モデルの誕生
BERTが開発された当時、米国のAI研究者の間では「BERTのような言語モデルが進化を続ければ、いずれは単なる穴埋め式問題ではなく、私達人間と本当に会話ができるAIが誕生するのではないか」と見る向きもあった。
グーグルのAI研究部門を率いるジェフ・ディーンもその1人だ。当時、彼は「(人間と会話などができる)本格的な自然言語処理を実現する上で、言語モデルのような方法は間違いなく正しい」と断言していた。一方で「ただしシステムの規模を桁違いに大きくすると同時に、それを処理する高速な専用ハードウエアを開発する必要がある」と条件もつけていた。
システムの規模とは、具体的には言語モデルに含まれるパラメーターの総数を意味する。当時のBERTには約1億1000万個のパラメーターが含まれていた。パラメーターが多ければ多いほど、言語モデルの学習能力や表現力は高まるが、その一方で大量データの機械学習やその後の予測作業に必要とされる計算コストも大きくなる。
当時この問題を解決したのが、その数年前にグーグルが開発した「TPU(Tensor Processing Unit)」と呼ばれる特殊なプロセッサ(演算装置)だ。
TPUはディープラーニング専用のプロセッサで、これを言語モデル(システム)に多数組み込むと、それまでとは桁違いに大量のコーパス(文献データ)を比較的短時間で機械学習することが可能になった。正確な個数は不明だが、BERTには数十個のTPUが使われたと見られている。
これらの取り組みがシステムの処理能力を大幅に向上させ、BERTという画期的な言語モデルを生み出す主要因になったとされる。
これを契機に、シリコンバレーで言語モデルの開発競争に火がついた。
当時、グーグルと競うように言語モデルの開発を進めていたOpenAIは「GPT(Generative Pre-trained Transformer)」と呼ばれるトランスフォーマー方式のニューラルネットを開発した。
その2番目のバージョンとして2019年に発表された「GPT-2」には、BERTを上回る約15億個のパラメーターが含まれていた。
GPT-2は単なる文章の穴埋め問題などを解いたりするだけではなく、ユーザーとテキスト・ベースの会話、つまりチャットをしたり、そのリクエストに応じて簡単な物語や記事などを生成することができた。現在の生成AIの原型とも言えるだろう。
翌2020年2月にマイクロソフトが発表した言語モデル「TuringNLG」には、約170億個のパラメーターが含まれていた。同じくトランスフォーマー・モデルに従って、ユーザーとのチャットや質疑応答、文章の要約や機械翻訳などの自然言語処理をおこなうことができた。
これらOpenAIやマイクロソフトなどの言語モデルは、グーグルのTPUの代わりに、米エヌビディア製のGPU(グラフィクス・プロセシング・ユニット)など、やはりディープラーニング用の高速プロセッサを多数使用している(GPUはもともとビデオゲームの画像処理用に開発された専用プロセッサだが、その後はディープラーニングのようなAI開発にも頻繁に使われるようになった)。
しかしIT関係者の度肝を抜いたのは、同じく2020年の5月にOpenAIが発表した「GPT-3」だった。これはTuringNLGの10倍以上となる1750億個ものパラメーターを備えていた。
出典:https://towardsdatascience.com/gpt-3-the-new-mighty-language-model-from-OpenAIa74ff35346fc
この頃からAI研究者は奇妙な現象に気付き始めた。
従来、言語モデルのパラメーター数を増やして大規模化し、そこに膨大なテキスト・データを入力していっても、それらの量がある一定の閾値を超えれば性能の向上が頭打ちになる、いわゆる収穫逓減の傾向を示すのではないかと見られてきた。
ところが実際にはシステムを大規模化して入力する学習用データを増やせば増やすほど、言語モデルの性能は天井知らずで上昇していった。そして不思議なことに、この分野に関わるAI研究者でも、未だ、その理由をつかみかねているのだ。
このように大規模化が加速する言語モデルは、いつしか「大規模言語モデル(Large Language ModeL:LLM)」と呼ばれるようになった。
その代表とも言えるGPT-3は2020年5月、米国のIT専門家や報道関係者など一部のユーザーに向けて限定的にリリースされたが、これを実際に使ってみた人達からは驚くべき結果が報告された。
たとえば「この度、一身上の都合で退職を決意しました」あるいは「ベン、ごめんね、私、貴方とこれ以上一緒にいられない」という冒頭の一文を入力するだけで、GPT-3は普通の人間なら書くのが気が重い退職届や別れの手紙などを手早く書き上げてくれるという。しかも、それらがまるで人間が書いたかのようなまことしやかな文章なので、ユーザーは仰天した。