人工知能やクラウド技術などの進化を追い続けている小林雅一氏の新著、『生成AI―「ChatGPT」を支える技術はどのようにビジネスを変え、人間の創造性を揺るがすのか?』が発売された。同書では、ChatGPTの本質的なすごさや、それを支える大規模言語モデル(LLM)のしくみ、OpenAI・マイクロソフト・メタ・Googleといったビッグテックの思惑などがナラティブに綴られており、一般向けの解説書としては決定版とも言える情報量だ。
その一部の紹介する本連載の第8回は、「基盤モデル」とも呼ばれる大規模言語モデル(LLM)の特徴と、その経済的なインパクトを解説する。

大規模言語モデルが「基盤モデル」とも呼ばれるわけ

 前回紹介した大規模言語モデルはまた、予想外の汎用性も示した。本来テキストを生成するはずのGPT-3が、OpenAIの研究者も驚いたことにコード、つまりコンピュータ・プログラムも出力し始めたのだ。

 その理由は、こうしたAIが機械学習用に読み込んで消化した膨大な文献のなかに、大量のコンピュータ・プログラムも含まれていたからだ。AIにしてみれば、読み込むものがテキスト(文章)であろうとコードであろうと文字列であることに変わりはない。結果的に、本来テキストを出力するはずのGPT-3は、ユーザーのリクエストに応じてコードも生成し始めたのである。

 これを見たOpenAIの研究者らは、今度は「Codex」と呼ばれる生成AIを開発し、これに大量のコンピュータ・プログラムを読み込ませて機械学習させた。

 その際、機械学習用の教材(学習用データ)として使われたのが、マイクロソフト傘下のソフト開発プラットフォーム「GitHub」に眠っている豊富なプログラミング資源である。GitHub上には世界中のプログラマーから寄せられたオープンソース・コード、つまり誰でも自由に使えるプログラムが大量に保存されている。これら膨大なコードを消化(機械学習)することによって、コード生成AI「GitHub Copilot」が誕生した。

プログラミングコードPhoto: Adobe Stock

 コード生成AIとは文字通りコードを生成する人工知能である。プログラマーがプログラムの始まりとなる何らかの文字列をタイプ入力すると、「GitHub Copilot」はちょうどオート・コンプリート(自動補完)のような格好で、その文字列に続く一連の文字列、つまり新たなコードを推測して大量に出力してくる。

 もちろん、その出力結果は完璧ではなく、ときには誤ったコードも出力されるので最終的にはプログラマーによるチェックと修正が必要となるが、それでも利用者の間では「プログラミングの生産性を10%程度上げる」と高く評価されている。

 OpenAIはまた、GPT-3をベースに「DALL-E」と呼ばれる画像生成AIを開発することにも成功した。DALL-Eも同じくトランスフォーマー方式のニューラルネットであり、本来言語モデルであるGPT-3にウェブ上から掻き集めた大量の絵画やイラスト、写真などの画像データを追加的に機械学習させることで生まれた。

 このような汎用性は実はOpenAIのGPT-3に限らず、トランスフォーマー方式の大規模言語モデル全般に見られる現象だ。それらのLLMはいずれも、あらかじめ大量の論文や小説、詩、新聞記事など多様なテキスト・データで訓練されているので、必然的に広範な知識や技能を蓄えている。これが「GPT(Generative Pre-trained Transformer)」などの呼称に含まれる「Pre-trained(あらかじめ訓練された)」の由来となっている。

 このため、GPTのようなトランスフォーマー・モデルはその後のファインチューニング(追加学習)によって、さまざまな用途に特化した専用モデルへと改良することができるのだ。

 ここでファインチューニングとは、大規模言語モデルに(前述の)「コンピュータ・プログラム」や「画像」のような別種のデータを入力して機械学習させ、それら個別のデータやタスクに特化したシステムへと改良することだ。

 こうしたことからトランスフォーマー方式の大規模言語モデルは、別名「基盤モデル(Foundation Model)」とも呼ばれる。つまり個別に特化した、あらゆる種類のアプリケーションやサービスの「基盤」となる一種の汎用性を備えたAIという意味である。ただし一般に「AGI(Artificial General Intelligence:人工汎用知能)」と呼ばれる、意識すら備えているかもしれないようなスーパーAIとは別物である。

 今後、産業各界の企業がGPT-4のような基盤モデルを導入し、これを自社に蓄積された大量の業務データでファインチューニング(カスタマイズ)すれば、その会社の業務に特化した対話型などの生成AIを比較的手軽に実現することができる。

 たとえば、ある銀行が顧客対応の効率化や業務自動化などを目的に基盤モデルを導入すると仮定しよう。

 その場合、まず最初は、OpenAIのGPT-4あるいは(後述する)グーグルの「PaLM 2」や「LaMDA」などいくつかの候補のなかから、自社のケースに最適な基盤モデルを選択する。この基盤モデルに自社のデータで追加学習させる。その学習用データには、過去の顧客対応履歴やFAQなどの各種業務データ、銀行業務に関するマニュアルなどが考えられる。

 このようなファインチューニングを完了した個別モデルは、顧客対応チャットボット、融資申請審査などの自動化システム、取引データや顧客情報を解析して詐欺などを見つける不正検出システム、あるいは売上分析や顧客セグメンテーションに基づきマーケティング戦略の立案を支援するシステムなど、多様な用途が見込まれる。

基盤モデルを開発できるのは米国の一部ビッグテックのみ

 これ自体は素晴らしいことかもしれないが、そこには思わぬ落とし穴も潜んでいる。

 つまり今のところ基盤モデルを開発・提供できるのは、世界でも一握りの会社、基本的にはグーグルやマイクロソフト、メタ(旧称フェイスブック)、あるいはOpenAIのような米国の一部IT企業に限られているということだ。

 潤沢な資金力を誇る百度(Baidu)をはじめ中国の巨大IT企業ですら、大規模言語モデルの開発では出遅れてしまい、これら米国勢にはなかなか太刀打ちできない。たとえば百度はOpenAIやグーグルの後を追って「文心一言(Ernie)」というチャットボットを開発したが評判はかんばしくなく、その発表後に同社の株価はかなり下落した。

 大規模言語モデルつまり基盤モデルを開発するには事実上のスパコンにも匹敵する大型の計算機資源を使って、ウェブ上から収集した膨大なデータを長期間に渡って断続的に機械学習させる必要がある。そのためには最低でも5億ドル(650億円以上)の開発費が必要とされ、一般の中小企業はおろか大手企業ですら自主開発は容易ではない。

 結果、これら大小さまざまの企業が今後、同業他社との競争に打ち勝つために先進のAIシステムを導入しようとすれば、OpenAIやグーグル、マイクロソフトをはじめ一部IT企業が提供する基盤モデルに頼らざるを得なくなる。これはある意味、自らの急所をそうした米国のハイテク企業に握られるに近い状況であって、必ずしも好ましい事態とは言えないだろう。

「基盤モデル」という言葉を最初に使いだしたのは、米スタンフォード大学の研究者たちとされる。彼らは2021年8月、同大に「基盤モデル研究センター(Center for Research on Foundation Models:CRFM)」を設立し、その所信を述べるための論文を発表した。そのなかで基盤モデルの現状と今後の可能性、技術的課題などを報告すると同時に、モデルのバイアスや倫理的問題などにも言及して警鐘を鳴らしている。

 こうした学界の専門家らは、グーグルやマイクロソフト、メタのようなビッグテックよりも、むしろ営利事業とはほぼ無関係の大学が主導して大規模言語モデルの普及を図るほうが、社会にとって好ましいと考えているようだ。そのために「基盤モデル」という一種のスローガンを打ち出して、そのPR活動を展開してきたのである。