人工知能やクラウド技術などの進化を追い続けている小林雅一氏の新著、『生成AI―「ChatGPT」を支える技術はどのようにビジネスを変え、人間の創造性を揺るがすのか?』が発売された。同書では、ChatGPTの本質的なすごさや、それを支える大規模言語モデル(LLM)のしくみ、OpenAI・マイクロソフト・メタ・Googleといったビッグテックの思惑などがナラティブに綴られており、一般向けの解説書としては決定版とも言える情報量だ。
現在この連載では、小林氏による書き下ろしで、ビジネスパーソンが押さえておくべき「AIの最新状況」をフォローアップ中だ。今回は、『生成AI』では苦手と解説した数学をも克服しようとするChatGPTの最新状況をフォローしつつ、OpenAIの究極の目標であるAGI(人工汎用知能)について解説する。

ChatGPTはどこまで進化するのか?

 ChatGPTの機能拡張が止まらない。いよいよ今月からはOpenAIの画像生成AI「DALL-E 3」と連携し、プロンプトに応じて高精細の画像を描けるようになる(図1)。

幼児が話す「すごくすごいヒマワリ・ハリネズミ」図1 幼児が話す「すごくすごいヒマワリ・ハリネズミ」など奇妙な表現でも画像化できる
出典:https://openAI.com/dall-e-3

 

 また人と音声で対話したり、入力された画像を認識して、それに関する情報なども提供できる。たとえばスマホで撮影した自転車の写真を入力し、サドル(座席)の下げ方を尋ねると、ChatGPTがその方法を教えてくれる、といった使い方を想定している(図2)。

自転車のサドルの上げ方をchatGPTに聴く図2 入力された画像の細部に至るまで認識できる
出典:https://openAI.com/blog/chatgpt-can-now-see-hear-and-speak?ref=emergentmind

 

 いずれも月額20ドルの有料版サービス「ChatGPT Plus(GPT-4)」から使えるが、いくつかの問題点や懸念も指摘されている。

 たとえば音声での対話機能では、ユーザーが質問やリクエストなどを発してからChatGPTが答えを返すまでの間に若干のタイムラグ(遅延)がある。OpenAIによれば、この遅延問題は今後遠からず解消されるというが、当初はイライラするユーザーも出て来るかもしれない。

 また画像認識機能は今年の春にGPT-4の特徴としてすでにデモされていたが、報道関係者や一部の識者らから「顔認識」など悪用の危険性が指摘されたため、OpenAIは実用化を自重してきた経緯がある。それでも満を持して今回製品化された格好だが、誰か知らない人の顔写真をChatGPTに入力して「この人は誰?」と尋ねても、そのような質問は受け付けないように作られているという。

情報の鮮度と計算能力が飛躍的に向上

 今月投入された、これらの機能に先立って、今年夏場にもいくつかの新機能が追加されていた。たとえば以前のChatGPTでは2021年9月までの情報しか提供できなかったが、夏場に導入された「Plug in」と呼ばれる機能では、ChatGPTが外部のウエブ・サイトと連携して最新情報を利用できるようになった。

 またマイクロソフトの検索エンジン「Bing」と連携してのウエブ・ブラウジング機能はいっとき停止された後、今月から復活した。

 さらに以前のChatGPTは数学や物理などが苦手で、中学生レベルの連立方程式さえ解くことができなかったが、「Advanced Data Analysis(高度データ分析)」という新機能を使うと連立方程式が解けるようになった。

 そればかりか「量子力学のシュレディンガー方程式」など、物理学を専攻する大学生レベルの問題まで解けるようになった。筆者が試せるのは、せいぜいこの辺りのレベルまでだが、実際にはさらに高度な問題も解けるかもしれない。

それでも、ChatGPTは究極のAGI(人工汎用知能)とは完全に別物

 このように様々な新機能を追加したり、従来の苦手問題を克服したりすることによって、ChatGPTは徐々に「多目的のAI」へと近づきつつある。当初のChatGPTは専らユーザーの質問に答えたり、長文の要約やレポートを書いたりする文章生成ツールだったが、今や多彩な目的に使える汎用的な人工知能に進化しつつある、ということだ。

 本来、ChatGPTの開発元であるOpenAIは非営利の研究団体だったが、当初から「AGI(Artificial General Intelligence:人工汎用知能)」と呼ばれる究極のAI開発をそのミッションに掲げていた。

 したがって今のChatGPTが、徐々に汎用的なAIに近づきつつあるのは自然な成り行きに思われるかもしれない。しかし実際には、現在のChatGPTとサム・アルトマンCEO(最高経営責任者)ら同社関係者が最終的に目指すAGIとは全くの別物である。

 一般にAGIとは、業界関係者らが「Super Intelligence(超知能)」などと呼ぶ超越的な存在、ないしは技術である。それは人類には解決不能な難問を楽々と解いてしまうばかりか、やがては自身を凌ぐ次世代のAGIを開発できることから、いったんAGIが登場してしまえば、それ以降は人類に代わってAGIが地球上の文明を切り開いていく役割を担うことになる。したがってAGIは「人類が開発する最後の技術」になると言われている。

 ここから読み取れるように、AGIとはかなり漠然としたアイディアである。それは地に足の着いた堅固な科学技術というより、むしろ(1968年の映画)「2001年宇宙の旅」に登場する自我意識を備えたAI「HAL」のようなSF的概念とも言えるだろう。

 しかし特筆すべきは、こうした漠然としたSFのようなアイディアに極めて知的で有能な人たちが大真面目で取り組み、それを本気で実現しようとしていることだ。

産学の自由な人材交流が後のChatGPTを生み出した

 最初にAGIの実現を目標に掲げた研究団体、つまり後のOpenAIの発起人となったのはサム・アルトマンだ。彼はシリコンバレーで有名なスタートアップ・インキュベーター(育成機関)である「Yコンビネーター」のCEOに若干28歳で就任した起業スペシャリストであると同時に、それまでに「ループト」という位置情報SNSの会社を自ら起業・売却して個人的にも相当の富を蓄えた人物でもある。

 アルトマンは2014~2015年頃にかけて、AGIという自身の夢に賛同してくれる協力者を探した。

 それらの中には、当時世界的な起業家として台頭しつつあったイーロン・マスク、同じく辣腕の起業家・投資家として知られるリード・ホフマン、オンライン決済事業者ストライプのCTO(最高技術責任者)であるグレッグ・ブロックマン、さらにはグーグルの研究部門「グーグル・ブレイン」の技術者、イリヤ・スツケヴァーらが含まれていた。

 中でもスツケヴァーはニューラルネットの世界的権威であるトロント大学のジェフリー・ヒントン教授の愛弟子として、2012年に「アレックス・ネット」と呼ばれる画像認識用のニューラルネットを共同開発し、その後の「ディープラーニング・ブーム」の火付け役となったことで知られる。

 この業績に注目したグーグルがヒントンやスツケヴァーら、当時トロント大学に所属していた研究チーム(実際にはスタートアップ企業化されていた)を企業買収という形で丸ごと引き抜いて、2012年に設立されたグーグル・ブレインの礎にしたのである。ちなみにグーグル・ブレインの設立者は、当時グーグルと共同研究していたスタンフォード大学のアンドリュー・ン教授だ。

 以降グーグル・ブレインの恵まれた環境で研究を続けてきたスツケヴァーはアルトマンの誘いを受けたとき多少迷ったようだが、最終的にはAGI開発の夢を実現する取り組みに加わることを決意した。

 2015年、主にマスクから十分な資金拠出を確約されてOpenAIは設立された。このOpenAIという呼称はマスクが命名したとされる。当初のOpenAIは「人類全体に寄与するAGI」の研究開発と共に、そうした強力なAIを「雇用破壊」など人々への被害を引き起こすことなく安全に社会に普及させることを目指していた。また、その組織名からも分かるように、自らの研究成果を独り占めするのではなく、オープン化して社会全体で共有することも使命に掲げていた。

マスクとの確執を経て事実上の営利企業に

 ただ、当初のOpenAIは通常の営利企業のようなフォーマルな経営構造を持たない研究プロジェクト、あるいは「有志の集まり」のような存在だった。つまり明確な指揮系統を持たない集団であったことから、当時OpenAIに所属する数十名の研究者達は各々好き勝手なテーマ(たとえば「ルービックキューブを操作するロボット・ハンド」や「ビデオゲームで遊ぶAI」など)に取り組むばかりで全く成果を出すことができなかった。

 ところが創業から2年目となる2016年、言葉を操作する「言語モデル」と呼ばれる新種のAI開発がOpenAIの研究プロジェクトの中で若干の可能性を示し始めた。偶々、その翌年となる2017年、グーグルの研究チームが発表した論文の中で提唱された「トランスフォーマー」と呼ばれる新技術が言語モデルの性能を飛躍的に高めることをスツケヴァーが見抜いた。これ以降、OpenAIの研究開発は「言語モデル」に一本化することになった。

 ところが、この段階でマスクが「OpenAIを自分の会社にして、その経営権を自分一人で握りたい」とする旨を主張した。この要求をアルトマンら他の首脳陣が拒絶すると、マスクはOpenAIを脱退したばかりか、当初確約していた経営資金の拠出を突如ストップしてしまった。結果、数十名の研究者への給料すら支払うことができなくなったアルトマンがホフマンに泣きつくと、ホフマンは当面のつなぎ資金を提供してくれた。

 この資金でなんとか当座をしのぐことができたアルトマンだが、「このままではいけない」と反省した。トランスフォーマー技術を応用した言語モデルは大量の言語データを使ってトレーニングする必要があるが、それには最低数億ドル(数百億円)以上の開発資金が必要となってくる。

 この巨額資金を調達するために、アルトマンはそれまでの非営利研究団体の傘下に子会社として営利企業を設立して自身がそのCEOに就任した。2019年のことである。以降OpenAIの研究開発は、この営利企業で行うことになった。

夢と現実のバランスを取りながら前進するOpenAI

 こうして事実上、営利企業と化したOpenAIは2019年以降、マイクロソフトから約30億ドル(当時の為替レートで3000億円以上)の資金を調達して、いわゆる大規模言語モデル「GPT」の研究開発を進めてきた。

 この大規模言語モデルをベースにしたチャットボット「ChatGPT」が2022年11月にリリースされると世界的な大ヒットを記録。これを受けマイクロソフトはOpenAIへの約100億ドル(1兆3000億円以上)もの追加出資を決めたが、これによってOpenAIの経営はかなりマイクロソフトに左右されることになった。

 また営利企業化したことによって、OpenAIはChatGPTに新たな機能を次々と追加するなどビジネスを成功させるための努力を強いられることになった。これは営利企業としては当然の事だが、他方で「AGIを実現する」という当初の夢とは必ずしも相容れない展開となっている。

 たとえば本稿の前半で紹介した「3元連立方程式」や「シュレディンガー方程式」を解くなどの新機能(Advanced Data Analysis)は、実はChatGPTのベースにあるGPT-4(というAI)ではなく、ChatGPTに外部から組み込まれた数値計算用のライブラリ(パイソン・プログラムの集合体)が担当している。つまりChatGPTというAIの本体が賢くなったわけではないのだ。

 このように必要に応じてアドホック的に新機能を組み込むことが、長い目で見て「AGIの実現」という究極の目標に寄与するかどうかは大きな疑問だ。AGIの実現には、そうした対処療法的な機能追加よりも、かつてのトランスフォーマーに匹敵する根本的な技術革新が今後何度も必要とされ、そのためにむしろOpenAIが基礎研究に注力する方が合理的とも考えられるからだ。

 しかし他方でOpenAIは2024年に約10億ドル(1400億円以上)の収益が見込まれるなど、その事業は着実な成長軌道に乗りつつある。

 2015年の設立から紆余曲折を経て現在に至ったOpenAIだが、まるでSFのような「AGIの実現」という最終目標と、目先のビジネスを成功に導くための現実的な対応との間で微妙なバランスを取りながら前進していると言えそうだ。