ちなみに、ダンゴンド氏がGPT-4モデルにしたのと同じ質問(Can you simulate what Pokemon Emerald would be like if it could be played via command-line interface?)を、筆者がChatGPTのGPT-3.5モデルに投げたところ、「私は言語モデルなので、ビデオゲームのシミュレーションを行ったり、コマンドラインインターフェースを作ったりすることはできない」という返答だった。そして、「もし、そのようなコマンドラインインターフェースをプログラマが作るなら……」という仮定で、常識的な開発の方針を記述してくれた後、「ポケモン エメラルドのコマンドラインインターフェースバージョンの開発は、正しいスキルとリソースがあれば可能だが、複雑なプログラミングプロジェクトである」と結論付けた。GPT-3.5は、すでに1世代前のAIということだ。
このほかにもGPT-4は、英語の司法試験の模擬問題に上位10%のスコアで合格したり、写真と質問のインプットから画像の内容や意味を答えたり、簡単なラフスケッチからWebページを生成したり、テキストを画像・音楽・動画に変換したりすることなどが可能とされている(画像入力などの一部機能は、悪用の防御策が組み込まれるまで利用不可)。つまり、すでに単純な言語モデルの域を脱し、マルチモーダル(編注:言語、画像など複数の入力ができる)大規模言語モデルとして高度な推論を行える状態まで進化しているということなのだ。
マイクロソフト、グーグル、メタの動きも活発化
IT大手の動きでは、マイクロソフトが「意思決定を支援する検索エンジン」としてBingにGPT-4ベースのAIチャット機能が組み込んだことが注目された。同社は、オープンAIのパートナーでもあり、世界ランキング第5位のスーパーコンピューターをAI処理向けに共同開発したほか、今後数年間で数十億ドル規模の投資を行う予定だ。
加えて、Kosmos-1というマルチモーダル大規模言語モデルも発表しており、AI機能を統合したオフィススイート「Microsoft 365 Copilot」など自社の全製品にAIツールを搭載して法人向けに提供する計画も持っている。その上で、データプライバシーを強化したAzure OpenAI Service上でChatGPTのAPIを利用する仕組みを通じて、世界トップのクラウドインフラであるアマゾンのAWSの牙城を崩そうとする動きも見えてきた。
また、自身の検索ビジネスをAIチャットボットに奪われることを懸念したグーグルも、自社の会話型AI「Bard」の市場投入を決定。2月初旬に、今後数週間内の展開を予定と発表したが、原稿執筆の時点では順番待ちリストへの登録が始まったところだ。
さらに、FacebookやInstagramを擁するメタも、2月下旬にLLaMA(ラマ、リャマ)という大規模言語モデルを非営利の研究用途限定で公開しており、他社の言語モデルよりも少ないコンピューターリソースで運用可能であることが特徴の一つとなっている。