IT業界のAIを巡る動きが、ますます活発になっている。12月6日、Googleは同社の最新AIテクノロジーであるGeminiを発表し、特に性能比較のデータにおいて、先行するOpenAIのChatGPTへの対抗心を露わにした。一方、Metaは、IBMなどと共に「責任あるAI推進」に向けた新団体“AI Alliance(AIアライアンス)”を発足。イーロン・マスク率いるX(旧Twitter)も、Premium Plusユーザー向けにチャットAI「Grok」を提供し始めた。さらにAppleも、Appleシリコン用の機械学習フレームワーク「MLX」を公開した。今回は、2023年の締めくくりとして、メインストリームの生成AI分野で先行する3社を中心とした秋から冬にかけてのAI関連トピックと、2024年に向けた展望をまとめてみた。(テクノロジーライター 大谷和利)
生成AI分野での巻き返しを図るGoogle
2023年秋冬、生成AIのトレンドはチャット(テキスト入力・出力)からマルチモーダルへと移行しつつある。マルチモーダルとは、テキストや画像、音声、動画など、複数の種類の情報の入力・出力ができることだ。
GoogleがChatGPT対抗で大々的な発表を行った生成AIテクノロジーの“Gemini”は、当初、多くの人々に驚きを持って迎えられたが、それはすぐに失望へと変わった。その失望とは、Geminiのデモ映像の印象操作に対するものであり、今後、Googleは、映像の演出によって過度に高めてしまった期待感に見合う性能を実現するために、一層の努力を強いられることだろう。
Geminiについて改めて簡単に説明しておくと、これはChatGPTのGPTに当たる大規模言語モデル(LLM)で、Googleのチャット系AIサービスであるBardの背後で機能するAIエンジンの最新版に当たり、今後はGoogle Cloudのサービスへの組み込みやサードパーティに対するAPIの提供も予定されている。
また、Gemini 1.0では、モデルサイズに応じてGemini Ultra、Gemini Pro、Gemini Nanoの3種類が用意され、UltraはGPT-4を超え、ProはGPT-3.5と同等かそれ以上の性能を発揮することが比較データによって示された。Gemini Nanoは、クラウドとのやりとりなしにオンデバイスで利用できる最もコンパクトなモデルであり、AIチップ(現状では、Tensor 3)を搭載したスマートフォンなどのモバイル用途向けとなっている。
今のところGeminiは英語のみのサポートだが、英語版のBardはすでにGemini Proベースへと移行したほか、GoogleのスマートフォンPixel 8 Proの「レコーダー」アプリの要約機能や、純正ソフトキーボード「Gboard」のスマートリプライ機能などにGemini Nanoが応用されることになる。ただし、Gemini Ultraに関しては、信頼性や安全性の検証などのためにリリース時期を「2024年の早い時期」としている。その対象は、まずフィードバックなどを得るために一部の顧客や開発者、パートナーを優先し、その後にBard Advancedというサービスを通じて一般ユーザーにも(おそらく有料で)開放していくとのことだが、それ以上の確定的な情報は出されていない。