理想と現実にギャップのあるGemini

 しかし、問題はGeminiそのものの能力にある。Googleによれば、ChatGPTとGeminiの大きな違いは、前者がテキストチャット用AIとして開発され、その後に画像の解析や生成などができるマルチモーダルAIへと拡張されたのに対し、後者は初めからマルチモーダルAIとしてトレーニングされていることだとしている。確かに、Gemini Ultraのデモ映像(https://youtu.be/UIZAiXYceBI)を見る限りでは、マルチモーダルAIの真価が発揮されているように思える。

 具体的には、ユーザーがフリーハンドで描く図形を分析してリアルタイムで会話する様子や、カップと紙を丸めたボールを並べただけでユーザーの意図をくみ取り、シャッフルされたカップのどれにボールが入っているかを当てるやりとりなどが含まれ、汎用AI的な能力を思わせるものだった。

 ところが、現実にはGoogle自身が開発者向けブログ(https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html)で明かしているように、これらは各場面を切り出した静止画のイメージとテキストプロンプトをGeminiに与えて出てきた回答を、あたかもリアルタイムの音声会話のようにまとめたものにすぎなかったのだ。

Geminiのデモ映像Geminiのデモ映像では、このような認識や会話をリアルタイムで行えるような印象を与えたが、実際には静止画とプロンプトを与えて得た回答を再構成したものだった Imege:Google

 さらに、Gemini UltraとGPT-4の性能比較も、最新のGPT-4(発表時の社内呼称GPT-4 Turbo)ではなく、以前のバージョンであることが明らかとなっており、これらのことを総合して「デモ映像はフェイクだった」とか「やはりGoogleは広告ビジネスの企業」という声が、メディアやネットから上がっている。いずれにしても、全体を通じて、自ら発表内容をおとしめてしまった印象は否めない。

 もちろん、このように「盛られた話」は、IT業界の技術デモではたまにあることだ。かつてNeXTの新製品発表会で故スティーブ・ジョブズが行ったデジタルビデオのデモも、実装が間に合わずに裏で別のビデオソースからの映像を流していたことがあったが、後に実現された。上記のブログ記事の最後には“We hope you found this a helpful starter guide to get a sense of what’s possible with Gemini.”(Geminiで何が可能になるかのイメージをつかむためのスターターガイドとして、皆様の参考にしていただければ幸いである)と書かれている。2024年のGoogleは、まず自らが映像の内容を現実のものとしていくことに注力せざるを得ないだろう。