筆者が試した結果でも、DeepSeek R1はChatGPT Proとほぼ互角の性能

 実際、DeepSeek R1はどれくらいの性能なのか、筆者も実際に試してみた。「10.11と10.9のどちらが大きい?」といった小数点の問題や高校入試の数学の問題、漢字の読みの問題など、以前この記事(前編後編)でChatGPT ProとGPT-4o、Claude 3.5 Sonnetで勝負させて、o1 proのみが正解した問題を試してみた。

 DeepSeek R1も同じく正解を続けたが、大学入試の数学を試したところ6問中4問を正解し、最後の2か所をミス。o1 proのミスは最後の1カ所だけだったので、このテストはo1 proの勝ち。とは言え、ほぼ互角の性能を持つことは間違いなさそうだ。

【NVIDIA株の時価総額90兆円を吹き飛ばした】中国の生成AI「DeepSeek」は何がスゴい?難しめの数学の問題も難なく正解。解答のプロセスも分かりやすい 拡大画像表示

 ちなみに、現在のDeepSeek R1は性的コンテンツの生成に関する規制が入っており、以前は通ったプロンプトも弾かれてしまう。また、中国のAIサービスなので、「天安門事件」といったキーワードも弾かれる。このあたりは仕方のないところだろう。

【NVIDIA株の時価総額90兆円を吹き飛ばした】中国の生成AI「DeepSeek」は何がスゴい?以前は使えたプロンプトも制限がかかっている 拡大画像表示
【NVIDIA株の時価総額90兆円を吹き飛ばした】中国の生成AI「DeepSeek」は何がスゴい?「天安門事件」について聞いてみると、拒否された 拡大画像表示