「熟練の眼科医」vs「ChatGPT-4」どちらが優秀？試験問題を解かせた結果は…【オックスフォード大研究】

2024年9月2日 12:00

　この研究は、2023年4月29日～5月10日に行われた。まず、GPT-3.5とGPT-4を347項目の質問に対する回答で比較したところ、正答率は前者の48.4％に対し後者は61.7％であり、有意に優れていることが確認された（P＜0.01）。

　次に、質問項目数を模擬テストに利用された87問に絞り込み、GPT-3.5とGPT-4、およびChatGPT以外の2種類のLLM（LLaMA、PaLM 2）、5人の熟練した眼科医、眼科研修プログラム参加中の研修医3人、眼科研修を受けていない研修医2人で正答率を比較した。

GPT-4の正答率は69％
熟練した眼科医の結果は…

　まずLLMの結果に着目すると、GPT-4の正答率は69％であり、これはGPT-3.5の48％やLLaMAの32％、PaLM 2の56％よりも高値であって、GPT-3.5やLLaMAとの間には有意差が存在した（いずれもP＜0.01）。PaLM 2との差は有意水準未満だった（P＝0.09）。

　一方、熟練した眼科医5人の正答率は中央値76％（範囲64～90）であり、GPT-4の成績はこの5人中3人と同等であって、2人より劣っていた。眼科研修医3人の正答率は59％（57～63）であり、GPT-4の成績はこの3人全員と同等だった。眼科研修を受けていない研修医2人の正答率は43％（41～44）であり、GPT-4の成績はこの両人に対して優れていた。

　なお、テストの質問のタイプや内容別にLLMと人（医師）の回答とを比較した場合に、正答率が顕著に異なるような質問は特定されず（P＞0.05）、LLMの知識や推論能力のレベルは眼科領域全般にわたり一定の水準に達していると考えられた。

　このほか、GPT-3.5とGPT-4について、それらの回答がどちらのものかという情報をマスクした上で、5人の眼科専門医が内容を評価した結果、5人全員がGPT-4の回答を高く評価した。

　Thirunavukarasu氏らは、「LLMの眼科領域の知識と推論能力は専門医レベルに近づいている。眼科の専門医療へのアクセスが限られているような状況では、LLMの回答が役に立つのではないか。ただし、本格的な臨床応用の可能性を探るには、さらなる研究が求められる」と述べている。

　なお、1人の著者は、網膜疾患を検出するためのディープラーニングシステムに関する特許を保有している。（HealthDay News 2024年4月26日）

https://www.healthday.com/healthpro-news/eye-care/ai-shows-good-clinical-knowledge-reasoning-for-eye-issues

GPT-4の正答率は69％ 熟練した眼科医の結果は…

GPT-4の正答率は69％
熟練した眼科医の結果は…