大阪公立大学の研究グループが、主な生成AIと医師の診断能力を比較した論文をメタ解析した内容を発表した。専門医とは有意に劣っていたものの、非専門医とは有意差がなく同等といえるとしている。
非専門医の診断支援などに活用できる精度と評価
研究成果を発表したのは大阪公立大学大学院医学研究科 放射線診断学・IVR 学の田北 大昂講師、人工知能学の植田 大樹准教授らの研究グループ。今回、2018年6月から2024年6月までに発表された83報の研究論文を分析対象とし、生成AIの医療に関する診断能力について包括的な分析を行った。対象となった論文で評価されていたのは GPT-4(54件)とGPT-3.5(40件)を筆頭にGPT-4o、Claude 3、Gemini 1.5 pro、Llama 3 70B などで、最新モデルも含まれている。
分野は一般内科が 27 件と最も多く、次いで放射線科が 16件、眼科が 11件、救急医療が8件などで、分析の結果、生成AIの平均診断精度は52.1%となり、医師全体の方が9.9%高かったが有意差はなかった。専門医/非専門医で分けて分析した場合、非専門医と生成AIの診断精度の差は、非専門医の方が0.6%高かったが差はわずかで有意差は認められなかった。ただし、GPT-4、GPT-4o、Claude 3、Gemini 1.5 pro、Llama 3 70Bなどの最新モデルについては、非専門医と同等かそれ以上の診断精度を示したという。また、専門医と生成AIの診断精度比較では、専門医の方が有意に15.8%高かった。
研究グループではこの結果について、生成 AI は専門医の完全な代替とはならないが、医学教育での活用や非専門医の診断支援、および医療資源の限られた地域での診断補助などでの活用が期待できるのではとしている。