GPT-4が日本の医師国家試験に「合格」 東北大学含む研究グループが論文

NEWS

 東北大学を含む国際的な研究グループが、Open AIが開発提供している複数の大規模言語モデルに日本の医師国家試験の問題を解かせたところ、GPT-4が合格基準を越えていたと論文で発表した。しかし人間の回答より得点がかなり低かったことも明かされている。

GPT-4のみ、6年分の試験に「合格」

論文より

 米ワシントン大、 東北大、札幌心臓血管クリニックなどからなる研究グループは、GPT-4、GPT-3、Chat-GPTなどの大規模言語モデル、またはそれを活用した対話型AIサービスに対し、2018年から2023年までの日本の医師国家試験の問題を解かせ、その結果を査読前論文サイト「arXiv」で公開した。結果は表の通りだが、最新のモデルであるGPT-4だけが唯一、6年間の問題全てについて合格ラインを突破している。ただし、そのGPT-4も人間(医学生)の得点レベルより総じて30点前後低い状況で、合格ラインすれすれ、というのがより正確な表現ともいえる。

「禁忌肢」の選択に課題

 個々の問題に対する回答状況を見てみると、GPT本体ではないもののChatGPTのパフォーマンスの低さが指摘された。特に問題となる「禁忌肢」を選択してしまうケースもいくつかあったと例示している。これ以外にもChatGPTはターミナル期の患者に対する質問に対し、安楽死を勧めてしまう事例も見られた。ただGPT4においてもこうしたケースは見られるという。全体的な得点も含めて、医療分野でこうした言語モデルを活用するには、まだまだ精度を上げていく必要がありそうだ。

論文リンク:Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations(arXiv)

関連記事

NEWS

Posted by medit-tech-admin