米国循環器専門医試験模擬問題の解答能力はGPT-4oがGemini・BingAIに優る
Comparative Performance of Large Language Models on Cardiovascular Certification Simulation Exam
背景
医療現場で人工知能(AI)が急速に普及しており、その能力は医師国家試験を突破するレベルに達している。しかし、高度な専門性を要する循環器専門医試験における性能や、主要大規模言語モデル(LLM)間の比較は十分になされていない。
アメリカVanderbilt UniversityのSullivanらは、ChatGPT-4o(GPT-4o)・Gemini・Bing AIの3モデルを用い、循環器分野の臨床推論能力と診断精度を人間と比較した。
結論
ACCSAPの多肢選択問題434問を用いた検証の結果、正答率はGPT-4oが80.9%、Bing AIが72.0%、Geminiが53.1%であった。人間の正答率である78.7%と同等のスコアを達成したのはGPT-4oのみであり、不整脈・心不全・弁膜症等多くの項目で人間を上回る、あるいは同等の精度を示した。
評価
LLMの能力がモデル共通の特性ではなく、特定のプラットフォーム(特にGPT-4o)に固有のものであることを示した。この差異は、現行の多種のLLM間で、医学知に対するチューニングの方法論が大きく異なっていることを示唆する。著者らは、GPT-4oが専門医試験に合格しうる水準にあるとする一方、選択肢を選ぶだけの試験と、複雑な時系列データを分析して優先順位を決定する実臨床との間に依然として大きな隔たりがあることを指摘している。なお、画像や心電図などのマルチメディア問題の解析能力は、今回の比較から除外されている。


