米国循環器専門医試験模擬問題の解答能力はGPT-4oがGemini・BingAIに優る
Comparative Performance of Large Language Models on Cardiovascular Certification Simulation Exam

カテゴリー
循環器
ジャーナル名
American Heart Journal
年月
January 2026
Online first
開始ページ
Online first

背景

医療現場で人工知能(AI)が急速に普及しており、その能力は医師国家試験を突破するレベルに達している。しかし、高度な専門性を要する循環器専門医試験における性能や、主要大規模言語モデル(LLM)間の比較は十分になされていない。
アメリカVanderbilt UniversityのSullivanらは、ChatGPT-4o(GPT-4o)・Gemini・Bing AIの3モデルを用い、循環器分野の臨床推論能力と診断精度を人間と比較した。

結論

ACCSAPの多肢選択問題434問を用いた検証の結果、正答率はGPT-4oが80.9%、Bing AIが72.0%、Geminiが53.1%であった。人間の正答率である78.7%と同等のスコアを達成したのはGPT-4oのみであり、不整脈・心不全・弁膜症等多くの項目で人間を上回る、あるいは同等の精度を示した。

評価

LLMの能力がモデル共通の特性ではなく、特定のプラットフォーム(特にGPT-4o)に固有のものであることを示した。この差異は、現行の多種のLLM間で、医学知に対するチューニングの方法論が大きく異なっていることを示唆する。著者らは、GPT-4oが専門医試験に合格しうる水準にあるとする一方、選択肢を選ぶだけの試験と、複雑な時系列データを分析して優先順位を決定する実臨床との間に依然として大きな隔たりがあることを指摘している。なお、画像や心電図などのマルチメディア問題の解析能力は、今回の比較から除外されている。

関連するメディカルオンライン文献

大規模臨床試験、新規の薬・機器・手法・因子・メカニズムの発見に関する文献を主に取り上げ、原文の要約と専属医師のコメントを掲載。

(制作協力:Silex 知の文献サービス

取り上げる主なジャーナル(循環器)

Journal of the American College of Cardiology(JACC)、Lancet、The New England Journal of Medicine(NEJM)、American Heart Journal (AHJ)、Circulation、The Journal of the American Medical Association(JAMA)