ChatGPTによるサポートは医師の診断推論を向上させない
Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial

カテゴリー
救急医療
ジャーナル名
JAMA Network Open
年月
October 2024
7
開始ページ
e2440969

背景

ChatGPTなどの大規模言語モデル(LLM)を医療分野に応用する研究は数多く行われており、カルテの要約や患者への説明といったタスクを相応の信頼度でこなし得ることを示している。では、LLMは医師の診断推論を向上させることができるだろうか?
アメリカStanford UniversityのGohらは、2023年11月から12月に、家庭医療・内科医療・救急医療の医師・研修医(n=50)の参加を募り、従来リソース(UpToDate、Googleなど)に加えてChatGPT Plus(GPT-4)を利用することで、診断推論が向上し得るかを検証する、単盲検ランダム化臨床試験を実施した。
診断推論パフォーマンスは最大6通りの臨床ヴィネット(架空の症例)のレビューによって評価された。

結論

症例あたりの診断推論スコア(中央値)は、LLM追加群で76%、従来リソース群で74%であった。1症例に要した時間の中央値は、LLM群で519秒、従来リソース群で565秒と、有意な差はなかった。
探索的解析としてLLM単独のパフォーマンスを検証すると、診断推論スコアが92%と両群を上回った。

評価

診断リソースとしてのChatGPT使用は、診断パフォーマンスを向上させなかった。ただし、ChatGPT単独ではより良いパフォーマンスを示しており、医師の側にそれを引き出す準備ができていなかった可能性もある。
\実臨床において、LLMとの最善の協働を実現するために、解決すべき課題と言える。

関連するメディカルオンライン文献

大規模臨床試験、新規の薬・機器・手法・因子・メカニズムの発見に関する文献を主に取り上げ、原文の要約と専属医師のコメントを掲載。

(制作協力:Silex 知の文献サービス

取り上げる主なジャーナル(救急医療)

The Journal of the American Medical Association(JAMA)、Lancet、Critical Care Medicine (Crit Care Med)、The New England Journal of Medicine (NEJM)