ChatGPTによるサポートは医師の診断推論を向上させない
Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial
背景
ChatGPTなどの大規模言語モデル(LLM)を医療分野に応用する研究は数多く行われており、カルテの要約や患者への説明といったタスクを相応の信頼度でこなし得ることを示している。では、LLMは医師の診断推論を向上させることができるだろうか?
アメリカStanford UniversityのGohらは、2023年11月から12月に、家庭医療・内科医療・救急医療の医師・研修医(n=50)の参加を募り、従来リソース(UpToDate、Googleなど)に加えてChatGPT Plus(GPT-4)を利用することで、診断推論が向上し得るかを検証する、単盲検ランダム化臨床試験を実施した。
診断推論パフォーマンスは最大6通りの臨床ヴィネット(架空の症例)のレビューによって評価された。
結論
症例あたりの診断推論スコア(中央値)は、LLM追加群で76%、従来リソース群で74%であった。1症例に要した時間の中央値は、LLM群で519秒、従来リソース群で565秒と、有意な差はなかった。
探索的解析としてLLM単独のパフォーマンスを検証すると、診断推論スコアが92%と両群を上回った。
評価
診断リソースとしてのChatGPT使用は、診断パフォーマンスを向上させなかった。ただし、ChatGPT単独ではより良いパフォーマンスを示しており、医師の側にそれを引き出す準備ができていなかった可能性もある。
\実臨床において、LLMとの最善の協働を実現するために、解決すべき課題と言える。

