ChatGPT、救急外来での臨床判断は過度に慎重な傾向

Evaluating the use of large language models to provide clinical recommendations in the Emergency Department

原文を読む

カテゴリー: 救急医療

ジャーナル名: Nature Communications

年月: October 2024

巻: 15

開始ページ: 8236

背景

ChatGPTなどの大規模言語モデル（LLM）はすでに一般社会に大きなインパクトをもたらしており、医療領域でも多くの応用が試みられている。ただし、LLMは流暢でありながら不正確な出力を行う「ハルシネーション（幻覚）」の問題があり、実臨床への導入に際して越えるべき壁となっている。
アメリカUniversity of California, San FranciscoのWilliamsらは、1) 患者の入院判断、2) 放射線画像検査オーダー、3) 抗菌薬処方に関する、GPT-4-turbo（2023年11月から2024年5月までの最高機能バージョン）およびGPT-3.5-turbo（同時期の無料ユーザー向けバージョン）の推奨パフォーマンスを、救急受診患者の実際の電子健康記録の結果と比較する研究を実施した。
3つのタスクについて、成人の救急受診251,401件から各10,000件のサンプルが作成された。GPTは初診救急医が記録した病歴・身体検査の項目に記載されている情報のみを用いて判断を行った。

結論

いずれのタスクにおいても、GPT-3.5-turboのパフォーマンスは低かった。当初のプロンプトでは、ほとんどの症例で入院・放射線画像検査・抗菌薬を推奨しており、感度は高い一方、特異度が低く、偽陽性率が高かった。この傾向は、より厳格な条件を科したり、step-by-stepプロンプトを導入してもほとんど改善しなかった。GPT-4-turboでも、入院タスクについてはGPT-3.5-turboと同様のパフォーマンスであった一方、放射線画像検査・抗菌薬タスクに関しては、GPT-3.5-turboより感度が低下する一方で、特異度が顕著に改善した。
レジデントはGPT-3.5-turbo、GPT-4-turboよりも感度が低い一方で、特異度は有意に高かった。
実際のタスクの分布を反映した救急受診サンプル（n=1,000）での比較では、すべてのタスクについてレジデントはGPT-3.5-turboを上回った。GPT-4-turboとの比較では、入院タスクについて大幅に、放射線画像検査タスクについてもわずかにレジデントが上回った一方、抗菌薬処方についてはGPT-4-turboのパフォーマンスが上回った。

評価

ほとんどのタスクについて、ChatGPTは過度に防衛的な推奨を行うことが明らかにされた。ただし、現在では次のバージョンであるChatGPT 4oやChatGPT o1が公開されており、そちらではパフォーマンスが改善されている可能性もある。
LLMでは、日夜目まぐるしく新モデルの登場や改良が起こっており、そのパフォーマンスを継続的に評価するためのフレームワークが必要とされている。

ChatGPT、救急外来での臨床判断は過度に慎重な傾向 Evaluating the use of large language models to provide clinical recommendations in the Emergency Department 原文を読む

背景

結論

評価

関連するメディカルオンライン文献

ChatGPT、救急外来での臨床判断は過度に慎重な傾向

Evaluating the use of large language models to provide clinical recommendations in the Emergency Department

原文を読む