ChatGPT、救急外来での臨床判断は過度に慎重な傾向
Evaluating the use of large language models to provide clinical recommendations in the Emergency Department
背景
ChatGPTなどの大規模言語モデル(LLM)はすでに一般社会に大きなインパクトをもたらしており、医療領域でも多くの応用が試みられている。ただし、LLMは流暢でありながら不正確な出力を行う「ハルシネーション(幻覚)」の問題があり、実臨床への導入に際して越えるべき壁となっている。
アメリカUniversity of California, San FranciscoのWilliamsらは、1) 患者の入院判断、2) 放射線画像検査オーダー、3) 抗菌薬処方に関する、GPT-4-turbo(2023年11月から2024年5月までの最高機能バージョン)およびGPT-3.5-turbo(同時期の無料ユーザー向けバージョン)の推奨パフォーマンスを、救急受診患者の実際の電子健康記録の結果と比較する研究を実施した。
3つのタスクについて、成人の救急受診251,401件から各10,000件のサンプルが作成された。GPTは初診救急医が記録した病歴・身体検査の項目に記載されている情報のみを用いて判断を行った。
結論
いずれのタスクにおいても、GPT-3.5-turboのパフォーマンスは低かった。当初のプロンプトでは、ほとんどの症例で入院・放射線画像検査・抗菌薬を推奨しており、感度は高い一方、特異度が低く、偽陽性率が高かった。この傾向は、より厳格な条件を科したり、step-by-stepプロンプトを導入してもほとんど改善しなかった。GPT-4-turboでも、入院タスクについてはGPT-3.5-turboと同様のパフォーマンスであった一方、放射線画像検査・抗菌薬タスクに関しては、GPT-3.5-turboより感度が低下する一方で、特異度が顕著に改善した。
レジデントはGPT-3.5-turbo、GPT-4-turboよりも感度が低い一方で、特異度は有意に高かった。
実際のタスクの分布を反映した救急受診サンプル(n=1,000)での比較では、すべてのタスクについてレジデントはGPT-3.5-turboを上回った。GPT-4-turboとの比較では、入院タスクについて大幅に、放射線画像検査タスクについてもわずかにレジデントが上回った一方、抗菌薬処方についてはGPT-4-turboのパフォーマンスが上回った。
評価
ほとんどのタスクについて、ChatGPTは過度に防衛的な推奨を行うことが明らかにされた。ただし、現在では次のバージョンであるChatGPT 4oやChatGPT o1が公開されており、そちらではパフォーマンスが改善されている可能性もある。
LLMでは、日夜目まぐるしく新モデルの登場や改良が起こっており、そのパフォーマンスを継続的に評価するためのフレームワークが必要とされている。


