救急の申し送りノートをAIに作成させる
Developing and Evaluating Large Language Model-Generated Emergency Medicine Handoff Notes
背景
ChatGPTなどの大規模言語モデル(LLM)は大きな社会的インパクトをもたらし、医療分野でも、カルテの要約や患者への説明といった補助的タスクを中心に、多彩な応用が提案されている。
アメリカAbstractive HealthのHartmanらは、救急から入院する患者に関する申し送りノートを作成する臨床LLMパイプラインを開発し、AI作成の申し送りノートが安全性を損なうことなく、医師の文書業務を軽減しうるか検証する、単施設コホート研究を実施した。
医師が作成したノートとの語彙類似性は、従来の自動化法であるrecall-oriented understudy for gisting evaluation(ROUGE)、bidirectional encoder representations from transformers score(BERTScore)によって、ソースノートへの忠実性はsource chunking approach for large-scale inconsistency evaluation(SCALE)によって、リーダビリティ・完全性や患者安全への影響は新規フレームワークによって評価された。
結論
1,600名の救急患者記録が対象となり、LLM作成ノートは、医師が書いたものと比較して、ROUGE(0.322 vs. 0.088)・BERTScore(0.859 vs. 0.796)・SCALE(0.691 vs. 0.456)スコアが高く、より類似性が高く、詳細であることが示された。
3名の認定救急医によってLLM作成ノートのサブサンプル(n=50)をレビューすると、有用性スコアは平均4.04(医師のノートは4.36)、安全性スコアは平均4.06(医師のノートは4.50)であり、重大な患者安全上のリスクは認められなかった。
評価
LLMによって作成された引き継ぎノートは、自動化されたスコア評価の下では優れたパフォーマンスを示した。また、医師による臨床的評価でも、医師が作成したノートにやや劣っていたものの、概ね安全と考えられた。
ハルシネーションの可能性を排除し、信頼性を確立できれば、引き継ぎプロセスを標準化するソリューションとなりうる。

