救急の申し送りノートをAIに作成させる
Developing and Evaluating Large Language Model-Generated Emergency Medicine Handoff Notes

カテゴリー
救急医療
ジャーナル名
JAMA Network Open
年月
December 2024
7
開始ページ
e2448723

背景

ChatGPTなどの大規模言語モデル(LLM)は大きな社会的インパクトをもたらし、医療分野でも、カルテの要約や患者への説明といった補助的タスクを中心に、多彩な応用が提案されている。
アメリカAbstractive HealthのHartmanらは、救急から入院する患者に関する申し送りノートを作成する臨床LLMパイプラインを開発し、AI作成の申し送りノートが安全性を損なうことなく、医師の文書業務を軽減しうるか検証する、単施設コホート研究を実施した。
医師が作成したノートとの語彙類似性は、従来の自動化法であるrecall-oriented understudy for gisting evaluation(ROUGE)、bidirectional encoder representations from transformers score(BERTScore)によって、ソースノートへの忠実性はsource chunking approach for large-scale inconsistency evaluation(SCALE)によって、リーダビリティ・完全性や患者安全への影響は新規フレームワークによって評価された。

結論

1,600名の救急患者記録が対象となり、LLM作成ノートは、医師が書いたものと比較して、ROUGE(0.322 vs. 0.088)・BERTScore(0.859 vs. 0.796)・SCALE(0.691 vs. 0.456)スコアが高く、より類似性が高く、詳細であることが示された。
3名の認定救急医によってLLM作成ノートのサブサンプル(n=50)をレビューすると、有用性スコアは平均4.04(医師のノートは4.36)、安全性スコアは平均4.06(医師のノートは4.50)であり、重大な患者安全上のリスクは認められなかった。

評価

LLMによって作成された引き継ぎノートは、自動化されたスコア評価の下では優れたパフォーマンスを示した。また、医師による臨床的評価でも、医師が作成したノートにやや劣っていたものの、概ね安全と考えられた。
ハルシネーションの可能性を排除し、信頼性を確立できれば、引き継ぎプロセスを標準化するソリューションとなりうる。

関連するメディカルオンライン文献

大規模臨床試験、新規の薬・機器・手法・因子・メカニズムの発見に関する文献を主に取り上げ、原文の要約と専属医師のコメントを掲載。

(制作協力:Silex 知の文献サービス

取り上げる主なジャーナル(救急医療)

The Journal of the American Medical Association(JAMA)、Lancet、Critical Care Medicine (Crit Care Med)、The New England Journal of Medicine (NEJM)