ChatGPTは心停止・心肺蘇生についての疑問に適切に回答できる
Testing ChatGPT ability to answer laypeople questions about cardiac arrest and cardiopulmonary resuscitation
背景
2022年末にChatGPTがセンセーショナルに登場して以降、大規模言語モデル(LLM)の応用が医療分野でどのように展開されるかが、大きな関心事となっている。特に患者への説明やコミュニケーションは、言語AIの応用が直ちに可能な分野として、すでに多くの研究が発表されている。
イタリアIRCCS San Raffaele Scientific InstituteのScquizzatoらは、心停止と心肺蘇生(CPR)に関する40の質問リストを作成し、ChatGPT 3.5(無課金バージョン)に各質問に対する回答を生成させた。回答は、医療専門家14名・非専門家16名によって、重要度・明快さ・包括性・総合評価を1〜5の尺度で、さらに可読性をFlesh Reading Easeスコアによって評価した。
結論
ChatGPTの回答の長さは、206単語、1095文字(いずれも中央値)であり、平均的読者は中央値54秒で回答を読み終えた。
ChatGPTの回答は、専門家と非専門家の双方から肯定的に評価され(平均4.3ポイント)、個別の評価項目についても明快さ(4.4)、重要度(4.3)、正確性(4.0)、包括性(4.2)は高く評価された。
ただし、専門家は総合評価(4.0ポイント vs. 4.6ポイント)、包括性(3.9ポイント vs. 4.5ポイント)について、非専門家よりも低い評価をつけた。さらにCPRに関する回答は、専門家・非専門家ともスコアが低かった。
Flesh Reading Easeスコアの中央値は「難しい」にあたる34であった。
評価
ChatGPTの回答は、平易とは言えないものの、概ね正確で包括的であった。ただし、CPRに関する回答には間違いも含まれており、完全な依存は危険と思われる。
非専門家がAIに医学的質問を投げかける機会は今後さらに増加するはずで、大規模言語モデルのパフォーマンスには、高度専門家による継続的なモニタリングが不可欠である。