医学的質問へのChatGPTの回答は、品質・共感性とも高評価
Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum
背景
OpenAI社が開発した大規模自然言語処理モデルに基づくチャットボットChatGPTは、2022年11月にウェブ上で公開されるや、その極めて自然な受け答えと、詩作から料理レシピ、プログラミングまで、多種多様な分野を横断する驚異的な汎用性から、大きなセンセーションを巻き起こした。ChatGPTを医療分野に応用しようとする試みもすでに数多く現れている。
アメリカUniversity of California San DiegoのAyersらは、患者の質問に回答するChatGPTの能力を、医師と比較すべく以下の調査を行った。2022年10月に、英語SNSプラットフォームReddit上の、健康・医療に関する質問に専門家が回答するr/AskDocs掲示板に投稿されたやりとり(n=195)をランダムに抽出し、同じ質問を2022年12月22~23日にChatGPT(当時はGPT-3.5)に入力し、回答を生成。両者の回答を匿名化して免許を持つ医療従事者に提示し、「どちらの回答がより良いか」「情報のクオリティはどうか」「共感性・ベッドサイドマナーはどうか」の3点について比較を行った。
結論
医師の回答はChatGPTのそれよりも有意に短かった(52語 vs. 211語)。全回答の3点の評価ポイントのうち、78.6%でChatGPTの回答が高い評価を受けた。情報のクオリティについて、5段階で4以上の評価を受けた回答の割合は、ChatGPTの回答78.5%、医師の回答で22.1%であった。共感性について、5段階で4以上の回答の割合は、ChatGPTの回答45.1%、医師の回答4.6%であった。
評価
Reddit上の投稿をChatGPTの慇懃なレスポンスと並べることが公正な比較となるかはともかく、ChatGPTの回答は情報のクオリティについても、共感性についても高く評価された。性能面でGPT-3.5を大きく凌駕するGPT-4が登場しており、現在ではより高品質な回答が行える可能性が高い。ChatGPTにはもっともらしい嘘をつく「ハルシネーション」の問題があり、現時点では、ChatGPTの文章を医師が校正する、もしくは医師の素案をもとにChatGPTが文章を仕上げる、といった協働がありうるべき姿となるだろう。