Googleが医療に特化した言語AI、「Med-PaLM」を開発
Large language models encode clinical knowledge
背景
ChatGPTの登場は、大規模言語モデル(LLM)のポテンシャルを誰の目にも明らかに示した。ただLLMには、非常に流暢に誤った記述を生み出す「ハルシネーション」の問題も指摘されており、医療のようなクリティカルな領域での応用において、超えるべきハードルとなっている。
アメリカGoogle ResearchのSinghalらは、Googleが開発したパラメーター数5400億のLLM「PaLM」と、それをインストラクション・チューニングした「Flan-PaLM」を評価するため、医療関連の質問-回答データセット7件から構成されたベンチマーク、MultiMedQAを作成した。さらに、Flan-PaLMをインストラクション・プロンプト・チューニングすることによって、長文生成を改善した「Med-PaLM」を開発し、評価した。
結論
既存データセット6件と、ウェブ上でよく検索される健康関連質問からなる新たなデータセット1件で構成されたMultiMedQAを用いて、過去の最先端モデルとFlan-PaLMの比較を行うと、Flan-PaLMの正答率(57.6-79.0%)は過去のモデルを上回った。しかし、臨床医パネルによる長文回答の評価では科学的コンセンサスとの一致率は61.9%に過ぎなかった。
インストラクション・プロンプト・チューニングにより改良された新たなモデルMed-PaLMは、同じ評価で92.6%の高い一致率を示した(人間の臨床医は92.9%)。ただし、不適切・不正確な内容が存在する割合は、依然、人間の臨床医よりも高かった。
評価
基盤LLMをチューニングする新たなアプローチを提示し、より誤りが少なく、プロフェッショナルの能力に近い新規モデルを開発した。本論文はモデルの限界も指摘しているが、すでにMayo Clinicなどの医療機関でMed-PaLM 2のテストが行われており、一般に利用される日も遠くはないとみられる。


