医画像認識AIの臨床試験の質は
Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies
背景
医用画像認識に深層学習(DL)AIが有効である、という報告が続々と発表されるが、質はどうか。英国Imperial College LondonのNagendranらは、既発表論文の系統レビュー・メタ解析を行った。
結論
DL-AIのRCTは今なお10件、うち2件だけが発表済で、8件が進行中である。81件のNRCT中、9件が前向研究、6件がリアルワールド検証である。コンパレーター群のエキスパートの人数中央値はわずか4名であった。95%・93%の研究は、データセット・コードにフルアクセスできなかった。81件中58件はバイアスリスクが高く、報告基準の順守は最適でなかった。81件中61件は、AIのパフォーマンスは臨床医のパフォーマンスと少なくとも同等(またはそれ以上)とした。38%は、「さらなる前向研究・臨床試験が必要である」と述べている。
評価
必要であったが実行されていなかった医用画像認識AI臨床試験の初めての系統レビュー・メタ解析で、上質とは言えない現状が示された。英ICL・Oxfordと米Scripps・Stanfordの共同研究であり、高インパクトである。Google等からの反応が期待される。