アメリカ脳卒中リスク予測モデルの人種バイアスは機械学習でも除去できず
Predictive Accuracy of Stroke Risk Prediction Models Across Black and White Race, Sex, and Age Groups
背景
アメリカでは様々なリスク予測モデルにおける人種・性別バイアスの洗い直しが行われている。
Duke AI HealthのPencinaらは、1983〜2019年の米4コホート(Framingham Offspring・ARIC・MESA・REGARDS)における黒人および白人参加者に対する、諸モデルによる脳卒中リスクの予測精度差を検討した(n=62,482)。検討されたモデルは、Framingham stroke、REGARDS self-report、Pooled Cohort Equation、および新規開発機械学習2モデルで、一次アウトカム指標は、10年新規脳卒中イベント発生に関するc-indexと期待値・実測値キャリブレーション比である。
結論
既存2モデルおよびPooled Cohort Equationの間に一次アウトカム差はなく、すべて黒人が白人より識別精度が低かった(白人女性では3モデルすべてで0.76、黒人女性では0.69、白人男性では0.71〜0.72、黒人男性では0.64〜0.66)。他方、年齢で層別した場合にはモデルの識別能は良好であった。このようなパフォーマンス差は、新しい機械学習アルゴリズムを使用した2モデルでも改善されなかった。
評価
脳卒中予測モデルの人種バイアスが、既存モデルでは全て明確で、また機械学習の導入でも変わらなかった、とする衝撃的な報告である。著者らは、モデルの構築手法でなく、基礎データの制約性に問題があることを示唆している。