MEDICINE & AI

医療決定を支援する予測人工知能モデルの性能評価指標の概要とガイダンス

カテゴリ:公衆衛生・予防医療

公開日:2025年12月15日

タイトル:Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance. 雑誌名:Lancet Digit Health. 2025 Dec 13; 100916. 概 要: 本研究は、医療実践における予測人工知能(AI)モデルの性能を示すための指標選択の重要性を強調しています。適切な性能指標を選ばないと、誤った臨床判断を招き、患者に悪影響を及ぼす可能性があります。32の性能指標を5つの性能領域(識別、キャリブレーション、全体性能、分類、臨床的有用性)に分けて評価し、特に二項結果の確率を推定するモデルに焦点を当てています。統計的性能と意思決定分析性能の両方を考慮した指標の選択が重要であることを説明しています。 方 法: この研究は、予測AIモデルの性能を評価するために32の性能指標を検討したもので、特に二項結果の確率を推定するモデルに焦点を当てています。性能指標は、識別、キャリブレーション、全体性能、分類、臨床的有用性の5つの領域に分類され、統計的性能と意思決定分析性能の特性を考慮して評価されました。 結 果: 17の指標は、期待値が正しい確率を用いて最適化される特性を持ち、14の指標はそのうちの1つを持ち、1つ(F1スコア)はどちらの特性も持ちませんでした。分類指標は、臨床的に関連する決定閾値に対して不適切であることが示されました。ADNEXモデルを用いて、これらの指標と特性を具体的に示しました。 結 論: 予測AIモデルの性能評価には、受信者動作特性曲線の下の面積、キャリブレーションプロット、臨床的有用性を示す指標(ネットベネフィット)などの報告が重要であると推奨しています。これにより、医療現場での意思決定を支援するための適切な指標選択が促進されることが期待されます。