胸部X線における肺結節検出のための人工知能ソフトウェアの性能評価
カテゴリ:診断支援・画像解析
公開日:2026年2月19日
タイトル:Evaluating the performance of artificial intelligence software for lung nodule detection on chest radiographs in a retrospective real-world UK population.
雑誌名:BMJ Open. 2023 Nov 08; 13(11): e077348.
概 要:
この研究は、胸部X線における肺癌の早期発見が患者の転帰を改善することを背景に、商業的に利用可能なAIソフトウェアの性能を評価しました。UKの一次医療センターで取得された胸部X線を対象に、放射線科医の報告および多職種チームによる癌診断と比較し、AIソフトウェアの感度、特異度、陽性的中率(PPV)、陰性的中率(NPV)を測定しました。結果として、AIソフトウェアは実際の患者群において著しい性能不足を示しました。
方 法:
この研究は、UKの一次医療センターで取得された5722件の胸部X線を対象とした回顧的研究です。AIソフトウェアは各X線を独立して評価し、結果は放射線科医の報告および多職種チームによる癌診断の2つの基準と比較されました。参加者は5592人で、中央値は59歳、女性は53.8%、癌の有病率は1.6%でした。
結 果:
AIソフトウェアは、放射線科医の報告に対する結節検出の感度54.5%(95% CI 44.2%~64.4%)、特異度83.2%(82.2%~84.1%)、PPV 5.5%(4.6%~6.6%)、NPV 99.0%(98.8%~99.2%)を示しました。癌診断に対しては、感度60.9%(50.1%~70.9%)、特異度83.3%(82.3%~84.2%)、PPV 5.6%(4.8%~6.6%)、NPV 99.2%(99.0%~99.4%)でした。943件の偽陽性ケースの69.9%で正常または変異解剖が異常として誤認識されました。
結 論:
このソフトウェアは、実際の患者群においてかなりの性能不足を示しました。失敗分析からは、トレーニングおよびテストデータセットの一般化不足が要因として考えられます。低いPPVは過剰検査のリスクを伴い、臨床実践への適用を制限します。これらの結果は、AIツールの実装における代表的なデータセットでのトレーニングとテストの重要性を強調しています。