乳がん予後のためのデータ駆動型生存モデル:機械学習と従来の生存モデル手法の比較研究
カテゴリ:公衆衛生・予防医療
公開日:2026年2月19日
タイトル:Data-driven survival modeling for breast cancer prognostics: A comparative study with machine learning and traditional survival modeling methods.
雑誌名:PLoS One. 2025; 20(4): e0318167. doi: 10.1371/journal.pone.0318167. Epub 2025 Apr 22.
概 要:
本研究は、乳がん生存の予後評価におけるデータ駆動型生存モデルの適用可能性を探求し、機械学習(ML)モデルと従来の生存分析手法の能力を比較することを目的としています。国立がん研究所のSEERプログラムから得た4,024人の乳がん患者のデータを使用し、Cox比例ハザードモデルやランダム生存森林(RSF)、DeepSurvなどの生存特化型手法と、ランダムフォレスト(RF)、XGBoost、サポートベクターマシン(SVM)などの機械学習モデルを評価しました。SHAP法を用いて、各モデルの解釈可能性を確保し、乳がん生存に影響を与える主要な予測因子を特定しました。
方 法:
この研究は、4,024人の乳がん患者を対象にしたデータ駆動型生存モデルの比較研究です。使用した手法には、Cox比例ハザードモデル、ランダム生存森林、DeepSurv、ランダムフォレスト、XGBoost、SVMなどが含まれます。主要評価指標は、C-index、統合ブライヤースコア(IBS)、平均精度、平均AUCです。
結 果:
CoxモデルはC-index 0.71、IBS 0.08を達成し、RSFはC-index 0.72でわずかに優れた判別力を示しました。MLモデルでは、RFが平均AUC 0.74、XGBoostが平均AUC 0.69を示しました。SHAP分析により、リンパ節の関与、腫瘍のグレード、プロゲステロン状態、年齢が乳がん生存の主要な予測因子であることが明らかになりました。
結 論:
MLモデルは乳がんの予測因子を特定するのに効果的ですが、CoxモデルやRSF、DeepSurvなどの生存特化型手法は、時間依存データや検閲を扱う能力が高く、正確な生存予測に適しています。本研究は、医療における人工知能の統合を促進し、高リスク患者に対する正確で個別化された洞察を提供するデータ駆動型生存モデルの重要性を強調しています。