MEDICINE & AI

LLM由来の埋め込みを用いたEHRベースの膵臓癌予測の強化

カテゴリ:公衆衛生・予防医療

公開日:2025年7月22日

タイトル:Enhancing EHR-based pancreatic cancer prediction with LLM-derived embeddings. 雑誌名:NPJ Digit Med. 2025 Jul 21; 8(1): 465. doi: 10.1038/s41746-025-01869-8. Epub 2025 Jul 21. 概 要: 膵臓癌は早期症状や効果的なスクリーニングツールが不足しているため、しばしば遅れて診断されます。本研究では、電子健康記録(EHR)データを活用した早期発見の可能性を探るため、医療状態名の大規模言語モデル(LLM)由来の埋め込みを使用した予測モデルを開発しました。コロンビア大学メディカルセンターとシダーズ・サイナイメディカルセンターの2つのサイトで、LLM埋め込みを用いることで、診断前6-12ヶ月の予測AUROCがそれぞれ0.60から0.67、0.82から0.86に改善されました。診断の3ヶ月前のデータを除外することで、AUROCはさらに0.82と0.89に向上しました。このモデルは、従来のリスク因子を用いた場合の0.004に対し、0.141の高い陽性的中率を達成し、これらのリスク因子や既知の遺伝的変異を持たない多くの膵臓癌患者を特定しました。 方 法: この研究は、コロンビア大学メディカルセンターとシダーズ・サイナイメディカルセンターの2つの施設で行われました。大規模言語モデル(LLM)由来の埋め込みを用いて、電子健康記録(EHR)データから膵臓癌の予測モデルを開発しました。主要評価指標は、診断前6-12ヶ月のAUROCで、LLM埋め込みを使用することで改善が見られました。 結 果: LLM埋め込みを用いたモデルは、診断前6-12ヶ月のAUROCをコロンビア大学で0.60から0.67、シダーズ・サイナイで0.82から0.86に改善しました。診断の3ヶ月前のデータを除外した場合、AUROCはそれぞれ0.82と0.89に向上しました。また、モデルは従来のリスク因子を用いた場合の0.004に対し、0.141の高い陽性的中率を示しました。 結 論: EHRベースのモデルは、膵臓癌の高リスク個人を特定するための独立したアプローチとして機能する可能性が示されました。特に、従来のリスク因子や遺伝的変異がない患者を特定できる点が重要です。