自然言語処理を用いた電子健康記録からの肺癌診断基準の自動導出:パイロット研究
カテゴリ:診断支援・画像解析
公開日:2026年2月19日
タイトル:Automated derivation of diagnostic criteria for lung cancer using natural language processing on electronic health records: a pilot study.
雑誌名:BMC Med Inform Decis Mak. 2024 Dec 04; 24(1): 371. doi: 10.1186/s12911-024-02790-y. Epub 2024 Dec 04.
概 要:
本研究は、電子健康記録における非構造化データを活用し、自然言語処理を用いて肺癌の診断基準を自動的に形成するアプローチを提案しています。患者の症状の記録が不十分な場合でも、診断の改善が期待されます。2016年から2022年の間に胸部X線検査を受けた40歳以上の患者を対象に、ICD-10および非構造化データを抽出し、症状をSNOMED-CTコードにマッピングしました。最終的に、肺癌の診断基準を導出するためのモデルを開発しました。
方 法:
2016年から2022年に胸部X線検査を受けた40歳以上の患者を対象に、過去12か月間の電子健康記録からICD-10および非構造化データを抽出しました。症状は名前付きエンティティ認識を用いて抽出され、SNOMED-CTコードにマッピングされました。特徴のサブサンプションを用いてスパースな特徴を軽減し、頻度ベースの基準と単変量対数確率を組み合わせて候補特徴を選定しました。遺伝的アルゴリズムを用いて、診断基準を形成するための最も識別的な特徴を特定しました。
結 果:
75,002人の患者が含まれ、そのうち1,012人が胸部X線検査から12か月以内に肺癌と診断されました。最も良好なモデルはAUROC 0.72を達成しました。既存の「肺の障害」(例:肺炎)や「咳」が肺癌診断の確率を高める一方で、「大血管の異常」や「後腹膜腔の障害」、および「痛み」などの文脈依存的所見は、肺癌のリスクを統計的に低下させました。開発したモデルの性能は、既存の癌リスクスコアと比較して優れた結果を示しました。
結 論:
提案された方法は、非構造化の二次医療データを活用して肺癌の診断基準を導出することに成功し、既存のリスクツールを上回る性能を示しました。これにより、患者ケアの向上が期待されますが、診断基準のより徹底的かつ偏りのない開発のためには、一次医療データの統合が重要です。また、SNOMED-CTの概念を臨床医にとって意味のある用語に文脈化する重要性も強調されています。