MEDICINE & AI

大規模言語モデルを用いた臨床ノートからの健康の社会的決定因子の抽出

カテゴリ:公衆衛生・予防医療

公開日:2026年2月19日

タイトル:Social determinants of health extraction from clinical notes across institutions using large language models. 雑誌名:NPJ Digit Med. 2025 May 17; 8(1): 287. doi: 10.1038/s41746-025-01645-8. Epub 2025 May 17. 概 要: 本研究は、電子健康記録(EHR)の臨床テキストに埋もれている健康の社会的決定因子(SDoH)を抽出することを目的としています。従来の自然言語処理(NLP)手法は、限られた要因や単一の機関からのデータに基づいており、一般化可能性に乏しいことが課題です。本研究では、4つの機関からのデータを用いて、SDoH要因を検出するための分類モデル、特に大規模言語モデル(LLM)の一般化可能性を評価するためのクロスインスティテューショナルコーパスを作成しました。臨床ノートには、21のSDoH要因が2つのレベルで注釈付けされました。結果として、指示調整されたLLMは、レベル1コーパスで0.9以上、レベル2コーパスで0.84以上のマイクロ平均F1スコアを達成しました。 方 法: 本研究は、4つの異なる機関からのデータを用いたコホート研究です。臨床ノートには、21のSDoH要因がレベル1(SDoH要因のみ)とレベル2(SDoH要因と関連値)の2つのレベルで注釈付けされました。大規模言語モデルを含む分類モデルの開発と評価が行われ、モデルの一般化可能性が検討されました。 結 果: 指示調整されたLLMは、レベル1コーパスでマイクロ平均F1スコア0.9以上、レベル2コーパスで0.84以上を達成しました。モデルは個別のデータセットでの訓練とテストでは良好な性能を示しましたが、データセット間の一般化には課題が残りました。 結 論: 本研究により、健康の社会的決定因子の抽出において大規模言語モデルが有効であることが示されました。今後、訓練されたモデルは一般に利用可能となる予定であり、SDoHの理解と活用に寄与することが期待されます。