SBDHリーダー:臨床ノートから健康の社会的および行動的決定因子を抽出するための大規模言語モデルを活用した手法
カテゴリ:公衆衛生・予防医療
公開日:2026年1月29日
タイトル:SBDH-Reader: a large language model-powered method for extracting social and behavioral determinants of health from clinical notes.
雑誌名:J Am Med Inform Assoc. 2025 Oct 01; 32(10): 1570-1580. doi: 10.1093/jamia/ocaf124.
概 要:
本研究は、健康の社会的および行動的決定因子(SBDH)の抽出を目的とした大規模言語モデル(LLM)を活用した手法「SBDH-Reader」を開発し、その有効性を検証しました。従来の抽出方法は労力がかかり、正確性に欠けることが多いため、LLMを用いて臨床ノートから構造化されたSBDHデータを効率的に抽出することを目指しました。7225件のノートを用いてモデルを開発し、外部データセットでの検証を行いました。
方 法:
SBDH-Readerは、雇用、住居、婚姻状況、アルコール、タバコ、薬物使用など6つのSBDHカテゴリからデータを抽出するためにGPT-4oを用いて開発されました。MIMIC-IIIデータベースから6382人の患者のノート7225件を使用し、テキサス大学サウスウェスタン医学センターの437人の患者から971件のノートで外部検証を行いました。性能評価は、精度、再現率、F1スコア、混同行列を用いて行いました。
結 果:
UTSWの検証セットでのテストにおいて、SBDH-Readerは6つのSBDHカテゴリにおいてマクロ平均F1スコアが0.94から0.98を達成しました。臨床的に重要な属性の抽出では、F1スコアは雇用や住居で0.96、タバコ使用で0.99でした。全SBDHカテゴリにおける有害属性の抽出では、F1スコア0.97、再現率0.97、精度0.98を達成しました。
結 論:
SBDH-Readerは、特定のタスクに対するファインチューニングなしで、一般的なLLMの効果的なプロンプトエンジニアリングを通じて構造化されたSBDHデータを抽出する強力な性能を示しました。この手法は、実際の臨床環境での適用可能性を支持するモジュラー設計と多様なデータセットへの適応性を持ち、リアルタイムでの患者レベルのSBDHデータ収集においてスケーラブルで効果的な方法としての可能性があります。