MEDICINE & AI

臨床テキストからの大規模言語モデルによる症状特定:多施設研究

カテゴリ:公衆衛生・予防医療

公開日:2025年7月31日

タイトル:Large Language Model Symptom Identification From Clinical Text: Multicenter Study 雑誌名:J Med Internet Res. 2025 Jul 31; 27: e72984. 概 要: 本研究は、感染性呼吸器疾患の症状を正確に特定するために、大規模言語モデル(LLM)を用いた多施設研究を行いました。症状は医師のノートに記載されることが多いが、コード化された形式では過小評価されることが一般的です。LLMは、人間の専門家の役割を模倣することで、このギャップを埋める可能性があります。研究の結果、LLMは従来のICD-10ベースの方法よりも優れた症状特定精度を示しました。 方 法: 本研究では、GPT-4、GPT-3.5、Llama2 70B、Mixtral 8×7Bの4つのLLMを評価しました。LLMは医師のノートを評価する際に症状注釈ガイドラインに従うよう指示されました。基準となるラベルは専門家によって注釈され、開発コーパスとして103件のノートが使用されました。性能は202件のテストコーパスで測定され、最も性能が良いLLMの一般化能力は、インディアナ州の21の救急科からの308件のノートを用いて評価されました。 結 果: 全てのLLMは、感染症の症状に関してICD-10ベースの方法(F1スコア=45.1%)よりも高い精度を示しました。特にGPT-4は最高のF1スコア91.4%(P<.001)を達成し、他のモデルもそれに続きました。検証コーパスでは、ICD-10ベースの方法の性能が低下した一方で、GPT-4は94.0%に向上し、一般化能力が優れていることが示されました(P<.001)。 結 論: LLMは、救急科の電子健康記録における呼吸器症状の特定において、ICD-10ベースの方法を大きく上回る性能を示しました。特にGPT-4は最高の精度と一般化能力を持ち、従来のアプローチを補完または置き換える可能性があります。今後は、より広範な症状タイプや医療設定における評価が求められます。