記事詳細｜臨床テキストからの大規模言語モデルによる症状識別：多施設研究

臨床テキストからの大規模言語モデルによる症状識別：多施設研究

カテゴリ：公衆衛生・予防医療

公開日：2026年2月19日

タイトル：Large Language Model Symptom Identification From Clinical Text: Multicenter Study 雑誌名：J Med Internet Res. 2025 Jul 31; 27: e72984. doi: 10.2196/72984. Epub 2025 Jul 31. 概　要：本研究は、感染性呼吸器疾患の症状を正確に識別するために、大規模言語モデル（LLM）を用いることを目的としています。従来の医師のノートに記載された症状は、コード化された形式では過小報告されることが多く、LLMは人間の専門家の役割を模倣することでこのギャップを埋める可能性があります。4つのLLM（GPT-4、GPT-3.5、Llama2 70B、Mixtral 8×7B）を評価し、最適なプロンプト戦略を用いて、ボストン小児病院のノートを分析しました。最終的に、21の緊急医療機関からの308ノートを用いて、LLMの一般化能力を測定しました。方　法：この研究では、ボストン小児病院の緊急部門からの103ノートを用いてLLMのプロンプト戦略を開発し、202ノートを用いて性能を測定しました。各ノートの真のラベルは専門家によって注釈され、ICD-10に基づく方法の性能も基準として測定しました。最も性能の良いLLMの一般化能力は、インディアナ健康情報交換からの308ノートを用いて評価されました。結　果：全てのLLMは、感染症の症状識別においてICD-10に基づく方法よりも高い精度を示しました。特にGPT-4はF1スコア91.4%で最高の結果を示し、他のLLMも高い精度を記録しました。検証コーパスでは、GPT-4の性能が94.0%に向上したのに対し、ICD-10に基づく方法は26.9%に低下しました。結　論： LLMは、緊急医療記録における呼吸器症状の識別においてICD-10に基づく方法を大幅に上回ることが示されました。特にGPT-4は高い精度と一般化能力を示し、従来のアプローチを補完または置き換える可能性があります。今後は、より広範な症状タイプや医療設定での評価が求められます。

「公衆衛生・予防医療」の記事一覧へ

MEDICINE & AI

臨床テキストからの大規模言語モデルによる症状識別：多施設研究