適応された大規模言語モデルによる病院経過要約のためのデータセットとベンチマーク
カテゴリ:診断支援・画像解析
公開日:2026年1月29日
タイトル:A dataset and benchmark for hospital course summarization with adapted large language models.
雑誌名:J Am Med Inform Assoc. 2025 Mar 01; 32(3): 470-479. doi: 10.1093/jamia/ocae312.
概 要:
本研究は、患者の入院経過を要約する臨床文書である簡潔な病院経過要約(BHC)を自動生成するための大規模言語モデル(LLM)の適応能力を評価します。新たに作成したMIMIC-IV-BHCデータセットには、臨床ノートとBHCのペアが含まれており、LLMのBHC合成能力を向上させることを目的としています。また、2つの汎用LLMと3つの医療適応LLMの要約性能を評価するベンチマークも提案しています。
方 法:
臨床ノートを入力として、3つのオープンソースLLM(Clinical-T5-Large、Llama2-13B、FLAN-UL2)と2つのプロプライエタリLLM(GPT-3.5、GPT-4)に対して、プロンプトベースおよびファインチューニングベースの適応戦略を適用しました。自然言語類似性指標を用いて、複数のコンテキスト長の入力に対するLLMの評価を行い、30サンプルの臨床医によるBHCの比較研究も実施しました。
結 果:
Llama2-13Bのファインチューニングモデルは、BHCの定量評価指標であるBLEUおよびBERTスコアにおいて他のモデルを上回りました。GPT-4は、ファインチューニングされたLlama2-13Bよりも、臨床ノートの入力に対するコンテキスト長の増加に対してより堅牢でした。読者調査では、GPT-4による要約が他のモデルや元の要約に比べて有意に好まれる結果が得られました(P<.001)。
結 論:
MIMIC-IV-BHCという基礎的な臨床関連データセットを公開し、臨床ノートからのBHC合成におけるLLMの性能に関するオープンソースのベンチマークを提示しました。定量的および定性的な評価を通じて、高品質な要約性能が確認され、臨床データの統合と知識創造の要素を効果的に組み込んだ研究となりました。