MEDICINE & AI

電子患者-提供者コミュニケーションにおける大規模言語モデルの評価のための新しいベンチマーク

カテゴリ:災害・救急医療

公開日:2026年5月17日

タイトル:EPPCMinerBen: A novel benchmark for evaluating large language models on electronic patient-provider communication via the patient portal. 雑誌名:Artif Intell Med. 2026 Aug; 178: 103429. doi: 10.1016/j.artmed.2026.103429. 概 要: 本研究では、患者と医療提供者間の効果的なコミュニケーションが治療結果や遵守において重要であることを背景に、電子患者-提供者コミュニケーション(EPPC)データの分析の必要性と課題を指摘しています。EPPCMinerBenという新しいベンチマークを導入し、電子メッセージからのコミュニケーションパターンの検出と洞察の抽出を評価します。このベンチマークは、コード分類、サブコード分類、証拠抽出の3つのサブタスクを含み、Yale New Haven Hospitalの752件の安全なメッセージから得られた1933の専門家注釈付き文を使用して、コミュニケーションの意図と支持テキストの特定を評価します。 方 法: EPPCMinerBenは、1933の専門家注釈付き文を用いたベンチマークで、コード分類、サブコード分類、証拠抽出の3つのサブタスクを評価します。データはNCI Cancer Data Serviceを通じて公開され、さまざまな大規模言語モデル(LLM)がゼロショットおよび少数ショット設定で評価されました。 結 果: モデルのパフォーマンスはタスクや設定によって異なり、Llama-3.1-70Bが証拠抽出で最高のF1スコア82.84%を達成し、分類でも良好な結果を示しました。Llama-3.3-70b-Instructはコード分類で全モデルを上回るF1スコア67.03%を記録しました。DeepSeek-R1-Distill-Qwen-32Bはサブコード分類でF1スコア48.25%を示し、sdoh-llama-3-70Bは一貫したパフォーマンスを発揮しました。小型モデルは特にサブコード分類で30%以上のF1スコアを下回る結果でした。少数ショットプロンプティングはほとんどのタスクを改善しました。 結 論: 大規模で指示調整されたモデルは、特に証拠抽出においてEPPCMinerBenタスクで高いパフォーマンスを達成する傾向があり、小型モデルは細かい推論に苦労することが示されました。EPPCMinerBenは、患者-提供者コミュニケーションの談話レベルの理解を評価するためのベンチマークを提供し、構造化されたコミュニケーション分析やモデル評価に関する今後の研究を支援します。