救急科の診療記録要約作成における大規模言語モデルの評価
カテゴリ:災害・救急医療
公開日:2025年10月23日
タイトル:Evaluating large language models for drafting emergency department encounter summaries
雑誌名:PLOS Digit Health. 2025 Jun; 4(6): e0000899. doi: 10.1371/journal.pdig.0000899. Epub 2025 Jun 17.
概 要:
本研究は、救急科における診療記録要約作成におけるGPT-4とGPT-3.5-turboの性能を評価し、生成された要約の正確性やエラーの種類を調査することを目的としています。2012年から2023年までの間に行われた100件の成人救急科訪問を対象に、要約の正確性、情報の幻覚、臨床情報の省略について評価しました。GPT-4による要約は主に正確でしたが、幻覚や臨床情報の省略が多く見られました。これにより、LLMが生成する臨床テキストのエラーの理解が重要であることが示されました。
方 法:
本研究は、UCサンフランシスコの救急科における2012年から2023年の成人患者の救急訪問から無作為に抽出した100件を対象とした横断研究です。評価基準は、1) LLMによる要約情報の不正確さ、2) 情報の幻覚、3) 関連臨床情報の省略の3つです。
結 果:
GPT-4による要約の33%、GPT-3.5-turboによる要約の10%が全ての評価領域でエラーがありませんでした。GPT-4の要約は主に正確であり、不正確なケースは10%でしたが、42%が幻覚を示し、47%が臨床的に関連する情報を省略しました。エラーの潜在的有害性スコアは平均0.57(SD 1.11)であり、3つのエラーのみが4以上のスコアを持ちました。
結 論:
LLMは正確な診療記録要約を生成できる可能性がありますが、幻覚や臨床情報の省略が見られました。エラーの個々の潜在的有害性は低いですが、LLMが生成する臨床テキストのエラーの理解は、医師によるレビューを促進し、患者の安全を守るために重要です。