自動データ抽出のための協調型大規模言語モデル
カテゴリ:医療現場の業務効率化
公開日:2026年1月29日
タイトル:Collaborative large language models for automated data extraction in living systematic reviews
雑誌名:J Am Med Inform Assoc. 2025 Apr 01; 32(4): 638-647. doi: 10.1093/jamia/ocae325.
概 要:
本研究は、生活系統的レビュー(LSR)における文献からのデータ抽出を自動化するための一般化可能なワークフローを構築することを目的としています。特に、実際の2レビューアプロセスを模倣した大規模言語モデル(LLM)を活用します。10件の試験から得られたデータセットを用いて、試験、集団、結果データに関連する23の変数に焦点を当てました。データ抽出の精度を評価するために、LLMの応答の一致率と正確性を計算しました。
方 法:
本研究では、公開されたLSRからの10件の試験(22件の出版物)を対象に、データセットをプロンプト開発用(n=5)とテストセット(n=17)に分割しました。データ抽出にはGPT-4-turboとClaude-3-Opusを使用し、各変数に対する応答が一致しているかどうかを評価しました。応答の正確性は、正しい応答の総数を総応答数で割ることで計算しました。
結 果:
プロンプト開発セットでは、110件(96%)の応答が一致し、金標準に対して0.99の精度を達成しました。テストセットでは、342件(87%)の応答が一致し、一致した応答の精度は0.94でした。非一致応答の精度は、GPT-4-turboで0.41、Claude-3-Opusで0.50でした。49件の非一致応答のうち、25件(51%)はクロスクリティーク後に一致し、精度は0.76に向上しました。
結 論:
協調型の2レビューアプローチでシミュレーションされた大規模言語モデルは、合理的なパフォーマンスでデータを抽出できることが示され、真の「生活系統的レビュー」を可能にします。