大規模言語モデルアンサンブルによる高性能自動要約スクリーニング
カテゴリ:医学教育
公開日:2026年1月29日
タイトル:High-performance automated abstract screening with large language model ensembles
雑誌名:J Am Med Inform Assoc. 2025 May 01; 32(5): 893-904. doi: 10.1093/jamia/ocaf050.
概 要:
本研究は、体系的レビューにおける要約スクリーニングの自動化を目的とし、大規模言語モデル(LLM)の有効性を検証しました。要約スクリーニングは、多数の研究に対する選択基準の適用を伴う労働集約的なプロセスです。23件のCochrane Libraryの体系的レビューを対象に、LLM(GPT-3.5 Turbo、GPT-4 Turbo、GPT-4o、Llama 3 70B、Gemini 1.5 Pro、Claude Sonnet 3.5)の精度を評価しました。最適なプロンプト戦略を特定し、検証データセットでのパフォーマンスを確認しました。
方 法:
本研究は、23件のCochrane Libraryの体系的レビューを対象にした試験を行いました。LLMの精度を評価するために、バランスの取れた開発データセット(n=800)を使用し、最適なプロンプト戦略を特定しました。その後、再現された検索結果の包括的データセット(n=119,695)で最良のLLM-プロンプトの組み合わせを検証しました。
結 果:
開発データセットでは、LLMは人間の研究者よりも高い感度(LLMmax = 1.000、humanmax = 0.775)、精度(LLMmax = 0.927、humanmax = 0.911)、バランスの取れた精度(LLMmax = 0.904、humanmax = 0.865)を示しました。包括的データセットでの評価では、最良のLLM-プロンプトの組み合わせは一貫した感度(範囲0.756-1.000)を示しましたが、クラス不均衡のため精度は低下しました(範囲0.004-0.096)。66のLLM-人間およびLLM-LLMアンサンブルは、開発データセットで完璧な感度を示し、最大精度は0.458でしたが、包括的データセットでは0.1450に低下しました。これにより、作業負荷は37.55%から99.11%削減されました。
結 論:
LLMは、体系的レビューにおける人間の労働コストを削減し、精度を維持または向上させる可能性があり、証拠合成の効率と質を向上させることが期待されます。