MEDICINE & AI

緊急治療室からの入院予測における最先端の大規模言語モデルの精度評価

カテゴリ:災害・救急医療

公開日:2026年1月29日

タイトル:Evaluating the accuracy of a state-of-the-art large language model for prediction of admissions from the emergency room 雑誌名:J Am Med Inform Assoc. 2024 Sep 01; 31(9): 1921-1928. doi: 10.1093/jamia/ocae103. 概 要: 本研究は、緊急治療室における患者の入院予測におけるGPT-4の性能を評価し、従来の機械学習(ML)モデルと比較しました。AIと大規模言語モデル(LLM)は、患者の入院に関する意思決定を支援する重要な役割を果たす可能性がありますが、実世界のデータを用いた研究はこれまでありませんでした。7つのニューヨーク市の病院の電子健康記録を用いて、GPT-4の性能を評価しました。 方 法: 本研究は、7つの病院の電子健康記録を用いた後ろ向き研究です。非構造化データに対してBio-Clinical-BERT、構造化データに対してXGBoost(XGB)モデルを訓練し、ML性能を反映したアンサンブルモデルを作成しました。GPT-4の能力をゼロショット、少数ショット、RAG(情報検索強化生成)を用いた場合、及びMLの数値的確率を用いた場合に評価しました。 結 果: アンサンブルMLモデルは、受信者動作特性曲線(AUC)で0.88、精度-再現率曲線(AUPRC)で0.72、精度82.9%を達成しました。ナイーブなGPT-4の性能は、AUCが0.79、AUPRCが0.48、精度77.5%でありましたが、RAGやMLの数値的確率を用いることで大幅に改善され、AUCが0.87、AUPRCが0.71、精度83.1%に達しました。興味深いことに、RAGのみでも性能が向上し、AUCが0.82、AUPRCが0.56、精度81.3%となりました。 結 論: ナイーブなLLMは限られた性能を示しましたが、実世界の例を学習することで、特にRAGや従来のMLモデルからの数値的確率を補完することで、ED入院予測の精度が大幅に向上しました。ピーク性能は純粋なMLモデルよりやや劣りますが、予測の背後にある理由を提供する可能性がある点は注目に値します。LLMを実世界のデータでさらに洗練させることが、ケアの場での意思決定支援ツールとしての成功した統合に必要です。