一般的な大規模言語モデルは小児科医が重篤な細菌感染の予測に役立つか?
カテゴリ:手術支援
公開日:2025年11月16日
タイトル:Can general purpose large language models assist pediatricians in predicting infants with serious bacterial infection?
雑誌名:BMC Med Inform Decis Mak. 2025 Nov 14; 25(1): 423.
概 要:
新生児や幼児における重篤な細菌感染(SBI)は、初期段階で非特異的な症状を示すため、早期診断が困難です。本研究では、緊急治療室に入院した90日未満の乳児に対するSBIの診断精度を、一般的な大規模言語モデル(LLM)を用いて評価しました。LLMの性能を従来の機械学習モデルやルールベースの手法、医師のエンセmblesと比較し、診断精度の向上と不必要な介入の削減を目指しました。
方 法:
742人の患者を対象としたデータセットを用いて、LLMの診断精度を評価しました。最適化されたCatBoostモデルが最良のパフォーマンスを示し、PPV(陽性的中率)0.70、NPV(陰性的中率)0.90、感度0.54、特異度0.95、F1スコア0.60、MCC(マシュー相関係数)0.54を達成しました。LLMは、経験豊富な医師のエンセmblesと同等の性能を示しました。
結 果:
LLMは、従来の機械学習モデルやルールベースの手法と同等の診断精度を示しました。ChatGPT-4oは感度0.65、特異度0.83、MCC 0.41を達成し、Claude Sonnet 3.5は感度0.60、特異度0.86、MCC 0.42でした。最も優れた小児科医は感度0.74、特異度0.68、MCC 0.33を示し、医師の多数決は感度0.69、特異度0.81、MCC 0.43で、LLMと同等の結果でした。
結 論:
これらの人工知能ツールは、SBIリスク予測において経験豊富な小児科医と同等の性能を達成し、実世界での応用に向けたシンプルな使用法とデータ前処理を維持しています。