臨床タスクにおける大規模言語モデルの生物医学的ファインチューニングの効果の評価
カテゴリ:診断支援・画像解析
公開日:2026年2月19日
タイトル:Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks
雑誌名:J Am Med Inform Assoc. 2025 Jun 01; 32(6): 1015-1024.
概 要:
本研究は、生物医学的にファインチューニングされた大規模言語モデル(LLM)の臨床タスクにおける性能を、一般的なモデルと比較して評価することを目的としています。生物医学的ファインチューニングが必ずしも性能向上をもたらすわけではないことを示す結果が得られました。NEJMやJAMAの臨床ケースチャレンジや情報抽出、文書要約、臨床コーディングなどのタスクを用いて評価を行いました。
方 法:
生物医学的ファインチューニングされたLLMと一般的なモデルの性能を、NEJMおよびJAMAからの臨床ケースチャレンジや情報抽出、文書要約、臨床コーディングなどの複数の臨床タスクで評価しました。評価には、ファインチューニングデータセットの外にある多様なベンチマークを使用し、一般化能力の公正な評価を確保しました。
結 果:
生物医学的LLMは、一般的なモデルに比べて一般的に性能が劣っており、特に医療知識を探るタスクでは顕著でした。大規模モデルでは類似の性能を示しましたが、小規模モデルではより顕著な劣位が見られました。また、一般的なモデルはテキスト生成や質問応答、コーディングにおいて高いスコアを達成しました。生物医学的LLMは、幻覚を引き起こす傾向も高いことが観察されました。
結 論:
生物医学的データでのファインチューニングは期待される利益をもたらさない可能性があり、臨床統合のためにはリトリーバル拡張などの代替アプローチをさらに探求する必要があります。