MEDICINE & AI

臨床医学における大規模言語モデルのファインチューニング手法:監視型ファインチューニングと直接的嗜好最適化の比較評価

カテゴリ:災害・救急医療

公開日:2025年9月23日

タイトル:Fine-Tuning Methods for Large Language Models in Clinical Medicine by Supervised Fine-Tuning and Direct Preference Optimization: Comparative Evaluation 雑誌名:J Med Internet Res. 2025 Sep 23; 27: e76048. 概 要: 本研究は、臨床医学における自然言語処理タスクに対する監視型ファインチューニング(SFT)と直接的嗜好最適化(DPO)の効果を比較し、どの技術をいつ使用すべきかを明らかにすることを目的としています。大規模言語モデル(LLM)のファインチューニングは、医療分野でのモデルの性能向上に寄与する可能性があります。研究では、Llama3 8BとMistral 7B v2を用いて、テキスト分類、臨床推論、テキスト要約、臨床トリアージの4つのタスクを評価しました。 方 法: 本研究は、Llama3 8B(Meta)とMistral 7B v2(Mistral AI)を使用し、SFTとDPOのパフォーマンスを比較しました。評価対象のタスクは、テキスト分類、臨床推論、テキスト要約、臨床トリアージの4つです。 結 果: 臨床推論の精度は、Llama3で7%から36%に、Mistral2で22%から40%に向上しました。要約の質は、Llama3で4.11から4.34に、Mistral2で3.93から4.08に改善されました。トリアージのF1スコアは、Llama3で0.55から0.74に、Mistral2で0.49から0.66に増加しました。DPOはSFTよりも約2〜3倍の計算リソースを必要としました。 結 論: SFTは単純なタスクに対しては十分ですが、DPOはトリアージや臨床推論、要約といった複雑なタスクのパフォーマンスを向上させます。SFTは単純な単語関連推論を強化し、DPOは正負の例を用いたトレーニングによりより深い理解を可能にします。この結果は、臨床情報学者がどちらのファインチューニング手法を使用すべきかを判断する際に役立ち、商業的なLLMプロバイダーにDPOの提供を促すことが期待されます。