MEDICINE & AI

臨床診断推論のためのDeepSeek大規模言語モデルの系統的評価

カテゴリ:災害・救急医療

公開日:2026年5月9日

タイトル:Systematic evaluation of the DeepSeek large language model for clinical diagnostic reasoning. 雑誌名:PLoS One. 2026; 21(5): e0346078. doi: 10.1371/journal.pone.0346078. 概 要: 本研究は、急性医療シナリオにおけるDeepSeekモデルの意思決定支援性能を評価することを目的としています。AIの進展に伴い、特に緊急および重症医療における診断推論の臨床適用性は未だ探求されていません。29の代表的な臨床ケースを用いて、診断推論、推奨の時間的一貫性、証拠に基づく重症医療プロトコルへの遵守を系統的に評価しました。 方 法: Merck Manual of Diagnosis and Therapyから抽出した29の臨床ケースを使用し、モデルの出力を鑑別診断、診断テスト、最終診断、管理計画の4つの意思決定次元で評価しました。人間の評価者が各応答の正確性をスコアリングし、パフォーマンスとケースパラメータ(年齢、性別、Rapid Emergency Medicine Score [REMS])との関連を多変量線形回帰で評価しました。 結 果: DeepSeekは全ケースで平均82.9%(95% CI: 80.2-85.6%)の正確性を達成しました。最終診断では97.7%のピークに達しましたが、鑑別診断では73.0%に低下しました。モデルのパフォーマンスは、人口統計や重症度の層間で有意な変動を示しませんでした。 結 論: DeepSeekは構造化されたケースベースの診断タスクにおいて有望な性能を示しましたが、初期段階の推論や曖昧なケースの処理には改善が必要です。今後は、より大規模で多様な臨床データセットを用いた研究が、モデルの堅牢性と臨床適用性をさらに評価するために必要です。