MEDICINE & AI

DeepSeek-R1およびDeepSeek-V3とOpenAIモデルの中国国家医療ライセンス試験における性能評価:横断的比較研究

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:Evaluating the Performance of DeepSeek-R1 and DeepSeek-V3 Versus OpenAI Models in the Chinese National Medical Licensing Examination: Cross-Sectional Comparative Study 雑誌名:JMIR Med Educ. 2025 Nov 14; 11: e73469. doi: 10.2196/73469. Epub 2025 Nov 14. 概 要: 本研究は、DeepSeekとOpenAIの大規模言語モデル(LLM)の性能を中国国家医療ライセンス試験(NMLE)で比較し、医療教育における可能性を評価することを目的としています。DeepSeek-R1とDeepSeek-V3は、OpenAIのChatGPT-o1 pro、ChatGPT-o3 mini、GPT-4o、さらに中国のERNIE 4.5 TurboおよびQwen 3と共に、2021年のNMLEを使用して評価されました。モデルの性能は、全体の正確性や問題タイプ別の正確性に基づいて評価されました。 方 法: この横断的研究では、2つのDeepSeekモデル(DeepSeek-R1およびDeepSeek-V3)、3つのOpenAIモデル(ChatGPT-o1 pro、ChatGPT-o3 mini、GPT-4o)、および2つの中国のLLM(ERNIE 4.5 TurboおよびQwen 3)を対象に、2021年のNMLEを使用して性能を評価しました。評価は、全体の正確性、問題タイプ別の正確性、症例分析および非症例分析の質問、医療専門分野に基づいて行われました。 結 果: 全てのLLMがNMLEに合格しました。DeepSeek-R1は最高の正確性(573/597, 96%)を達成し、次いでDeepSeek-V3(558/600, 93%)が続きました。これらは、ChatGPT-o1 pro(450/600, 75%)、ChatGPT-o3 mini(455/600, 75.8%)、GPT-4o(452/600, 75.3%)を有意に上回りました(全ての比較でP<.001)。DeepSeek-R1とDeepSeek-V3の正確性の一致率は97.7%(544/557)に達し、DeepSeek-R1単独よりも有意に高い結果を示しました(P=.04)。ERNIE 4.5 Turbo(572/600, 95.3%)とQwen 3(555/600, 92.5%)も、3つのOpenAIモデルよりも有意に優れた性能を示しました(全てP<.001)。 結 論: 本研究は、DeepSeek-R1およびDeepSeek-V3がNMLEにおいてOpenAIモデルを有意に上回ることを示しました。DeepSeekモデルは、中国語での医療教育や試験準備のツールとしての可能性を示唆しています。