記事詳細｜ DeepSeek-R1およびDeepSeek-V3とOpenAIモデルの中国国家医療ライセンス試験における性能評価：横断的比較研究

DeepSeek-R1およびDeepSeek-V3とOpenAIモデルの中国国家医療ライセンス試験における性能評価：横断的比較研究

カテゴリ：医学教育

公開日：2026年2月19日

タイトル：Evaluating the Performance of DeepSeek-R1 and DeepSeek-V3 Versus OpenAI Models in the Chinese National Medical Licensing Examination: Cross-Sectional Comparative Study 雑誌名：JMIR Med Educ. 2025 Nov 14; 11: e73469. doi: 10.2196/73469. Epub 2025 Nov 14. 概　要：本研究は、DeepSeekとOpenAIの大規模言語モデル（LLM）の性能を中国国家医療ライセンス試験（NMLE）で比較し、医療教育における可能性を評価することを目的としています。DeepSeek-R1とDeepSeek-V3は、OpenAIのChatGPT-o1 pro、ChatGPT-o3 mini、GPT-4o、さらに中国のERNIE 4.5 TurboおよびQwen 3と共に、2021年のNMLEを使用して評価されました。モデルの性能は、全体の正確性や問題タイプ別の正確性に基づいて評価されました。方　法：この横断的研究では、2つのDeepSeekモデル（DeepSeek-R1およびDeepSeek-V3）、3つのOpenAIモデル（ChatGPT-o1 pro、ChatGPT-o3 mini、GPT-4o）、および2つの中国のLLM（ERNIE 4.5 TurboおよびQwen 3）を対象に、2021年のNMLEを使用して性能を評価しました。評価は、全体の正確性、問題タイプ別の正確性、症例分析および非症例分析の質問、医療専門分野に基づいて行われました。結　果：全てのLLMがNMLEに合格しました。DeepSeek-R1は最高の正確性（573/597, 96%）を達成し、次いでDeepSeek-V3（558/600, 93%）が続きました。これらは、ChatGPT-o1 pro（450/600, 75%）、ChatGPT-o3 mini（455/600, 75.8%）、GPT-4o（452/600, 75.3%）を有意に上回りました（全ての比較でP<.001）。DeepSeek-R1とDeepSeek-V3の正確性の一致率は97.7%（544/557）に達し、DeepSeek-R1単独よりも有意に高い結果を示しました（P=.04）。ERNIE 4.5 Turbo（572/600, 95.3%）とQwen 3（555/600, 92.5%）も、3つのOpenAIモデルよりも有意に優れた性能を示しました（全てP<.001）。結　論：本研究は、DeepSeek-R1およびDeepSeek-V3がNMLEにおいてOpenAIモデルを有意に上回ることを示しました。DeepSeekモデルは、中国語での医療教育や試験準備のツールとしての可能性を示唆しています。

「医学教育」の記事一覧へ

MEDICINE & AI

DeepSeek-R1およびDeepSeek-V3とOpenAIモデルの中国国家医療ライセンス試験における性能評価：横断的比較研究