DeepSeek-R1とChatGPT-4oの中国国家医療ライセンス試験における評価:複数年の比較研究
カテゴリ:手術支援
公開日:2026年1月13日
タイトル:Evaluation of DeepSeek-R1 and ChatGPT-4o on the Chinese national medical licensing examination: a multi-year comparative study.
雑誌名:Sci Rep. 2026 Jan 12; doi: 10.1038/s41598-025-31874-6. Epub 2026 Jan 12.
概 要:
本研究は、自然言語理解と推論における大規模言語モデル(LLMs)の能力を評価し、特に非英語環境における医療評価への適用可能性を探ることを目的としています。中国国家医療ライセンス試験(NMLE)におけるDeepSeek-R1とChatGPT-4oのパフォーマンスを比較し、2019年から2021年のデータを使用して、質問レベルのバイナリ精度を評価しました。結果、DeepSeek-R1は全体的にChatGPT-4oを有意に上回り、時間経過に伴いChatGPT-4oの精度は低下しましたが、DeepSeek-R1はより安定したパフォーマンスを示しました。
方 法:
この研究は、2019年から2021年の中国国家医療ライセンス試験におけるDeepSeek-R1とChatGPT-4oのパフォーマンスを評価するコホート研究です。質問レベルのバイナリ精度を結果として使用し、一般化線形混合モデル(GLMM)を用いてモデルタイプ、年、科目単位の固定効果を検討しました。質問ごとのランダム切片を考慮し、モデル間の相互作用を評価しました。
結 果:
DeepSeek-R1は全体的にChatGPT-4oを有意に上回り(β=-1.829, p<0.001)、ChatGPT-4oの精度は2019年から2021年にかけて有意に低下しました(p<0.05)。科目別では、Unit 3が最も高い精度を示し(β=0.344, p=0.001)、2020年には両モデル間のパフォーマンスギャップが拡大しました(β=-0.567, p=0.009)。
結 論:
この研究は、医療ライセンス試験におけるLLMsの可能性と限界を示しています。現在のモデルは有望な結果を示していますが、臨床適用のためにはさらなる微調整が必要です。NMLEは、非英語環境における信頼性の高いAI支援医療意思決定ツールの開発に向けた堅牢なベンチマークを提供します。