MEDICINE & AI

眼科ボードスタイルの質問に対するDeepSeek R1、DeepSeek-R1-Lite、OpenAi o1 Pro、およびGrok 3の性能比較分析

カテゴリ:医学教育

公開日:2025年10月24日

タイトル:A comparative analysis of DeepSeek R1, DeepSeek-R1-Lite, OpenAi o1 Pro, and Grok 3 performance on ophthalmology board-style questions 雑誌名:Sci Rep. 2025 Jul 02; 15(1): 23101. doi: 10.1038/s41598-025-08601-2. Epub 2025 Jul 02. 概 要: 本研究は、大規模言語モデル(LLM)が医療ボードスタイルの質問に正確に回答する能力を評価し、医療教育や臨床意思決定における潜在的な利点を探ることを目的としています。DeepSeekのR1およびR1-Lite、OpenAIのo1 Pro、Grok 3の初代推論モデルの性能を、StatPearlsおよびEyeQuizの493の眼科質問を用いて比較しました。o1 Proは全体的な正確性83.4%を達成し、DeepSeek R1(72.5%)、DeepSeek-R1-Lite(76.5%)、Grok 3(69.2%)を大きく上回りました(すべてのペアワイズ比較でp < 0.001)。o1 Proは、眼科の9つのサブフィールドのうち8つ、第二および第三次の認知的複雑性の質問、画像ベースの質問でも優れた性能を示しました。DeepSeek-R1-Liteは、比較的小さなメモリ要件にもかかわらず、2番目に良い結果を示しました。これらの結果は、初代推論モデルの強力な性能がベンチマークテストを超えて高複雑性の眼科質問にも及ぶことを示しています。 方 法: 本研究は、493の眼科質問を対象にした比較研究です。質問はStatPearlsおよびEyeQuizのデータベースから収集され、DeepSeek R1、DeepSeek-R1-Lite、OpenAI o1 Pro、Grok 3の4つのモデルの性能を評価しました。主要評価指標は、各モデルの正確性であり、o1 Proが83.4%の正確性を示しました。 結 果: o1 Proは83.4%の正確性を達成し、DeepSeek R1(72.5%)、DeepSeek-R1-Lite(76.5%)、Grok 3(69.2%)を有意に上回りました(p < 0.001)。o1 Proは、眼科の8つのサブフィールド、第二および第三次の認知的複雑性の質問、画像ベースの質問でも優れた性能を示しました。DeepSeek-R1-Liteは2番目に良い結果を示しましたが、Grok 3は全体的に劣りました。 結 論: 初代推論モデルは、眼科ボードスタイルの質問において高い性能を示し、医療教育や臨床実践における潜在的な役割が示唆されます。今後は、実世界のデータに対する性能や教育・臨床環境への統合、人間とAIの相互作用についてのさらなる研究が必要です。