ChatGPT-5とDeepSeekの中国超音波医学上級専門職試験における比較性能
カテゴリ:医学教育
公開日:2026年3月11日
タイトル:Comparative performance of ChatGPT-5 and DeepSeek on the Chinese ultrasound medicine senior professional title examination.
雑誌名:Front Digit Health. 2026; 8: 1783347.
概 要:
本研究は、中国の超音波医学上級専門職試験におけるChatGPT-5とDeepSeekの性能を比較することを目的としています。大規模言語モデル(LLM)は医療教育や評価において成長する可能性を示していますが、特に中国の専門認定試験におけるその性能に関する証拠は限られています。100の選択問題を無作為に選び、両モデルの正確性を評価しました。
方 法:
2025年8月から9月にかけて、公式の中国超音波医学上級専門職試験問題集から100の選択問題(画像ベースの解釈60問、テキストベースの40問)を無作為に選びました。ChatGPT-5とDeepSeekを同一のプロンプトで評価し、主要な結果は全体の正確性、二次的な結果は項目タイプや専門分野ごとの正確性でした。モデル間の差異はPython 3.12を用いて二項プロポーションz検定で評価しました。
結 果:
全体の正確性はChatGPT-5が74.0%(74/100)、DeepSeekが60.0%(60/100)で、ChatGPT-5が優れていました(p=0.035)。画像ベースの項目においてもChatGPT-5が61.7%でDeepSeekの40.0%を上回りました(p=0.018)。テキストベースの項目では両モデルの性能は類似しており、92.5%対90.0%でした。専門分野ごとのパターンは異なりましたが、モデル間の差異は統計的有意性を示しませんでした。
結 論:
ChatGPT-5は画像ベースの項目でDeepSeekを上回りましたが、テキストベースの知識項目では両モデルの性能は類似していました。両LLMは中国の超音波上級職試験問題に対して強い性能を示し、内容領域ごとに補完的な強みを持っています。教育ツールとしての利用が期待されますが、より信頼性の高い画像解釈を支えるためにはマルチモーダル推論のさらなる進展が必要です。