小児肺炎に関する医学生の学習におけるChatGPT-3.5、Gemini 2.0、DeepSeek V3の比較
カテゴリ:医学教育
公開日:2025年11月19日
タイトル:Comparing ChatGPT-3.5, Gemini 2.0, and DeepSeek V3 for pediatric pneumonia learning in medical students.
雑誌名:Sci Rep. 2025 Nov 18; 15(1): 40342.
概 要:
小児肺炎(PP)は、学部医学教育において重要なテーマであり、AI支援学習における大規模言語モデル(LLM)の評価に適した枠組みを提供します。本研究では、診断、病因、診断法、治療、予防の5つの主要領域を含む27の自由回答式調査を作成しました。DeepSeek V3、Gemini 2.0、ChatGPT-3.5は、同一の参考資料を用いて評価されました。2人の小児感染症専門医が、構造化された10点評価基準を用いて独立して回答を評価しました。DeepSeek V3は平均スコア9.9を達成し、ChatGPT-3.5(7.7)やGemini 2.0(7.5)を全領域で上回りました(p < 0.001)。さらに、26の質問中96.3%で満点を獲得し、正確性スコアは5以上でした。特に年齢特異的病因や画像解釈などの高次推論領域でのパフォーマンスが最も高く、DeepSeek V3は他のモデルより最大3.2ポイント優れていました。全モデルはほぼ安全性を示しましたが、コンテンツの質のばらつきはプラットフォーム選択の重要性を強調しています。今後の研究では、AI支援学習と従来の学習アプローチの教育成果を比較し、医学教育におけるLLMの役割をより明確に定義する必要があります。
方 法:
本研究は、27の自由回答式調査を用いた比較研究です。調査は小児肺炎に関する5つの主要領域をカバーし、DeepSeek V3、Gemini 2.0、ChatGPT-3.5の3つのモデルに同一の参考資料を提供しました。2人の小児感染症専門医が、Licertを用いた構造化された10点評価基準で独立して評価を行いました。
結 果:
DeepSeek V3は平均スコア9.9を達成し、ChatGPT-3.5(7.7)およびGemini 2.0(7.5)を上回りました(p < 0.001)。26の質問中96.3%で満点を獲得し、正確性スコアは5以上でした。特に高次推論領域でのパフォーマンスが優れており、最大3.2ポイントの差が見られました。
結 論:
DeepSeek V3は小児肺炎に関する学習において最も高いパフォーマンスを示し、AIモデルの選択が教育の質に影響を与えることが示されました。今後はAI支援学習と従来の学習方法の比較研究が必要です。