MEDICINE & AI

医療タスクおよび臨床推論におけるDeepSeek大規模言語モデルの比較ベンチマーキング

カテゴリ:診断支援・画像解析

公開日:2025年4月24日

タイトル:Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning. 雑誌名:Nat Med. 2025 Aug;31(8):2550-2555. 概 要: 本研究では、医療分野における新たな大規模言語モデル(LLM)であるDeepSeekの能力を評価しました。具体的には、DeepSeek-R1、ChatGPT-o1、Llama 3.1-405Bの3つのLLMを用いて、米国医師免許試験(USMLE)の質問応答、テキストベースの診断および管理ケースの解釈、RECIST 1.1基準に基づく腫瘍分類、複数のモダリティにおける診断画像報告の要約の4つの医療タスクを実施しました。結果として、DeepSeek-R1は医療応用において有望である一方で、改善が必要な領域も明らかになりました。 方 法: この研究は、DeepSeek-R1、ChatGPT-o1、Llama 3.1-405Bの3つのLLMを用いた比較研究です。対象タスクは、USMLEの質問応答、テキストベースのケースチャレンジ、RECIST分類、診断画像報告の要約です。各モデルの正確性は、精度(accuracy)を用いて評価されました。 結 果: USMLEテストにおいて、DeepSeek-R1の精度は0.92で、ChatGPT-o1の0.95にはわずかに劣り、Llama 3.1-405Bの0.83よりは優れていました。テキストベースのケースチャレンジでは、DeepSeek-R1はChatGPT-o1と同等の精度を示しました。RECIST分類でも類似の結果が得られましたが、DeepSeekによる診断推論ステップは、他のモデルよりも高い正確性を示しました。一方で、要約された画像報告の質はChatGPT-o1に劣りました。 結 論: DeepSeek-R1は医療タスクにおいて有望な性能を示しましたが、特に診断画像報告の質において改善が必要であることが示されました。この研究は、医療分野におけるLLMの応用の可能性を強調しています。