MEDICINE & AI

大規模言語モデルはガイドラインに従えるか?AAOSの推奨に基づく鎖骨骨折管理におけるChatGPT-4oとDeepSeek AIの比較研究

カテゴリ:医学教育

公開日:2025年9月30日

タイトル:Can large language models follow guidelines? A comparative study of ChatGPT-4o and DeepSeek AI in clavicle fracture management based on AAOS recommendations. 雑誌名:BMC Med Inform Decis Mak. 2025 Sep 29; 25(1): 350. doi: 10.1186/s12911-025-03202-5. Epub 2025 Sep 29. 概 要: 本研究は、鎖骨骨折の診断と治療に関するChatGPT-4oとDeepSeek AIの応答の質を比較し、2022年のAAOS臨床実践ガイドラインに基づいています。14の臨床質問を作成し、各AIモデルに独立して提出しました。応答は、DISCERN、PEMAT、CLEARなどの標準化された評価ツールを用いて評価されました。結果として、DeepSeek AIは有意に高い単語数とCLEARスコアを生成しましたが、他の評価指標では有意差は見られませんでした。両モデルは高い精度を示しましたが、PEMATの行動可能性スコアは低く、誤りや幻覚も観察されました。 方 法: 本研究は、AAOSの鎖骨骨折に関する臨床ガイドラインに基づいて14の臨床質問を作成し、ChatGPT-4oとDeepSeek AIに独立して提出しました。応答は、DISCERN、PEMAT-P、CLEAR、Flesch-Kincaidグレードレベル、Flesch読みやすさ、Gunning-Fog指数を用いて評価されました。2人の整形外科医が応答を独立して評価し、評価スコアを平均しました。統計的比較はMann-Whitney U検定を用いて行いました。 結 果: DeepSeek AIは、単語数(中央値572 vs. 438.5, p=0.016)とCLEARスコア(中央値18 vs. 16, p<0.001)で有意に高い結果を示しましたが、PEMATの理解可能性や行動可能性、DISCERN、読みやすさ、正確性においては有意差はありませんでした。両モデルともに一般的に高い精度を示しました。 結 論: ChatGPT-4oとDeepSeek AIは、鎖骨骨折管理に関するガイドラインに基づいた質問に対して一貫性のある臨床的に関連する応答を生成しましたが、PEMATの行動可能性スコアは低く、誤りや幻覚が見られました。DeepSeekは長い応答を生成しましたが、質の向上にはつながりませんでした。これらの結果は、LLMが医療教育や参考の補助ツールとして機能する可能性を示唆していますが、証拠に基づく臨床判断を置き換えることはできず、監視された統合と継続的な検証が必要であることを強調しています。分析したプロンプトの数(14)は限られており、今後の研究ではより大規模なデータセットが必要です。