産婦人科におけるスクリプトコンコーダンステスト生成のための大規模言語モデル:ChatGPTとClaude
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:Large language models for generating script concordance test in obstetrics and gynecology: ChatGPT and Claude
雑誌名:Med Teach. 2025 Nov; 47(11): 1767-1771.
概 要:
本研究は、産婦人科における臨床推論を評価するためのスクリプトコンコーダンステスト(SCT)項目を生成する際の大規模言語モデル(ChatGPT-4oおよびClaude 3.5 Sonnet)の性能を評価することを目的としています。5つの一般的な診断トピックに基づいてSCT項目が生成され、16人のパネリストがAI生成のSCT項目を11の事前定義された基準に対して評価しました。結果として、AIの生成したSCT項目は臨床推論を効果的に評価する可能性が示されましたが、医学生にとっての適切な難易度を確保するためのさらなる改善が必要です。
方 法:
この横断研究では、産婦人科の一般診療における5つの一般的な診断トピックに対してSCT項目を生成しました。合計16人のパネリストが、AIが生成したSCT項目を11の基準に基づいて評価しました。モデルの性能は、基準ごとに記述統計を用いて比較されました。
結 果:
ChatGPT-4oは、質の基準を満たすSCT項目に対して90.57%の合意率を示し、Claude 3.5 Sonnetは91.48%を達成しました。最も低いスコアを示した基準は「シナリオが医学生にとって適切な難易度である」であり、ChatGPT-4oは71.25%、Claude 3.5 Sonnetは76.25%と評価されました。
結 論:
大規模言語モデルは、臨床推論を効果的に評価するSCT項目を生成できることが示されましたが、医学生にとっての適切な難易度を確保するためのさらなる改善が必要です。これらの結果は、産婦人科におけるSCT生成の効率を向上させるAIの可能性を強調しています。