MEDICINE & AI

AI生成と臨床医設計の選択肢問題の比較:心理測定分析

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:Comparison of AI-generated and clinician-designed multiple-choice questions in emergency medicine exam: a psychometric analysis. 雑誌名:BMC Med Educ. 2025 Jul 01; 25(1): 949. doi: 10.1186/s12909-025-07528-6. Epub 2025 Jul 01. 概 要: 本研究は、医療教育におけるAI生成の選択肢問題(MCQs)の心理測定特性を、緊急医療の臨床医が作成した問題と比較することを目的としています。18人の緊急医療レジデントが、AI生成と臨床医作成の各50問からなる100問の試験を受け、各問題の難易度、識別力、点双関係を分析しました。結果、AI生成の問題は一般的に容易であり、参加者はAI生成の問題で有意に高い得点を得ましたが、心理測定上の限界も示されました。 方 法: 本研究は、18人の緊急医療レジデントを対象にした比較研究です。参加者は、緊急医療の核心トピックに関する100問の試験を受け、50問はAI(ChatGPT-4o)生成、50問は臨床医作成の問題です。各問題は、難易度(P_index)、識別力(D_index)、点双関係(PBCC)を分析し、標準化された分類に基づいて分類されました。 結 果: AI生成の問題は、臨床医作成の問題よりも高い難易度指数(AI: 0.76、臨床医: 0.65; p=0.02)を示し、参加者はAI生成の問題で有意に高い得点(AI: 76.8、臨床医: 67.3; p=0.003)を得ました。識別力の平均値や点双関係の平均値には有意差はなく、AI生成の問題の56%が「易しい」と分類され、問題のある項目はAI生成が36%、臨床医が24%でした(p=0.015)。 結 論: AI生成の選択肢問題は一般的に容易であり、参加者の得点が高い一方で、心理測定上の限界が示されました。全体的な内部一貫性や識別力は臨床医作成の問題と同等でしたが、AI生成コンテンツを評価フレームワークに統合する際には、慎重な品質管理と検証が必要です。