尿路系組織学評価における大規模言語モデルの性能の比較評価
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:Comparative evaluation of large language models performance in medical education using urinary system histology assessment
雑誌名:Sci Rep. 2025 Aug 29; 15(1): 31933.
概 要:
本研究は、大規模言語モデル(LLMs)が医療教育において持つ可能性を評価するため、尿路系組織学教育における13のLLMsの比較評価を行いました。65の検証済み選択肢問題(MCQs)への回答と臨床シナリオの生成という2つのタスクを用いて、モデルの性能を多次元的な枠組みで評価しました。MCQの性能では、正確性と説明の質を評価し、シナリオ生成では質、複雑さ、関連性、正確性、多様性の次元を評価しました。モデル間での性能には大きなばらつきが見られ、ChatGPT-o1がMCQの正確性で最高(96.31%)を達成し、Claude-3.5が臨床シナリオ生成で優れた能力を示しました。全体として、LLMsは医療教育において有望ですが、特定のモデルを適切な教育タスクに合わせる必要があります。
方 法:
本研究は、尿路系組織学教育における13の大規模言語モデルを対象にした比較研究です。65の検証済み選択肢問題(MCQs)への回答と臨床シナリオ生成の2つのタスクを用いて、モデルの性能を評価しました。MCQの性能は正確性と説明の質を、シナリオ生成は質、複雑さ、関連性、正確性、多様性の次元で評価しました。
結 果:
MCQの性能では、ChatGPT-o1が96.31%の正確性を示し、Claude-3.5が臨床シナリオ生成で91.4%の最大スコアを達成しました。全モデルがランダム推測を大きく上回る性能を示し、シナリオ生成では正確性が質よりも高いスコアを示しました。また、モデル間でのコンテンツの不均衡が観察され、一部の解剖学的構造が過剰に強調され、他が完全に省略されていました。
結 論:
LLMsは医療教育において有望な可能性を示しましたが、信頼性のある実装には特定のモデルを適切な教育タスクにマッチさせ、検証メカニズムを実施し、教育的にバランスの取れたコンテンツ生成における限界を認識する必要があります。