尿路系組織学評価における大規模言語モデルの性能の比較評価
カテゴリ:医学教育
公開日:2025年9月1日
タイトル:Comparative evaluation of large language models performance in medical education using urinary system histology assessment
雑誌名:Sci Rep. 2025 Aug 29; 15(1): 31933. doi: 10.1038/s41598-025-17571-4. Epub 2025 Aug 29.
概 要:
本研究は、尿路系組織学教育における13の大規模言語モデル(LLMs)の性能を比較評価しました。65の検証済み選択肢問題(MCQs)への回答と臨床シナリオの生成という2つのタスクを用いて、モデルの能力を多次元的に評価しました。MCQの性能では、正確性と説明の質を評価し、シナリオ生成では質、複雑さ、関連性、正確性、多様性の次元を評価しました。モデル間での性能には大きなばらつきがあり、ChatGPT-o1がMCQの正確性で最高の結果(96.31±17.85%)を示し、Claude-3.5が臨床シナリオ生成で優れた能力を発揮しました。全モデルがランダム推測を大きく上回る結果を示しましたが、モデルによっては特定の解剖学的構造に偏りが見られました。LLMsは医療教育において有望ですが、特定のモデルを適切な教育タスクに合わせることが重要です。
方 法:
本研究は、尿路系組織学教育における13の大規模言語モデルを対象にした比較研究です。65の選択肢問題と臨床シナリオ生成の2つのタスクを用いて、各モデルの性能を多次元的に評価しました。MCQの正確性と説明の質、シナリオ生成の質、複雑さ、関連性、正確性、多様性を評価しました。
結 果:
ChatGPT-o1はMCQの正確性で96.31±17.85%を達成し、Claude-3.5は臨床シナリオ生成で91.4%のスコアを示しました。全モデルがランダム推測を上回り、正確性が質よりも高い傾向が見られました。また、モデル間での内容の偏りが確認されました。
結 論:
LLMsは医療教育において有望な可能性を示しましたが、特定のモデルを適切な教育タスクに合わせる必要があります。信頼性のある実装には、検証メカニズムの導入と教育的にバランスの取れたコンテンツ生成の限界を認識することが重要です。