ボードレベルの老年医学に関する質問に対する人工知能チャットボットの性能評価
カテゴリ:医学教育
公開日:2026年4月12日
タイトル:Evaluating artificial intelligence chatbot performance on board-level geriatrics questions
雑誌名:Sci Rep. 2026 Apr 11; doi: 10.1038/s41598-026-47331-x.
概 要:
本研究は、医療教育や臨床ケアを支援するツールとしてのAI言語モデルの性能を評価することを目的としています。特に、ボード認定試験のような有効かつ信頼性のある評価におけるAIモデルの正確性、一貫性、難易度評価を検討しました。Grok-3、ChatGPT-4o、Microsoft Copilot、Google Gemini 2.0 Flashの4つのAIモデルを、300のテキストベースの選択問題に対してテストしました。結果は、AIモデルが老年医学の教育支援ツールとしての可能性を示唆していますが、臨床での有用性とは異なることに注意が必要です。
方 法:
本研究では、ボードレベルの老年医学に関する300の選択問題を使用し、4つのAIモデルの正確性、一貫性、難易度評価を比較しました。問題は簡単、中程度、難しいの3つのカテゴリーに均等に分けられ、各モデルは問題の難易度を分類し、回答を2回提供しました。モデルの応答は、正確性、一貫性、説明の質、BoardVitalsによって事前に定義された難易度評価との整合性に基づいて評価されました。
結 果:
GPT-4oは最も高い正確性(85.3%)を示し、次いでGrok-3(82.0%)、Copilot(78.7%)、Gemini(74.0%)の順でした。全モデルは簡単な問題で最も良いパフォーマンスを示し、難易度が上がるにつれて正確性が低下しました(p < 0.001)。GPT-4oは最も高い一貫性(96.3%)を示し、モデル間の難易度評価の一致度は中程度(平均κ = 0.41)でした。GPT-4oは説明の質でも最も高いスコア(4.68±0.84)を得ました。
結 論:
AIモデルは老年医学のボードレベルの内容に対して強いパフォーマンスを示しましたが、選択問題でのパフォーマンスは臨床での有用性を意味するものではありません。複雑なシナリオへの対応や問題の複雑さのメタ認知的評価に課題があり、説明の質にもばらつきが見られました。したがって、老年医学教育や実践へのAIの統合には慎重な人間の監視と限界の明示的な認識が必要です。