MEDICINE & AI

眼科における大規模言語モデルの評価:系統的レビュー

カテゴリ:手術支援

公開日:2025年10月28日

タイトル:Evaluating Large Language Models in Ophthalmology: Systematic Review 雑誌名:J Med Internet Res. 2025 Oct 27; 27: e76947. doi: 10.2196/76947. Epub 2025 Oct 27. 概 要: 本研究は、眼科における大規模言語モデル(LLM)の評価の現状を体系的に調査し、評価のギャップを特定し、今後の評価実践と臨床統合の指針を提供することを目的としています。817件の文献の中から187件が選定され、主に閉鎖型LLMが使用されていることが示されました。評価は主にテキストベースの質問に集中しており、画像を含むタスクは少数にとどまりました。方法論のばらつきが大きく、LLMの安全な統合には標準化されたマルチモーダルベンチマークが必要です。 方 法: PubMed、Web of Science、Embase、IEEE Xploreを対象に、眼科関連タスクにおけるLLMの定量的評価を行った文献を検索しました。合計187件の研究が選定され、評価されたLLM、データモダリティ、眼科のサブスペシャリティ、医療タスク、評価次元、臨床整合性の6つの次元でデータを抽出しました。記述統計を分析し、診断タスクに対して探索的ランダム効果メタアナリシスを実施しました。 結 果: 選定された187件の研究のうち、閉鎖型LLMが170件で支配的でした。評価は主にテキストのみ(168件)で行われ、画像を含むタスクは19件にとどまりました。主な医療タスクは医療クエリ(86件)、標準化試験(41件)、診断(29件)であり、診断評価のメタアナリシスでは全体の精度が0.594で高い異質性が見られました。 結 論: 眼科におけるLLMの評価に関する証拠は広範ですが異質性が高く、主に閉鎖型LLMがテキストベースの質問に対してテストされています。オープンソースシステムやマルチモーダルタスク、非英語環境、実世界での展開は十分に検討されていません。安全な統合のためには、標準化されたマルチモーダルベンチマークと段階的な臨床検証が急務です。