MEDICINE & AI

網膜画像から加齢黄斑変性を検出するためのマルチモーダル大規模言語モデルの臨床的有用性の評価

カテゴリ:診断支援・画像解析

公開日:2026年2月19日

タイトル:Evaluating the clinical utility of multimodal large language models for detecting age-related macular degeneration from retinal imaging 雑誌名:Sci Rep. 2025 Sep 26; 15(1): 33214. 概 要: この研究は、加齢黄斑変性(AMD)の検出と重症度の評価における4つのマルチモーダル大規模言語モデル(MLLM)の性能を評価した単一施設の後ろ向き研究です。カリフォルニア大学サンディエゴ校で76人の患者(136眼、平均年齢81.1歳、69.7%女性)の超広角眼底画像を用い、AMDの重症度を2人の若手網膜専門医が独立して評価しました。結果、ChatGPT-4oがバイナリ疾患分類において最も高い精度を示し(平均0.824)、次いでPerplexity Sonar Large(平均0.815)が続きました。MLLMはAMDの自動検出と評価において有望ですが、臨床応用には現時点での信頼性が不十分であることが示されました。 方 法: この研究は、76人の患者を対象にした単一施設の後ろ向き研究です。患者の超広角眼底画像を用いて、AMDの重症度をAREDS分類に基づいて評価しました。各MLLMは、単一画像と標準化されたクエリを用いて、精度、感度、特異度などの主要評価指標を評価しました。 結 果: ChatGPT-4oはバイナリ疾患分類において平均0.824の精度を示し、次いでPerplexity Sonar Largeが平均0.815でした。重症度評価では、Perplexity Sonar Largeが最も高い精度(平均0.463)を示しましたが、モデル間の差は統計的に有意ではありませんでした。ChatGPT-4oはオープンエンドおよび選択式診断タスクでも優れた結果を示しました。 結 論: MLLMは眼底画像からのAMDの自動検出と重症度評価において有望ですが、臨床応用にはさらなるモデルの開発と検証が必要であることが示されました。