エンティティ中心の文脈認識医療ビジョン言語事前学習フレームワーク
カテゴリ:診断支援・画像解析
公開日:2026年2月19日
タイトル:ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training
雑誌名:Med Image Anal. 2025 Oct; 105: 103690.
概 要:
本研究は、医療報告における言語の複雑性や不均衡な問題、テキストと画像間の複雑なクロスモダリティの文脈関係を考慮した新しい「エンティティ中心の文脈認識医療ビジョン言語事前学習(ECAMP)」フレームワークを提案します。ECAMPは、医療報告からエンティティ中心の文脈を抽出し、テキストモダリティからのより正確な監督を可能にします。また、エンティティ認識の再バランス因子と記述子マスキング戦略を取り入れることで、報告内のエンティティに関する知識を大幅に向上させます。さらに、文脈に基づく超解像タスクとマルチスケール文脈融合設計を導入し、画像表現のセマンティック統合を改善します。これにより、ECAMPは医療画像におけるクロスモダリティ事前学習の新たな基準を確立します。
方 法:
ECAMPは、医療報告からエンティティ中心の文脈を抽出するために大規模言語モデルを活用したコホート研究です。エンティティ認識の再バランス因子と記述子マスキング戦略を用いたマスキング言語モデリングを実施し、文脈に基づく超解像タスクを提案しています。実験は、5つの公的胸部X線データセットと4つの眼底検査データセットを用いて行われ、分類、セグメンテーション、検出の複数のタスクで最先端の結果を達成しました。
結 果:
ECAMPは、医療画像におけるクロスモダリティ事前学習において、現在の最先端手法に対して顕著な性能向上を示しました。特に、分類、セグメンテーション、検出のタスクにおいて、5つの胸部X線データセットと4つの眼底検査データセットで最先端の結果を達成しました。
結 論:
ECAMPは、医療報告のエンティティ中心の理解を深め、医療画像におけるクロスモダリティ事前学習の新たな基準を確立する可能性を示しました。これにより、医療分野における多様な応用において優れた性能を発揮することが期待されます。