MEDICINE & AI

2Dエンコーダのみを使用したデータ効率の良い3D医療ビジョン・ランゲージモデル

カテゴリ:診断支援・画像解析

公開日:2026年2月19日

タイトル:A data-efficient 3D medical vision-language model using only a 2D encoder 雑誌名:Sci Rep. 2026 Feb 13; doi: 10.1038/s41598-026-39526-z. Epub 2026 Feb 13. 概 要: 本研究は、2D医療画像分析におけるビジョン・ランゲージモデルの成功を受けて、報告生成や視覚的質問応答などの3Dボリュメトリックデータへの応用を目指しています。現在のアプローチは、専門の3Dビジョンエンコーダに依存しており、大規模な注釈付きデータセットの不足が性能を制約しています。本論文では、3Dエンコーダを必要とせず、事前学習済みの2Dビジョンエンコーダを活用してボリュメトリックデータを処理するデータ効率の良いフレームワークを提案します。このパイプラインは、視覚表現を段階的に洗練させ、計算効率を向上させるために冗長な2Dスライスを削減し、空間周波数融合モジュールで2D特徴からスライス間の相関をモデル化します。最終的に、高解像度の詳細を再導入することで情報損失を軽減します。 方 法: 本研究は、事前学習済みの2Dビジョンエンコーダを使用したデータ効率の良いフレームワークを開発しました。最初にコサイン類似度戦略を用いて冗長な2Dスライスを削減し、次に空間周波数融合モジュールで2D特徴からスライス間の相関をモデル化します。最後に、細粒度の特徴注入メカニズムを用いて、特徴圧縮中の情報損失を軽減します。評価は公的な3Dベンチマークで行い、METEORスコア50.13をM3D-Cap報告生成で、82.90%の精度をM3D-VQAで達成しました。 結 果: 提案したフレームワークは、M3D-Cap報告生成でMETEORスコア50.13、M3D-VQAで82.90%の精度を達成し、従来のモデルを大幅に上回る性能を示しました。これにより、3D医療ビジョン・ランゲージタスクにおけるデータ効率の良い代替手段を提供します。 結 論: 本研究は、3D特有の事前学習を必要とせず、スケーラブルで効率的な3D医療ビジョン・ランゲージタスクのパラダイムを示しました。データ集約型の3Dエンコーダに代わるデータ効率の良いアプローチを提供し、今後の研究における応用が期待されます。