内視鏡手術のためのグラウンデッドマルチモーダル大規模言語モデル「EndoChat」
カテゴリ:手術支援
公開日:2026年2月19日
タイトル:EndoChat: Grounded multimodal large language model for endoscopic surgery
雑誌名:Med Image Anal. 2026 Jan; 107(Pt A): 103789.
概 要:
本研究では、内視鏡手術に特化したマルチモーダル大規模言語モデル(MLLM)「EndoChat」を提案します。MLLMは、コンピュータ支援診断や意思決定において大きな可能性を示していますが、内視鏡手術のシーン理解に特化したMLLMは不足しています。EndoChatは、手術情報を体系的に抽出し、構造化された注釈を生成する新しいパイプラインを用いて構築したSurg-396Kデータセットを基に訓練されました。さらに、モデルの表現学習と推論能力を向上させるために、マルチスケール視覚トークン相互作用メカニズムと視覚的対比に基づく推論メカニズムを導入しました。EndoChatは、5つの対話パラダイムと7つの手術シーン理解タスクで最先端の性能を達成しました。
方 法:
EndoChatは、Surg-396Kデータセットを用いたコホート研究に基づいています。このデータセットは、大規模な内視鏡手術データセットから手術情報を抽出し、構造化された注釈を生成する新しいパイプラインを通じて構築されました。モデルは、マルチスケール視覚トークン相互作用と視覚的対比に基づく推論メカニズムを用いて訓練されました。
結 果:
EndoChatは、5つの対話パラダイムと7つの手術シーン理解タスクにおいて最先端の性能を示しました。プロの外科医による評価では、EndoChatが生成した会話ケースの大多数に対して好意的なフィードバックが得られました。
結 論:
EndoChatは、内視鏡手術におけるトレーニングと自動化を進展させる可能性を示しています。データセットとモデルは公開されており、今後の研究に貢献することが期待されます。