大規模言語モデルを用いた認知的懸念の臨床検出のための自律的エージェントワークフロー
カテゴリ:医療現場の業務効率化
公開日:2026年1月8日
タイトル:An autonomous agentic workflow for clinical detection of cognitive concerns using large language models.
雑誌名:NPJ Digit Med. 2026 Jan 07; doi: 10.1038/s41746-025-02324-4. Epub 2026 Jan 07.
概 要:
本研究は、認知障害の早期検出を目的とし、臨床ノートから認知的懸念を特定するための2つの大規模言語モデル(LLM)ワークフローを開発しました。1つは専門家主導のワークフローで、3つのLLM(LLaMA 3.1 8B、LLaMA 3.2 3B、Med42 v2 8B)を用いて反復的なプロンプトの改善を行います。もう1つは、自律的エージェントワークフローで、5つの専門エージェントがプロンプトの最適化を調整します。Llama3.1を使用して、バランスの取れた改善データセットで最適化し、実際の有病率を反映した独立したデータセットで検証しました。エージェントワークフローは、専門家主導のワークフローと比較して、検証性能(F1=0.74対0.81)に匹敵し、改善結果(0.93対0.87)で優れた成果を示しました。
方 法:
この研究では、専門家主導のワークフローと自律的エージェントワークフローの2つのアプローチを用いた。参加者は臨床ノートからのデータで、Llama3.1を使用してバランスの取れた改善データセットで最適化し、独立したデータセットで検証を行った。主要評価指標はF1スコアで、専門家主導のワークフローとエージェントワークフローの性能を比較した。
結 果:
エージェントワークフローは、専門家主導のワークフローに対して、検証性能(F1=0.74)と改善結果(0.93)で優れた成果を示しました。感度はデータセット間で0.91から0.62に低下し、有病率の変化が一般化に与える影響を示しました。専門家による再評価では、44%の明らかな偽陰性が臨床的に適切な理由に基づいていることが明らかになりました。
結 論:
自律的エージェントシステムは、専門家レベルの性能に近づきつつ、解釈可能性を維持できることが示され、スケーラブルな臨床意思決定支援を提供する可能性があります。