ランダム化比較試験出版物から重複するPICOエンティティを抽出するためのスパンベースモデル
カテゴリ:高齢者医療・介護
公開日:2026年2月19日
タイトル:A span-based model for extracting overlapping PICO entities from randomized controlled trial publications.
雑誌名:J Am Med Inform Assoc. 2024 Apr 19; 31(5): 1163-1171. doi: 10.1093/jamia/ocae065.
概 要:
本研究は、エビデンス検索において重要なPICO(Population, Intervention, Comparison, Outcome)エンティティを抽出する新しい手法PICOXを提案します。PICOXは、エンティティの開始または終了を示す単語を評価してエンティティを特定し、その後マルチラベル分類器を用いてスパン候補にPICOラベルを付与します。PICOXは、EBM-NLPという優れたベースラインと3つのデータセット(PICO-Corpus、アルツハイマー病およびCOVID-19に関するランダム化比較試験出版物)を用いて評価されました。
方 法:
PICOXは、エンティティの開始や終了を示す単語を評価することでエンティティを特定し、マルチラベル分類器を使用してスパン候補にPICOラベルを付与します。評価には、エンティティレベルの精度、再現率、F1スコアを用い、EBM-NLPを含む複数のデータセットで比較しました。
結 果:
PICOXは、全体的に優れた精度、再現率、F1スコアを達成し、マイクロF1スコアは45.05から50.87に改善されました(P < .01)。PICO-Corpusでは、ベースラインよりも高い再現率とF1スコアを示し、マイクロ再現率は56.66から67.33に向上しました。COVID-19データセットでもベースラインを上回り、マイクロF1スコアは77.10から80.32に改善されました。アルツハイマー病データセットでは、ベースラインと比較して高い精度を示しながら同等のF1スコアを達成しました。
結 論:
PICOXは重複するエンティティの特定に優れ、複数のデータセットで主要なベースラインを一貫して上回ることが示されました。アブレーション研究により、データ拡張戦略が偽陽性を効果的に最小化し、精度を向上させることが明らかになりました。