MEDICINE & AI

Waldo:非構造化自己報告からの有害事象の自動発見

カテゴリ:公衆衛生・予防医療

公開日:2026年2月19日

タイトル:Waldo: Automated discovery of adverse events from unstructured self reports. 雑誌名:PLOS Digit Health. 2025 Sep; 4(9): e0001011. 概 要: 本研究は、消費者健康製品に関する非構造化ソーシャルメディアテキストデータから有害事象(AE)を自動的に検出する機械学習ツール「Waldo」を開発・評価することを目的としています。従来の市場後監視チャネルがない製品に焦点を当て、10,000件の人間によって注釈付けされたカンナビス由来製品に関する報告を用いて、N-gramモデル、BERT、RoBERTaの3つのモデルをテストしました。RoBERTaは99.7%の精度を示し、28,832件の潜在的なAEを特定しました。このツールは、従来の業界システムにはない、非規制の消費者健康製品に対する安全監視の重要なギャップを解決します。 方 法: この研究では、10,000件のカンナビス由来製品に関する非構造化報告を用いたコホート研究を実施しました。N-gramモデル、BERT、RoBERTaの3つの機械学習モデルを比較し、最も性能の良いモデルを特定しました。RoBERTaを用いて437,132件の投稿を分析し、潜在的なAEを抽出しました。 結 果: RoBERTaモデル(Waldo)は99.7%の精度を達成し、22件の偽陽性と12件の偽陰性を示し、F1スコアは95.1%でした。一方、AIチャットボット(ChatGPT)は94.4%の精度で、401件の偽陽性と163件の偽陰性を示しました。Waldoを用いて28,832件の潜在的なAEが特定され、最もAE率が高かったのはr/Marijuana(12.7%)でした。 結 論: Waldoは、非構造化されたユーザーネラティブから高精度で有害事象を自動的に検出する能力を持ち、従来のアプローチでは対応できない消費者健康製品の安全監視のギャップを埋めることが期待されます。このツールはオープンソースとして提供され、健康コミュニティによる即時の応用が可能です。