中英混合臨床テキストにおける高度な人工知能言語モデルの秘訣を解明する:開発と検証研究
カテゴリ:高齢者医療・介護
公開日:2025年10月24日
タイトル:Unlocking the Secrets Behind Advanced Artificial Intelligence Language Models in Deidentifying Chinese-English Mixed Clinical Text: Development and Validation Study
雑誌名:J Med Internet Res. 2024 Jan 25; 26: e48443.
概 要:
本研究は、電子健康記録における保護健康情報(PHI)の除去がプライバシー維持に不可欠であることを背景に、中英混合テキストのデアイデンティフィケーションにおける微調整された事前学習言語モデル(PLMs)の効果とそのメカニズムを調査しました。特に、PLMsが名前の規則性や言及のカバレッジを利用してPHIを特定する能力を評価し、また大規模言語モデル(LLMs)を用いたゼロショット方式でのPHI認識の可能性を探りました。
方 法:
中国語と英語で書かれた臨床コード混合デアイデンティフィケーションデータセットを初めて作成し、PLMsのPHI認識能力を評価しました。1700件の退院サマリーを用いて、異なるPHIタイプの出現傾向を分析し、PLMsが学習した名前の規則性を活用してPHIを効果的に認識できるかを検証しました。また、LLMsのプロンプトベースの学習能力も調査しました。
結 果:
PLMsは、異なる言語混合文におけるPHIの認識において効果的であることが確認されましたが、規則性が弱い場合や未知の単語が含まれる場合には最適な結果を示さないこともありました。コード混合のトレーニングインスタンスの可用性がモデルの性能に重要であることも明らかになりました。さらに、LLMを用いたデアイデンティフィケーション手法は、自然言語プロンプトを通じて制御可能で魅力的なアプローチであることが示されました。
結 論:
本研究は、コード混合文脈におけるPLMsのデアイデンティフィケーションプロセスに関する理解を深め、モデルのトレーニング段階にコード混合トレーニングインスタンスを組み込む重要性を強調しました。LLMベースのデアイデンティフィケーション手法は実行可能であるが、慎重に設計されたプロンプトが不要な出力を避けるために必要です。病院での使用にはデータセキュリティとプライバシーの考慮が求められ、今後の研究ではPLMsとLLMsの外部知識による強化が期待されます。