ドイツ語臨床言語の時間的注釈に関する研究:コーパス開発とベースラインタグ付け器の検証
カテゴリ:公衆衛生・予防医療
公開日:2026年2月26日
タイトル:Temporal Annotation of German Clinical Language in Real and Synthetic Clinical Documents: Corpus Development and Baseline Tagger Validation Study
雑誌名:J Med Internet Res. 2026 Feb 25; 28: e71458. doi: 10.2196/71458. Epub 2026 Feb 25.
概 要:
本研究は、ドイツ語の臨床文書における時間情報の自動抽出を目的とし、TimeMLに準拠した時間的エンティティと関係の注釈スキーマを開発しました。ドイツ語の医療言語に特化したこのスキーマを用いて、実際の臨床データと合成データからなる2つのコーパスを作成し、時間的表現を認識するためのベースラインタグ付け器を訓練しました。これにより、ドイツ語臨床言語における時間的メタデータの重要性を示しました。
方 法:
英語の臨床文書用の時間的注釈ガイドラインを基に、ドイツ語用の時間的エンティティと関係の注釈ガイドラインを開発しました。5人の医療訓練を受けたアノテーターの経験を取り入れ、2つのドイツ語臨床コーパス(実世界の3000PA<sub>J</sub>と合成のGraSCCo)を使用して注釈を行いました。3000PA<sub>J</sub>の10%の文書を合意部分としてランダムに選び、F<sub>1</sub>-スコアを計算して相互アノテーター一致率を測定しました。
結 果:
3000PA<sub>J</sub>-tempという時間的注釈が付けられた実臨床文書コーパスと、公開可能なGraSCCo-tempという合成コーパスを作成しました。最終的なガイドラインに基づき、時間的エンティティ認識タスクでのIAA F<sub>1</sub>-スコアは両コーパスで0.9に達しましたが、時間的関係抽出タスクではGraSCCoが0.57、3000PA<sub>J</sub>が0.41に低下しました。ベースラインタグ付け器は、エンティティ認識で0.64から0.85のF<sub>1</sub>-スコアを達成しました。
結 論:
本研究では、ドイツ語臨床言語における時間的表現のための初のTimeML準拠の注釈スキームを紹介し、2つのコーパスに適用しました。合成コーパスはドイツ語で初めて公開される時間的注釈付き臨床コーパスであり、これに基づいて訓練された時間タグ付け器は、TimeMLマークアップ言語に完全に準拠しています。