Corpus médical parallèle français/anglais EDP

Introduction

Nous avons identifié quatre revues publiés en accès libre par l'éditeur EDP Sciences avec un contenu en français et en anglais: les articles sont rédigés en français, accompagnés d'un titre d'un résumé en anglais, grâce à une traduction fournie par les auteurs.
Deux revues sont classées par l'éditeur dans la rubrique Santé : ”Actualités Odonto-Stomatologiques” et ”Médecine Buccale Chirurgie Buccale”, qui sont des revues spécialisées en odontologie. Deux revues sont classées par l'éditeur dans la rubrique Science de la Vie & Environement: "Cahier Agriculture" et "Graines oléagineuses et graisses, cultures et lipides”.
Les URLs correspondant aux articles publiés dans ces revues ont été aspiré le 15 mars 2017. Les titres et les résumés en français et en anglais ainsi que les noms des auteurs ont été extraits automatiquement des pages html ainsi recueillies. Les articles ne comportant pas l'ensemble de ces éléments n'ont pas été inclus dans le corpus.
L'outil Stanford CoreNLP a été utilisé pour effectuer une segmentation en phrase automatique du corpus dans le cadre de la tâche biomédiale du Workshop on Machine Translation WMT en 2017[1] et 2018[2]. Par la suite, une référence manuelle pour la segmentation en phrases a été créée indépendament, en utilisant une baseline fondée sur les marques de ponctuations : point, point d'interrogation, point d'exclamation, deux points. Le corpus ainsi segmenté a été utilisé dans une étude de méthodes de segmentation en phrases des corpus médicaux [3]. A partir de la segmentation manuelle en phrases, le corpus a été aligné automatiquement au niveau des phrases à l'aide de l'outil YASA (Lamraoui and Langlais, 2013).
Une évaluation manuelle réalisée sur un extrait du corpus suggère que 94% des phrases sont correctement alignées. Néanmoins, environ 20% des paires de phrases présentent du contenu non présent dans une des deux langues.

Licence

Le Corpus médical EDP est distribué sous licence CC BY (Licence Creative Commons).

Les résumés et titres d'articles scientifiques utilisés dans ce corpus ont été apsirés le 15 mars 2017. Le corpus a ensuite été segmenté en phrases. Aucune mise à jour du corpus n'a été effectuée depuis 2017. Ainsi, les articles figurant dans le corpus peuvent différer de ceux diffusés actuellement par EDP Sciences.

Tout travail décrivant des expériences reposant sur ce corpus devrait citer la source suivante:

Jimeno Yepes A, Névéol A, Neves ML, Verspoor K, Bojar O, Boyer A, Grozea C, Haddow B, Kittner M, Lichtblau Y, Pecina P, Roller R, Rosa R, Siu A, Thomas P, Trescher S. Findings of the WMT 2017 Biomedical Translation Shared Task. Second Conference on Machine Translation. 2017(Vol 2):234-247.

Voici la citation au format Bibtex:

@inproceedings{
	Title = {Findings of the WMT 2017 Biomedical Translation Shared Task},
	Author = {Antonio Jimeno Yepes and Aurelie Neveol and Mariana Neves 
	  and Karin Verspoor and Ondrej Bojar and Arthur Boyer and Cristian Grozea 
	  and Barry Haddow and Madeleine Kittner and Yvonne Lichtblau 
	  and Pavel Pecina and Roland Roller and Rudolf Rosa and Amy Siu 
	  and Philippe Thomas and Saskia Trescher},
	BookTitle = {Proceedings of the Second Conference on Machine Translation},
	Month = {9},
	Year = {2017},
	Publisher = {Association for Computational Linguistics},
	Volume = {2: Shared Task Papers},
	Pages = {234-247}
}
             

Format des Fichiers

Le corpus est disponible dans les formats MEDLINE (non segmenté) et BioC (segmenté en phrase).

Un extrait du corpus au format MEDLINE est présenté ci-dessous.

Exemple de document au format MEDLINE
PMID- aos2009246p113
TIEN- Oral symptoms of systemic pathologies:Crohn's disease and ulcerative colitis
TIFR- Manifestations buccalesdes maladies systémiques :La maladie de Crohnet la rectocolite hémorragique
AU - Samira Cherbi
AU - Claude-Bernard Wierzba
ABEN- Inflammatory bowel disease (IBD) are systemic pathologies with chronic disorders, and originate from unidentified causes. Two main types exist: Crohn's disease and ulcerative colitis, both of which have very different clinical, topographic and morphological characteristics. (...)
ABFR- Les entérocolites inflammatoires idiopathiques sont des pathologies systémiques d'étiologie inconnue et d'évolution chronique. Elles regroupent deux principales affections : la maladie de Crohn et la Rectocolite Hémorragique (RCH) dont les caractéristiques cliniques, topographiques et morphologiques sont nettement différentes. (...)

Le même extrait du corpus au format BioC est présenté ci-dessous.

Exemple de document EDP bioC
<id>aos2009246p113</id>
<authors>
  <infon key="author">Samira Cherbi</infon>
  <infon key="author">Claude-Bernard Wierzba</infon>
</authors>
<passage>
  <infon key="language">EN</infon>
  <infon key="section">title</infon>
  <sentence>
   <infon key="sentnum">0</infon>
   <offset>0</offset>
   <text><![CDATA[Oral symptoms of systemic pathologies:Crohn's disease and ulcerative colitis]]></text>
  </sentence>
</passage>
<passage>
  <infon key="language">EN</infon>
  <infon key="section">abstract</infon>
  <sentence>
   <infon key="sentnum">0</infon>
   <offset>0</offset>
   <text><![CDATA[Inflammatory bowel disease (IBD) are systemic pathologies with chronic disorders, and originate from unidentified causes.]]></text>
  </sentence>
  <sentence>
   <infon key="sentnum">1</infon>
   <offset>122</offset>
  <text><![CDATA[Two main types exist: Crohn's disease and ulcerative colitis, both of which have very different clinical, topographic and morphological characteristics.]]></text>
  </sentence>
(...)
</passage>
<passage>
  <infon key="language">FR</infon>
  <infon key="section">title</infon>
  <sentence>
   <infon key="sentnum">0</infon>
   <offset>0</offset>
   <text><![CDATA[Manifestations buccalesdes maladies systémiques :La maladie de Crohnet la rectocolite hémorragique]]></text>
  </sentence>
</passage>
<passage>
  <infon key="language">FR</infon>
  <infon key="section">abstract</infon>
  <sentence>
   <infon key="sentnum">0</infon>
   <offset>0</offset>
   <text><![CDATA[Les entérocolites inflammatoires idiopathiques sont des pathologies systémiques d'étiologie inconnue et d'évolution chronique.]]></text>
  </sentence>
  <sentence>
   <infon key="sentnum">1</infon>
   <offset>127</offset>
  <text><![CDATA[Elles regroupent deux principales affections : la maladie de Crohn et la Rectocolite Hémorragique (RCH) dont les caractéristiques cliniques, topographiques et morphologiques sont nettement différentes.]]></text>
  </sentence>
(...)
</passage>

Un exemple d'alignment au format YASA est présenté ci-dessous. Ce document (aos2010250p101) comporte 5 phrases en français et 6 phrases en anglais. On observe notament que la phrase 3 en français est alignée avec les phrases 3 et 4 en anglais alors que le reste des alignments se fait phrase à phrase.

<link xtargets="1;1" certainty="-1.36633"></link>
<linkxtargets="2;2" certainty="1.02778"></link>
<link xtargets="3;3 4" certainty="0.162831"></link>
<link xtargets="4;5" certainty="-2.99686"></link>
<link xtargets="5;6" certainty="-2.89463"></link>

Téléchargement

Version EDP 2017, archive de l'ensemble des differents formats:
Corpus parallèle EDP format MEDLINE (non segmenté en phrases)
Corpus parallèle EDP format BioC; segmentation automatique (coreNLP) et manuelle; découpage WMT.
Corpus EDP français format texte: une phrase par ligne; segmentation automatique (coreNLP) et manuelle.
Corpus EDP anglais; format texte: une phrase par ligne; segmentation automatique (coreNLP) et manuelle.
Alignement au niveau des phrases: obtenu automatiquement avec l'outil YASA; chaque ligne contient l'identifiant des phrases en français, l'identifiant des phrases alignées en anglais et un score de confiance sur l'alignment. Veuillez noter que YASA débute le comptage à 1 alors que BioC débute le comptage à 0.

Personnes impliquées

  • Arthur Boyer
  • Antonio Jimeno Yepes
  • Aurélie Névéol
  • Mariana Neves

Publications

  • [1] Jimeno Yepes A, Névéol A, Neves ML, Verspoor K, Bojar O, Boyer A, Grozea C, Haddow B, Kittner M, Lichtblau Y, Pecina P, Roller R, Rosa R, Siu A, Thomas P, Trescher S. Findings of the WMT 2017 Biomedical Translation Shared Task. Second Conference on Machine Translation. 2017(Vol 2):234-247.[pdf]
  • [2] Neves ML, Jimeno Yepes A, Névéol A, Grozea C, Siu A, Kittner M, Verspoor K. Findings of the WMT 2018 Biomedical Translation Shared Task: Evaluation on Medline test sets Third Conference on Machine Translation. 2018:328--343.[pdf]
  • [3] Boyer A, Névéol A Détection automatique de phrases en domaine de spécialité en français. Traitement Automatique de la Langue Naturelle - TALN. 2018[pdf]
  • [4] Névéol A, Jimeno Yepes A, Neves ML, Verspoor K. Parallel Corpora for the Biomedical Domain. Language and Resource Evaluation Conference, LREC 2018. 2018:286-291. [pdf]

Remerciements

Ce travail a bénéficié d’une aide de l’Agence Nationale de la Recherche portant la référence CABeRneT ANR-13-JS02-0009-01.