Présentation

Projet ANR-13-JS02-0009-01

Dates

Septembre 2013 - Août 2018

Résumé

Dans le domaine biomédical, les informations cliniques et institutionnelles sont contenues dans le texte de publications scientifiques ou de dossiers patients et ne sont pas directement accessibles à des fins de traitement automatique. Pour pallier cela, des méthodes de Traitement Automatique de Langue Naturelle (TALN) ont été développées avec succès afin d'extraire des informations pertinentes des textes libres et de les convertir en représentations formelles exploitables par l'homme et par la machine. Ce projet propose une analyse qui va au dela de la simple extraction de concepts isolés en permettant d'inclure le contexte d'occurrence ainsi que les relations entre concepts. Par ailleurs, nombre de travaux antérieurs sont limités à l'analyse de textes du domaine biomédical rédigés en anglais. Ce projet participera au nécessaire développement de méthodes permettant d'analyser les dossiers électroniques patient en français afin d'en extraire des représentations formelles compatibles avec celles disponibles pour l'anglais.

Ce projet de recherche se donne pour objectif de:

  1. Mettre à disposition de la communauté scientifique des ressources dans un domaine de spécialité (le domaine biomédical) en français
  2. Étudier l'adaptation en domaine de spécialité d'outils développés pour la langue générale
  3. Appliquer ces outils à l'analyse automatique de dossiers électroniques patient et à la detection de liens entre données cliniques et littérature

Ce projet innovant permettra une analyse fine du contenu des textes du domaine biomedical, et en particuliers les textes cliniques. Il repose sur des principes issus de la linguistique et sera guide par des applications en medicine personnalisée. Une approche globale des problématiques de TAL sous l'angle de l'adaptation permettra d'assurer la portabilité des méthodes utilisées à d'autres applications dans le domaine biomédical.

Participants

logo du LIMSI  logo de l'INSERM  logo du BCH

Personnes impliquées : Aurélie Névéol (porteuse), Louise Deléger, Cyril Grouin, Thomas Lavergne, Anne-Laure Ligozat, Pierre Zweigenbaum (LIMSI), Anita Burgun, Anne-Sophie Jannot, Bastien Rance (INSERM), Guergana Savova, Pei J. Chen (Boston Children's Hospital)

Ressources Produites

  1. Guide d'annotation de textes biomédicaux et fichiers de configuration correspondants (format BRAT)
  2. Corpus QUAERO médical du français
  3. Corpus parallèle EDP

Animation

Publications

  • Tourille J, Doutreligne M, Ferret O, Paris N, Névéol A, Tannier X.. Evaluation of a Sequence Tagging Tool for Biomedical Texts. Proceedings of the Eigth International Workshop on Health Text Mining and Information Analysis, LOUHI. 2018:193-203 [acceptance rate: 49%] Software

  • Suominen H, Kelly L, Goeuriot L, Névéol A, Ramadier L, Robert A, Kanoulas E, Azzopardi L, Spijker R, Li D, Jimmy, Palotti J, Zuccon G. Overview of the CLEF eHealth Evaluation Lab 2018. Lecture Notes in Computer Science, vol 11018. CLEF 2018: Experimental IR Meets Multilinguality, Multimodality, and Interaction. Springer International Publishing. 2018: 286-301.

  • Névéol A, Robert A, Grippo F, Morgand C, Orsi C, Pelikan L, Ramadier L, Rey G, Zweigenbaum P. CLEF eHealth 2018 Multilingual Information Extraction Task Overview: ICD10 Coding of Death Certificates in French, Hungarian and Italian. CLEF 2018, Online Working Notes, CEUR-WS 2125. 2018

  • Névéol A, Dalianis H, Velupillai S, Savova G, Zweigenbaum P.. Clinical Natural Language Processing in languages other than English: opportunities and challenges. J Biomed Semantics.2018 Mar 30;9(1):12. [impact factor 2017: 1.845]

  • Névéol A, Jimeno Yepes A, Neves ML, Verspoor K. Parallel Corpora for the Biomedical Domain. Language Resources and Evaluation Conference, LREC 2018. 2018:286-291.

  • Boyer A, Névéol A Détection automatique de phrases en domaine de spécialité en français. Traitement Automatique des Langues Naturelles - TALN. 2018:205-213
  • Névéol A, Elhadad N, Velupillai S, Xu H, Savova G. Panel: Clinical Natural Language Processing in Languages Other Than English . Proc AMIA Annu Symp. 2017:313-315 [acceptance rate: 58%]

  • Jimeno Yepes A, Névéol A, Neves ML, Verspoor K, Bojar O, Boyer A, Grozea C, Haddow B, Kittner M, Lichtblau Y, Pecina P, Roller R, Rosa R, Siu A, Thomas P, Trescher S. Findings of the WMT 2017 Biomedical Translation Shared Task. Second Conference on Machine Translation. 2017(Vol 2):234-247.

  • Goeuriot L, Kelly L, Suominen H, Névéol A, Robert A, Kanoulas E,Spijker R,Palotti J, Zuccon G. CLEF 2017 eHealth Evaluation Lab Overview. Lecture Notes in Computer Science, vol 10456. CLEF 2017: Experimental IR Meets Multilinguality, Multimodality, and Interaction. Springer International Publishing. 2017: 291-303.

  • Névéol A, Robert A, Anderson R, Cohen, KB, Grouin C, Lavergne T, Rey G, Rondet C, Zweigenbaum P. CLEF eHealth 2017 Multilingual Information Extraction task Overview: ICD10 Coding of Death Certificates in English and French. CLEF 2017, Online Working Notes, CEUR-WS 1866. 2017

  • Deléger L, Campillos L, Ligozat AL, Névéol A. Design of an extensive information representation scheme for clinical narratives. J Biomed Semantics. 2017 Sep 11;8(1):37. [impact factor 2017: 1.845]

  • Tourille J, Ferret O, Névéol A, Tannier X. Neural Architecture for Temporal Relation Extraction: A Bi-LSTM Approach for Detecting Narrative Containers. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics - ACL 2017:224–230. [acceptance rate: 33%]

  • Campillos L, Deléger L, Grouin C, Hamon T, Ligozat AL, Névéol A. A French clinical corpus with comprehensive semantic annotations: development of the Medical Entity and Relation LIMSI annOtated Text corpus (MERLoT). Lang Resources & Evaluation. Springer, Berlin Heidelberg, Germany. 2017:1-31 Annotation Guidelines. BRAT configuration files

  • Tourille J, Ferret O, Tannier X, Névéol A. Temporal information extraction from clinical text Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics - EACL 2017:739-45. [acceptance rate: 24%]
  • Lavergne T, Névéol A, Robert A, Grouin C, Rey G, Zweigenbaum P. A Dataset for ICD-10 Coding of Death Certificates: Creation and Usage. Proceedings of the Fifth Workshop on Building and Evaluating Ressources for Health and Biomedical Text Processing - BioTxtM2016. 2016:60-69

  • D'hondt E, Grouin C, Névéol A, Stamatatos E, Zweigenbaum P. Detection of Text Reuse in French Medical Corpora. Proceedings of the Fifth Workshop on Building and Evaluating Ressources for Health and Biomedical Text Processing - BioTxtM2016. 2016:108-114.

  • Névéol A, Cohen, KB, Grouin C, Hamon T, Lavergne T, Kelly L, Goeuriot L, Rey G, Robert A, Tannier X, Zweigenbaum P. Clinical Information Extraction at the CLEF eHealth Evaluation lab 2016. CLEF 2016, Online Working Notes, CEUR-WS 1609. 2016:28-42 Data

  • Kelly L, Goeuriot L, Suominen H, Névéol A, Palotti, J., Zuccon, G. Overview of the CLEF eHealth Evaluation Lab 2016. CLEF 2016 — 7th Conference and Labs of the Evaluation Forum, Lecture Notes in Computer Science LNCS vol 9822:255-266. Springer, Berlin Heidelberg, Germany. 2016

  • Neves ML, Jimeno Yepes A, Névéol A. The Scielo Corpus: a parallel corpus of scientific publications for biomedicine. Language Resources and Evaluation Conference, LREC 2016. 2016:2942-2948. Data

  • Tourille J, Ferret O, Névéol A, Tannier X. LIMSI-COT at SemEval-2016 Task 12: Temporal relation identification using a pipeline of classifiers. Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval 2016), San Diego, California, June. Association for Computational Linguistics. 2016:1136-1142. [Contribution selected for the "Best of SemEval 2016"]

  • Tourille J, Ferret O, Névéol A, Tannier X. Extraction de relations temporelles dans des dossiers électroniques patient Traitement Automatique des Langues Naturelles - TALN. 2016:459-466
  • Rabary CT, Lavergne T, Névéol A. Étiquetage morpho-syntaxique en domaine de spécialité: le domaine médical. Traitement Automatique de la Langue Naturelle - TALN. 2015.  

  • Tapi Nzali MD, Névéol A, Tannier X. Analyse d'expressions temporelles dans les dossiers électroniques patients. Traitement Automatique de la Langue Naturelle - TALN. 2015.  

  • Tapi Nzali MD, Tannier X, Névéol A. Automatic Extraction of Time Expressions Accross Domains in French Narratives. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP. 2015:492-498 [acceptance rate: 24%]

  • D'hondt E, Tannier X, Névéol A. Redundancy in French Electronic Health Records: A preliminary study. Proceedings of the Sixth International Workshop on Health Text Mining and Information Analysis, LOUHI. 2015:21-30 [acceptance rate: 49%]

  • Grouin C, Griffon N, Névéol A. Étude des risques de réidentification des patients à partir d'un corpus désidentifié de comptes-rendus cliniques en français. Atelier ETeRNAL - TALN. 2015.  

  • Grouin C, Griffon N, Névéol A. Is it possible to recover personal health information from an automatically de-identified corpus of French EHRs? Proceedings of the Sixth International Workshop on Health Text Mining and Information Analysis, LOUHI. 2015:31-39 [acceptance rate: 49%]

  • Névéol A, Grouin C, Tannier X, Hamon T, Kelly L, Goeuriot L, Zweigenbaum P. CLEF eHealth Evaluation Lab 2015 Task 1b: clinical named entity recognition. CLEF 2015, Online Working Notes, CEUR-WS 1391. 2015.

  • Goeuriot L, Kelly L, Suominen H, Hanlen L, Névéol A, Grouin C, Palotti J, Zuccon G. Overview of the CLEF eHealth Evaluation Lab 2015. Lecture Notes in Computer Science, vol 9283. Information Access Evaluation. Multilinguality, Multimodality, and Interaction. Springer International Publishing. 2015:429-443.

  • Deléger L, Grouin C, Névéol A. Automatic Content Extraction for Designing a French Clinical Corpus. Proc AMIA Annu Symp. 2014.

  • Grouin C, Deléger L, Escudié JB, Groisy G, Jannot AS, Rance B, Tannier X, Névéol A. How to de-identify a large clinical corpus in 10 days. Proc AMIA Annu Symp. 2014.

  • Névéol A, Dalianis HK, Savova G, Zweigenbaum P Didactic Panel: Clinical Natural Language Processing in Languages Other Than English . Proc AMIA Annu Symp. 2014.

  • Grouin C, Lavergne T, Névéol A. Optimizing annotation efforts to build reliable annotated corpora for training statistical models. 8th Linguistic Annotation Workshop - LAW VIII. 2014. [acceptance rate: 35%]  

  • Pham AD, Névéol A, Lavergne T, Yasunaga D, Clément O, Meyer G, Morello R, Burgun A. Natural language processing of radiology reports for the detection of thromboembolic diseases and clinically relevant incidental findings. BMC Bioinformatics. 2014 Aug 7;15:266. [impact factor 2014: 2.67]  

  • Deléger L, Grouin C, Ligozat AL, Zweigenbaum P, Névéol A. Annotation of specialized corpora using a comprehensive entity and relation scheme. LREC 2014. 2014.  

  • Névéol A, Grosjean J, Darmoni SJ, Zweigenbaum P. Language Resources for French in the Biomedical Domain. LREC 2014. 2014.  

  • Deléger L, Névéol A. Identification automatique de zones dans des documents pour la constitution d'un corpus médical en français. Traitement Automatique de la Langue Naturelle - TALN. 2014:568-573  

  • Grouin C, Névéol A. De-Identification of Clinical Notes in French: towards a Protocol for Reference Corpus Development. J Biomed Inform. 2014 Aug;50:151-61. [impact factor 2013: 2.131] Software

    Contact

    Aurélie Névéol (LIMSI)