Ressources

WikiLarge FR and CLEAR - Parallel Corpus for Simplification

Source work :
Rémi Cardon, Natalia Grabar
French Biomedical Text Simplification: When Small and Precise Helps
COLING 2020
8-13 December 2020, online
https://clear.univ-lille.fr/fileadmin/user_upload/clear/user_upload/documents/cardon-COLING2020.pdf 0,1 Mo

Download the dataset with parallel corpora in French: 32Mo zip archive.
The dataset contains two corpora: WikiLarge FR and CLEAR. The CLEAR parallel corpus is extracted from the CLEAR comparable corpus.
The corpora are segmented into train, validation and test sets.
An excerpt from this parallel corpus of sentences :

Après les tambours sont les danseurs, qui souvent jouent le sogo, un minuscule tambour qui ne fait presque aucun son, et ont tendance à avoir plus de détails -- même acrobatique -- chorégraphie.
Alessandro, ''Sandro'', Mazzola, soutenu 8 Novembre 1942, est un ancien joueur de football italien.
L'admission à Tsinghua est extrêmement compétitive.
Il a également été nommé "sportif de l'année" en 1982 par Sports Illustrated.
Nupedia a été fondée le 9 mars 2000, sous la propriété de Bomis, Inc, une entreprise de portail Web.
Alphagan ne doit pas être utilisé pendant l'allaitement
- amnésie antérograde, qui peut survenir aux doses thérapeutiques, le risque augmentant proportionnellement à la dose,
l'émail est la partie externe de la couronne des dents.

Les tambours sont des danseurs et jouent souvent le sogo qu'ils ont tendance à avoir la chorégraphie arcobatique.
Alessandro Mazzola est un ancien joueur de football italien.
L'entrée à Tsinghua est très difficile.
Sports Illustrated l'a nommé "sportif de l'année" en 1982.
Bomis Inc, une entreprise de portail Web, a fondé Nupedia le 9 mars 2000.
alphagan ne doit pas être utilisé si vous allaitez
- troubles de mémoire (trous de mémoire), qui peuvent survenir aux doses thérapeutiques, le risque augmentant proportionnellement à la dose,
l'émail recouvre la dentine de la dent.

CLEAR - Simple Corpus for Medical French

Source work :
Natalia Grabar, Rémi Cardon
CLEAR - Simple Corpus for Medical French
ATA 2018 (ENLG workshop on Automatic Text Adaptation)
8 November 2018, Tilburg, The Netherlands
https://clear.univ-lille.fr/fileadmin/user_upload/clear/user_upload/documents/grabar-ATA2018c.pdf 0,1 Mo

Download the datasets with medical comparable corpora in French:

  1. encyclopedia articles: 6Mo archive
  2. drug leaflets: 146Mo archive
  3. Cochrane summaries: 7Mo archive

Download the dataset with general language comparable corpora in French:

  1. encyclopedia articles: 155Mo archive

The dataset contains three corpora of documents with comparable contents.
Each corpus provides technical and simple/simplified texts on a given topic in French.

An excerpt from this comparable corpus of documents (abstract from Cochrane) :

La prophylaxie primaire des accidents thromboemboliques veineux chez les patients atteints de cancer traités par chimiothérapie en ambulatoire.


Contexte
Les accidents thromboemboliques veineux (ATV) compliquent souvent l'évolution clinique du cancer. Le risque est encore accru par la chimiothérapie, mais le compromis entre innocuité et efficacité de la thromboprophylaxie primaire chez les patients atteints de cancer traités par chimiothérapie reste incertain. Ceci est la deuxième mise à jour d'une revue publiée pour la première fois en février 2012.


Objectifs :
Évaluer l'efficacité et l'innocuité de la thromboprophylaxie primaire pour les ATV chez les patients atteints de cancer recevant une chimiothérapie en ambulatoire par rapport à un placebo ou à l'absence de thromboprophylaxie.
Stratégie de recherche documentaire
Pour cette mise à jour, le spécialiste des informations vasculaires Cochrane a effectué des recherches dans le registre spécialisé du groupe Cochrane sur les maladies vasculaires (juin 2016). En outre, le spécialiste des informations a effectué des recherches dans le registre Cochrane des essais contrôlés (CENTRAL) (2016, numéro 5). Les registres d'essais cliniques ont été consultés jusqu'en juin 2016.


Critères de sélection :
Des essais contrôlés randomisés comparant un anticoagulant par voie orale ou parentérale ou une intervention mécanique à l'absence de thromboprophylaxie ou à un placebo, ou comparant deux anticoagulants différents.
Recueil et analyse des données
Nous avons extrait les données sur la qualité méthodologique, les caractéristiques des participants, les interventions et les critères d'évaluation, y compris les ATV symptomatiques et les saignements majeurs qui étaient respectivement les critères principaux d'évaluation de l'efficacité et l'innocuité.


Résultats principaux :
Nous avons identifié cinq essais contrôlés randomisés supplémentaires (2491 participants) dans la recherche actualisée, 26 essais portant sur un total de 12 352 participants sont donc considérés dans cette mise à jour ; tous ces essais évaluant des interventions pharmacologiques et portant principalement sur des personnes atteintes de cancer localement avancé ou métastatique. La qualité des données probantes était très faible à élevée pour les différents critères d’évaluation et les différentes comparaisons. L’imprécision et le risque de biais étaient les principaux facteurs de limitation. Un essai à grande échelle portant sur 3212 participants a constaté une réduction de 64~\% (risque relatif (RR) 0,36, intervalle de confiance à 95~\% (IC) 0,22 à 0,60) des ATV symptomatiques avec l’héparine de très bas poids moléculaire sémuloparine par rapport à un placebo, sans aucune différence apparente pour les saignements majeurs (RR 1,05, IC à 95~\% 0,55 à 2,00). Par rapport à l’absence de thromboprophylaxie, l’héparine de bas poids moléculaire (HBPM) réduisait significativement l’incidence des ATV symptomatiques (RR 0,54, IC à 95~\% 0,38 à 0,75 ; aucune hétérogénéité, Tau20,00~\%) avec une augmentation non statistiquement significative de 44~\% du risque de saignement majeur (RR 1,44, IC à 95~\% 0,98 à 2,11). Chez les participants atteints de myélome multiple, l’HBPM était associée à une réduction significative des ATV symptomatiques par rapport à l’antagoniste de la vitamine K warfarine (RR 0,33, IC à 95~\% 0,14 à 0,83), tandis que la différence entre l’HBPM et l’aspirine n’était pas statistiquement significative (RR 0,51, IC à 95~\% 0,22 à 1,17). Aucun saignement majeur n’a été observé chez les participants traités avec l’HBPM ou la warfarine et moins de 1~\% des participants traités avec l’aspirine en ont présenté. Seule une étude évaluait l’héparine non fractionnée par rapport à l’absence de thromboprophylaxie, mais elle ne rendait pas compte des ATV ou des saignements majeurs. En comparaison avec le placebo, la warfarine était associée à une diminution statistiquement non significative des ATV symptomatiques (RR 0,15, IC à 95~\% 0,02 à 1,20). L’antithrombine, évaluée dans une étude portant sur des patients pédiatriques, n’avait aucun effet significatif sur les ATV ou sur les saignements majeurs, en comparaison avec l’absence d’antithrombine. L’inhibiteur direct du facteur Xa par voie orale apixaban a été évalué dans une étude de phase II de détermination de la dose qui suggérait un faible taux de saignements majeurs (2,1~\% contre 3,4~\%) et d’ATV symptomatiques (1,1~\% contre 13,8~\%) en comparaison avec le placebo.


Conclusions des auteurs :
Dans cette deuxième mise à jour, nous confirmons que la thromboprophylaxie primaire par héparine de bas poids moléculaire réduit significativement l’incidence des accidents thromboemboliques veineux (ATV) symptomatiques chez les patients atteints de cancer traités par chimiothérapie en ambulatoire. En outre, l’héparine de très bas poids moléculaire sémuloparine, qui n’est pas disponible commercialement, réduit significativement l’incidence des ATV symptomatiques. Le risque de saignement majeur associé aux héparines de bas poids moléculaire, même s’il n’est pas statistiquement significatif, recommande la prudence et rend nécessaires des études supplémentaires pour déterminer le rapport bénéfice-risque des héparines de bas poids moléculaire dans ce contexte. Malgré les résultats encourageants de cette revue, la prophylaxie de routine ne peut pas être recommandée chez les patients atteints de cancer soignés en ambulatoire avant que les questions de sécurité soient traitées de manière adéquate. Nous avons besoin d’études supplémentaires examinant la prophylaxie primaire ciblée chez les personnes atteintes de types ou de phases spécifiques de cancer associés à un risque accru d’accidents thromboemboliques veineux.

La prévention des caillots sanguins chez les patients atteints de cancer non hospitalisés recevant une chimiothérapie.


Contexte :
Les patients atteints de cancer sont plus susceptibles que les personnes n’ayant pas de cancer de développer des caillots sanguins dans les veines (appelés accidents thromboemboliques veineux). La chimiothérapie augmente encore ce risque. Cependant, un certain nombre de facteurs spécifiques au cancer tels que la tendance aux saignements au site de la tumeur, ou une diminution relative du nombre de plaquettes dans le sang (thrombopénie) causée par la chimiothérapie peut augmenter la probabilité que les patients atteints de cancer aient des complications hémorragiques avec les médicaments utilisés pour prévenir et traiter les caillots de sang (anticoagulants). Cette revue systématique a examiné l’efficacité et la sécurité des anticoagulants lorsqu’ils sont utilisés pour prévenir la formation de caillots sanguins chez les patients atteints de cancer traités par chimiothérapie.


Principaux résultats :
Nous avons inclus 26 essais contrôlés randomisés portant sur un total de 12~352 participants (à jour jusqu’en juin 2016). Les héparines de bas poids moléculaires et l’héparine de très bas poids moléculaire sémuloparine sont associées à une réduction significative des caillots sanguins symptomatiques. Nous n’avons trouvé aucune preuve indiquant que le risque de saignements majeurs augmente avec la sémuloparine ou les héparines de bas poids moléculaire, mais étant donné l’incertitude entourant les estimations, nous ne pouvons pas exclure que le risque soit doublé. Il n’y avait pas de bénéfice évident sur le plan de la survie pour la sémuloparine ou les héparines de bas poids moléculaire. Chez des patients atteints de myélome multiple, l’héparine de bas poids moléculaire réduisait significativement l’incidence des caillots sanguins comparée à l’antagoniste de la vitamine K warfarine, tandis que la différence avec l’aspirine n’était pas significative. Il n’y a pas eu de saignement majeur avec l’héparine de bas poids moléculaire ou la warfarine, et chez les participants traités avec l’aspirine le taux était inférieur à 1~\%. Une étude évaluait l’héparine non fractionnée et ne rendait pas compte des accidents thromboemboliques veineux ou des saignements majeurs. Il n’était pas fait mention de caillots sanguins dans les deux groupes d’étude. Les données pour la warfarine en comparaison avec un placebo étaient trop limitées pour soutenir l’utilisation de la warfarine dans la prévention des caillots sanguins chez les patients atteints de cancer. Une étude chez les enfants évaluait l’antithrombine, qui n’avait aucun effet significatif sur la formation de caillots sanguins ou les saignements majeurs comparée à l’absence d’antithrombine. Une petite étude pilote évaluait l’anticoagulant par voie orale apixaban et trouvait un faible taux de saignements et de caillots sanguins par rapport à un placebo.


Qualité des données probantes :
La qualité des études incluses variait de faible à élevée, de telle sorte que de futures études pourraient changer notre confiance dans les estimations et la taille des estimations, en particulier en ce qui concerne l'innocuité des anticoagulants. La qualité des résultats variait d’élevée à très faible pour les différents critères d’évaluation et les différentes comparaisons. Le niveau de qualité pour certains critères d'évaluation a été abaissé en raison principalement de l'imprécision et du risque de biais. Le nombre relativement faible d’études, de participants et d’événements cliniques nous ont empêché de déterminer l’influence potentielle de l’âge et du type ou du stade de cancer sur les effets du traitement et de fournir des conclusions définitives concernant le risque de saignement en relation avec les anticoagulants. Aucune des études n’a testé la compression pneumatique intermittente ou les bas de contention graduée pour la prévention des accidents thromboemboliques veineux.

Rated lexicon with French medical words

Source work :
Natalia Grabar, Thierry Hamon
A large rated lexicon with French medical words
LREC (Language Resources and Evaluation Conference) 2016
23-28 May 2016, Portorož, Slovenia
https://clear.univ-lille.fr/fileadmin/user_upload/clear/user_upload/documents/grabar-LREC2016read.pdf 0,1 Mo

The French medical lexicon has been annotated by three annotators into three categories :

  1. + I can understand
  2. / I am not sure
  3. - I cannot understand

Download the datasets with the rated medical lexicon
The dataset contains three files from three annotators.

An excerpt from this lexicon (three annotators involved) :

Term Lemma POS Semantic axes Ann 1   Ann 2   Ann 3
Anévrismes anévrisme N (Noun) M (Morphology) + - /
cheilotomie cheilotomie N (Noun) P (Procedure) - - -
comportemental   comportemental   Adj (Adjective)   D (Disorder) F (Functions) P (Procedure)   + + +
fascioplastie fascioplastie N (Noun) P (Procedure) / - -
ligneuse ligneux Adj (Adjective) D (Disorder) / + /

Typology of simplification-induced transformations

Source work :
Anaïs Koptient, Rémi Cardon, Natalia Grabar
Simplification-induced transformations: typology and some characteristics
BIONLP 2019
1st August 2019, Florence, Italy
https://clear.univ-lille.fr/fileadmin/user_upload/clear/user_upload/documents/koptient-BIONLP2019.pdf 0,1 Mo

Typology of simplification-induced transformations :