3.3 Sélection des verbes et pss pour la validation
3.3.2 Sélection des pss
Cette section porte sur la phase de sélection despssqui ont été soumis aux experts en médecine
pour une validation qui fait office d’évaluation des pss candidats pour la simplification. Cette
tâche correspond à l’étape numéro 2 du schéma 3.5.
Les différents patrons syntaxico-sémantiques (avec fréquences) des verbes sélectionnés à
l’étape précédente sont extraits à partir de la liste des patrons tirés des corpuspro et etu
(cf. section 3.2.4). Ils subissent ensuite une sélection manuelle, qui a pour but de préparer la
liste des patrons sémantiques qui seront soumis aux experts en médecine pour une validation
22. Notre mémoire de Master proposait déjà une étude comparative du fonctionnement de certains de ces verbes dans les 4 types de corpus ici étudié. Il faut cependant souligner que ces corpus ont été agrandis pour la présente étude.
définitive
23. La liste des patrons syntaxico-sémantiques extraits pour chaque verbe est analysée
manuellement, afin d’éliminer les emplois relevant de la langue générale :
14) stasocialaccompagne stasocialà lieu:Maman a accompagné ma soeur à l’hôpital.
À ce niveau de notre démarche de sélection des pss, la fréquence n’est plus considérée comme
un critère discriminant, car comme nous avons pu le constater (cf. chapitre 4, section 4.4.2), la
faible fréquence d’un pssen corpus ne signifie pas systématiquement que ce patron n’est pas
spécialisé, de même que la forte fréquence d’unpss ne signale pas forcément qu’il s’agit d’un
patron spécialisé.
Les différentes combinaisons (types) de catégories Snomed apparaissant autour du verbe
ont joué un rôle déterminant dans la sélection despss, car nous partons de l’hypothèse que le
changement de catégories Snomed peut entraîner un changement de sens :
15) stasocial (patient) pratique procedure : Malheureusement, seulement 40% des
femmes belges pratiquent ce dépistage. → ‘subir’
16) metier (médecin) pratique procedure: Dans ce cas, le chirurgien pratiquera plutôt
une courte incision dans le thorax [...]. → ‘faire’
Dans les travaux de recherche qui visent à proposer un modèle de simplification de textes, la
réalisation de la simplification exige qu’au moins deux conditions indispensables soient remplies.
Ces conditions sont résumées dans deux questions, à savoir :
1. Que faut-il simplifier ? Dans un texte, quelles phrases constituent des candidats potentiels
pour la simplification ? Parmi lespss extraits automatiquement de nos corpus, quels sont
ceux qui devraient être simplifiés ?
2. Quel est le meilleur candidat possible pour la substitution ? En d’autres termes, dans
le cadre d’une simplification lexicale par exemple, quel est l’équivalent le mieux adapté
pour l’item simplifié ? Dans notre cas, la question serait quel verbe, quel pssconstitue un
substitut compréhensible pour lepss spécialisé selon le public cible ?
La première question
24est celle qui est abordée dans cette partie de la thèse. La réponse à
cette question correspond à la phase de sélection des phrases (et dans le cadre de ce travail des
pss) qui méritent d’être simplifiées. Dans notre étude, cette phase de sélection se fait en deux
23. Cette validation définitive par les experts en médecine permettra de retenir lespssqui constitueront la nomenclature de notre ressource de simplification.
24. La deuxième question sera abordée dans la section 3.7 car elle sera focalisée sur la phase de simplification proprement dite.
temps : tout d’abord une phase de sélection manuelle, suivie d’une validation par les experts.
La sélection manuelle qui fait l’objet de cette sous-section est effectuée par nous-mêmes, telle
que décrit supra, sur la base de critères linguistique et terminologique, couplés à notre intuition
linguistique. Elle débouche sur une liste de patrons verbaux qui sont ensuite validés. La phase de
validation (cf. section 3.4) quant à elle est basée sur les connaissances et compétences médicales
partagées par les experts en médecine qui la réalisent. Elle s’achève par le dépouillement des
résultats qui permet de constituer la liste définitive despss candidats retenus pour la création
de la ressource de simplification.
La question 1 évoque la notion de lisibilité et/ou la difficulté de lecture des textes spécialisés.
Cette notion regroupe un certain nombre de paramètres permettant d’évaluer à quel point un
texte est lisible et compréhensible pour un public cible. Selon certaines approches, l’évaluation
du niveau de lisibilité d’un texte repose sur des caractéristiques de surface telles que la longueur
des mots et des phrases, l’identification de termes clés dénotant les connaissances du domaine
(Kincaid et al., 1975 ; Chall & Dale, 1995 ; DuBay, 2007). Certains travaux plus récents
démontrent que la prise en considération des propriétés internes du texte permet d’obtenir
de meilleurs résultats que dans l’approche basée uniquement sur les paramètres de surface
(Nelson et al., 2012). En TAL, la plupart des approches d’évaluation du degré de lisibilité
d’un texte sont basées sur des méthodes statistiques ou d’apprentissage automatique, qui
permettent de classifier les textes selon leurs scores de lisibilité. Ces travaux se focalisent
sur une variété de caractéristiques : les propriétés syntaxiques des textes (Callan & Eskenazi,
2007) ; les propriétés sémantiques propres à la langue de spécialité étudiée (Vor der Brücket al.,
2008), les propriétés lexicales (fréquence des termes du domaine) (Abrahamssonet al., 2014),
les propriétés morphologiques qui caractérisent la langue de spécialité concernée (François &
Watrin, 2011 ; Hancke et al., 2012), la cohérence et la cohésion (Graesser et al., 2011), etc.
La plupart des travaux que nous venons de mentionner proposent des méthodes d’évaluation
du degré de lisibilité des textes, mais avec des objectifs autres que la simplification de textes.
Vajjala & Meurers (2014) font partie des pionniers à proposer une approche de l’évaluation du
degré de lisibilité des textes ayant pour but de détecter les phrases et textes potentiellement
candidats à une opération de simplification automatique.
Notre étude s’inscrit également dans le cadre de la simplification. Toutefois, nous développons
une approche différente de celle proposée par Vajjala & Meurers (2014). La particularité de
notre méthode est que la sélection des patrons verbaux candidats pour la simplification n’est
pas basée sur des algorithmes de l’apprentissage automatique, qui en général sont utilisés
dans le but d’éviter les difficultés qu’engendre une sélection manuelle. La détection des pss
à simplifier passe par un processus semi-automatique qui repose sur une phase de validation
rigoureuse effectuée par trois groupes distincts d’experts en médecine (cf. section 3.4). Cette
méthode a pour avantage non seulement de proposer une solution pour la constitution de la
nomenclature de notre ressource de simplification finale, mais, elle permet d’écarter tous doutes
et interrogations en ce qui concerne la validité et le caractère spécialisé des pss sélectionnés
pour la simplification. En effet, la sélection finale effectuée par les trois équipes de médecins et
d’infirmiers fait office de validation des données de base de cette étude.
Les pss retenus pour la validation par les experts proviennent des textes qui remplissent
les principaux critères de sélection pris en considération dans certains travaux récents sur
l’évaluation du degré de spécialisation des textes techniques. Ces critères sont : l’auteur du
texte, le public cible, la structure du texte et le type d’unités lexicales utilisées (Castellví, 2002 ;
Da Cunhaet al., 2011).
La section 2.1 du chapitre 2 a fourni d’amples informations sur le corpus utilisé dans ce
travail de thèse. Cette description concourt à montrer que la structure de notre corpus est
favorable à la sélection des patrons verbaux spécialisés. Le continuum qu’il représente contient
des textes ayant différents degrés de spécialisation, parmi lesquels des textes du corpus des
experts (textes écrits par des experts en médecine pour des experts) qui constitue l’une des
extrémités du continuum, celle qui représente le plus haut niveau de spécialisation. De par le
caractère spécialisé qui lui est attribué via le type d’auteur et de public qu’il vise, le corpus des
experts est prédisposé à contenir des entrées potentielles pour la ressource de simplification.
La forte présence dans ce corpus de termes de la Snomed confirme le niveau de spécialisation
des textes, ceci ajouté aux observations faites concernant la longueur des phrases et l’emploi
fréquent du passif (avec agent absent) au lieu de l’actif (cf. chapitre 2, section 2.1.3.1). Tous
ces éléments rendent le corpus des experts compatible avec les critères d’évaluation du degré
de spécialisation d’un texte que définit Castellví (2002). Le corpus des étudiants, décrit dans le
chapitre 2 (cf. section 2.1.3.2) comme étant très similaire au corpus des experts, a également
été exploité comme source pour l’extraction des pss à simplifier. La deuxième extrémité du
continuum, notament le corpus des forums, constitue elle aussi une source de données pour la
simplification. De par leur faible degré de spécialisation, les textes de ce corpus fournissent de
potentiels candidats équivalents pour l’alignement despss provenant des corpus des experts.
Dans le processus d’alignement, on aura éventuellement recours au corpusvulpour l’extraction
des psséquivalents, lorsque aucun candidat équivalent convenable n’aura été trouvé dans le
corpus des forums.
La liste des patrons syntaxico-sémantiques sélectionnés dans cette étape fera l’objet d’une
validation par les experts, ce processus de validation est décrit dans la section 3.4.
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 111-114)