Sélection des pss

3.3 Sélection des verbes et pss pour la validation

3.3.2 Sélection des pss

Cette section porte sur la phase de sélection des_pssqui ont été soumis aux experts en médecine

pour une validation qui fait office d’évaluation des _pss candidats pour la simplification. Cette

tâche correspond à l’étape numéro 2 du schéma 3.5.

Les différents patrons syntaxico-sémantiques (avec fréquences) des verbes sélectionnés à

l’étape précédente sont extraits à partir de la liste des patrons tirés des corpus_pro et _etu

(cf. section 3.2.4). Ils subissent ensuite une sélection manuelle, qui a pour but de préparer la

liste des patrons sémantiques qui seront soumis aux experts en médecine pour une validation

22. Notre mémoire de Master proposait déjà une étude comparative du fonctionnement de certains de ces verbes dans les 4 types de corpus ici étudié. Il faut cependant souligner que ces corpus ont été agrandis pour la présente étude.

définitive

²³

. La liste des patrons syntaxico-sémantiques extraits pour chaque verbe est analysée

manuellement, afin d’éliminer les emplois relevant de la langue générale :

14) _stasocialaccompagne _stasocialà _lieu:Maman a accompagné ma soeur à l’hôpital.

À ce niveau de notre démarche de sélection des _pss, la fréquence n’est plus considérée comme

un critère discriminant, car comme nous avons pu le constater (cf. chapitre 4, section 4.4.2), la

faible fréquence d’un _pssen corpus ne signifie pas systématiquement que ce patron n’est pas

spécialisé, de même que la forte fréquence d’un_pss ne signale pas forcément qu’il s’agit d’un

patron spécialisé.

Les différentes combinaisons (types) de catégories Snomed apparaissant autour du verbe

ont joué un rôle déterminant dans la sélection des_pss, car nous partons de l’hypothèse que le

changement de catégories Snomed peut entraîner un changement de sens :

15) _stasocial (patient) pratique _procedure : Malheureusement, seulement 40% des

femmes belges pratiquent ce dépistage. → ‘subir’

16) _metier (médecin) pratique _procedure: Dans ce cas, le chirurgien pratiquera plutôt

une courte incision dans le thorax [...]. → ‘faire’

Dans les travaux de recherche qui visent à proposer un modèle de simplification de textes, la

réalisation de la simplification exige qu’au moins deux conditions indispensables soient remplies.

Ces conditions sont résumées dans deux questions, à savoir :

1. Que faut-il simplifier ? Dans un texte, quelles phrases constituent des candidats potentiels

pour la simplification ? Parmi les_pss extraits automatiquement de nos corpus, quels sont

ceux qui devraient être simplifiés ?

2. Quel est le meilleur candidat possible pour la substitution ? En d’autres termes, dans

le cadre d’une simplification lexicale par exemple, quel est l’équivalent le mieux adapté

pour l’item simplifié ? Dans notre cas, la question serait quel verbe, quel _pssconstitue un

substitut compréhensible pour le_pss spécialisé selon le public cible ?

La première question

est celle qui est abordée dans cette partie de la thèse. La réponse à

cette question correspond à la phase de sélection des phrases (et dans le cadre de ce travail des

pss^{) qui méritent d’être simplifiées. Dans notre étude, cette phase de sélection se fait en deux}

23. Cette validation définitive par les experts en médecine permettra de retenir les_pssqui constitueront la nomenclature de notre ressource de simplification.

24. La deuxième question sera abordée dans la section 3.7 car elle sera focalisée sur la phase de simplification proprement dite.

temps : tout d’abord une phase de sélection manuelle, suivie d’une validation par les experts.

La sélection manuelle qui fait l’objet de cette sous-section est effectuée par nous-mêmes, telle

que décrit supra, sur la base de critères linguistique et terminologique, couplés à notre intuition

linguistique. Elle débouche sur une liste de patrons verbaux qui sont ensuite validés. La phase de

validation (cf. section 3.4) quant à elle est basée sur les connaissances et compétences médicales

partagées par les experts en médecine qui la réalisent. Elle s’achève par le dépouillement des

résultats qui permet de constituer la liste définitive des_pss candidats retenus pour la création

de la ressource de simplification.

La question 1 évoque la notion de lisibilité et/ou la difficulté de lecture des textes spécialisés.

Cette notion regroupe un certain nombre de paramètres permettant d’évaluer à quel point un

texte est lisible et compréhensible pour un public cible. Selon certaines approches, l’évaluation

du niveau de lisibilité d’un texte repose sur des caractéristiques de surface telles que la longueur

des mots et des phrases, l’identification de termes clés dénotant les connaissances du domaine

(Kincaid et al., 1975 ; Chall & Dale, 1995 ; DuBay, 2007). Certains travaux plus récents

démontrent que la prise en considération des propriétés internes du texte permet d’obtenir

de meilleurs résultats que dans l’approche basée uniquement sur les paramètres de surface

(Nelson et al., 2012). En TAL, la plupart des approches d’évaluation du degré de lisibilité

d’un texte sont basées sur des méthodes statistiques ou d’apprentissage automatique, qui

permettent de classifier les textes selon leurs scores de lisibilité. Ces travaux se focalisent

sur une variété de caractéristiques : les propriétés syntaxiques des textes (Callan & Eskenazi,

2007) ; les propriétés sémantiques propres à la langue de spécialité étudiée (Vor der Brücket al.,

2008), les propriétés lexicales (fréquence des termes du domaine) (Abrahamssonet al., 2014),

les propriétés morphologiques qui caractérisent la langue de spécialité concernée (François &

Watrin, 2011 ; Hancke et al., 2012), la cohérence et la cohésion (Graesser et al., 2011), etc.

La plupart des travaux que nous venons de mentionner proposent des méthodes d’évaluation

du degré de lisibilité des textes, mais avec des objectifs autres que la simplification de textes.

Vajjala & Meurers (2014) font partie des pionniers à proposer une approche de l’évaluation du

degré de lisibilité des textes ayant pour but de détecter les phrases et textes potentiellement

candidats à une opération de simplification automatique.

Notre étude s’inscrit également dans le cadre de la simplification. Toutefois, nous développons

une approche différente de celle proposée par Vajjala & Meurers (2014). La particularité de

notre méthode est que la sélection des patrons verbaux candidats pour la simplification n’est

pas basée sur des algorithmes de l’apprentissage automatique, qui en général sont utilisés

dans le but d’éviter les difficultés qu’engendre une sélection manuelle. La détection des _pss

à simplifier passe par un processus semi-automatique qui repose sur une phase de validation

rigoureuse effectuée par trois groupes distincts d’experts en médecine (cf. section 3.4). Cette

méthode a pour avantage non seulement de proposer une solution pour la constitution de la

nomenclature de notre ressource de simplification finale, mais, elle permet d’écarter tous doutes

et interrogations en ce qui concerne la validité et le caractère spécialisé des _pss sélectionnés

pour la simplification. En effet, la sélection finale effectuée par les trois équipes de médecins et

d’infirmiers fait office de validation des données de base de cette étude.

Les _pss retenus pour la validation par les experts proviennent des textes qui remplissent

les principaux critères de sélection pris en considération dans certains travaux récents sur

l’évaluation du degré de spécialisation des textes techniques. Ces critères sont : l’auteur du

texte, le public cible, la structure du texte et le type d’unités lexicales utilisées (Castellví, 2002 ;

Da Cunhaet al., 2011).

La section 2.1 du chapitre 2 a fourni d’amples informations sur le corpus utilisé dans ce

travail de thèse. Cette description concourt à montrer que la structure de notre corpus est

favorable à la sélection des patrons verbaux spécialisés. Le continuum qu’il représente contient

des textes ayant différents degrés de spécialisation, parmi lesquels des textes du corpus des

experts (textes écrits par des experts en médecine pour des experts) qui constitue l’une des

extrémités du continuum, celle qui représente le plus haut niveau de spécialisation. De par le

caractère spécialisé qui lui est attribué via le type d’auteur et de public qu’il vise, le corpus des

experts est prédisposé à contenir des entrées potentielles pour la ressource de simplification.

La forte présence dans ce corpus de termes de la Snomed confirme le niveau de spécialisation

des textes, ceci ajouté aux observations faites concernant la longueur des phrases et l’emploi

fréquent du passif (avec agent absent) au lieu de l’actif (cf. chapitre 2, section 2.1.3.1). Tous

ces éléments rendent le corpus des experts compatible avec les critères d’évaluation du degré

de spécialisation d’un texte que définit Castellví (2002). Le corpus des étudiants, décrit dans le

chapitre 2 (cf. section 2.1.3.2) comme étant très similaire au corpus des experts, a également

été exploité comme source pour l’extraction des _pss à simplifier. La deuxième extrémité du

continuum, notament le corpus des forums, constitue elle aussi une source de données pour la

simplification. De par leur faible degré de spécialisation, les textes de ce corpus fournissent de

potentiels candidats équivalents pour l’alignement des_pss provenant des corpus des experts.

Dans le processus d’alignement, on aura éventuellement recours au corpus_vulpour l’extraction

des _psséquivalents, lorsque aucun candidat équivalent convenable n’aura été trouvé dans le

corpus des forums.

La liste des patrons syntaxico-sémantiques sélectionnés dans cette étape fera l’objet d’une

validation par les experts, ce processus de validation est décrit dans la section 3.4.

Dans le document Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes (Page 111-114)