3. Variation lexicale
4.2 Difficultés de l’annotation syntactico-sémantique
4.2.2 Annotation sémantique
4.2.2.1 La variation terminologique
Le termevariation terminologique peut renvoyer à différents types de variations observées dans
les langues de spécialité. Grabar & Hamon (2004) énoncent plusieurs raisons qui peuvent être
à l’origine de ce phénomène : les facteurs géographiques, la différence entre les locuteurs, la
diachronie, etc. La variation terminologique peut se manifester à des niveaux variés : morphologie,
lexique, etc. Lors de la description du corpus dans la section 2.1.3.1 du chapitre 2, nous avons
parlé de la variation morpho-lexicale qui touche les termes nominaux du corpus. Elle renvoie
au fait que certains termes complexes se réalisent sous des formes diverses que l’on appelle
variantes. Cette variation ne concerne pas uniquement les unités nominales du corpus mais
également celles de la terminologie, car cette dernière contient des termes et/ou leurs variantes
comme les exemples suivants :
— auricule du coeur - auricule cardiaque
La variation terminologique, très fréquente, cause des problèmes d’incompatibilité entre le
corpus et la terminologie. L’annotation des termes illustrant ce phénomène a été effectuée par
l’application de différentes techniques.
Dans un premier temps, une ressource a été créée à partir de certains termes présents dans
le corpus mais non répertoriés dans la Snomed. De plus, un ensemble d’heuristiques a été défini
afin de rendre possible l’appariement des variantes d’un même terme, apparaissant séparément
dans la terminologie et dans le corpus : appariement des termes à partir de leur tête lexicale,
appariement des bigrammes et n-grammes (cf. section 3.2.2).
4.2.2.2 La non-exhaustivité de la ressource terminologique
À travers la description de notre méthode d’annotation, il apparaît clairement que la terminologie
Snomed ne couvre pas tous les termes du corpus. Une explication à ce constat est le phénomène
de variation terminologique (morpho-lexicale) évoqué dans la section 2.2.2 du chapitre 2, et
décrit supra. Il faudrait toutefois souligner que les termes non capturés par la Snomed ne
relèvent pas tous de la variation terminologique. En effet, il a été constaté que plusieurs termes
en position d’argument des verbes analysés n’étaient pas enregistrés dans la Snomed, et leurs
variantes non plus (substrat arythmogène, psychopathologie, télécardiologie, télithromycine,
immunomodulateur, cardiotoxicité, ocréotide).
Comme il a été expliqué dans la section 2.2.2, la problématique de la faible couverture des
ressources terminologiques existantes (pas seulement en médecine mais dans tous les domaines
de spécialité) est bien connue en recherche sur les textes en langues de spécialité (Delpech,
2011 ; Grivel, 2011 ; Charlet et al., 2012). Cette réalité nous a poussée à mettre en place des
méthodes et à définir des ressources (cf. section 3.2.2) qui ont permis de pallier tant bien que
mal ce manque, dont l’incidence aurait sinon été pénalisante pour les résultats de cette étude.
4.2.2.3 Problème de désambiguïsation des termes non procéduraux
Dans la section 3.2.3.3, il a été souligné que notre système automatique de désambiguïsation
des termes polysémiques ne peut couvrir qu’un certain type d’ambiguïté que présentent les
termes de la Snomed. Il s’agit des cas d’ambiguïté qui impliquent la catégoriep (procédure).
Cette catégorie regroupe les termes ayant une interprétation d’activité. Il s’agit en général des
noms désignant une procédure médicale : intervention chirurgicale, ablation, rééducation du
patient, hospitalisation. En effet, tel qu’il a été expliqué lors de la description du processus
d’annotation sémantique, l’interprétation procédurale nous sert de pivot pour la distinction et
la désambiguïsation des sens d’un terme, car son intervention impose la présence d’un certain
nombre de paramètres linguistiques (présence d’un verbe de réalisation, d’un agent, etc.) sur
lesquels notre système automatique s’appuie afin d’opérer la désambiguïsation. L’absence de
ces paramètres indique que le terme polysémique n’a pas d’interprétation procédurale dans le
contexte concerné et, par conséquent, une autre catégorie sémantique lui est attribuée.
Les cas d’ambiguïté n’impliquant pas la catégorie p(comme l’opposition d vs. f) sont donc
difficilement analysables par notre système automatique, car la désambiguïsation, pour la plupart
d’entre eux, repose sur des informations extralinguistiques que ce système ne possède pas.
Lorsqu’il est confronté à de tels cas, le système attribue au terme ambigu ce que nous considérons
comme la catégorie par défaut de la tête, c’est-à-dire la catégorie la plus fréquemment utilisée
en combinaison avec la tête du terme dans la terminologie Snomed.
4.3 Résultats de la sélection des pss pour la
simplifica-tion
4.3.1 Sélection des verbes
La sélection des verbes a consisté en un processus composé de trois étapes, au cours desquelles
certains verbes ont été retenus et d’autres supprimés, tel qu’indiqué lors de la description de la
méthode (cf. section 3.3.1). Le tableau 4.19 présente le récapitulatif du processus de sélection
avec le nombre de verbes obtenus à chaque étape du tri, tandis que le tableau 4.20 présente la
liste des verbes retenus pour la simplification.
Tab. 4.19– Récapitulatif du processus de sélection des verbes.
Nombre tot. Suppression verbes Suppression verbes et sélection finale
verbes (f<30) (de la langue générale)
2859 617 45
Tab. 4.20 – Liste des verbes sélectionnés pour la simplification
accompagner détecter imposer réaliser
abaisser développer indiquer relever
activer diagnostiquer induire révéler
administrer disséminer inhaler sécréter
affecter éliminer nécessiter signaler
altérer envisager observer synthétiser
analyser évaluer poursuivre subir
associer évoquer pratiquer suivre
coloniser exposer présenter traduire
contrôler exprimer produire traiter
dépister impliquer recommander transmettre
manifester
La liste des verbes retenus n’est pas exhaustive en ce qu’elle ne présente que le résultat
de notre sélection, c’est-à-dire le groupe de verbes dont les patrons syntaxico-sémantiques
seront analysés dans le cadre de la constitution de notre ressource de simplification. D’après
nos observations, appuyées par les données du tableau 4.19, notre corpus comporte davantage
de prédicats qui pourraient être de bons candidats pour la simplification. N’étant pas en mesure
de traiter tous ces verbes dans le cadre de ce travail de thèse, les différentes tâches relevant de
la simplification de textes porteront exclusivement sur les verbes du tableau 4.20. Cependant,
comme nous allons l’observer dans la section 4.6, l’analyse des collocations verbe-terme ne
portera pas systématiquement sur cette liste de verbes, d’autres verbes du corpus seront mis à
contribution. De la même façon, plusieurs verbes de cette liste n’interviendront pas dans l’étude
des collocations (cf. chapitre 3, section 3.6). En effet, le choix des collocations verbe-terme
analysées dans cette étude n’a pas été basé sur la même sélection de verbes, mais plutôt sur la
fréquence plus ou moins élevée (f≥5) des collocations en question.
Peu de verbes supports figurent dans la liste des candidats sélectionnés. Mais tout au long de
cette étude, différents verbes supports (faire, donner, mettre, prendre, etc.) interviendront dans
nos analyses, notamment lors de la comparaison des corpus et dans la phase d’alignement des
pss. En effet, plusieurs verbes supports sont utilisés comme équivalents lors de l’alignement, car
ils sont fréquemment employés au sein du corpus des non-experts dans des constructions qui
pourraient être instanciées par n’importe quel verbe (stasocial(patient) fait/subit maladie).
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 173-177)