• Aucun résultat trouvé

3. Variation lexicale

4.2 Difficultés de l’annotation syntactico-sémantique

4.2.2 Annotation sémantique

4.2.2.1 La variation terminologique

Le termevariation terminologique peut renvoyer à différents types de variations observées dans

les langues de spécialité. Grabar & Hamon (2004) énoncent plusieurs raisons qui peuvent être

à l’origine de ce phénomène : les facteurs géographiques, la différence entre les locuteurs, la

diachronie, etc. La variation terminologique peut se manifester à des niveaux variés : morphologie,

lexique, etc. Lors de la description du corpus dans la section 2.1.3.1 du chapitre 2, nous avons

parlé de la variation morpho-lexicale qui touche les termes nominaux du corpus. Elle renvoie

au fait que certains termes complexes se réalisent sous des formes diverses que l’on appelle

variantes. Cette variation ne concerne pas uniquement les unités nominales du corpus mais

également celles de la terminologie, car cette dernière contient des termes et/ou leurs variantes

comme les exemples suivants :

auricule du coeur - auricule cardiaque

La variation terminologique, très fréquente, cause des problèmes d’incompatibilité entre le

corpus et la terminologie. L’annotation des termes illustrant ce phénomène a été effectuée par

l’application de différentes techniques.

Dans un premier temps, une ressource a été créée à partir de certains termes présents dans

le corpus mais non répertoriés dans la Snomed. De plus, un ensemble d’heuristiques a été défini

afin de rendre possible l’appariement des variantes d’un même terme, apparaissant séparément

dans la terminologie et dans le corpus : appariement des termes à partir de leur tête lexicale,

appariement des bigrammes et n-grammes (cf. section 3.2.2).

4.2.2.2 La non-exhaustivité de la ressource terminologique

À travers la description de notre méthode d’annotation, il apparaît clairement que la terminologie

Snomed ne couvre pas tous les termes du corpus. Une explication à ce constat est le phénomène

de variation terminologique (morpho-lexicale) évoqué dans la section 2.2.2 du chapitre 2, et

décrit supra. Il faudrait toutefois souligner que les termes non capturés par la Snomed ne

relèvent pas tous de la variation terminologique. En effet, il a été constaté que plusieurs termes

en position d’argument des verbes analysés n’étaient pas enregistrés dans la Snomed, et leurs

variantes non plus (substrat arythmogène, psychopathologie, télécardiologie, télithromycine,

immunomodulateur, cardiotoxicité, ocréotide).

Comme il a été expliqué dans la section 2.2.2, la problématique de la faible couverture des

ressources terminologiques existantes (pas seulement en médecine mais dans tous les domaines

de spécialité) est bien connue en recherche sur les textes en langues de spécialité (Delpech,

2011 ; Grivel, 2011 ; Charlet et al., 2012). Cette réalité nous a poussée à mettre en place des

méthodes et à définir des ressources (cf. section 3.2.2) qui ont permis de pallier tant bien que

mal ce manque, dont l’incidence aurait sinon été pénalisante pour les résultats de cette étude.

4.2.2.3 Problème de désambiguïsation des termes non procéduraux

Dans la section 3.2.3.3, il a été souligné que notre système automatique de désambiguïsation

des termes polysémiques ne peut couvrir qu’un certain type d’ambiguïté que présentent les

termes de la Snomed. Il s’agit des cas d’ambiguïté qui impliquent la catégoriep (procédure).

Cette catégorie regroupe les termes ayant une interprétation d’activité. Il s’agit en général des

noms désignant une procédure médicale : intervention chirurgicale, ablation, rééducation du

patient, hospitalisation. En effet, tel qu’il a été expliqué lors de la description du processus

d’annotation sémantique, l’interprétation procédurale nous sert de pivot pour la distinction et

la désambiguïsation des sens d’un terme, car son intervention impose la présence d’un certain

nombre de paramètres linguistiques (présence d’un verbe de réalisation, d’un agent, etc.) sur

lesquels notre système automatique s’appuie afin d’opérer la désambiguïsation. L’absence de

ces paramètres indique que le terme polysémique n’a pas d’interprétation procédurale dans le

contexte concerné et, par conséquent, une autre catégorie sémantique lui est attribuée.

Les cas d’ambiguïté n’impliquant pas la catégorie p(comme l’opposition d vs. f) sont donc

difficilement analysables par notre système automatique, car la désambiguïsation, pour la plupart

d’entre eux, repose sur des informations extralinguistiques que ce système ne possède pas.

Lorsqu’il est confronté à de tels cas, le système attribue au terme ambigu ce que nous considérons

comme la catégorie par défaut de la tête, c’est-à-dire la catégorie la plus fréquemment utilisée

en combinaison avec la tête du terme dans la terminologie Snomed.

4.3 Résultats de la sélection des pss pour la

simplifica-tion

4.3.1 Sélection des verbes

La sélection des verbes a consisté en un processus composé de trois étapes, au cours desquelles

certains verbes ont été retenus et d’autres supprimés, tel qu’indiqué lors de la description de la

méthode (cf. section 3.3.1). Le tableau 4.19 présente le récapitulatif du processus de sélection

avec le nombre de verbes obtenus à chaque étape du tri, tandis que le tableau 4.20 présente la

liste des verbes retenus pour la simplification.

Tab. 4.19– Récapitulatif du processus de sélection des verbes.

Nombre tot. Suppression verbes Suppression verbes et sélection finale

verbes (f<30) (de la langue générale)

2859 617 45

Tab. 4.20 – Liste des verbes sélectionnés pour la simplification

accompagner détecter imposer réaliser

abaisser développer indiquer relever

activer diagnostiquer induire révéler

administrer disséminer inhaler sécréter

affecter éliminer nécessiter signaler

altérer envisager observer synthétiser

analyser évaluer poursuivre subir

associer évoquer pratiquer suivre

coloniser exposer présenter traduire

contrôler exprimer produire traiter

dépister impliquer recommander transmettre

manifester

La liste des verbes retenus n’est pas exhaustive en ce qu’elle ne présente que le résultat

de notre sélection, c’est-à-dire le groupe de verbes dont les patrons syntaxico-sémantiques

seront analysés dans le cadre de la constitution de notre ressource de simplification. D’après

nos observations, appuyées par les données du tableau 4.19, notre corpus comporte davantage

de prédicats qui pourraient être de bons candidats pour la simplification. N’étant pas en mesure

de traiter tous ces verbes dans le cadre de ce travail de thèse, les différentes tâches relevant de

la simplification de textes porteront exclusivement sur les verbes du tableau 4.20. Cependant,

comme nous allons l’observer dans la section 4.6, l’analyse des collocations verbe-terme ne

portera pas systématiquement sur cette liste de verbes, d’autres verbes du corpus seront mis à

contribution. De la même façon, plusieurs verbes de cette liste n’interviendront pas dans l’étude

des collocations (cf. chapitre 3, section 3.6). En effet, le choix des collocations verbe-terme

analysées dans cette étude n’a pas été basé sur la même sélection de verbes, mais plutôt sur la

fréquence plus ou moins élevée (f≥5) des collocations en question.

Peu de verbes supports figurent dans la liste des candidats sélectionnés. Mais tout au long de

cette étude, différents verbes supports (faire, donner, mettre, prendre, etc.) interviendront dans

nos analyses, notamment lors de la comparaison des corpus et dans la phase d’alignement des

pss. En effet, plusieurs verbes supports sont utilisés comme équivalents lors de l’alignement, car

ils sont fréquemment employés au sein du corpus des non-experts dans des constructions qui

pourraient être instanciées par n’importe quel verbe (stasocial(patient) fait/subit maladie).