• Aucun résultat trouvé

Désambiguïsation des termes ambigus (têtes multicatégorielles) 82

3.2 Annotation des corpus et acquisition des pss

3.2.3 Traitement des têtes multicatégorielles

3.2.3.2 Désambiguïsation des termes ambigus (têtes multicatégorielles) 82

Dans cette section, nous implémentons différentes méthodes dans le but de désambiguïser le

sens des termes ambigus afin de leur associer des catégories sémantiques correspondant au sens

qu’ils ont selon leurs contextes d’apparition. Les techniques appliquées dans cette partie de la

thèse nous ramènent à une tâche bien connue dans le domaine du TAL et dans la constitution

des terminologies. Il s’agit de la désambiguïsation du sens des mots (désormais wsd). La

désambiguïsation des sens des mots consiste à établir un lien entre l’occurrence d’un mot dans

un texte et une signification spécifique, qui se distingue des autres significations que peuvent

avoir ce même mot (Schuemieet al., 2005). Depuis quelques années, la wsd fait partie des

sujets qui dominent les recherches dans de nombreux domaines comme la biomédecine. Le défi

récurrent est la croissance rapide de la littérature biomédicale, qui se manifeste par l’apparition

de nouveaux termes et de leurs significations (Alexopoulouet al., 2009). Cette situation qui

caractérise également le domaine médical est accentuée par l’utilisation des abréviations et

synonymes. Les systèmes robustes implémentés dans le domaine de lawsd sont en général

basés sur des approches d’apprentissage automatique et des méthodes statistiques. Dans cette

étude, nous proposons des approches axées sur des paramètres linguistiques et terminologiques.

La méthode fréquentielle

L’évaluation quantitative des têtes multicatégorielles et des termes Snomed portant ces têtes a

permis d’observer la prédominance de certaines interprétations (sens dynamique par exemple

(p)) qui tendent à caractériser les termes ambigus dans la Snomed. Sur la base de ce constat

qui caractérise plusieurs têtes multicatégorielles (au total 274, cf. annexe B.3), nous avons

mis en place une méthode de désambiguïsation des têtes déverbales que nous avons nommée

méthode fréquentielle.

Elle repose sur un test qui permet d’évaluer la probabilité d’application d’une certaine catégorie

sémantique Snomed parmi plusieurs catégories qui sont associées à une tête ambigüe. Ce test

est basé sur le décompte du nombre de termes Snomed commençant par une tête ambigüe,

et pour chaque catégorie sémantique associée à cette tête, le pourcentage de termes Snomed

correspondant est également calculé. En effectuant ce test, on fait l’hypothèse que la catégorie

sémantique qui enregistre le plus haut pourcentage (si celui-ci est ≥ 90) a la plus grande

probabilité de correspondre à l’interprétation qu’a le terme dans la phrase concernée. Pour cette

expérience, un pourcentage minimum de 90 a été considéré comme seuil.

Les données du tableau 3.6 permettent de mieux percevoir ce phénomène à travers l’exemple

de la têteimplantation. L’écart qui existe entre le nombre d’occurrences des catégoriesf et d

d’une part etp d’autre part, en relation avec le terme implantation, pousse à penser que cette

tête déverbale a une forte préférence pour le sens dynamique (qui correspond à la catégorie

Snomedp). Ce constat semble indiquer que le sens procédural est l’interprétation de prédilection

de la têteimplantation. Par conséquent, nous faisons l’hypothèse que la probabilité est grande

que cette acception intervienne fréquemment dans les différents emplois de cette tête. Ainsi,

pour une tête T donnée (tête multicatégorielle), qui a trois catégories Snomed possibles (a,

c,d), et qui apparaît à la tête de plusieurs termes dans la Snomed, la méthode fréquentielle

consiste à :

1. calculer le nombre total d’entrées Snomed ayant T comme tête.

2. calculer, pour chaque catégorie sémantique (a, cet d) que porte T, le pourcentage de

termes Snomed correspondant.

Si la catégorie la plus fréquente enregistre un pourcentage≥au seuil 90 (cf. annexe B.4, tableau

B.11), celle-ci domine et est donc considérée comme la catégorie par défaut du terme ambigu.

Par conséquent, lors de l’annotation sémantique, elle est associée aux termes commençant par

T

17

, si ceux-ci ne sont pas répertoriés dans la Snomed.

Bien évidemment, il existe des cas où la catégorie dominante enregistre une fréquence dont

le pourcentage est < 90. Au total, 231 têtes illustrent ce cas de figure (cf. annexe B.4, tableaux

B.12, B.13 et B.14). Pour certaines têtes, il y a pas de différence notable entre la fréquence des

interprétations possibles. Dans ces cas de figure, l’on a recours à des paramètres contextuels

pour la désambiguïsation (cf. section 3.2.3.2), sachant que la catégorie par défaut demeure

applicable en tant que dernière option pour attribuer une catégorie sémantique au terme.

La tête implantationpeut être utilisée pour illustrer notre méthode fréquentielle d’annotation.

Dans la Snomed, implantation apparaît en tête de 193 termes différents, qui rentrent dans trois

catégories réparties comme l’indique le tableau 3.6 :

Tab. 3.6– Exemple d’application de la méthode fréquentielle d’annotation

avec la tête implantation.

Cat Nb termes Snomed % Exemples

f 1 0.55 implantation dans l’utérus

d 3 1.55 implantation tissulaire chirurgicale

p 189 97,92 implantation dans la peau du tronc

Les données de la colonne pourcentage du tableau 3.6 montrent que la catégorieP est de loin

la plus fréquemment associée aux termes lorsqu’ils commencent par la têteimplantation. On

en déduit que cette catégorie a la plus grande probabilité de correspondre au terme ambigu

analysé dans le contexte concerné.

17. Sauf en cas d’exception où le contexte d’apparition du terme ambigu impose une autre catégorie sémantique (cf. section 3.2.3.2).

Le sémantisme du verbe pivot

À ce stade de notre chaîne de désambiguïsation des sens des mots, nous appliquons une

technique similaire à celle de Wagner et al. (2009), qui consiste à analyser la cooccurrence

verbe-argument en vue de la désambiguïsation. Les clarifications données à la section 3.2.3.1 sur

le sémantisme des noms déverbaux ont permis de mieux comprendre et aborder la dissemblance

entre des termes Snomed portant une tête morpho-syntaxique identique, mais appartenant à

des catégories sémantiques distinctes. Une illustration de ce phénomène est l’ambiguïtép vs. d

(oup) qui caractérise la plupart des têtes multicatégorielles déverbales de notre corpus. C’est

ce type d’ambiguïté qui oppose les termes dilatation de l’orifice urétérovésical et dilatation

de l’intestin, qui portent respectivement les catégories p et d. Une analyse des propriétés

aspectuelles des déverbaux en-ion, telle que faite à la section 3.2.3.1, permet de relever que

la tête dilatation porte la catégorie d (maladie) lorsqu’elle a une interprétation résultative,

tandis qu’elle porte la catégorieplorsqu’elle a une interprétation d’activité. En général, lorsqu’il

dénote une procédure, le nom déverbal fonctionne avec un verbe de réalisation. Parverbe de

réalisation, nous entendons les prédicats verbaux qui ont le sens de ‘faire’, dans le contexte

concerné. Les verbes comme faire, réaliser, pratiquer,exécuter, etc. constituent des exemples.

Cette dernière propriété est déterminante car elle permet de repérer et distinguer les termes

appartenant à la catégorie p (qui renvoient a priori à des actions) des autres types de termes

(d et f). D’ailleurs, elle rejoint deux tests qui sont généralement effectués pour identifier les

déverbaux exprimant une action dynamique (Haas & Huyghe, 2010) :

— la compatibilité des noms avec un verbe support : procéder à une simulation

18

, effectuer

une simulation, etc.

— l’aptitude des syntagmes verbaux formés à paraphraser les verbes d’activités

correspon-dants : effectuer une simulation revient à simuler ; tout comme effectuer une dilatation

revient à dilater.

Le premier test ci-dessus peut donc contribuer à la désambiguïsation des termes ambigus sur

la base de l’analyse des verbes auxquels ils sont rattachés. Le fait que nos exemples portent

uniquement sur les catégories p et d ne limite pas la méthode car le même procédé pourrait

s’appliquer à d’autres couples de catégories : (p et f, p et c,p et a, etc.).

La mise en application d’un tel test exige au préalable qu’une ressource verbale soit disponible

pour s’enquérir du type sémantique du verbe analysé. En effet, le seul moyen d’appliquer cette

méthode automatiquement est de disposer d’une ressource de verbes de réalisation. N’étant

pas au courant de l’existence d’une telle ressource, nous avons élaboré la nôtre, en nous

servant principalement de la ressource DES

19

(Dictionnaires Electronique des Synonymes)

18. Exemple proposé par (Haas & Huyghe, 2010).

et des données tirées des corpus. Les verbes concernés ne sont donc pas systématiquement

des synonymes de faire, mais des prédicats ayant un sens agentif. Pour identifier les verbes

candidats, un test a été effectué. Il consiste à s’assurer que dans une construction transitive

directe, le verbe puisse prendre un sujet humain et le terme procédure en complément, ou un

autre terme dénotant une procédure :exécuter une procédure,procéder à une procédure, etc.

Ce travail a débouché sur une ressource contenant environ 160 entrées verbales, ayant chacune

une signification relativement proche de ‘faire’ : appliquer, pratiquer, envisager et entreprendre

font partie de ces entrées (cf. annexe C.3).

Pour chaque terme ambigu, la méthode de désambiguïsation consiste à :

1. identifier le type de phrase dont il s’agit (phrase active) ;

2. s’assurer que le terme ambigu est bien un cod ;

3. questionner la ressource verbale afin de vérifier si le verbe auquel se rapporte ce terme

ambigu y figure, auquel cas, le terme ambigu se voit attribuer la catégorie p.

Cette méthode de désambiguïsation des termes s’est très vite montrée faible pour deux raisons.

Premièrement, son application est limitée aux phrases à la forme active et aux termes ambigus

jouant le rôle decod. Or très souvent, dans les corpus des experts et des étudiants en particulier,

les termes ambigus interviennent en tant que sujets dans des phrases passives. Dans certains

contextes, les termes ambigus peuvent être sujets de phrases à la forme active comme dans

l’exemple 6. La seconde faiblesse de ce test réside dans le fait qu’il ne prend pas considération

le contexte d’apparition du terme ambigu, et pourtant il s’agit d’une condition essentielle pour

la désambiguïsation du sens des mots.

6) Des réactions d’ossification perpendiculaires à la base interne réalisent l’aspect en « poil

de brosse » (complications qui survient chez l’enfant peu transfusé).

Ainsi, face à une phrase comme celle de l’exemple 6, ce test n’est pas susceptible de fonctionner.

Or dans cet emploi, la tête réaction qui a trois catégories possibles dans la Snomed (p, det f)

requiert une désambiguïsation.

La principale faiblesse de la méthode de désambiguïsation des termes ici présentée est donc le

fait qu’elle est uniquement axée sur le sémantisme du verbe et ne tient pas compte du contexte

syntaxico-sémantique qui accueille le terme ambigu.

Le contexte syntaxico-sémantique du terme ambigu

Les réflexions sur d’autres techniques possibles de désambiguïsation des termes ambigus ont

débouché sur une méthode basée sur la prise en considération des propriétés syntaxiques et

sémantiques qui caractérisent le contexte d’apparition du terme ambigu. D’un point de vue

linguistique, cette méthode de désambiguïsation rejoint les techniques de la WSD qui sont

très axées sur la prise en considération de paramètres contextuels dans la distinction entre les

différents sens d’un mot. Sur le plan sémantique, cette méthode repose principalement sur la

présence (parmi les catégories sémantiques du terme ambigu) de la catégorieP, qui constitue le

pivot de ce processus de désambiguïsation. En effet, notre méthode est fonctionnelle pour les cas

d’ambiguïté impliquant la catégorie P, qui correspond à une interprétation d’activité. Puisque

cette interprétation se démarque des autres, elle permet de faire un contraste avec les autres

acceptions du terme ambigu. Elle facilite ainsi le choix de la catégorie Snomed correspondant

au terme ambigu, selon les éléments qui constituent le contexte. De façon sommaire, voici

comment fonctionne la méthode :

(i) au départ, le terme ambigu a une catégorie Snomed par défaut. Elle correspond à celle

qui enregistre la plus grande fréquence dans la terminologie Snomed, comme nous l’avons

vu dans la méthode fréquentielle à travers l’exemple de la tête implantation (cf. 3.2.3.2).

Par exemple, la tête compression est associée à trois catégories dans la Snomed : d

(88,88% d’occurrences),f (7,47%) et p. La catégorie par défaut est donc d.

(ii) analyse du contexte d’apparition et identification des éléments qui induiraient une

autre interprétation du terme ambigu : (1) fonction syntaxique du terme à désambiguïser,

(2) rôle syntaxique et type sémantique des autres arguments, (3) type sémantique du

verbe.

7) Pour minimiser ces interruptions lors de la RCP, on ne vérifie plus la présence d’un

pouls et immédiatement après le choc et on reprend les compressions thoraciques.

(iii) a priori, le terme garde son interprétation par défaut sauf si, dans le contexte, figurent

certains des éléments identifiés à l’étape (ii), qui orientent vers une autre interprétation.

C’est ce qui s’observe à travers l’exemple 7. Puisque les conditions sont remplies, le terme

compressions thoraciques porte la catégorie p, qui est sa seconde interprétation.

— (1) la phrase à désambiguïser est à la forme active ;

— (2) le terme à désambiguïser est un cod ;

— (3) la phrase a un sujet (on) qui porte la catégoriej, en d’autres termes, il s’agit

d’un humain ;

— (4) le verbe est un verbe de réalisation ayant pour agent le sujet.

Comme on peut le constater, cette méthode d’annotation des termes ambigus est basée sur

un certain nombre d’informations contextuelles qui touchent la syntaxe et la sémantique de la

phrase :

— le type de phrase (active, passive) ;

— la fonction syntaxique du terme ambigu et des autres arguments du verbe (sujet, cod,

— la catégorie sémantique des autres éventuels arguments du verbe ;

— le type sémantique du verbe pivot dont le terme ambigu dépend : cette condition requiert

la ressource des verbes de réalisation utilisée dans le test précédent (cf. section 3.2.3.2).

Ces quatre informations permettent de mieux cerner le contexte syntaxico-sémantique au sein

duquel intervient le terme ambigu. L’analyse du contexte d’apparition du terme ambigu facilite

son interprétation et permet l’induction automatique d’une catégorie sémantique. En effet, en

fonction du rôle syntaxique et de la catégorie sémantique des arguments, certaines catégories

Snomed sont plus susceptibles d’intervenir que d’autres. Grâce à la ressource de verbes de

réalisation et aux heuristiques définies sur la base des 4 paramètres ci-dessus, le processus

d’annotation sémantique des termes ambigus se déroule comme suit.

Étant en présence d’un terme ambigu entre les catégories p et f (où fest la catégorie par

défaut) par exemple

20

, la désambiguïsation commence par l’identification du type de phrase

(active vs. passive, etc.). Dès qu’on sait de quel type de phrase il s’agit, on identifie ensuite la

fonction syntaxique du terme ambigu. S’il joue par exemple le rôle decoddans la phrase, alors

il faut ensuite vérifier la catégorie sémantique du sujet de la phrase. S’il s’agit d’un sujet de

type humain (j ou s), ou encore d’un sujet qui désigne un instrument (a), il faut procéder à

l’interrogation de la ressource des verbes de réalisation. Si le verbe analysé y apparaît, alors la

catégorie p sera associée au terme ambigu, mais si le verbe n’apparaît pas dans la ressource,

alors il garde sa catégorie par défaut (dans le cas présent, f). Si par contre p est la catégorie

par défaut du terme et que toutes les conditions sur les critères contextuels sont remplies, le

terme gardera sa catégorie par défaut, ceci même si le verbe n’existe pas dans la ressource

verbale. Nous procédons ainsi parce que nous sommes consciente du fait que notre ressource

des verbes de réalisation n’est pas exhaustive. Elle ne couvre sans doute pas tous les prédicats

verbaux de la langue française qui rentrent dans cette catégorie.

Un autre cas de figure est celui des phrases passives. Si le terme ambigu est le sujet d’une

phrase passive, si le verbe est présent dans la ressource verbale et qu’il a accessoirement un

complément d’agent ou non, alors le terme ambigu est catégorisé P, comme dans la phrase

suivante : la destruction_p est opérée par le cathéter d’ablation [...]. Le terme destruction est

catégorisé p et nonf.

Dans une phrase pronominale réflexive, si la tête déverbale ambigüe joue le rôle de sujet dans

un cas d’ambiguïté entrep et fpar exemple, la catégorie p sera retenue si le verbe apparaît

pas dans la ressource des verbes de réalisation : l’ablation_p se fait par radiofréquence, l’abord

est veineux ou artériel.

La désambiguïsation automatique des termes dont la tête déverbale n’est pas associée à un

20. Ce test prend en considération toutes les combinaisons de catégories impliquant la catégoriep:petd,p eta,pett, etc.

sens d’activité (c.-à-d. à la catégoriep) n’est pas une tâche évidente ; par conséquent, elle a

été principalement basée sur la fréquence. Plus précisément, le terme ambigu est associé à la

catégorie qui couvre la majorité de ses apparitions dans la Snomed. Supposons par exemple,

qu’au cours du processus d’annotation sémantique, l’un des termes délétion d’un chromosome

entier (d) et délétion de l’antigène (f) doive être annoté. Sachant que l’induction automatique

de la catégorie des termes ambigus entre les interprétationsdetfest difficilement réalisable par

notre système automatique, le terme ambigu se verra attribuer la catégorie la plus fréquemment

employée (dans Snomed) avec la tête délétion.

L’application de cette méthode de désambiguïsation nous a permis d’identifier quelques

lacunes qui seront présentées dans les résultats de l’annotation sémantique (cf. chapitre 4,

section 3.2.3.3).