Evaluation des têtes multicatégorielles

3.2 Annotation des corpus et acquisition des pss

3.2.3 Traitement des têtes multicatégorielles

3.2.3.1 Evaluation des têtes multicatégorielles

Cette évaluation des têtes multicatégorielles

consiste à compter toutes les entrées simples de

la Snomed, qui jouent le rôle de têtes morpho-syntaxiques d’au moins deux termes complexes

Snomed. Ce calcul prend également en compte les têtes morpho-syntaxiques de termes Snomed

qui ne sont pas systématiquement enregistrées dans la terminologie en tant qu’entrées simples.

À titre d’illustration, le terme localisation n’apparaît pas en tant qu’entrée simple dans la

nomenclature Snomed, mais il est la tête morpho-syntaxique de plusieurs termes complexes

Snomed qui se répartissent en deux catégories (_f et _p), par conséquent, il est considéré comme

une tête multicatégorielle. La généralisation de cette analyse est passée par l’extraction et le

décompte automatique de toutes les occurrences des termes têtes de la Snomed, en enregistrant

les catégories sémantiques associées à chaque occurrence. La liste obtenue a subi une seconde

analyse automatique au cours de laquelle les têtes intervenant avec différentes catégories

sémantiques ont été identifées et recherchées parmi les entrées simples de la terminologie

Snomed. Ainsi, pour chaque tête multicatégorielle de la Snomed, le nombre de catégories

sémantiques repérées, ainsi que leurs nombres d’occurrences, sont connus.

La quantification des têtes multicatégorielles s’est avérée révélatrice et nécessaire car d’après

les statistiques, on dénombre au total 1075 têtes multicatégorielles dans la terminologie Snomed,

parmi lesquelles 274 (c.-à-d. 25,48%, cf. annexe B.3) sont des noms déverbaux

se terminant

par l’un des suffixes suivants : -ion, -ment, -age, et -eur. Ce constat est intéressant, d’autant

plus qu’il fournit une piste d’explication du phénomène de variation de catégories sémantiques

qui caractérisent les têtes multicatégorielles. En effet, comme il a été expliqué à la section

1.3.2.2 du chapitre 1, en parlant du réseau lexical, les noms déverbaux peuvent avoir plus d’une

12. En effet, il pourrait s’agir d’un phénomène négligeable, si par exemple le nombre de têtes multicatégorielles se montrait insignifiant.

13. Pour circonscrire cette évaluation, nous avons uniquement considéré les têtes morpho-syntaxiques qui ont au moins une occurrence dans notre corpus.

interprétation. Ils peuvent renvoyer soit au procès qu’exprime la base verbale (c.-à-d. avoir un

sens d’activité), soit avoir un sens résultatif, en renvoyant au résultat de l’action que dénote le

verbe. En fonction de la suffixation qui est la sienne, un nom déverbal peut également désigner

divers types d’actants du verbe de base : l’agent (-eur), l’instrument (-oir), le moyen, etc.

(Villoing & Namer, 2008).

D’après la littérature, de nombreux noms liés à des verbes d’activités ont pour fonction

de désigner des agents ou des instruments. Ces déverbaux ne décrivent ni des actions ni des

états, et ne présentent pas les traits aspectuels de leurs bases verbales (Haas & Huyghe,

2010). Cette règle, qui s’applique plus particulièrement aux déverbaux en -eur, se vérifie dans

la classification Snomed, où certaines têtes déverbales en-eur sont ambigües entre plusieurs

catégories sémantiques qui désignent divers types d’entités correspondant aux sens agentif et

instrumental : un métier (_j : traceur appareilleur de pierres, régulateur de trains), un statut

social (_s: donneur de tissu), un agent de type instrument (_a: analyseur d’oxygène, stimulateur

cardiaque, traceur de courbes), un produit chimique (_c : stimulateur de croissance animale,

régulateur de croissance des plantes). Toutefois, au-delà de ces deux interprétations, les termes

en -eur de la Snomed désignent dans quelques cas rares, d’autres types d’entités qui ne rentrent

pas forcément dans les interprétations mentionnées ci-dessus (agentive et instrumentale). Il

s’agit des classes fonction de l’organisme (_f :analyseur auditif, stimulateur utérin, régulateur

du complément, récepteur de virus), et partie du corps (_t :récepteur LTH), dont les termes ne

présentent pas a priori des propriétés agentives et/ou instrumentales (cf. chapitre 2, section

2.2.2 pour en savoir plus sur les diférentes catégories Snomed).

Quant aux têtes qui portent les trois autres suffixes (-ion,-ment, et-age), comme l’expliquent

Haas & Huyghe (2010), leurs interprétations varient d’un terme à l’autre, selon qu’ils gardent

fidèlement les propriétés aspectuelles (accomplissement, achèvement, etc (Grimshaw, 1990))

du verbe de base ou non. Certains ont un sens dynamique (activité), tandis que d’autres ont

un sens plus concret et désignent l’objet résultant de l’activité que dénote le verbe de base.

Certaines de ces nominalisations polysémiques gardent les deux acceptions qui se distinguent

selon leurs contextes d’emploi. Les têtes déverbales d’activités se répartissent en différents types :

les activités véritables, dynamiques (noms massifs), et les évènements (noms comptables) qui

correspondent à la classe des noms d’événements dont parle Grimshaw (1990). Certains noms

d’activités polysémiques tendent à avoir une double interprétation. Cette caractéristique fait

d’eux des déverbaux spéciaux que Haas & Huyghe (2010) nomment lesN-Vact bisémiques c.-à-d.

les déverbaux d’action bisémiques. Dans la Snomed, les têtes déverbales en -ion, -ment, et -age

rentrent dans cette catégorie. Ils oscillent principalement entre trois catégories sémantiques

¹⁵

:

15. Le fait que nous nous focalisions sur les principales catégories sémantiques n’exclut en rien la possibilité de rencontrer dans d’autres classes Snomed des termes se terminant par les suffixes ici mentionnés.

procédure (_p : interruption de grossesse, isolement d’une anse iléale, relâchement du tronc

cœliaque, remplissage de dents flottantes, blocage d’un nerf intercostal), maladie (_d :délétion

d’un chromosome entier, interruption de la croissance, relâchement du diaphragme, relâchement

diaphragmatique, blocage congénital) et fonction de l’organisme (_f:délétion clonale, délétion de

l’antigène, interruption de phonation, isolement sensoriel, relâchement musculaire, relâchement

du sphincter, remplissage de l’estomac, blocage mental). Très souvent, dans la terminologie

Snomed, il arrive que l’une de ces interprétations l’emporte de loin sur les autres. Par exemple,

dérivation apparaît 69 fois à la tête de différents termes dans la Snomed. Ces 69 occurrences

se répartissent autour de 3 catégories sémantiques : _d (1), _f (3) et _p (65 c.-à-d. 94,20 %

d’occurrences). Il est indiscutable que l’interprétation procédurale prévaut sur les autres, vu sa

fréquence dominante dans la ressource.

Les explications ci-dessus signalent que les propriétés aspectuelles des têtes déverbales sont

grandement impliquées dans le phénomène de variation de catégories des termes commençant par

une tête multicatégorielle

. Nous retenons également que parmi leurs différentes interprétations,

les têtes déverbales tendent à avoir un sens de prédilection qui se démarque dans la terminologie

Snomed par sa forte fréquence.

L’analyse des têtes multicatégorielles a également montré que les termes commençant par

des têtes déverbales font partie des entités nominales les plus fréquentes dans le corpus. Les

déverbauxtraitement et augmentation font partie, entre autres, des têtes déverbales les plus

fréquentes du corpus des experts, avec respectivement 261 et 105 occurrences, il s’agit de

fréquences bien élevées qui signalent l’importance de ces têtes et par conséquent, celle des

termes qu’elles caractérisent. D’après notre évaluation, la catégorie la plus fréquente dans les

différents cas d’ambiguïté est_p, celle qui regroupe les termes référant aux procédures c.-à-d.

les pratiques et activités médicales. Cette catégorie caractérise exactement 347/1075 têtes

multicatégorielles (soit 32,5%, environ 1/3), dont 166 cas sont des déverbaux, représentant

60,58% (sur un total de 274 déverbaux). Ces nombres signalent que la catégorie_p caractérise

plus de la moitié des têtes déverbales ambigües. Elle est suivie par les catégories _f et _d qui

font elles aussi l’objet de nombreuses ambiguïtés. Ces deux catégories sont très souvent en

conflit car elles cooccurrent avec différentes têtes multicatégorielles. On dénombre exactement

150 têtes déverbales ambigües entre l’interprétation _f et l’interprétation _d. Ce type de double

interprétation fait partie des cas de polysémies dont la désambiguïsation est difficilement

réalisable de façon automatique. Le tableau 3.5 fournit quelques exemples de termes illustrant

ce type d’ambiguïté :

16. Cependant, de même que cette observation permet de comprendre la source des ambiguïtés, elle signale déjà les difficultés que ce phénomène pourrait causer dans le processus d’annotation automatique des corpus. L’aspect étant une propriété qui relève de l’interprétation, il n’est pas perceptible sur la forme graphique des termes (du moins pour le français) et est par conséquent difficilement prédictible.

Tab. 3.5 ^{– Cas d’ambiguïté des termes portant les catégories} D ^et F^.

suff./cat _d _f

-ion délétion d’un chromosome entier délétion de l’antigène

interruption de la croissance interruption de phonation

-ment relâchement du diaphragme relâchement du sphincter

-age blocage congénital blocage mental

L’analyse des exemples que propose le tableau 3.5 permet de constater que les termes ambigus

entre les catégories _D et _F dans la Snomed, partagent une grande similarité sur les plans

morpho-syntaxique et sémantique. En effet, les patrons syntaxiques sous-jacents, en l’occurrence

N prep N (Nom déverbal-préposition-Nom), et NAdj (Nom-Adjectif) sont quasiment identiques

pour les deux types de termes. De plus, dans les exemples du tableau 3.5, ces patrons présentent

également une grande proximité sur le plan sémantique. Les noms qui jouent le rôle de

compléments des déverbaux désignent des entités qui renvoient soit à une partie du corps, soit

à une fonction de l’organisme, et les adjectifs utilisés caractérisent eux aussi des propriétés

physiologiques de l’organisme. Ce parallélisme traduit la proximité sémantique qui caractérise les

termes des catégories_Det_Fde la Snomed. L’analyse ci-dessus indique que la barrière entre ces

deux catégories de termes Snomed n’est pas étanche. Par conséquent, la désambiguïsation des

termes ayant ces deux interprétations est susceptible de requérir la prise en compte de données

extra-linguistiques. Ce constat renvoie à la question de degré d’ambiguïté (entre des termes),

qui constitue un critère fondamental dans les travaux de désambiguïsation du sens des mots

dans le domaine biomédical. Ce paramètre permet de comprendre pourquoi la désambiguïsation

de certains sens des mots est plus facile que d’autres. (Alexopoulouet al., 2009) explique qu’en

biomédecine, il est plus facile de distinguer entre les emplois du terme anglais «Bank», en tant

que ‘bâtiment’ vs. ‘gène’, que de distinguer entre les emplois gène vs. protéine. Cet exemple

contribue à montrer que ce type de désambiguïsation est compliqué. Nous avons fait un constat

similaire en ce qui concerne la distinction entre les emplois_f et _d d’un terme médical.

L’analyse effectuée dans cette section nous a permis de mieux cerner les types d’ambiguïtés

qui caractérisent les têtes multicatégorielles de la Snomed et de refléchir sur des méthodes

adéquates pour leur traitement. Plus précisément, les résultats de cette évaluation nous ont

permis d’envisager deux méthodes de traitement de l’ambiguïté terminologique dans la Snomed :

une méthode fréquentielle axée sur la probabilité (pour les ambiguïtés du type _D vs. _F) (cf.

section 3.2.3.2) et une méthode basée sur des heuristiques, plus adaptée pour les ambiguïtés

impliquant la catégorie_P (cf. section 3.2.3.2).

Dans le document Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes (Page 95-99)