3.2 Annotation des corpus et acquisition des pss
3.2.3 Traitement des têtes multicatégorielles
3.2.3.1 Evaluation des têtes multicatégorielles
Cette évaluation des têtes multicatégorielles
13consiste à compter toutes les entrées simples de
la Snomed, qui jouent le rôle de têtes morpho-syntaxiques d’au moins deux termes complexes
Snomed. Ce calcul prend également en compte les têtes morpho-syntaxiques de termes Snomed
qui ne sont pas systématiquement enregistrées dans la terminologie en tant qu’entrées simples.
À titre d’illustration, le terme localisation n’apparaît pas en tant qu’entrée simple dans la
nomenclature Snomed, mais il est la tête morpho-syntaxique de plusieurs termes complexes
Snomed qui se répartissent en deux catégories (f et p), par conséquent, il est considéré comme
une tête multicatégorielle. La généralisation de cette analyse est passée par l’extraction et le
décompte automatique de toutes les occurrences des termes têtes de la Snomed, en enregistrant
les catégories sémantiques associées à chaque occurrence. La liste obtenue a subi une seconde
analyse automatique au cours de laquelle les têtes intervenant avec différentes catégories
sémantiques ont été identifées et recherchées parmi les entrées simples de la terminologie
Snomed. Ainsi, pour chaque tête multicatégorielle de la Snomed, le nombre de catégories
sémantiques repérées, ainsi que leurs nombres d’occurrences, sont connus.
La quantification des têtes multicatégorielles s’est avérée révélatrice et nécessaire car d’après
les statistiques, on dénombre au total 1075 têtes multicatégorielles dans la terminologie Snomed,
parmi lesquelles 274 (c.-à-d. 25,48%, cf. annexe B.3) sont des noms déverbaux
14se terminant
par l’un des suffixes suivants : -ion, -ment, -age, et -eur. Ce constat est intéressant, d’autant
plus qu’il fournit une piste d’explication du phénomène de variation de catégories sémantiques
qui caractérisent les têtes multicatégorielles. En effet, comme il a été expliqué à la section
1.3.2.2 du chapitre 1, en parlant du réseau lexical, les noms déverbaux peuvent avoir plus d’une
12. En effet, il pourrait s’agir d’un phénomène négligeable, si par exemple le nombre de têtes multicatégorielles se montrait insignifiant.
13. Pour circonscrire cette évaluation, nous avons uniquement considéré les têtes morpho-syntaxiques qui ont au moins une occurrence dans notre corpus.
interprétation. Ils peuvent renvoyer soit au procès qu’exprime la base verbale (c.-à-d. avoir un
sens d’activité), soit avoir un sens résultatif, en renvoyant au résultat de l’action que dénote le
verbe. En fonction de la suffixation qui est la sienne, un nom déverbal peut également désigner
divers types d’actants du verbe de base : l’agent (-eur), l’instrument (-oir), le moyen, etc.
(Villoing & Namer, 2008).
D’après la littérature, de nombreux noms liés à des verbes d’activités ont pour fonction
de désigner des agents ou des instruments. Ces déverbaux ne décrivent ni des actions ni des
états, et ne présentent pas les traits aspectuels de leurs bases verbales (Haas & Huyghe,
2010). Cette règle, qui s’applique plus particulièrement aux déverbaux en -eur, se vérifie dans
la classification Snomed, où certaines têtes déverbales en-eur sont ambigües entre plusieurs
catégories sémantiques qui désignent divers types d’entités correspondant aux sens agentif et
instrumental : un métier (j : traceur appareilleur de pierres, régulateur de trains), un statut
social (s: donneur de tissu), un agent de type instrument (a: analyseur d’oxygène, stimulateur
cardiaque, traceur de courbes), un produit chimique (c : stimulateur de croissance animale,
régulateur de croissance des plantes). Toutefois, au-delà de ces deux interprétations, les termes
en -eur de la Snomed désignent dans quelques cas rares, d’autres types d’entités qui ne rentrent
pas forcément dans les interprétations mentionnées ci-dessus (agentive et instrumentale). Il
s’agit des classes fonction de l’organisme (f :analyseur auditif, stimulateur utérin, régulateur
du complément, récepteur de virus), et partie du corps (t :récepteur LTH), dont les termes ne
présentent pas a priori des propriétés agentives et/ou instrumentales (cf. chapitre 2, section
2.2.2 pour en savoir plus sur les diférentes catégories Snomed).
Quant aux têtes qui portent les trois autres suffixes (-ion,-ment, et-age), comme l’expliquent
Haas & Huyghe (2010), leurs interprétations varient d’un terme à l’autre, selon qu’ils gardent
fidèlement les propriétés aspectuelles (accomplissement, achèvement, etc (Grimshaw, 1990))
du verbe de base ou non. Certains ont un sens dynamique (activité), tandis que d’autres ont
un sens plus concret et désignent l’objet résultant de l’activité que dénote le verbe de base.
Certaines de ces nominalisations polysémiques gardent les deux acceptions qui se distinguent
selon leurs contextes d’emploi. Les têtes déverbales d’activités se répartissent en différents types :
les activités véritables, dynamiques (noms massifs), et les évènements (noms comptables) qui
correspondent à la classe des noms d’événements dont parle Grimshaw (1990). Certains noms
d’activités polysémiques tendent à avoir une double interprétation. Cette caractéristique fait
d’eux des déverbaux spéciaux que Haas & Huyghe (2010) nomment lesN-Vact bisémiques c.-à-d.
les déverbaux d’action bisémiques. Dans la Snomed, les têtes déverbales en -ion, -ment, et -age
rentrent dans cette catégorie. Ils oscillent principalement entre trois catégories sémantiques
15:
15. Le fait que nous nous focalisions sur les principales catégories sémantiques n’exclut en rien la possibilité de rencontrer dans d’autres classes Snomed des termes se terminant par les suffixes ici mentionnés.
procédure (p : interruption de grossesse, isolement d’une anse iléale, relâchement du tronc
cœliaque, remplissage de dents flottantes, blocage d’un nerf intercostal), maladie (d :délétion
d’un chromosome entier, interruption de la croissance, relâchement du diaphragme, relâchement
diaphragmatique, blocage congénital) et fonction de l’organisme (f:délétion clonale, délétion de
l’antigène, interruption de phonation, isolement sensoriel, relâchement musculaire, relâchement
du sphincter, remplissage de l’estomac, blocage mental). Très souvent, dans la terminologie
Snomed, il arrive que l’une de ces interprétations l’emporte de loin sur les autres. Par exemple,
dérivation apparaît 69 fois à la tête de différents termes dans la Snomed. Ces 69 occurrences
se répartissent autour de 3 catégories sémantiques : d (1), f (3) et p (65 c.-à-d. 94,20 %
d’occurrences). Il est indiscutable que l’interprétation procédurale prévaut sur les autres, vu sa
fréquence dominante dans la ressource.
Les explications ci-dessus signalent que les propriétés aspectuelles des têtes déverbales sont
grandement impliquées dans le phénomène de variation de catégories des termes commençant par
une tête multicatégorielle
16. Nous retenons également que parmi leurs différentes interprétations,
les têtes déverbales tendent à avoir un sens de prédilection qui se démarque dans la terminologie
Snomed par sa forte fréquence.
L’analyse des têtes multicatégorielles a également montré que les termes commençant par
des têtes déverbales font partie des entités nominales les plus fréquentes dans le corpus. Les
déverbauxtraitement et augmentation font partie, entre autres, des têtes déverbales les plus
fréquentes du corpus des experts, avec respectivement 261 et 105 occurrences, il s’agit de
fréquences bien élevées qui signalent l’importance de ces têtes et par conséquent, celle des
termes qu’elles caractérisent. D’après notre évaluation, la catégorie la plus fréquente dans les
différents cas d’ambiguïté estp, celle qui regroupe les termes référant aux procédures c.-à-d.
les pratiques et activités médicales. Cette catégorie caractérise exactement 347/1075 têtes
multicatégorielles (soit 32,5%, environ 1/3), dont 166 cas sont des déverbaux, représentant
60,58% (sur un total de 274 déverbaux). Ces nombres signalent que la catégoriep caractérise
plus de la moitié des têtes déverbales ambigües. Elle est suivie par les catégories f et d qui
font elles aussi l’objet de nombreuses ambiguïtés. Ces deux catégories sont très souvent en
conflit car elles cooccurrent avec différentes têtes multicatégorielles. On dénombre exactement
150 têtes déverbales ambigües entre l’interprétation f et l’interprétation d. Ce type de double
interprétation fait partie des cas de polysémies dont la désambiguïsation est difficilement
réalisable de façon automatique. Le tableau 3.5 fournit quelques exemples de termes illustrant
ce type d’ambiguïté :
16. Cependant, de même que cette observation permet de comprendre la source des ambiguïtés, elle signale déjà les difficultés que ce phénomène pourrait causer dans le processus d’annotation automatique des corpus. L’aspect étant une propriété qui relève de l’interprétation, il n’est pas perceptible sur la forme graphique des termes (du moins pour le français) et est par conséquent difficilement prédictible.