Chapitre 4. Extraction automatique d’informations pertinentes des définitions
4.4. Analyse de l’influence de chaque facteur de pondération sur le calcul de
Les analyses effectuées ont comme but d’une part, de montrer l’importance de
chaque facteur de pondération et d’autre part, de déterminer un schéma de pondération
finale des noms dans les définitions lexicographiques.
Dans un premier temps, nous combinons la pondération locale (TF) et globale (TD)
en proposant une formule de pondération (4.4.) et comparons les résultats avec la
pondération TD-IDF.
138
Figure 4.5. Précision pour des noms de poids maximal obtenue avec la formule de
pondération TF-DF proposée et TD-IDF
Les résultats présentés dans la figure 4.5. montrent que la précision avec laquelle la
pondération TF-DF détermine les noms de poids maximal situés dans les composantes
centrales du projet Definiens, est plus élevée de 4,08 % que celles obtenues avec la
pondération TD-IDF. Ainsi, nous pouvons affirmer que dans un dictionnaire les noms
fréquents dans les définitions pour un domaine donné sont plus discriminants que ceux
qui apparaissent moins fréquemment.
Toutefois, nous voyons qu’avec la pondération TF-DF 39,19 % des noms de poids
maximal ont été déterminés dans les composantes périphériques. En même temps,
3,57 % des noms de poids maximal n’ont été identifiés ni dans les composantes
centrales (CC) ni dans les composantes périphériques (CP). Ceci est dû au fait que, dans
le projet Definiens, certaines définitions des lexèmes n’ont pas été annotées. Nous
tenons à préciser ici qu’à cause des différences de modèles de données de Definiens et
de SEMEME l’évaluation n’a pas été effectuée pour chaque définition distincte, mais
pour l’ensemble des définitions des lexèmes d’un vocable du TLFi. Étant donné qu’un
même nom peut être identifié dans une définition dans les CC et dans une autre dans les
CP, lors du calcul de la précision nous l’avons considéré plutôt comme CC.
Pour améliorer les résultats de la précision calculée avec la pondération TF-DF nous
ajoutons à celle-ci la pondération par position ITPOS. Nous comparons les résultats
avec la formule de pondération TD-IDF à laquelle nous ajoutons aussi la pondération
par position :
57,24% 39,19% 3,57% 53,16% 42,32% 4,52% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00%CC='Oui' CP='Oui' CC='Non' et CP='Non'
TF-DF TD-IDF
139
!"−!"−!"#$% =!" !,! ∗!" !,! ∗!"#$%(!,!ℎ) (4.5.)
!"−!"#−!"#$%= !" !,! ∗!!" !,! ∗!"#$%(!,!ℎ) (4.6.)
Figure 4.6. Précision pour des noms de poids maximal obtenue avec la formule de
pondération TF-DF-ITPOS et TD-IDF-ITPOS
En analysant les résultats présentés dans la figure 4.6. avec ceux de la figure 4.5.
nous remarquons que la prise en compte de la pondération ITPOS permet d’améliorer
les résultats, la meilleure précision étant toutefois obtenue avec la pondération
TD-IDF-ITPOS. Ces résultats s’expliquent par le fait que dans la pondération TF-DF-ITPOS
c’est la pondération globale qui fait baisser la précision, car en analysant les résultats
nous constatons que, dans un domaine donné, les noms de poids maximal sont parfois
les noms les plus spécifiques pour un domaine donné. Ils ne représentent pas toujours
de bons candidats hyperonymes des lexèmes du TLFi. C’est pour cette raison que ces
noms sont identifiés dans les CP (ex. le nom instrument pour le lexème PISTON dans le
domaine musique). Ainsi, nous pouvons affirmer que dans un dictionnaire les noms
fréquents dans un domaine donné ne sont pas toujours classifiants. C’est dans le cas de
la pondération TD-IDF-ITPOS que la meilleure précision est obtenue, car la
pondération TD-IDF donne moins de poids aux termes les plus fréquents et par
conséquent c’est la pondération par position qui domine. Reste à déterminer maintenant
si ce n’est pas la pondération par position qui joue en fait le rôle plus important.
0% 20% 40% 60% 80% 100% CC='Oui' CP='Oui' CC='Non' et CP='Non' 72,53% 24,26% 3,21% 83,81% 12,97% 3,22% TF-DF-ITPOS TD-IDF-ITPOS
140
Pour prouver l’hypothèse que la position du nom dans la définition est le critère sur
lequel on peut s’appuyer lors de l’extraction d’informations pertinentes des définitions
nous calculons la précision pour la pondération par position seule (ITPOS).
Figure 4.7. Précision pour des noms de poids maximal obtenue avec la formule de
pondération ITPOS
Ainsi, nous voyons qu’avec la seule pondération par position la précision augmente
avec 2,43 % par rapport à la précision obtenue avec la pondération TD-IDF-ITPOS. Ce
fait permet de valider l’hypothèse que, dans des définitions lexicographiques des
vocables nominaux, la position des noms joue un rôle plus important que leurs
fréquences dans l’ensemble de définitions pour un domaine donné. Dans ces cas
seulement 10,51 % des noms de poids maximal ont été déterminés dans une CP. L’une
des causes étant la structure de certaines définitions. En effet, les vocables de ces
lexèmes peuvent appartenir à deux catégories, nominale et adjectivale, qui ne sont pas
distinguées pour certaines vedettes du TLFi
66(ex. CLINIQUE
1, adj. et subst. fém.,
ACIDE
1, adj. et subst. et ACIDE
2, adj. et subst. masc., ACTUEL, ELLE, adj. et subst.,
ASIATIQUE, adj. et subst., etc.). Les définitions des adjectifs sont plus complexes que
celles des substantifs et ne suivent pas le schéma hyperonyme + spécificités ou ne
l’intègrent que partiellement (en réutilisant les définitions nominales). Les principales
structures possibles sont : Qui +Verbe +X , Celui +qui +Verbe, Adj. +Nom. C’est
pourquoi dans ce type de structures, les noms de poids maximal sont identifiés dans les
66
Pour s’en rendre compte, il suffit d’effectuer une interrogation simple sur ces entrées.
86,24% 10,51% 3,25% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% 100,00%
CC='Oui' CP='Oui' CC='Non' et CP='Non'