Analyse de l’influence de chaque facteur de pondération sur le calcul de

Chapitre 4. Extraction automatique d’informations pertinentes des définitions

57,24% 39,19% 3,57% 53,16% 42,32% 4,52% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00%

CC='Oui' CP='Oui' CC='Non' et CP='Non'

TF-DF TD-IDF

0% 20% 40% 60% 80% 100% CC='Oui' CP='Oui' CC='Non' et CP='Non' 72,53% 24,26% 3,21% 83,81% 12,97% 3,22% TF-DF-ITPOS TD-IDF-ITPOS

Pour s’en rendre compte, il suffit d’effectuer une interrogation simple sur ces entrées.

86,24% 10,51% 3,25% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% 100,00%

CC='Oui' CP='Oui' CC='Non' et CP='Non'

Analyse de l’influence de chaque facteur de pondération sur le calcul de

Chapitre 4. Extraction automatique d’informations pertinentes des définitions

4.4. Analyse de l’influence de chaque facteur de pondération sur le calcul de

Les analyses effectuées ont comme but d’une part, de montrer l’importance de

chaque facteur de pondération et d’autre part, de déterminer un schéma de pondération

finale des noms dans les définitions lexicographiques.

Dans un premier temps, nous combinons la pondération locale (TF) et globale (TD)

en proposant une formule de pondération (4.4.) et comparons les résultats avec la

pondération TD-IDF.

138

Figure 4.5. Précision pour des noms de poids maximal obtenue avec la formule de

pondération TF-DF proposée et TD-IDF

Les résultats présentés dans la figure 4.5. montrent que la précision avec laquelle la

pondération TF-DF détermine les noms de poids maximal situés dans les composantes

centrales du projet Definiens, est plus élevée de 4,08 % que celles obtenues avec la

pondération TD-IDF. Ainsi, nous pouvons affirmer que dans un dictionnaire les noms

fréquents dans les définitions pour un domaine donné sont plus discriminants que ceux

qui apparaissent moins fréquemment.

Toutefois, nous voyons qu’avec la pondération TF-DF 39,19 % des noms de poids

maximal ont été déterminés dans les composantes périphériques. En même temps,

3,57 % des noms de poids maximal n’ont été identifiés ni dans les composantes

centrales (CC) ni dans les composantes périphériques (CP). Ceci est dû au fait que, dans

le projet Definiens, certaines définitions des lexèmes n’ont pas été annotées. Nous

tenons à préciser ici qu’à cause des différences de modèles de données de Definiens et

de SEMEME l’évaluation n’a pas été effectuée pour chaque définition distincte, mais

pour l’ensemble des définitions des lexèmes d’un vocable du TLFi. Étant donné qu’un

même nom peut être identifié dans une définition dans les CC et dans une autre dans les

CP, lors du calcul de la précision nous l’avons considéré plutôt comme CC.

Pour améliorer les résultats de la précision calculée avec la pondération TF-DF nous

ajoutons à celle-ci la pondération par position ITPOS. Nous comparons les résultats

avec la formule de pondération TD-IDF à laquelle nous ajoutons aussi la pondération

par position :

139

!"−!"−!"#$% =!" !,! ∗!" !,! ∗!"#$%(!,!ℎ) (4.5.)

!"−!"#−!"#$%= !" !,! ∗!!" !,! ∗!"#$%(!,!ℎ) (4.6.)

Figure 4.6. Précision pour des noms de poids maximal obtenue avec la formule de

pondération TF-DF-ITPOS et TD-IDF-ITPOS

En analysant les résultats présentés dans la figure 4.6. avec ceux de la figure 4.5.

nous remarquons que la prise en compte de la pondération ITPOS permet d’améliorer

les résultats, la meilleure précision étant toutefois obtenue avec la pondération

TD-IDF-ITPOS. Ces résultats s’expliquent par le fait que dans la pondération TF-DF-ITPOS

c’est la pondération globale qui fait baisser la précision, car en analysant les résultats

nous constatons que, dans un domaine donné, les noms de poids maximal sont parfois

les noms les plus spécifiques pour un domaine donné. Ils ne représentent pas toujours

de bons candidats hyperonymes des lexèmes du TLFi. C’est pour cette raison que ces

noms sont identifiés dans les CP (ex. le nom instrument pour le lexème PISTON dans le

domaine musique). Ainsi, nous pouvons affirmer que dans un dictionnaire les noms

fréquents dans un domaine donné ne sont pas toujours classifiants. C’est dans le cas de

la pondération TD-IDF-ITPOS que la meilleure précision est obtenue, car la

pondération TD-IDF donne moins de poids aux termes les plus fréquents et par

conséquent c’est la pondération par position qui domine. Reste à déterminer maintenant

si ce n’est pas la pondération par position qui joue en fait le rôle plus important.

140

Pour prouver l’hypothèse que la position du nom dans la définition est le critère sur

lequel on peut s’appuyer lors de l’extraction d’informations pertinentes des définitions

nous calculons la précision pour la pondération par position seule (ITPOS).

Figure 4.7. Précision pour des noms de poids maximal obtenue avec la formule de

pondération ITPOS

Ainsi, nous voyons qu’avec la seule pondération par position la précision augmente

avec 2,43 % par rapport à la précision obtenue avec la pondération TD-IDF-ITPOS. Ce

fait permet de valider l’hypothèse que, dans des définitions lexicographiques des

vocables nominaux, la position des noms joue un rôle plus important que leurs

fréquences dans l’ensemble de définitions pour un domaine donné. Dans ces cas

seulement 10,51 % des noms de poids maximal ont été déterminés dans une CP. L’une

des causes étant la structure de certaines définitions. En effet, les vocables de ces

lexèmes peuvent appartenir à deux catégories, nominale et adjectivale, qui ne sont pas

distinguées pour certaines vedettes du TLFi

(ex. CLINIQUE

, adj. et subst. fém.,

ACIDE

, adj. et subst. et ACIDE

, adj. et subst. masc., ACTUEL, ELLE, adj. et subst.,

ASIATIQUE, adj. et subst., etc.). Les définitions des adjectifs sont plus complexes que

celles des substantifs et ne suivent pas le schéma hyperonyme + spécificités ou ne

l’intègrent que partiellement (en réutilisant les définitions nominales). Les principales

structures possibles sont : Qui +Verbe +X , Celui +qui +Verbe, Adj. +Nom. C’est

pourquoi dans ce type de structures, les noms de poids maximal sont identifiés dans les

141

CP. Par exemple, dans la définition structurée de Definiens </CC> Qui est provoqué

<CP> par les boissons alcooliques </CP> du lexème ALCOOLIQUE, le nom boissons