• Aucun résultat trouvé

Chapitre 4. Extraction automatique d’informations pertinentes des définitions

4.4. Analyse de l’influence de chaque facteur de pondération sur le calcul de

Les analyses effectuées ont comme but d’une part, de montrer l’importance de

chaque facteur de pondération et d’autre part, de déterminer un schéma de pondération

finale des noms dans les définitions lexicographiques.

Dans un premier temps, nous combinons la pondération locale (TF) et globale (TD)

en proposant une formule de pondération (4.4.) et comparons les résultats avec la

pondération TD-IDF.

  138

Figure 4.5. Précision pour des noms de poids maximal obtenue avec la formule de

pondération TF-DF proposée et TD-IDF

Les résultats présentés dans la figure 4.5. montrent que la précision avec laquelle la

pondération TF-DF détermine les noms de poids maximal situés dans les composantes

centrales du projet Definiens, est plus élevée de 4,08 % que celles obtenues avec la

pondération TD-IDF. Ainsi, nous pouvons affirmer que dans un dictionnaire les noms

fréquents dans les définitions pour un domaine donné sont plus discriminants que ceux

qui apparaissent moins fréquemment.

Toutefois, nous voyons qu’avec la pondération TF-DF 39,19 % des noms de poids

maximal ont été déterminés dans les composantes périphériques. En même temps,

3,57 % des noms de poids maximal n’ont été identifiés ni dans les composantes

centrales (CC) ni dans les composantes périphériques (CP). Ceci est dû au fait que, dans

le projet Definiens, certaines définitions des lexèmes n’ont pas été annotées. Nous

tenons à préciser ici qu’à cause des différences de modèles de données de Definiens et

de SEMEME l’évaluation n’a pas été effectuée pour chaque définition distincte, mais

pour l’ensemble des définitions des lexèmes d’un vocable du TLFi. Étant donné qu’un

même nom peut être identifié dans une définition dans les CC et dans une autre dans les

CP, lors du calcul de la précision nous l’avons considéré plutôt comme CC.

Pour améliorer les résultats de la précision calculée avec la pondération TF-DF nous

ajoutons à celle-ci la pondération par position ITPOS. Nous comparons les résultats

avec la formule de pondération TD-IDF à laquelle nous ajoutons aussi la pondération

par position :

57,24% 39,19% 3,57% 53,16% 42,32% 4,52% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00%

CC='Oui' CP='Oui' CC='Non' et CP='Non'

TF-DF TD-IDF

  139

!"−!"−!"#$% =!" !,! ∗!" !,! ∗!"#$%(!,!ℎ) (4.5.)

 

!"−!"#−!"#$%= !" !,! ∗!!" !,! ∗!"#$%(!,!ℎ) (4.6.)

 

 

Figure 4.6. Précision pour des noms de poids maximal obtenue avec la formule de

pondération TF-DF-ITPOS et TD-IDF-ITPOS

En analysant les résultats présentés dans la figure 4.6. avec ceux de la figure 4.5.

nous remarquons que la prise en compte de la pondération ITPOS permet d’améliorer

les résultats, la meilleure précision étant toutefois obtenue avec la pondération

TD-IDF-ITPOS. Ces résultats s’expliquent par le fait que dans la pondération TF-DF-ITPOS

c’est la pondération globale qui fait baisser la précision, car en analysant les résultats

nous constatons  que, dans un domaine donné, les noms de poids maximal sont parfois

les noms les plus spécifiques pour un domaine donné. Ils ne représentent pas toujours

de bons candidats hyperonymes des lexèmes du TLFi. C’est pour cette raison que ces

noms sont identifiés dans les CP (ex. le nom instrument pour le lexème PISTON dans le

domaine musique). Ainsi, nous pouvons affirmer que dans un dictionnaire les noms

fréquents dans un domaine donné ne sont pas toujours classifiants. C’est dans le cas de

la pondération TD-IDF-ITPOS que la meilleure précision est obtenue, car la

pondération TD-IDF donne moins de poids aux termes les plus fréquents et par

conséquent c’est la pondération par position qui domine. Reste à déterminer maintenant

si ce n’est pas la pondération par position qui joue en fait le rôle plus important.

0% 20% 40% 60% 80% 100% CC='Oui' CP='Oui' CC='Non' et CP='Non' 72,53% 24,26% 3,21% 83,81% 12,97% 3,22% TF-DF-ITPOS TD-IDF-ITPOS

  140

Pour prouver l’hypothèse que la position du nom dans la définition est le critère sur

lequel on peut s’appuyer lors de l’extraction d’informations pertinentes des définitions

nous calculons la précision pour la pondération par position seule (ITPOS).

Figure 4.7. Précision pour des noms de poids maximal obtenue avec la formule de

pondération ITPOS

Ainsi, nous voyons qu’avec la seule pondération par position la précision augmente

avec 2,43 % par rapport à la précision obtenue avec la pondération TD-IDF-ITPOS. Ce

fait permet de valider l’hypothèse que, dans des définitions lexicographiques des

vocables nominaux, la position des noms joue un rôle plus important que leurs

fréquences dans l’ensemble de définitions pour un domaine donné. Dans ces cas

seulement 10,51 % des noms de poids maximal ont été déterminés dans une CP. L’une

des causes étant la structure de certaines définitions. En effet, les vocables de ces

lexèmes peuvent appartenir à deux catégories, nominale et adjectivale, qui ne sont pas

distinguées pour certaines vedettes du TLFi

66

(ex. CLINIQUE

1

, adj. et subst. fém.,

ACIDE

1

, adj. et subst. et ACIDE

2

, adj. et subst. masc., ACTUEL, ELLE, adj. et subst.,

ASIATIQUE, adj. et subst., etc.). Les définitions des adjectifs sont plus complexes que

celles des substantifs et ne suivent pas le schéma hyperonyme + spécificités ou ne

l’intègrent que partiellement (en réutilisant les définitions nominales). Les principales

structures possibles sont : Qui +Verbe +X , Celui +qui +Verbe, Adj. +Nom. C’est

pourquoi dans ce type de structures, les noms de poids maximal sont identifiés dans les

                                                                                                               

66

Pour s’en rendre compte, il suffit d’effectuer une interrogation simple sur ces entrées.

86,24% 10,51% 3,25% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% 100,00%

CC='Oui' CP='Oui' CC='Non' et CP='Non'

  141

CP. Par exemple, dans la définition structurée de Definiens </CC> Qui est provoqué

<CP> par les boissons alcooliques </CP> du lexème ALCOOLIQUE, le nom boissons

est annoté comme CP.

Une autre cause d’identification des noms de poids maximal comme composantes

périphériques provient du fait que, dans le projet Definiens, certaines définitions des

lexèmes n’ont pas été structurées, et que, par ailleurs, quelques erreurs ont été commises

lors du balisage des définitions au sein du TLFi (ex. balises non fermées, etc.).

Ainsi, les évaluations effectuées renforcent l’hypothèse que la position des noms est

le seul critère sur lequel on peut s’appuyer lors de l’extraction d’informations

pertinentes des définitions. Dans la suite de nos recherches, nous retenons seulement la

pondération par position (ITPOS) comme notre schéma de pondération finale.

4.5. Conclusion

Pour pouvoir utiliser le TLFi lors de l’enrichissement du thésaurus Xilopix ainsi que

pour améliorer l’indexation et la recherche d’images, nous avons eu besoin d’une

caractéristique quantitative (mesurable) et comparable pour les noms de ses définitions.

Cette caractéristique doit permettre de comparer les noms entre eux et de reconnaître les

noms susceptibles d’être des hyperonymes possibles d’un lexème.

Ainsi, dans un premier temps nous avons fait une analyse de notre corpus de travail

afin de déterminer quelles informations du TLFi seront utilisées lors de nos recherches.

Ensuite, nous avons analysé des différents critères de pondération des noms dans les

définitions du TLFi. Ce fait nous a permis de définir dans un deuxième temps, trois

facteurs de pondération des noms pour mesurer l’importance des noms dans les

définitions lexicographiques. Pour pouvoir analyser l’influence de chaque facteur de

pondération proposé sur le calcul de poids des noms et ainsi déterminer un schéma de

pondération finale, nous avons réalisé une évaluation des informations pertinentes

extraites des définitions du TLFi avec chaque pondération par rapport aux composantes

centrales (CC) et périphériques (CP) définies dans le projet Definiens. L’analyse des

résultats de l’évaluation a montré que seule la pondération par position détermine avec

une précision très élevée les informations pertinentes des définitions. Toutefois, nous

n’avons pas pu valider à ce stade si les candidats hyperonymes des lexèmes font partie

de ces informations extraites.

  142

Ainsi, dans le chapitre suivant nous allons procéder à la construction automatique de

hiérarchies sémantiques du TLFi et réaliser une évaluation plus fine des informations

extraites à l’aide de schéma de pondération proposé au travers d’un processus

d’évaluation manuellement des relations d’hyperonymie elles-mêmes. L’évaluation

étant confiée à des documentalistes de Xilopix.

  143

CHAPITRE 5

Construction automatique de hiérarchies

sémantiques à partir du TLFi

Sommaire

 

5.1. Hiérarchisation des noms ... 146

5.1.1. Règles d’inclusion ... 146

5.1.2. Règles d’association ... 148

5.1.3. Règles de hiérarchisation ... 148

5.2. Méthodologie de construction automatique de hiérarchies sémantiques .... 149

5.2.1. Vue globale de l’approche ... 149

5.2.2. Description détaillée ... 149

5.3. Évaluation manuelle des relations hyperonymiques ... 159

5.3.1. Présentation du corpus d’évaluation ... 160

5.3.2. Analyse des résultats d’évaluation ... 161

5.3.2.1. Analyse des résultats positifs de l’évaluation manuelle ... 162

5.3.2.2. Analyse des résultats négatifs de l’évaluation manuelle ... 163

5.4. Comparaison des hiérarchies sémantiques avec le thésaurus Xilopix ... 166

5.4.1. Description du corpus d’évaluation ... 166

5.4.2. Analyse des résultats d’évaluation ... 167

5.5. Proposition de méthodologie d’enrichissement du thésaurus Xilopix ... 171

5.6. Conclusion ... 172

  145