• Aucun résultat trouvé

Chapitre 5. Construction automatique de hiérarchies sémantiques à partir du

5.1. Hiérarchisation des noms

5.1. Hiérarchisation des noms ... 146

5.1.1. Règles d’inclusion ... 146

5.1.2. Règles d’association ... 148

5.1.3. Règles de hiérarchisation ... 148

5.2. Méthodologie de construction automatique de hiérarchies sémantiques .... 149

5.2.1. Vue globale de l’approche ... 149

5.2.2. Description détaillée ... 149

5.3. Évaluation manuelle des relations hyperonymiques ... 159

5.3.1. Présentation du corpus d’évaluation ... 160

5.3.2. Analyse des résultats d’évaluation ... 161

5.3.2.1. Analyse des résultats positifs de l’évaluation manuelle ... 162

5.3.2.2. Analyse des résultats négatifs de l’évaluation manuelle ... 163

5.4. Comparaison des hiérarchies sémantiques avec le thésaurus Xilopix ... 166

5.4.1. Description du corpus d’évaluation ... 166

5.4.2. Analyse des résultats d’évaluation ... 167

5.5. Proposition de méthodologie d’enrichissement du thésaurus Xilopix ... 171

5.6. Conclusion ... 172

  145

Chapitre 5. Construction automatique

de hiérarchies sémantiques

à partir du TLFi

Dans le chapitre 3 de cette thèse, nous avons présenté les principales ressources

linguistiques utilisées pour la recherche d’informations et la recherche d’images. Nous

avons vu que les thésaurus sont utilisés avec succès dans ce domaine à la fois comme

outils d’indexation et de recherche. Toutefois, leur construction manuelle est assez

coûteuse en temps et en argent.

Afin de pouvoir expliciter et exploiter les connaissances d’un dictionnaire de langue,

le TLFi, pour enrichir le thésaurus construit manuellement au sein de la société Xilopix

et améliorer l’indexation et la recherche d’images, nous avons proposé dans le chapitre

4 une heuristique de pondération des noms des définitions du TLFi. Cela nous permet

d’attribuer un poids à chaque nom de la définition, en faisant l’hypothèse que le nom de

poids maximal représente un candidat hyperonyme du lexème donné. Cependant, les

noms pondérés ne sont pas suffisants pour être utilisés lors de l’enrichissement du

thésaurus Xilopix, il conviendrait de pouvoir les insérer dans une hiérarchie sémantique

pour faciliter un tel enrichissement.

Dans ce chapitre, nous nous intéressons donc à la façon d’organiser les noms des

définitions de tous les lexèmes d’un même vocable, afin de construire des hiérarchies

sémantiques. Ainsi, les hiérarchies sémantiques construites automatiquement à partir du

TLFi seront utilisées, d’un côté, pour enrichir le thésaurus existant et, d’un autre côté,

pour l’indexation et la recherche d’images. Nous commençons par présenter les

principales règles de hiérarchisation des noms que nous avons retenues. Nous

présentons ensuite l’algorithme de construction automatique de hiérarchies sémantiques

à partir des définitions des lexèmes du TLFi d’un vocable en donnant d’abord une vue

globale de notre approche, puis en détaillant les étapes principales de l’algorithme. Par

la suite, nous analysons les résultats de l’évaluation manuelle de relations

hyperonymiques ainsi construites et ceux de la comparaison des hiérarchies

sémantiques construites automatiquement avec le thésaurus Xilopix. Nous concluons ce

chapitre en proposant une méthodologie d’enrichissement du thésaurus existant en

utilisant les hiérarchies sémantiques générées à partir du TLFi.

  146

5.1. Hiérarchisation des noms

Dans cette section, nous présentons les trois types de règles qui sont utilisées pour la

hiérarchisation des noms pondérés de la définition d’un lexème donné.

5.1.1. Règles d’inclusion

Les règles d’inclusion indiquent qu’un ensemble est un sous-ensemble d’un second.

Dans le TLFi la définition de chaque lexème d’un vocable est associée à un domaine.

Ainsi, un lexème !

!

 du vocable X peut être inclus dans un sous-ensemble du domaine

D :

!∶ !

!

⊂ ! (5.1.)

!"#"#$ ⊂!"#$%&'()

!"#"#$⊂ !é!é!"#$%

Nous pouvons aussi établir des relations d’inclusion entre le lexème !

!

et les noms de

sa définition  !

!

= !

!

, !

!  

, …,  !

!

. Ainsi, nous considérerons qu’un nom !

!

dont le

poids est maximal dans la définition du lexème !

!

est un bon candidat hyperonyme

pour le lexème et en conséquence qu’il peut inclure celui-ci :

!  ∶  !"    !(!

!

,!

!

)= !"#  !"#$%  !

!

⊂!

!

(5.2.)

P est le poids du nom !

!

dans la définition du lexème !

!

.

Dans le cas de l’étude du lexème ANANAS de définition « Plante monocotylédone de

la famille des Broméliacées, croissant dans les contrées chaudes de l'Asie, de l'Afrique,

de l'Amérique, à feuilles radicales et pointues, bordées d'épines, ressemblant à celles de

l'aloès », nous obtenons :

! !"#$%&,!"!"!# = !"#  =>  !"#"#$ ⊂!"#$%&

À partir des règles (5.1.) et (5.2.), nous déduisons une nouvelle règle :

!∶ !"    !

!

⊂ !  !"  !

!

⊂!

!

 !"#$%  !

!

⊂ ! (5.3.)

  147

La règle générale peut être écrite sous la forme suivante :

!∶!"    !

!

⊂!

!

 !"  !

!

⊂!  !"#$%  !

!

⊂!

!

⊂ ! (5.4.)

!"#"#$⊂ !"#$%&⊂ !"#$%&'()

Afin de permettre la croissance de l’arbre en profondeur, nous recherchons dans le

TLFi pour chaque nom de la définition du lexème    !  

!

le vocable correspondant dont les

lexèmes sont inclus dans le même domaine que celui du    !  

!

et qui contiennent le nom

!

!

 de poids maximal. Soit Z un tel vocable et    !  

!

son lexème qui contient dans sa

définition le nom  !

!

, nous appliquons alors une nouvelle règle :

!∶ !"    P(!

!

,!

!

)  =max et  !

!

,!

!

⊂!  

avec D !

!

 = ! !

!

 !"  ! !

!

= générique

alors  !

!

⊂!

!    

(5.5.)

!

!

= !

!

,!

!

,…,!

!

 est un lexème d’un nouveau vocable Z,

P(!

!

,!

!

)  est le poids du nom !

!    

dans la définition du lexème !

!

,

! !

!

, !(!

!

)sont les domaines des lexèmes !

!

et !

!

.

Soit lexème  !

!

= ANANAS dont D(ANANAS) = botanique et le vocable

Z = BROMÉLIACÉES avec son lexème  !

!

de définition « Famille de plantes tropicales

de la classe des monocotylédones comprenant notamment l'ananas » où

D(BROMÉLIACÉES) = botanique. En appliquant la règle 5.5. on obtient que si

P(plante, BROMÉLIACÉES) = max et D(ANANAS) = D(BROMÉLIACÉES) alors

Broméliacées ⊂ Plante.

La structure choisie dans le TLFi pour les définitions des domaines liés aux sciences

naturelles typiquement botanique et zoologie faitapparaître systématiquement le nom

de la famille ainsi que des exemples prototypiques de cette famille. Ainsi, une simple

vérification de l’apparition du mot-forme du lexème  !

!

 dans la définition du lexème

!

!

 nous  permet  d’ajouter une nouvelle règle :

!∶ !"    !

!

⊂ !

!

,  !

!

⊂!

!    

!"      !

!

∈!

!

 

  148

!"#"#$ ⊂!"#$%&,  !"#$é!"#$é!" ⊂!"#$%&  !"  !"#"#$ ∈!"#$é!"#$é!"    

!"  !"#$%&,  !"#$é!"#$é!"∈  !(!"#$%&'())=>!"#"#$ ⊂ !"#$é!"#$é!"  

Nous proposons enfin une règle de généralisation du type :

!∶ !"      !

!

⊂ !

!      

!"  !

!

⊂  !  !"#$%  !

!

⊂  !

!

⊂!

!    

(5.7.)

Soit X

!

= ANANAS,  Z

!

 = BROMÉLIACÉES et X

!

 = plante. Si Broméliacées ⊂  Plante

et Ananas  ⊂ Broméliacées alors Ananas ⊂ Broméliacées ⊂ Plante. Par la transitivité, en

appliquant la règle (5.3.) où D = botanique, nous obtenons : Ananas ⊂ Broméliacées ⊂

Plante  ⊂ Botanique.

5.1.2. Règles d’association

En complément des règles d’inclusion présentées ci-dessus, nous proposons des

règles d’association qui permettent d’établir des liens d’association entre un lexème et

les noms de sa définition de sorte que l’évocation d’un nom fasse surgir le lexème (ex.

Ananas  Plante, Afrique). Une règle d’association est une relation d’implication de la

forme :

!∶  !  → !

!

,!

!

,…,!

!

(5.8.)

!

!

 est  un  lexème  du vocable X et !

!

,!

!

,…,!

!

est un ensemble de noms.

Ainsi, selon cette règle, nous pouvons établir que le lexème ANANAS implique tous les

noms de sa définition :

!"!"!#→ !"#$,!"#$%&',!"#$%%",é!"#$,!"#è!,etc.

5.1.3. Règles de hiérarchisation

Les règles de hiérarchisation doivent permettre la construction de hiérarchies

sémantiques à arborescence simple. La hiérarchisation des noms d’un lexème se

construit à partir des règles d’inclusion spécifiées ci-dessus. Les noms sont hiérarchisés

en vertu du principe selon lequel le nom qui inclut un autre nom figure en haut de la

hiérarchie et représente son nœud père. Le nom inclus dans un autre nom représente

  149

pour sa part un nœud fils. Les règles d’association sont appliquées à la fin de

hiérarchisation.

5.2. Méthodologie de construction automatique de