Chapitre 5. Construction automatique de hiérarchies sémantiques à partir du
5.4. Comparaison des hiérarchies sémantiques avec le thésaurus Xilopix
Pour notre deuxième évaluation, nous avons décidé de comparer les hiérarchies
sémantiques construites avec celle du thésaurus Xilopix. Ainsi, nous avons choisi les
vocables de la catégorie flore et faune, deux catégories pour lesquelles le thésaurus
Xilopix est le plus développé, tant en largeur qu’en profondeur, en faisant l’hypothèse
que les arbres hiérarchiques construits doivent se rapprocher de la structure du thésaurus
construit manuellement. Dans un premier temps, l’évaluation des relations
hyperonymiques a été faite manuellement. Dans un deuxième temps, les relations
hyperonymiques obtenues ont été évaluées automatiquement. Pour ce faire, à partir des
arbres hiérarchiques construits, ont été extraits les nœuds pères des lexèmes des
vocables donnés qui à leur tour ont été comparés avec ceux du thésaurus Xilopix.
5.4.1. Description du corpus d’évaluation
À cet effet, nous avons choisi deux cents vocables appartenant aux catégories faune
et flore pour les raisons suivantes : d’une part, les définitions des lexèmes des vocables
de ces catégories par rapport aux autres ont une autre structure qui permet de construire
des hiérarchies sémantiques plus profondes et, d’autre part, le thésaurus construit
manuellement pour ces vocables au sein de Xilopix est le plus développé. Par
conséquent pour chaque vocable, des hiérarchies sémantiques ont été construites
automatiquement. Nous avons évalué manuellement les relations d’hyperonymie entre
les lexèmes du vocable donné et leurs nœuds pères de hiérarchies construites pour le
domaine générique, zoologie (ornithologie, entomologie) et botanique. Ensuite, les
167
relations d’hyperonymie obtenues ont été comparées automatiquement avec celles
extraites à partir du thésaurus construit manuellement.
5.4.2. Analyse des résultats d’évaluation
Dans les sections suivantes, nous présentons les analyses de cette seconde
évaluation.
1. Résultats de l’évaluation manuelle des hiérarchies sémantiques du domaine
flore et faune.
Pour la catégorie flore, nous avons évalué en total 123 relations hyperonymiques et,
pour la catégorie faune, 100 relations hyperonymiques. Comme dans le cas de la
première évaluation manuelle, les évaluateurs ont été amenés à évaluer les relations
seulement par deux types de réponses :
- « Oui » quand le nœud père représente l’hyperonyme du lexème ;
- « Non » quand le nœud père n’est pas l’hyperonyme du lexème.
La figure 5.10. présente les résultats de cette évaluation. Ainsi, 99,18 % des relations
hyperonymiques de la catégorie flore ont été évaluées positivement et seulement 0,81 %
négativement.
Figure 5.10. Résultats de l’évaluation manuelle des relations hyperonymiques du
domaine flore et faune
La cause principale de la précision très élevée de l’évaluation des relations
hyperonymiques des vocables du domaine flore s’explique par le fait que, dans ce
domaine, les lexèmes sont définis par les noms situés toujours en tête de la définition
comme plante, fleur, arbre, etc. De plus ce sont des noms les plus caractéristiques pour
0,00%
50,00%
100,00%
Oui
Non
99,18%
0,81%
78%
22% Catégorie flore
Catégorie faune
168
ce domaine. Le tableau 5.3. ci-dessous présente des exemples des relations identifiées
comme hyperonymiques dans le domaine flore.
Lexème Hyperonyme Domaine Définition du TLFi
ANCOLIE Plante Botanique Plante herbacée et vivace de la
famille des renonculacées à fleurs
de couleurs variées …
CAMOMILLE Plante Botanique Plante connue pour ses vertus
fébrifuges et digestives, de la
famille des Composées.
ROMARIN Plante Botanique Plante arbustive méditerranéenne de
la famille des Labiacées …
MARGUERITE Fleur Botanique Fleur de cette plante.
MARGUERITE Plante Botanique Plante à fleurs de la famille des
Composées, à pétales généralement
blancs et à coeur jaune.
EUCALYPTUS Arbre Botanique Grand arbre d’origine exotique aux
feuilles bleuâtres longues et
minces…
CITRONNIER Arbrisseau Botanique Arbrisseau de la famille des
Rutacées, haut de trois à cinq mètres
…
NÉFLIER Arbuste Botanique Arbuste donnant des nèfles, dont le
bois très dur est employé à divers
usages en menuiserie.
AIRELLE Arbrisseau Botanique Arbrisseau de la famille des
vacciniées qui porte une petite baie
d'un noir violacé …
VIOLETE Fleur Botanique Fleur de cette plante.
Tableau 5.3. Exemples des relations identifiées comme hyperonymiques dans le
domaine flore
Toutefois, nous avons obtenu 0,81 % de relations hyperonymiques évaluées
négativement, la cause principale étant la structure des définitions correspondantes. Par
exemple, pour le lexème ACACIA « En dehors de la variété du mimosa, cet arbre
exotique est surtout connu comme producteur de la gomme arabique, d’où le composé
169
acacia-gommier » le nom mimosa a été déterminé comme hyperonyme au lieu du nom
arbre qui n’est pas situé en tête de la définition.
Pour la catégorie faune, seulement 78 % des relations hyperonymiques ont été
évaluées positivement (cf. figure 5.10.). Ainsi, les hyperonymes des lexèmes du
domaine faune comme ceux du domaine flore sont situés en tête des définitions (cf.
tableau 5.4.).
Lexème Hyperonyme Domaine Définition
PUMA Mammifère Zoologie Mammifère carnassier d'Amérique,
de la famille des Félidés …
BUBALE Mammifère Zoologie Mammifère ruminant d'Afrique de
la famille des antilopes …
AUTRUCHE Échassier
(genre d’)
Ornithologie Genre d’échassiers brévipennes
vivant à l'état sauvage dans les
steppes africaines …
CHAMOIS Mammifère Zoologie Mammifère quadrupède ruminant
du genre antilope, à cornes creuses
et lisses …
GIRAFE Mammifère Zoologie Mammifère ruminant, ongulé
d'Afrique, que caractérisent sa
haute taille …
ROUGE-QUEUE Oiseau Ornithologie Oiseaugenre Fauvette, famille des (ordre des Passereaux,
Turdidés) à gorge noire …
GYPAÈTE Vautour Zoologie Vautour de la famille des
Falconidés …
OUTARDE Échassier Zoologie Échassier au corps lourd et à
fortes pattes, à long cou et à bec
court …
CARCAJOU Blaireau Zoologie Blaireau du Labrador.
LÉZARD Reptile Zoologie Reptile saurien (de la famille des
Lacertidés) …
Tableau 5.4. Exemples des relations identifiées comme hyperonymiques dans le
170
Toutefois, 22 % des relations hyperonymiques ont été évaluées négativement
principalement à cause de l’annotation erronée des définitions de SEMEME ou de
l’absence des lemmes. Ainsi, les lemmes de certaines définitions, par exemple
mammifère, félin, animal, reptile ont été annotés comme des adjectifs au lieu des noms
ce qui n’a pas permis de les déterminer comme des hyperonymes des lexèmes OTARIE,
OURS, etc. (cf. tableau 5.5.). En même temps les lemmes martre et reptile des
définitions des lexèmes PÉKAN et respectivement ORVET sont absents dans la liste
des lemmes des définitions du SEMEME.
Lexème Hyperonyme Domaine Définition du TLFi
OTARIE Marin Zoologie Mammifère marin pinnipède, au
corps fusiforme, à la tête petite,
allongée …
OURS Corps Générique Mammifère au corps volumineux et
massif, à fourrure épaisse …
LYNX Patte Générique Félin, haut sur pattes, de la taille
d'un gros chat, au pelage roux,…
CROCODILE Vertébré Zoologie Animal vertébré, reptile de grande
taille, à corps allongé couvert
d'écailles …
ORVET Saurien Générique Reptile saurien sans pattes,
ovovivipare, insectivore et
inoffensif …
PÉKAN Canada Générique Martre du Canada.
Tableau 5.5. Exemples des relations identifiées comme non hyperonymiques dans le
domaine faune
2. Comparaison des structures hyperonymiques avec ceux du thésaurus Xilopix.
Les relations hyperonymiques obtenues ont été comparées automatiquement avec
celles extraites à partir du thésaurus construit manuellement pour les vocables donnés.
Les résultats ont coïncidé seulement pour 9 % de relations où l’hyperonyme du lexème
représentait la famille ou le genre auquel appartient le lexème du vocable (cf. figure
5.11., tableau 5.6.).
171
Figure 5.11. Coïncidence des structures hyperonymiques construites manuellement et
celles construites automatiquement
Relations hyperonymiques
Nénuphar – Nymphéacée Éléphant – Pachyderme
Amaryllis – Amaryllidées Perroquet – Psittacidés
Bananier – Musacées Pigeon – Columbidés
Oranger – Citrus Chauve-souris – Chéiroptères
Tableau 5.6. Exemple des relations hyperonymiques existantes dans les deux
hiérarchies
Le thésaurus construit manuellement pour la flore et faune est plus profond, il
contient plusieurs niveaux qui indiquent l’ordre, la famille, le genre, l’espèce, etc
73.
Alors que, pour notre part, seul 9 % de vocables ont conduit à la construction de
hiérarchies sémantiques à deux niveaux de relations hyperonymiques où le premier
niveau représente la classe (ex. plante, mammifère, etc.) du lexème et le deuxième
niveau représente la famille (ex. broméliacées, musacées, etc.) à laquelle appartient le
lexème du vocable donné.
5.5. Proposition de méthodologie d’enrichissement du