Description détaillée

Chapitre 5. Construction automatique de hiérarchies sémantiques à partir du

68 En réalité il existe que 3 nœuds lexèmes, mais dans la base de données nous en avons 27 car à chaque lexème est associé un lemme correspondant.

Chapitre 5. Construction automatique de hiérarchies sémantiques à partir du

5.2. Méthodologie de construction automatique de hiérarchies sémantiques

5.2.2. Description détaillée

L’algorithme de construction automatique de hiérarchies sémantiques pour un

vocable du TLFi est fondé sur deux processus. Le premier processus a pour objectif de

transformer chaque lexème du vocable, les lemmes et les domaines de ses définitions en

nœuds de hiérarchies sémantiques. Le second processus permet de hiérarchiser les

nœuds obtenus lors du processus précédent en créant des arbres hiérarchiques.

Nous allons décrire ci-dessous les deux processus qui sont à la base de l’algorithme

de construction automatique de hiérarchies sémantiques correspondantes à un vocable X

du TLFi.

Des hiérarchies qui peuvent se représenter sous la forme des arbres hiérarchiques à

arborescence simple (cf. §3.2.3.).

150

Figure 5.1. Vue globale de l’algorithme de construction de hiérarchies sémantiques

Processus 1 : création des nœuds de hiérarchies sémantiques

L’objectif de ce processus est de transformer toute l’information contenue dans la

microstructure d’un vocable X du TLFi en nœuds de hiérarchies sémantiques. Ce

processus se fait en deux étapes :

1.1. Extraction des données issues du TLFi pour le vocable X.

Pour chaque lexème du vocable X, nous extrayons, à partir du TLFi, après le filtrage

des mots vides et ceux liés au métalangage lexicographique, les noms des définitions

avec leurs pondérations et leur domaine de définition.

151

1.2. Transformation de la liste de données d’un vocable X en nœuds de hiérarchies

sémantiques.

À partir des données extraites pour un vocable X, nous procédons à la création des

nœuds de hiérarchies sémantiques lui correspondant. Un nœud représente une structure

de données. Nous considérons comme nœuds de telles hiérarchies sémantiques chaque

lexème du vocable X du TLFi ainsi que les lemmes des noms de la définition et le

domaine auquel se rattache cette définition. Par conséquent, nous distinguons trois types

de nœuds : nœud lexème, nœud lemme et nœud domaine (cf. figure 5.1.). Suivant le

type de nœud, la structure de données est différente :

- Pour le nœud domaine, la structure de données est limitée au nom de domaine et

son identifiant.

- La structure du nœud lexème est formée uniquement du nom du lexème et de

son type.

- Quant à la structure du nœud lemme, elle contient son identifiant, le nom du

lexème, le nom du lemme, son poids, l’identifiant de la définition, son domaine

et son type.

Ainsi, chaque acception d’un vocable X du TLFi représente un nœud lexème et

l’ensemble des lemmes des noms de sa définition correspond à des nœuds lemmes.

Nous considérons que les nœuds lexèmes et les nœuds lemmes d’un vocable X pour

lequel les arbres hiérarchiques sont construits sont de type I. Par exemple, dans la

figure 5.1. le vocable ANANAS a trois lexèmes ANANAS 1, ANANAS 2, ANANAS 3

qui représentent des nœuds de type I ; les lemmes de leurs définitions comme plante,

famille, broméliacées, Asie, Afrique, feuille, épine, aloès, etc. sont considérés comme

des nœuds lemmes de type I. Compte tenu du fait que les lemmes de type I sont à leur

tour définis dans le TLFi, nous les considérons eux-mêmes ensuite comme des nœuds

lexèmes de type II ; les lemmes de leurs définitions sont quant à eux considérés comme

des nœuds lemmes de type II. Par exemple, le lemme de type I broméliacées est

considéré à son tour comme lexème de type II (cf. figure 5.1.). Bien que ce processus

puisse être poursuivi aux niveaux supérieurs (III, IV, etc.) nous limitons le processus

aux seuls deux premiers niveaux considérant que cela devrait être suffisant pour extraire

l’information principale à partir de la définition d’un lexème. La figure 5.2. présente un

152

exemple du processus 1 pour le vocable ANANAS, qui consiste en la récupération de

l’information sur chacun de ses lexèmes à partir de la base de données du TLFi et la

création de trois types de nœuds de structures différentes. Ainsi, nous obtenons 3

nœuds lexèmes de type I, 27 nœuds lemmes de type I et 2 nœuds domaine (botanique et

générique).

Figure 5.2. Exemple du processus 1 de l’algorithme

Processus 2 : hiérarchisation des nœuds

L’objectif de ce processus est de hiérarchiser les nœuds obtenus pour un même

vocable en construisant des arbres hiérarchiques. La hiérarchisation se réalise en

comparant les structures de données de chaque nœud avec les autres.

Ce processus est réalisé en cinq étapes :

153

2.1. Détermination des nœuds pères pour les nœuds lexèmes.

À partir des nœuds créés, nous déterminons les nœuds pères de chaque nœud lexème

de type I. Pour ce faire, nous regroupons les nœuds lemmes de type I par leur identifiant

de définition et pour chaque groupe ainsi créé nous déterminons le nœud lemme dont la

pondération est maximale. Ce nœud devient le nœud père pour un nœud lexème de

type I. Ainsi, plusieurs nœuds pères différents (autant que le nombre des lexèmes d’un

vocable) sont créés ayant comme nœud fils le nœud lexème de type I correspondant.

Puis le pas suivant est effectué :

SI pour deux groupes différents émergent deux nœuds lemmes de type I de poids

maximal ayant même domaine et même nom

ALORS seul un nœud devient le nœud père du nœud lexème de type I