Normalisation du corpus de travail - Propositions de pondérations des noms dans le TLFi

Chapitre 4. Extraction automatique d’informations pertinentes des définitions

4.2. Propositions de pondérations des noms dans le TLFi

4.2.2. Normalisation du corpus de travail

Dans la section §4.1.2. nous avons vu que les domaines du TLFi n’étaient pas

normalisés, ce que nous ne permettait pas par exemple de calculer le nombre exact de

définitions pour un domaine donné. Par ailleurs, nous avons vu aussi qu’un traitement

des noms appartenant aux expressions métalinguistiques pourrait nous aider à

déterminer plus facilement les candidats hyperonymes d’un lexème dans ses définitions.

La section suivante sera consacrée à la présentation des normalisations des données

que nous avons faites.

4.2.2.1. Normalisation des domaines

Comme nous l’avons déjà mentionné, le problème majeur des domaines du TLFi est

qu’ils ne sont pas normalisés. Un même domaine peut être indiqué de différentes

manières (ex. MAR., MARINE), ce qui induit un biais lors du calcul de la fréquence d’un

nom dans un ensemble de définitions pour un domaine donné.

Nous avons donc effectué une normalisation manuelle des domaines du TLFi. Cela

nous a permis de réduire considérablement le nombre de domaines, de 7 786 à 758. En

parallèle à cette normalisation manuelle, nous avons procédé à une hiérarchisation des

domaines, obtenant ainsi un thésaurus des domaines du TLFi.

Pour réaliser cette normalisation des domaines, nous avons utilisé la documentation

sur le thésaurus des domaines techniques du TLF qui contient tous les domaines et les

sous-domaines utilisés lors de la rédaction des définitions. Le processus de

normalisation consiste à attribuer à un domaine sa forme normalisée de la manière

« bactériol. », « bactériologie. »  BACTÉRIOLOGIE

« MAR. », « MARINE. »  MARINE

131 En même temps, nous avons effectué un travail de hiérarchisation des domaines en

créant une base de données dans laquelle on attribue à un domaine son domaine père.

La hiérarchie des domaines a été construite en reprenant celle qui existait déjà pour le

TLFi.

La normalisation des domaines a été effectuée en suivant les règles suivantes :

1. Si, dans les annotations, un domaine est séparé d’un deuxième domaine par une

virgule ou une conjonction, et qu’il s’agit de domaines différents sans lien

hiérarchique entre eux, plusieurs domaines sont attribués à la définition.

« MAR., AVIAT. »  MARINE, AVIATION

« ANAT., ZOOL. » ANATOMIE, ZOOLOGIE

2. Si, dans les annotations, un domaine est séparé d’un deuxième domaine par une

virgule ou une conjonction et que l’un des domaines représente le domaine père

du second, nous attribuons la définition seulement au domaine du plus bas

niveau de la hiérarchie des domaines.

« PHYS., OPT. »  OPTIQUE

« MÉD., BIOL. »  MÉDECINE

3. Si le domaine spécifique existe dans la hiérarchie constituée, nous l’attribuons à

la définition, sinon nous lui attribuons le domaine de la hiérarchie qui l’inclut

(père virtuel).

« SYNTAXE »  LINGUISTIQUE

« NAVIG. MAR. »  NAVIGATION

Lors de cette hiérarchisation des domaines, il ne s’agissait pas de construire une

nouvelle hiérarchie ou de faire une réorganisation de celle existante. Néanmoins étant

donné que ce thésaurus des domaines servira pour l’enrichissement du thésaurus

Xilopix, qui à son tour sera utilisé pour l’indexation des images, certaines modifications

ont été faites dans la hiérarchie. Nous avons ajouté

⁶³

dans la hiérarchie certains

domaines spécifiques (ex. antiquité grecque, iconographie, etc.) jugés susceptibles

d’être intéressants pour l’indexation d’une image. Des domaines plus globaux comme

63 Nous précisons qu’il s’agit d’ajouter des domaines présents dans le TLFi mais absents dans la hiérarchie.

132 science de la nature, sciences humaines ont aussi été ajoutés pour regrouper des sous

domaines en domaines plus génériques. Pour réaliser cette hiérarchisation, nous avons

également consulté le thésaurus MOTBIS

⁶⁴

.

4.2.2.2. Traitement des expressions métalinguistiques

L’analyse des expressions métalinguistiques a montré que la plupart des expressions

métalinguistiques sont situées en tête des définitions et sont souvent suivies par le

candidat hyperonyme du lexème. Cet état de fait pouvait avoir une incidence néfaste

pour la détermination des candidats hyperonymes qui devra s’appuyer, en partie du

moins, sur leur position dans la définition. La solution que nous avons retenue pour

régler ce problème est d’éliminer les expressions métalinguistiques en créant une liste

de mots-formes à filtrer. Toutefois, pour pouvoir conserver

⁶⁵

cette information lors de

nos recherches, nous avons choisi de les ajouter comme propriété du nom qui les suit de

la manière suivante :

Expression métalinguistique + Nom => Nom (Expression métalinguistique)

En revanche, nous avons décidé de ne pas traiter de cette manière les expressions

métalinguistiques de type fait, action, manière (façon). Nous considérons en effet que

ces expressions permettent de réaliser une classification des noms en FAIT, ACTION et

MANIÈRE. Par opposition aux expressions comme famille de, espèce de, etc., toujours

suivies dans les définitions par un nom, ces expressions métalinguistiques (EM) sont en

effet utilisées dans les constructions de genre EM +V., EM + Adv. Ce traitement des

expressions métalinguistiques permet de remonter au premier rang les noms qui les

suivent. Par exemple, pour le lexème LION nous déterminons comme candidat

hyperonyme le nom mammifère (famille des) au lieu du nom famille.

64 http://www.cndp.fr/motbis/

65 Nous jugeons important de garder les expressions métalinguistiques afin de pouvoir spécifier le nom qui les suit. Par exemple, continent ne peut pas être considéré comme monde quand en réalité il représente une partie de ce monde.

133 4.2.3. Pondérations retenues pour déterminer

l’importance des noms dans les définitions

En analysant plusieurs critères susceptibles de jouer un rôle lors de la pondération

des noms, notre approche, basée sur l’analyse de la structure, de la taille et du

métalangage spécifique des définitions du dictionnaire, nous a permis de définir trois

facteurs de pondérations des noms dans une définition : la pondération locale, la

pondération globale et la pondération par position.

Comme nous l’avons vu au chapitre 3 (cf. §3.4.), la plupart des travaux qui

s’intéressent à la construction de hiérarchies sémantiques à partir de dictionnaires

utilisent en partie des patrons lexico-sémantiques définis manuellement pour extraire la

relation d’hyperonymie à partir de définitions lexicographiques. Pour notre part, nous

tenons à exploiter le maximum d’information sémantique contenue dans les définitions

lexicographiques, sans nous limiter à la seule extraction des hyperonymes. Cela nous

permettra, d’une part, d’enrichir le thésaurus Xilopix avec de nouvelles relations et,

d’autre part, d’enrichir les descriptions textuelles d’images avec les autres termes des

définitions afin de déterminer ensuite les meilleurs termes d’indexation. Compte tenu de

notre domaine d’application spécifique (indexation et recherche d’images), nous optons

plutôt pour une formule de pondération permettant de mesurer l’importance des noms

dans les définitions des lexèmes que la définition d’un processus d’extraction des seuls

hyperonymes à l’aide des patrons lexico-syntaxiques.

Les pondérations que nous proposons sont inspirées de schéma de pondération

TD-IDF présenté dans la section §2.1.1. mais adaptées à nos propres objectifs. Nous allons

maintenant présenter les facteurs retenus pour cette formule de pondération avant

d’évaluer l’importance de chaque facteur et de conclure par la pondération finale

retenue.

4.2.3.1. Pondération locale

La pondération locale d’un nom représente le nombre d’occurrences du nom dans

une définition, normalisé par la somme des nombres d’occurrences de tous les noms de

la définition. La normalisation du nombre d’occurrences d’un nom permet la

comparaison de deux définitions de longueurs différentes. Ainsi, nous ne pénalisons pas

134 les définitions de petite taille dans lesquelles un nom peut se rencontrer moins de fois

que dans les définitions de grande taille. La pondération locale permet d’évaluer

l’importance d’un nom dans une définition.

Soit une définition d et un nom t, alors le facteur fréquentiel tf normalisé est :

!" = ^!⁽^!)

! !

(4.1.)

où

! ! : fréquence d’un nom t dans la définition d,

! !

: somme des fréquences de tous les noms !

dans la définition d.

4.2.3.2. Pondération globale

La pondération globale permet d’apprécier l’importance d’un nom dans la collection

des définitions pour un domaine donné. Elle représente le nombre de définitions qui

contiennent le nom, normalisé par le nombre total de définitions dans la collection pour

un domaine donné.

Soit une définition d, une collection de définitions c et un nom t, alors le facteur df

(definition frequency) normalisé est :

!" =^! ^!

^,^!

!(!,!) ^(4.2.)

où

! !

,! : nombre des définitions dans la collection pour un domaine donné qui

contiennent le nom,

! !,! : nombre des définitions dans la collection pour un domaine donné.

Contrairement à la pondération IDF (cf. §2.1.1.) qui donne plus de poids aux noms

rares, notre pondération favorise les noms fréquents. Nous considérons en effet que les

noms fréquents dans les définitions pour un domaine particulier représentent des

classificateurs possibles (genre prochain) et que les noms moins fréquents

correspondent plutôt à des spécifications de ces définitions. Par exemple, les noms les

plus fréquents dans le domaine botanique sont plante, fleur, arbre parce qu’ils sont les

plus utilisés en tant qu’hyperonymes ou classificateurs pour définir les lexèmes de ce

135 domaine tandis que les noms ornementation, couleur, rameau représentent des

spécifications au sein de ce domaine.

4.2.3.3. Pondération par position

Dans la plupart des définitions du TLFi, nous avons vu que les noms en première

position représentent de bons candidats hyperonymes des lexèmes définis. Nous

proposons donc un facteur de pondération lié à la position du nom dans la définition

pour rendre compte de la dépendance existante au sein des définitions entre

l’importance d’un nom pour la définition d’un lexème et sa position dans la définition

lexicographique correspondante. Ce facteur de pondération permet de favoriser les

noms situés au début de la chaîne.

Soit ch une chaîne de caractères d’une définition d, un nom t, alors le facteur itpos

(inverse terme position) est :

!"#$%= log ^!

^!"#

!

_!"#

(!,!ℎ) ^(4.3.)

où

!

_!"#

:nombre total de positions dans la chaîne de caractères d’une définition,

!

_!"#

(!,!ℎ) :numéro de la position du nom t dans la chaîne de caractères ch.

Étant donné que la position des noms est calculée dans les définitions sources du

TLFi qui ne sont pas lemmatisées, certains noms (ex. cheval) pourraient ne pas être

présents bien que, dans la définition source, apparaisse une de leurs flexions (ex.

chevaux). Il est donc nécessaire de calculer la position minimale de toutes les flexions

d’un nom, pour ce faire nous utilisons le lexique morphosyntaxique M

ORPHALOU

mis à

disposition par le laboratoire (cf. http://www.cnrtl.fr/lexiques/morphalou/).

Nous avons aussi opté pour un traitement spécifique des noms qui suivent les

expressions métalinguistiques de la classe d’opposition ou de négation. Ces noms sont

affectés automatiquement d’une position négative, ce qui nous permet ensuite de les

différencier des autres noms car ils ne représentent pas de caractéristiques spécifiques

dans une définition.

136 4.3. Évaluation de chaque facteur de pondération par

Dans le document Construction automatique de hiérarchies sémantiques à partir du Trésor de la Langue Française informatisé (TLFi) : application à l'indexation et la recherche d'images (Page 132-138)