Chapitre 4. Extraction automatique d’informations pertinentes des définitions
4.2. Propositions de pondérations des noms dans le TLFi
4.2.2. Normalisation du corpus de travail
Dans la section §4.1.2. nous avons vu que les domaines du TLFi n’étaient pas
normalisés, ce que nous ne permettait pas par exemple de calculer le nombre exact de
définitions pour un domaine donné. Par ailleurs, nous avons vu aussi qu’un traitement
des noms appartenant aux expressions métalinguistiques pourrait nous aider à
déterminer plus facilement les candidats hyperonymes d’un lexème dans ses définitions.
La section suivante sera consacrée à la présentation des normalisations des données
que nous avons faites.
4.2.2.1. Normalisation des domaines
Comme nous l’avons déjà mentionné, le problème majeur des domaines du TLFi est
qu’ils ne sont pas normalisés. Un même domaine peut être indiqué de différentes
manières (ex. MAR., MARINE), ce qui induit un biais lors du calcul de la fréquence d’un
nom dans un ensemble de définitions pour un domaine donné.
Nous avons donc effectué une normalisation manuelle des domaines du TLFi. Cela
nous a permis de réduire considérablement le nombre de domaines, de 7 786 à 758. En
parallèle à cette normalisation manuelle, nous avons procédé à une hiérarchisation des
domaines, obtenant ainsi un thésaurus des domaines du TLFi.
Pour réaliser cette normalisation des domaines, nous avons utilisé la documentation
sur le thésaurus des domaines techniques du TLF qui contient tous les domaines et les
sous-domaines utilisés lors de la rédaction des définitions. Le processus de
normalisation consiste à attribuer à un domaine sa forme normalisée de la manière
suivante :
« bactériol. », « bactériologie. » BACTÉRIOLOGIE
« MAR. », « MARINE. » MARINE
131
En même temps, nous avons effectué un travail de hiérarchisation des domaines en
créant une base de données dans laquelle on attribue à un domaine son domaine père.
La hiérarchie des domaines a été construite en reprenant celle qui existait déjà pour le
TLFi.
La normalisation des domaines a été effectuée en suivant les règles suivantes :
1. Si, dans les annotations, un domaine est séparé d’un deuxième domaine par une
virgule ou une conjonction, et qu’il s’agit de domaines différents sans lien
hiérarchique entre eux, plusieurs domaines sont attribués à la définition.
« MAR., AVIAT. » MARINE, AVIATION
« ANAT., ZOOL. » ANATOMIE, ZOOLOGIE
2. Si, dans les annotations, un domaine est séparé d’un deuxième domaine par une
virgule ou une conjonction et que l’un des domaines représente le domaine père
du second, nous attribuons la définition seulement au domaine du plus bas
niveau de la hiérarchie des domaines.
« PHYS., OPT. » OPTIQUE
« MÉD., BIOL. » MÉDECINE
3. Si le domaine spécifique existe dans la hiérarchie constituée, nous l’attribuons à
la définition, sinon nous lui attribuons le domaine de la hiérarchie qui l’inclut
(père virtuel).
« SYNTAXE » LINGUISTIQUE
« NAVIG. MAR. » NAVIGATION
Lors de cette hiérarchisation des domaines, il ne s’agissait pas de construire une
nouvelle hiérarchie ou de faire une réorganisation de celle existante. Néanmoins étant
donné que ce thésaurus des domaines servira pour l’enrichissement du thésaurus
Xilopix, qui à son tour sera utilisé pour l’indexation des images, certaines modifications
ont été faites dans la hiérarchie. Nous avons ajouté
63dans la hiérarchie certains
domaines spécifiques (ex. antiquité grecque, iconographie, etc.) jugés susceptibles
d’être intéressants pour l’indexation d’une image. Des domaines plus globaux comme
63 Nous précisons qu’il s’agit d’ajouter des domaines présents dans le TLFi mais absents dans la hiérarchie.
132
science de la nature, sciences humaines ont aussi été ajoutés pour regrouper des sous
domaines en domaines plus génériques. Pour réaliser cette hiérarchisation, nous avons
également consulté le thésaurus MOTBIS
64.
4.2.2.2. Traitement des expressions métalinguistiques
L’analyse des expressions métalinguistiques a montré que la plupart des expressions
métalinguistiques sont situées en tête des définitions et sont souvent suivies par le
candidat hyperonyme du lexème. Cet état de fait pouvait avoir une incidence néfaste
pour la détermination des candidats hyperonymes qui devra s’appuyer, en partie du
moins, sur leur position dans la définition. La solution que nous avons retenue pour
régler ce problème est d’éliminer les expressions métalinguistiques en créant une liste
de mots-formes à filtrer. Toutefois, pour pouvoir conserver
65cette information lors de
nos recherches, nous avons choisi de les ajouter comme propriété du nom qui les suit de
la manière suivante :
Expression métalinguistique + Nom => Nom (Expression métalinguistique)
En revanche, nous avons décidé de ne pas traiter de cette manière les expressions
métalinguistiques de type fait, action, manière (façon). Nous considérons en effet que
ces expressions permettent de réaliser une classification des noms en FAIT, ACTION et
MANIÈRE. Par opposition aux expressions comme famille de, espèce de, etc., toujours
suivies dans les définitions par un nom, ces expressions métalinguistiques (EM) sont en
effet utilisées dans les constructions de genre EM +V., EM + Adv. Ce traitement des
expressions métalinguistiques permet de remonter au premier rang les noms qui les
suivent. Par exemple, pour le lexème LION nous déterminons comme candidat
hyperonyme le nom mammifère (famille des) au lieu du nom famille.
64 http://www.cndp.fr/motbis/
65 Nous jugeons important de garder les expressions métalinguistiques afin de pouvoir spécifier le nom qui les suit. Par exemple, continent ne peut pas être considéré comme monde quand en réalité il représente une partie de ce monde.
133
4.2.3. Pondérations retenues pour déterminer
l’importance des noms dans les définitions
En analysant plusieurs critères susceptibles de jouer un rôle lors de la pondération
des noms, notre approche, basée sur l’analyse de la structure, de la taille et du
métalangage spécifique des définitions du dictionnaire, nous a permis de définir trois
facteurs de pondérations des noms dans une définition : la pondération locale, la
pondération globale et la pondération par position.
Comme nous l’avons vu au chapitre 3 (cf. §3.4.), la plupart des travaux qui
s’intéressent à la construction de hiérarchies sémantiques à partir de dictionnaires
utilisent en partie des patrons lexico-sémantiques définis manuellement pour extraire la
relation d’hyperonymie à partir de définitions lexicographiques. Pour notre part, nous
tenons à exploiter le maximum d’information sémantique contenue dans les définitions
lexicographiques, sans nous limiter à la seule extraction des hyperonymes. Cela nous
permettra, d’une part, d’enrichir le thésaurus Xilopix avec de nouvelles relations et,
d’autre part, d’enrichir les descriptions textuelles d’images avec les autres termes des
définitions afin de déterminer ensuite les meilleurs termes d’indexation. Compte tenu de
notre domaine d’application spécifique (indexation et recherche d’images), nous optons
plutôt pour une formule de pondération permettant de mesurer l’importance des noms
dans les définitions des lexèmes que la définition d’un processus d’extraction des seuls
hyperonymes à l’aide des patrons lexico-syntaxiques.
Les pondérations que nous proposons sont inspirées de schéma de pondération
TD-IDF présenté dans la section §2.1.1. mais adaptées à nos propres objectifs. Nous allons
maintenant présenter les facteurs retenus pour cette formule de pondération avant
d’évaluer l’importance de chaque facteur et de conclure par la pondération finale
retenue.
4.2.3.1. Pondération locale
La pondération locale d’un nom représente le nombre d’occurrences du nom dans
une définition, normalisé par la somme des nombres d’occurrences de tous les noms de
la définition. La normalisation du nombre d’occurrences d’un nom permet la
comparaison de deux définitions de longueurs différentes. Ainsi, nous ne pénalisons pas
134
les définitions de petite taille dans lesquelles un nom peut se rencontrer moins de fois
que dans les définitions de grande taille. La pondération locale permet d’évaluer
l’importance d’un nom dans une définition.
Soit une définition d et un nom t, alors le facteur fréquentiel tf normalisé est :
!" = !(!)
! !
!!
(4.1.)
où
! ! : fréquence d’un nom t dans la définition d,
! !
!!