Chapitre 4. Extraction automatique d’informations pertinentes des définitions
4.2. Propositions de pondérations des noms dans le TLFi
4.2.1. Analyse des critères de pondération des noms dans une définition
Dans cette section, nous allons analyser les critères observables selon lesquels les
noms des définitions du TLFi pourraient être pondérés. Dans un premier temps, nous
avons listé et analysé sept critères :
1. La fréquence du nom dans une définition d’un lexème pour un domaine donné ;
2. La fréquence du nom dans toutes les définitions des lexèmes d’un vocable pour
un domaine donné ;
3. La fréquence du nom dans l’ensemble de toutes les définitions des lexèmes des
vocables pour un domaine donné ;
4. Le nombre de définitions des lexèmes pour un domaine donné qui contiennent le
nom ;
5. La position du nom dans la chaîne de caractères de la définition ;
6. L’appartenance du nom aux expressions métalinguistiques de la classe
d’opposition ou de négation constituée par nous et la position des autres noms
pas rapport aux expressions de cette classe ;
Nom de la classe Expressions métalinguistiques
Classe des indices d’opposition ou
de négation
Par opposition au (aux)
Sans
Pas avec
Non
Ni
Absence de/Manque de
126
7. L’appartenance du nom aux expressions métalinguistiques de la classe
générique.
Nom de la classe Expressions métalinguistiques
Classe générique
Action de
Manière de
Fait de
Partie de
Ensemble de
Sorte de
Genre de
Sous-genre de
Vue de
Forme de
Famille de
Espèce de
Ordre de
Sous-ordre de
Variété de
Nom de
Représentation de
Suite de
Lot de
Série de
Groupe de
Réunion de
Tableau 4.3. Expressions métalinguistiques de la classe générique
Pour réaliser nos analyses, nous avons implémenté chaque critère de pondération
pour tous les noms des définitions du TLFi et présentons les analyses qui ont été faites
dans les sections suivantes.
127
4.2.1.1. Analyse de la fréquence du nom dans les
définitions du TLFi
En analysant les fréquences des noms, nous avons constaté que les critères 1-3 sont
importants et influencent fortement le poids d’un nom dans une définition. Ainsi, dans
7 113 définitions du TLFi, un même nom apparaît plusieurs fois dans une définition
(critère 1). Par exemple, dans la définition du lexème DÉTERMINANT
60on compte
quatre occurrences du lemme du nom mot, ce qui montre bien son importance.
L’occurrence du nom dans la définition dépend aussi de la construction de la définition.
Dans les définitions qui contiennent deux énoncés explicatifs séparés par un point
virgule (ex. « Surface plane et peu épaisse de quelque chose ; ce qui constitue une telle
surface » (PLATEAU
1)) ou dans les énoncés énumératifs séparés par une virgule (ex.
« Bouton d’un appareil de radio, bouton de sonnette, interrupteur » (PITON)), le nom
qui est plus important (ex. surface, bouton) apparaît dans les 2 énoncés. Les occurrences
multiples d’un nom dans une définition devraient donc le favoriser par rapport aux
autres noms. Nous proposons donc que le poids d’un nom augmente
proportionnellement à son nombre d’occurrences dans la définition, ce qui permettrait
de bien renforcer ces noms comme candidats hyperonymes possibles pour un lexème
donné.
L’analyse de la fréquence du nom dans toutes les définitions des lexèmes d’un
vocable pour un domaine donné (critère 2) a permis d’émettre l’hypothèse que plus le
nom est fréquent dans les définitions des lexèmes d’un vocable pour un domaine donné,
plus le poids de ce nom devrait augmenter par rapport aux autres noms. Par exemple,
dans les définitions du vocable HERBE pour le domaine générique, le nom plante
apparaît trois fois, ce qui montre que ce nom est assez important et pertinent pour le
vocable donné.
Le poids d’un nom peut aussi varier selon sa fréquence dans l’ensemble de toutes les
définitions des lexèmes des vocables pour un domaine donné (critère 3). Plus un nom
apparaît dans l’ensemble des définitions d’un domaine, plus il paraît caractéristique
60 La définition du TLFi pour le lexème DÉTERMINANT est « Mot (ou groupe de mots) qui, placé à côté d’un autre mot ou groupe de mots (ou déterminé) a pour fonction de le déterminer, c’est-à-dire d’en préciser le genre, le nombre, éventuellement le sens contextuel et par là de limiter son extension.
».
128
pour ce domaine. Par exemple, dans les définitions du domaine droit, les noms qui
possèdent le plus d’occurrences sont acte, personne, loi, etc.
4.2.1.2. Analyse du nombre de définitions
Le nombre de définitions des lexèmes pour un domaine donné qui contiennent le
nom étudié (critère 4) est sensiblement égal à la fréquence du nom dans l’ensemble de
toutes les définitions des lexèmes des vocables pour un domaine donné (critère 3).
Toutefois, nous avons remarqué que cette fréquence est un peu plus élevée, car un nom
peut apparaître plusieurs fois dans les définitions pour un domaine donné. Par exemple,
le nom justice apparaît 85 fois dans les définitions pour le domaine droit et il existe 83
définitions de lexèmes qui contiennent le nom justice pour plus de 2 600 substantifs
ayant au moins une définition particulière dans le domaine du droit.
4.2.1.3. Analyse de la position du nom dans la
définition
La position du nom dans la définition paraît assez importante (critère 5). Nous la
déterminons en calculant la position de la première occurrence du nom dans la chaîne
de caractères de la source de la définition
61. Dans la plupart des cas, les noms en
positions 1 représentent la tête des genres prochains du lexème défini pour le domaine
donné, et ceux en position assez élevée représentent plutôt des caractéristiques
spécifiques.
Par ailleurs, il existe des définitions où le nom en position 1 est suivi d’une
préposition de type de, de la, des. Par exemple, dans le cas du lexème
FOURCHETTE
62, se pose la question de savoir s’il faut considérer comme candidat
hyperonyme ustensile ou le syntagme ustensile de table. Il s’agit dans ce cas plutôt du
syntagme. Néanmoins, pour notre part, nous considérons que seul le nom ustensile
représente le candidat hyperonyme du lexème FOURCHETTE, parce que la
détermination automatique des syntagmes candidats hyperonymes avec exactitude est
61 Compte tenu du fait qu’on a déjà la liste de tous les noms de chaque définition, nous avons décidé de calculer la position de la première occurrence du nom dans la chaîne de caractères et non le numéro du nom dans la définition.
62 Une des définitions pour ce lexème dans le TLFi est « Ustensile de table en forme de petite fourche à deux, trois ou quatre dents, dont on se sert pour piquer les aliments ».