• Aucun résultat trouvé

Chapitre 4. Extraction automatique d’informations pertinentes des définitions

4.2. Propositions de pondérations des noms dans le TLFi

4.2.1. Analyse des critères de pondération des noms dans une définition

Dans cette section, nous allons analyser les critères observables selon lesquels les

noms des définitions du TLFi pourraient être pondérés. Dans un premier temps, nous

avons listé et analysé sept critères :

1. La fréquence du nom dans une définition d’un lexème pour un domaine donné ;

2. La fréquence du nom dans toutes les définitions des lexèmes d’un vocable pour

un domaine donné ;

3. La fréquence du nom dans l’ensemble de toutes les définitions des lexèmes des

vocables pour un domaine donné ;

4. Le nombre de définitions des lexèmes pour un domaine donné qui contiennent le

nom ;

5. La position du nom dans la chaîne de caractères de la définition ;

6. L’appartenance du nom aux expressions métalinguistiques de la classe

d’opposition ou de négation constituée par nous et la position des autres noms

pas rapport aux expressions de cette classe ;

Nom de la classe Expressions métalinguistiques

Classe des indices d’opposition ou

de négation

Par opposition au (aux)

Sans

Pas avec

Non

Ni

Absence de/Manque de

  126

7. L’appartenance du nom aux expressions métalinguistiques de la classe

générique.

Nom de la classe Expressions métalinguistiques

Classe générique

Action de

Manière de

Fait de

Partie de

Ensemble de

Sorte de

Genre de

Sous-genre de

Vue de

Forme de

Famille de

Espèce de

Ordre de

Sous-ordre de

Variété de

Nom de

Représentation de

Suite de

Lot de

Série de

Groupe de

Réunion de

Tableau 4.3. Expressions métalinguistiques de la classe générique

Pour réaliser nos analyses, nous avons implémenté chaque critère de pondération

pour tous les noms des définitions du TLFi et présentons les analyses qui ont été faites

dans les sections suivantes.

  127

4.2.1.1. Analyse de la fréquence du nom dans les

définitions du TLFi

En analysant les fréquences des noms, nous avons constaté que les critères 1-3 sont

importants et influencent fortement le poids d’un nom dans une définition. Ainsi, dans

7 113 définitions du TLFi, un même nom apparaît plusieurs fois dans une définition

(critère 1). Par exemple, dans la définition du lexème DÉTERMINANT

60

on compte

quatre occurrences du lemme du nom mot, ce qui montre bien son importance.

L’occurrence du nom dans la définition dépend aussi de la construction de la définition.

Dans les définitions qui contiennent deux énoncés explicatifs séparés par un point

virgule (ex. « Surface plane et peu épaisse de quelque chose ; ce qui constitue une telle

surface » (PLATEAU

1

)) ou dans les énoncés énumératifs séparés par une virgule (ex.

« Bouton d’un appareil de radio, bouton de sonnette, interrupteur » (PITON)), le nom

qui est plus important (ex. surface, bouton) apparaît dans les 2 énoncés. Les occurrences

multiples d’un nom dans une définition devraient donc le favoriser par rapport aux

autres noms. Nous proposons donc que le poids d’un nom augmente

proportionnellement à son nombre d’occurrences dans la définition, ce qui permettrait

de bien renforcer ces noms comme candidats hyperonymes possibles pour un lexème

donné.

L’analyse de la fréquence du nom dans toutes les définitions des lexèmes d’un

vocable pour un domaine donné (critère 2) a permis d’émettre l’hypothèse que plus le

nom est fréquent dans les définitions des lexèmes d’un vocable pour un domaine donné,

plus le poids de ce nom devrait augmenter par rapport aux autres noms. Par exemple,

dans les définitions du vocable HERBE pour le domaine générique, le nom plante

apparaît trois fois, ce qui montre que ce nom est assez important et pertinent pour le

vocable donné.

Le poids d’un nom peut aussi varier selon sa fréquence dans l’ensemble de toutes les

définitions des lexèmes des vocables pour un domaine donné (critère 3). Plus un nom

apparaît dans l’ensemble des définitions d’un domaine, plus il paraît caractéristique

                                                                                                               

60 La définition du TLFi pour le lexème DÉTERMINANT est « Mot (ou groupe de mots) qui, placé à côté d’un autre mot ou groupe de mots (ou déterminé) a pour fonction de le déterminer, c’est-à-dire d’en préciser le genre, le nombre, éventuellement le sens contextuel et par là de limiter son extension.

 ».

  128

pour ce domaine. Par exemple, dans les définitions du domaine droit, les noms qui

possèdent le plus d’occurrences sont acte, personne, loi, etc.

4.2.1.2. Analyse du nombre de définitions

Le nombre de définitions des lexèmes pour un domaine donné qui contiennent le

nom étudié (critère 4) est sensiblement égal à la fréquence du nom dans l’ensemble de

toutes les définitions des lexèmes des vocables pour un domaine donné (critère 3).

Toutefois, nous avons remarqué que cette fréquence est un peu plus élevée, car un nom

peut apparaître plusieurs fois dans les définitions pour un domaine donné. Par exemple,

le nom justice apparaît 85 fois dans les définitions pour le domaine droit et il existe 83

définitions de lexèmes qui contiennent le nom justice pour plus de 2 600 substantifs

ayant au moins une définition particulière dans le domaine du droit.

4.2.1.3. Analyse de la position du nom dans la

définition

La position du nom dans la définition paraît assez importante (critère 5). Nous la

déterminons en calculant la position de la première occurrence du nom dans la chaîne

de caractères de la source de la définition

61

. Dans la plupart des cas, les noms en

positions 1 représentent la tête des genres prochains du lexème défini pour le domaine

donné, et ceux en position assez élevée représentent plutôt des caractéristiques

spécifiques.

Par ailleurs, il existe des définitions où le nom en position 1 est suivi d’une

préposition de type de, de la, des. Par exemple, dans le cas du lexème

FOURCHETTE

62

, se pose la question de savoir s’il faut considérer comme candidat

hyperonyme ustensile ou le syntagme ustensile de table. Il s’agit dans ce cas plutôt du

syntagme. Néanmoins, pour notre part, nous considérons que seul le nom ustensile

représente le candidat hyperonyme du lexème FOURCHETTE, parce que la

détermination automatique des syntagmes candidats hyperonymes avec exactitude est

                                                                                                               

61 Compte tenu du fait qu’on a déjà la liste de tous les noms de chaque définition, nous avons décidé de calculer la position de la première occurrence du nom dans la chaîne de caractères et non le numéro du nom dans la définition.

62 Une des définitions pour ce lexème dans le TLFi est « Ustensile de table en forme de petite fourche à deux, trois ou quatre dents, dont on se sert pour piquer les aliments ».

  129

en fait très problématique étant donné que les modes de présentation des formes des

locutions sont très différentes (ex. Souris (de mer), Mettre (qqc . ou qqn ) ablativo tout

(ou tous) en un tas, (Branche d') acacia, (Être ) sans âge, agent secret, Agent de change,

etc.).

4.2.1.4. Analyse de l’appartenance des noms aux

expressions métalinguistiques

Chaque type de définition (nominale, verbale, adjectivale, adverbiale) est lié à des

expressions métalinguistiques spécifiques caractéristiques de ce type. Dans les

définitions nominales, on rencontre souvent les expressions métalinguistiques de type :

action de, manière de, fait de, partie de, manque de, etc. Pour les définitions verbales

sont caractéristiques des locutions verbales et des locutions comprenant les verbes

fonctionnels faire, laisser, etc. Quant aux définitions adjectivales, elles ont plus souvent

la structure Qui + être + Adj., Qui + verbe, propre à, relatif à, se dit de, etc.

Au sein du TLFi il existe 7 362 définitions qui commencent par le nom action. Dans

ces définitions, action représente plutôt l’expression métalinguistique de type action +

de suivie de noms ou de verbes.

Le nom partie apparaît, pour sa part, comme le premier nom dans 1 567 définitions.

Ces définitions ont la structure de type partie + de + nom où il convient de considérer

partie de comme une expression métalinguistique. Cette expression indique une relation

méronymique : les noms qui suivent l’expression partie de désignent le tout duquel le

lexème donné fait partie. Par exemple, dans la définition « Partie de l’atmosphère

comprise entre deux niveaux et dans laquelle les nuages de certain genre se présentent

normalement » (ÉTAGE), partie de indique que le référent du lexème ÉTAGE fait

partie de l’atmosphère.

Si la classe des événements ou la classe des transports est définissable, la classe des

actions, des manières, est plus difficile à définir. Les candidats hyperonymes de type

action, manière, caractère, etc. sont trop génériques pour représenter des concepts.

C’est pourquoi nous avons créé une liste de toutes les expressions métalinguistiques

rencontrées dans les définitions du TLFi. Les noms inclus dans ces expressions ne

seront pas pris en compte comme candidats hyperonymes pour les lexèmes. Dans ce

cas, il s’agit le plus souvent de définitions par approximation.

  130

Ainsi, suite à nos études sur les définitions du TLFi, il apparaît que c’est plutôt la

position des noms dans les définitions par rapport à ces expressions métalinguistiques

qui est plus importante à prendre en compte. Un candidat hyperonyme d’un lexème se

trouve en effet souvent après une expression métalinguistique.