• Aucun résultat trouvé

Partie II Apprentissage de connaissances morphologiques 57

Chapitre 5 Analyse morphologique par classification 101

6.2 Pondération des familles morphologiques

Une famille morphologique est constituée par un ensemble de mots partageant un même

radi-cal. Chaque mot de la famille peut être caractérisé par son nombre d’occurrences dans le corpus

d’analyse. Nous allons calculer deux mesures différentes à partir de ce nombre d’occurrences : la

fréquence cumulée de la famille (CFF = Cumulative Family Frequency) et le log du rapport de

vraisemblance (LLR = Log Likelihood Ratio). Grâce à ces mesures, il sera possible de classer les

familles morphologiques par leur importance et donc de pondérer les mots qu’elles contiennent :

les mots-clés du domaine appartiennent aux familles morphologiques les plus importantes.

6.2. Pondération des familles morphologiques

6.2.1 Fréquence cumulée

La première mesure correspond à la fréquence cumulée (CFF) des mots de la famille

mor-phologique. Elle se calcule de la manière suivante :

Soient :

– F une famille morphologique composée des motsm

1

, m

2

, . . . , m

n

;

– f(m

i

) le nombre d’occurrences du mot m

i

dans le corpus analysé.

CF F =

n

X

i=1

f(m

i

)

6.2.2 Log du rapport de vraisemblance

Le log du rapport de vraisemblance (LLR) est notamment utilisé pour comparer le nombre

d’occurrences de mots dans un corpus de spécialité par rapport à un corpus de référence. En effet,

les mots clés spécifiques au domaine spécialisé apparaissent de manière significativement plus

fréquente dans le corpus de spécialité que dans le corpus de langue générale. Le log du rapport de

vraisemblance permet d’estimer la significativité statistique de la différence des occurrences des

mots dans le corpus de spécialité et dans le corpus de référence. La formule du LLR est donnée

page 23. Nous avons adapté cette mesure à la comparaison des fréquences cumulées d’une famille

morphologique dans le corpus analysé et dans un corpus de référence aux fréquences cumulées

attendues selon l’hypothèse nulle. Le calcul de cette mesure repose sur la table de contingence 6.1.

Corpus 1 Corpus 2 Total

Fréquence cumulée de la famille a b a+b

Fréquence cumulée des autres familles c-a d-b c+d-a-b

Total c d c+d

Tab.6.1: Table de contingence pour la comparaison des fréquences cumulées des familles

mor-phologiques entre corpus.

La formule du log du rapport vraisemblance pour la famille F, selon la formule donnée par

[Rayson et Garside, 2000] est la suivante :

LLR= 2

µ

a ln

µ

a

E

1

+b ln

µ

b

E

2

¶¶

La mesure du LLR permet de comparer les fréquences cumulées observées de la famille

morphologique dans chacun des corpus : O

1

=a (Corpus 1) et O

2

=b (Corpus 2) aux effectifs

attendus selon l’hypothèse d’indépendance :E

1

=c·

ac++db

(Corpus 1) et E

2

= d·

ac++db

(Corpus

2) oùc est le nombre d’occurrences de mots dans le Corpus 1 etd le nombre d’occurrences de

mots dans le Corpus 2

1

.

1

Les mots du corpus de référence qui n’apparaissent pas dans le corpus utilisé pour l’acquisition des familles

constituent des familles dont ils sont les uniques membres.

Chapitre 6. Pondération et visualisation de mots clés

6.3 Visualisation des mots clés

Une fois les familles pondérées par la fréquence cumulée CFF ou le rapport du log de

vrai-semblance LLR, se pose la question de leur présentation. Les résultats de la pondération des

mots clés sont généralement présentés sous formes de liste ordonnées, par ordre de mesure

dé-croissante. Ce mode de visualisation rend l’analyse des données assez fastidieuse, car il faut

parcourir l’ensemble de la liste, jusqu’à un seuil limite de la mesure en-deçà duquel les mots clés

ne sont plus considérés comme pertinents. Nous proposons donc une présentation différente, sous

forme de liste pondérée au format HTML. Dans une telle liste, la taille de la police et la couleur

utilisées sont dépendantes du poids de l’élément représenté. Plus un élément est important, plus

la taille de la police est grande et plus la couleur est foncée. À l’inverse, moins l’élément est

important, plus la taille de la police est petite et plus la couleur est claire.

Ce mode de visualisation, basé sur le principe des « cartes de chaleur » (heatmap), est utilisé

par de nombreux sites Web pour présenter les mots clés ou étiquettes (tags) associés à divers

types de ressources. Dans ce cas, les listes pondérées sont appelées « nuages d’étiquettes » (tag

clouds). Les tags sont des mots ou des expressions permettant de décrire une ressource (photo,

page web, flux RSS, etc.) sur Internet et qui constituent ainsi des méta-données pour la ressource

décrite [Wikipedia, 2006b]. Lestags peuvent notamment être utilisés pour classer les ressources

décrites ou effectuer des recherches

1

.

Le principe des « nuages d’étiquettes » est utilisable pour la visualisation de toute liste

de mots, à partir du moment où l’on dispose d’une mesure de pondération pour ces mots.

Par exemple, [Eiken et al., 2006] présentent les mots clés extraits quotidiennement de sites

d’actualités sous forme de nuages de mots clés. De manière similaire, J. Véronis, sur son blog

« Technologies du Langage » (http://aixtal.blogspot.com/), utilise les nuages de mots pour

représenter les mots clés de la presse ou les résultats de requêtes effectuées sur un moteur de

recherche. Son outil, le Nébuloscope [Véronis, 2006], génère des nuages de mots à partir des

résultats de requêtes sur le moteur Dir.com. La Figure 6.1 présente un tel nuage de mots généré

à partir de la requête « volcan ».

L’avantage majeur de ce type de représentations est qu’elle permet d’identifier rapidement

les mots clés les plus importants. De plus, elle diffère des représentations des listes classiques

triées par ordre de fréquence décroissante car les mots clés sont distribués sur une carte à deux

dimensions.

6.3.1 Listes pondérées de familles de mots

Compte tenu des avantages des listes pondérées, nous avons choisi ce mode de représentation

pour les familles de mots. La visualisation des familles plutôt que celle des mots clés conduit à

une réduction de la taille de la liste et évite les redondances. En effet, la Figure 6.1, obtenue

directement à partir des mots sans autre traitement, présente un certain nombre de répétitions

qui pourraient être évitées grâce à une regroupement préalable des mots en familles, comme

par exemple [eruption, eruptions], [hotel, hotels], [ile, iles] ou [volcan, volcanique, volcans]. On

retrouve là l’idée selon laquelle la morphologie permet une compression des données textuelles,

idée qui est exploitée par les algorithmes d’apprentissage de connaissances morphologiques basés

sur le principe de la longueur minimale de description (voir Section 2.3.3, p. 48). Par conséquent,

au lieu de représenter directement les mots clés sur la liste, nous y projetons les familles

morpho-logiques, représentées par un mot clé typique permettant l’accès à l’ensemble des éléments de la

famille. Ce mot clé typique peut être sélectionné en fonction de sa forme : il pourra alors s’agir