Partie II Apprentissage de connaissances morphologiques 57
Chapitre 5 Analyse morphologique par classification 101
6.2 Pondération des familles morphologiques
Une famille morphologique est constituée par un ensemble de mots partageant un même
radi-cal. Chaque mot de la famille peut être caractérisé par son nombre d’occurrences dans le corpus
d’analyse. Nous allons calculer deux mesures différentes à partir de ce nombre d’occurrences : la
fréquence cumulée de la famille (CFF = Cumulative Family Frequency) et le log du rapport de
vraisemblance (LLR = Log Likelihood Ratio). Grâce à ces mesures, il sera possible de classer les
familles morphologiques par leur importance et donc de pondérer les mots qu’elles contiennent :
les mots-clés du domaine appartiennent aux familles morphologiques les plus importantes.
6.2. Pondération des familles morphologiques
6.2.1 Fréquence cumulée
La première mesure correspond à la fréquence cumulée (CFF) des mots de la famille
mor-phologique. Elle se calcule de la manière suivante :
Soient :
– F une famille morphologique composée des motsm
1, m
2, . . . , m
n;
– f(m
i) le nombre d’occurrences du mot m
idans le corpus analysé.
CF F =
n
X
i=1
f(m
i)
6.2.2 Log du rapport de vraisemblance
Le log du rapport de vraisemblance (LLR) est notamment utilisé pour comparer le nombre
d’occurrences de mots dans un corpus de spécialité par rapport à un corpus de référence. En effet,
les mots clés spécifiques au domaine spécialisé apparaissent de manière significativement plus
fréquente dans le corpus de spécialité que dans le corpus de langue générale. Le log du rapport de
vraisemblance permet d’estimer la significativité statistique de la différence des occurrences des
mots dans le corpus de spécialité et dans le corpus de référence. La formule du LLR est donnée
page 23. Nous avons adapté cette mesure à la comparaison des fréquences cumulées d’une famille
morphologique dans le corpus analysé et dans un corpus de référence aux fréquences cumulées
attendues selon l’hypothèse nulle. Le calcul de cette mesure repose sur la table de contingence 6.1.
Corpus 1 Corpus 2 Total
Fréquence cumulée de la famille a b a+b
Fréquence cumulée des autres familles c-a d-b c+d-a-b
Total c d c+d
Tab.6.1: Table de contingence pour la comparaison des fréquences cumulées des familles
mor-phologiques entre corpus.
La formule du log du rapport vraisemblance pour la famille F, selon la formule donnée par
[Rayson et Garside, 2000] est la suivante :
LLR= 2
µ
a ln
µ
a
E
1¶
+b ln
µ
b
E
2¶¶
La mesure du LLR permet de comparer les fréquences cumulées observées de la famille
morphologique dans chacun des corpus : O
1=a (Corpus 1) et O
2=b (Corpus 2) aux effectifs
attendus selon l’hypothèse d’indépendance :E
1=c·
ac++db(Corpus 1) et E
2= d·
ac++db(Corpus
2) oùc est le nombre d’occurrences de mots dans le Corpus 1 etd le nombre d’occurrences de
mots dans le Corpus 2
1.
1
Les mots du corpus de référence qui n’apparaissent pas dans le corpus utilisé pour l’acquisition des familles
constituent des familles dont ils sont les uniques membres.
Chapitre 6. Pondération et visualisation de mots clés
6.3 Visualisation des mots clés
Une fois les familles pondérées par la fréquence cumulée CFF ou le rapport du log de
vrai-semblance LLR, se pose la question de leur présentation. Les résultats de la pondération des
mots clés sont généralement présentés sous formes de liste ordonnées, par ordre de mesure
dé-croissante. Ce mode de visualisation rend l’analyse des données assez fastidieuse, car il faut
parcourir l’ensemble de la liste, jusqu’à un seuil limite de la mesure en-deçà duquel les mots clés
ne sont plus considérés comme pertinents. Nous proposons donc une présentation différente, sous
forme de liste pondérée au format HTML. Dans une telle liste, la taille de la police et la couleur
utilisées sont dépendantes du poids de l’élément représenté. Plus un élément est important, plus
la taille de la police est grande et plus la couleur est foncée. À l’inverse, moins l’élément est
important, plus la taille de la police est petite et plus la couleur est claire.
Ce mode de visualisation, basé sur le principe des « cartes de chaleur » (heatmap), est utilisé
par de nombreux sites Web pour présenter les mots clés ou étiquettes (tags) associés à divers
types de ressources. Dans ce cas, les listes pondérées sont appelées « nuages d’étiquettes » (tag
clouds). Les tags sont des mots ou des expressions permettant de décrire une ressource (photo,
page web, flux RSS, etc.) sur Internet et qui constituent ainsi des méta-données pour la ressource
décrite [Wikipedia, 2006b]. Lestags peuvent notamment être utilisés pour classer les ressources
décrites ou effectuer des recherches
1.
Le principe des « nuages d’étiquettes » est utilisable pour la visualisation de toute liste
de mots, à partir du moment où l’on dispose d’une mesure de pondération pour ces mots.
Par exemple, [Eiken et al., 2006] présentent les mots clés extraits quotidiennement de sites
d’actualités sous forme de nuages de mots clés. De manière similaire, J. Véronis, sur son blog
« Technologies du Langage » (http://aixtal.blogspot.com/), utilise les nuages de mots pour
représenter les mots clés de la presse ou les résultats de requêtes effectuées sur un moteur de
recherche. Son outil, le Nébuloscope [Véronis, 2006], génère des nuages de mots à partir des
résultats de requêtes sur le moteur Dir.com. La Figure 6.1 présente un tel nuage de mots généré
à partir de la requête « volcan ».
L’avantage majeur de ce type de représentations est qu’elle permet d’identifier rapidement
les mots clés les plus importants. De plus, elle diffère des représentations des listes classiques
triées par ordre de fréquence décroissante car les mots clés sont distribués sur une carte à deux
dimensions.
6.3.1 Listes pondérées de familles de mots
Compte tenu des avantages des listes pondérées, nous avons choisi ce mode de représentation
pour les familles de mots. La visualisation des familles plutôt que celle des mots clés conduit à
une réduction de la taille de la liste et évite les redondances. En effet, la Figure 6.1, obtenue
directement à partir des mots sans autre traitement, présente un certain nombre de répétitions
qui pourraient être évitées grâce à une regroupement préalable des mots en familles, comme
par exemple [eruption, eruptions], [hotel, hotels], [ile, iles] ou [volcan, volcanique, volcans]. On
retrouve là l’idée selon laquelle la morphologie permet une compression des données textuelles,
idée qui est exploitée par les algorithmes d’apprentissage de connaissances morphologiques basés
sur le principe de la longueur minimale de description (voir Section 2.3.3, p. 48). Par conséquent,
au lieu de représenter directement les mots clés sur la liste, nous y projetons les familles
morpho-logiques, représentées par un mot clé typique permettant l’accès à l’ensemble des éléments de la
famille. Ce mot clé typique peut être sélectionné en fonction de sa forme : il pourra alors s’agir
Dans le document
Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales
(Page 141-144)