C HRISTEL B EAUJARD M ICHÈLE J ARDINO
Classifications de mots non étiquetés par des méthodes statistiques
Mathématiques et sciences humaines, tome 147 (1999), p. 7-23
<http://www.numdam.org/item?id=MSH_1999__147__7_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1999, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CLASSIFICATIONS
DE MOTS NONÉTIQUETÉS
PAR DES
MÉTHODES STATISTIQUES
Christel
BEAUJARD,
MichèleJARDINO1
RÉSUMÉ -
Notre thématique de recherche est ledéveloppement
de modèles delangage
robustespour la reconnaissance de la
parole.
Ces modèles doiventprédire
un mot connaissant les mots qui leprécèdent. Malgré
le nombre croissant de données textuellesélectroniques,
toutes lespossibilités
de lalangue
ne sont pas présentes dans ces données, un moyen de les obtenir est degénéraliser
lareprésentation
textuelle en regroupant les mots dans des classes. Les modèles de
langage fondés
sur des classesprésentent
alors une
plus large
couverture de lalangue
avec un nombre réduit deparamètres
permettant une reconnaissanceplus rapide
des mots par lessystèmes
de reconnaissance de laparole
danslesquels
ils sontintroduits. Nous décrivons deux types de
classification automatique
de mots, apprisstatistiquement
sur destextes écrits de journaux et de transcriptions de
parole.
Cesclassifications
ne nécessitent pasd’étiquetage
des mots, elles sont réalisées suivant les contextes locaux dans
lesquels
les mots sont observés. L’une estbasée sur la distance de Kullback-Leibler et
répartit
tous les mots dans un nombre de classesfixé
àl’avance. La seconde regroupe les mots considérés comme similaires dans un nombre de classes non
prédéfini.
Cette étude a été réalisée sur les donnéesd’apprentissage
enfrançais
de domaines, de taille et devocabulaire
différents.
MOTS-CLÉS -
Classification,partitionnement,
distance,statistiques, optimisation,
recon-naissance de la
parole,
modèles delangages probabilistes.
SUMMARY 2014
Clustering
unlabelled words with statistical methodsOur
goal
is todevelop
robustlanguage
models forspeech recognition.
These models have topredict
aword
knowing
its history.Although
theincreasing
sizeof
electronic text data, all thepossible
wordsequences
of a language
cannot be observed. A way to generate these non encountered word sequences is to map words in classes. The class-basedlanguage
models have a better coverageof
thelanguage
with areduced number
of parameters,
a situation whichis favourable
tospeed
up thespeech recognition
systems.Two types
of automatic
wordclassification
are described.They
are trained on word statistics estimated on textsderived from
newspapers and transcribedspeech.
Theseclassifications
do not require any tagging,words are
classified according
to the local context in whichthey
occur. Thefirst
one is amapping of
thevocabulary
words ina fixed
numberof
classesaccording
to a Kullback-Leibler measure. In the second one,similar words are clustered in classes whose number is
not fixed
in advance. This work has beenperformed
with French
training
datacoming from
two domains, bothdifferent
in size andvocabulary.
KEYWORDS - Classifications,
mapping,
distance, statistics,optimization, speech recognition, language modeling.
1 LIMSI-CNRS,
Groupe
Traitement duLangage
Parlé, Université Paris-Sud, bät. 508, BP 133, 91403Orsay
Cedex, e-mail :beaujard@limsi.fr
etjardino@limsi.fr
1. INTRODUCTION
Nous décrivons deux classifications de mots non
étiquetés
dontl’apprentissage
est réaliséà
partir
destatistiques
obtenues sur des textes écrits. Notre domaine de recherche est lareconnaissance de la
parole
continue. Celle-ci nécessite la connaissance apriori
de mo-dèles de
langage prédisant
un mot connaissant les motsprécédents.
Si on considére la chaîne de mots mlm2m3...mi, le modèle de
langage
leplus général
fournit laprobabilité
conditionnelle d’obtenir le mot mi sachant son histoire/~(?7~)
= mim~s...77~-1, soit :L’ensemble de ces
probabilités
estimpossible
àestimer,
aussi réduit-on l’histoire dechaque
mot en considérantqu’il
y a suffisamment d’information dans le ou les deux motsprécédents
pour donner une estimation fiable dep(mi~h(m2)) [15].
Si on ne considèreque le mot
précédent
en réduisant la chaine mlrn2m3...mi-1mi à mi-imi, on estime laprobabilité
d’obtenir le mot m, par laprobabilité conditionnelle, p(mi Imt-1).
Pour calculer cette
probabilité,
onprojette
l’ensemble des mots mi d’un texted’apprentissage
sur un vocabulaire V== {v k}
de tailleLv,
ensupposant
que les mots du textequi
sont horsvocabulaire,
sontreprésentés
par une seule forme vo.Si vj
et Vsont les
projections respectives
de mi-l et mi surV,
laprobabilité p(mi ~ m2_ 1 )
est alorsdonnée à
partir
desfréquences
d’observationde v j
et v k et desséquences
v j v k. Le modèle delangage
est entièrement défini parL 2 paramètres2, qui correspondent
auxséquences
dedeux mots
consécutifs,
que nousappelons "bigrammes
de mots". Si onprend l’exemple
de la dictée vocale avec un vocabulaire limité de 20 000 mots, il faudrait observer 400 millions de
bigrammes
de mots différents pour couvrir le modèle.Plusieurs méthodes sont utilisées pour estimer les
bigrammes
de mots nonobservés,
l’une d’entre elles est de regrouper les mots du vocabulaire dans des classes et d’estimer laprobabilité p(mi /mi-l)
àpartir
nonplus
desprobabilités
de succession des mots v~v~, mais àpartir
desprobabilités
de succession des classesqui
les contiennent. Si on suppose quechaque
mot du vocabulaire nepeut appartenir qu’à
une seule classe et queC ( v j)
etC(Vk)
sont les classes desmots vj
et v~, on a :A
chaque séquence
de deux mots consécutifs est associée uneséquence
dedeux
classes, appelée "bigramme
de classes". SiLc
est le nombre declasses,
le nombre de
paramètres
à estimer pour un modèle à base declasses,
est alors ..Lc * ( Lc -1 )
+~~ - Le (voir
note2).
Ilcorrespond principalement
au nombre debigrammes
de classespossibles.
Parexemple
en utilisant 1000 classes pour un vocabu- laire de 20 000 mots, il y environ un million deparamètres
à déterminer pour couvrir lemodèle,
à comparer aux 400 millions deparamètres
nécessaires pour couvrir un modèle fondé sur desbigrammes
de mots.Ainsi,
pour une mêmequantité
dedonnées,
on obtient une meilleure couver-ture du
modèle,
engénérant
des transitions entre mots non observées dans le texte2En fait, il
n’y
a queLv (Lv - 1) paramètres
à estimer, Lvparamètres
étant déterminés àpartir
desrelations de normalisation des
probabilités
conditionnelles.d’apprentissage.
Cette meilleure couverture ou robustesse du modèle est obtenue au détri- ment de saprécision, puisque
laprobabilité
de transition entre mots estmoyennée
par laprobabilité
de transition entre classes(équation 2), qui
est la même pour tous les mots contenus dans les classescorrespondantes.
Le
problème
est alors de savoirquelle
classification utiliser. La classificationmorpho-syntaxique classique,
attribuant àchaque
mot ou àchaque séquence
de motsune liste
d’étiquettes
incluant genre,nombre,...
est loin d’êtreunique
et il existe unegrande
variabilité dereprésentations [1].
C’estpourquoi
nous avonsdéveloppé
des mé-thodes pour regrouper des mots à
partir
des informationsstatistiques
depositions
et defréquences relatives,
observées sur des données textuelles de taillesuffisante,
ceci sansaucune attribution
d’étiquette
aux mots.Nous décrivons deux sortes de classification que nous
appliquons
à deux ensemblesde données textuelles. Ces deux classifications réalisent des niveaux de
généralisation différents,
l’une est unepartition
du vocabulaire enLc classes,
l’autre regroupe les mots"similaires". Ces deux méthodes ont été
développées
pour obtenir des modèles de lan- gage réalisant un boncompromis
entre robustesse etprécision compte
tenu des donnéesdisponibles
pourl’apprentissage.
2. TEXTES D’APPRENTISSAGE ET D’EVALUATION
Deux
types
de textes écrits ont été utilisés : des textesprovenant
dejournaux
et destranscriptions
deparole spontanée.
Pourchaque type
de texte, nous avons utilisé deux ensemblesdisjoints,
l’un pour la classification et l’autre pour son évaluation.Ces deux
types
de textescorrespondent
à deux situationstypiques
dans le domaine de la reconnaissance de laparole,
l’une est associée à la dictée vocale et doit couvrir leplus largement possible
lalangue utilisée,
l’autrecorrespond
à desdialogues
homme-machine pour
lesquels
le domainelangagier
estplus
restreint et souvent destyle plus
relâché.
2.1. TEXTES DE JOURNAUX
Les textes de
journaux
sont constitués d’articles issus du Monde(1987-1997)
et dedépêches
de l’AFP. Ce corpus contient environ 300 millions de mots pour un vocabu- laire V =lvkl correspondant
aux 750 000 mots différents observés dans ce corpus. Le tableau 1donne,
selon unefréquence
seuil F(colonne 1)
d’observation des mots vk dans le texted’apprentissage
TA :~ colonne
2 : 1 E FI,
le cardinal de l’ensembleEF
oùE~
est défini par :, où
N (Vk)
est lafréquence
d’observation de vk.. colonne
3 : 1 Etot,FI,
le cardinal de l’ensembleEtot,F
oùEt,t,F
est défini par :~ colonne
4 : 1 VF 1,
le cardinal de l’ensembleVF
oùVF
est défini par :On
peut
noter que :Tableau 1:
Statistiques
du texted’apprentissage
en fonction de lafréquence
d’observation des mots différents
Comme on
peut
le voir dans cetableau,
environ la moitié des mots de Vn’apparaissent qu’une
seule fois dans le texte. Onpeut également
remarquer que si l’on réduit le vocabulaire aux 20 000 mots lesplus fréquents
du corpus, seulement 5% des mots du texte ne sont pas identifiés.La
figure
1 montre l’évolution de la couverture du texted’apprentissage,
soit :en fonction de la taille du
vocabulaire, 1 VF 1, lorsque
celui est constitué des mots lesplus fréquents.
Figure
1: Couverture du texted’apprentissage
en fonction de la taille du vocabulaireLe choix d’un vocabulaire de 20 000 mots est un
compromis permettant
degérer
moins de données avec une
perte
raisonnable d’informations. Il faut noter que les sys- tèmes de reconnaissance de laparole
lesplus performants
actuellement utilisent au max-imum 65 534 mots
(216 - 1)
de vocabulaire et ne fonctionnent pas entemps
réel[11].
La réduction du vocabulaire
permet
de serapprocher
des conditions dutemps
réel. Aux15 millions de mots inconnus résultant du choix d’un vocabulaire de 20 000 mots est as-
sociée une seule forme dans le vocabulaire. Le nombre de
bigrammes
de mots observésest de 19 millions pour un vocabulaire d’environ 750 000 mots, il se réduit à environ 8 millions pour un vocabulaire de 20 000 mots.
Sur les courbes de la
figure
2a sontreprésentées
les distributions desprobabilités
conditionnelles d’obtenir "mot" connaissant les mots le et
Jacques.
Cesprobabilités
sontcalculées à
partir
desfréquences
desbigrammes
de motscorrespondants
observés dansles textes
de journaux
etrangés
en ordre décroissant selon le rang deprédiction
de "mot".Par
exemple,
à l’abscisse 1 on trouveprésident
comme mot leplus probable après
le etChirac
après Jacques,
cequi
n’est pas étonnant pour le corpus utilisé.Figure
2: Distributions ordonnées desprobabilités
conditionnelles relatives aux mots le etJacques
dansle journal
Le Monde( 1987-1997) (Figure 2a)
et aux mots à et Paris dansles
transcriptions
derenseignements
ferroviaires(Figure 2b)
Ces courbes montrent la diversité du
comportement
des mots dans les textes. Onobtient deux distributions très
différentes,
l’unerépartie
sur presque la moitié du vocabu- laire pour le mot le et l’autre sur un espace 10 foisplus petit
pour le motJacques. Jacques
est
plus prédictif
que le. Une distributionpointue permet
deprédire plus
facilement unsmot. Dans le cas limite d’une distribution de Dirac un seul mot serait
prédit.
Le texte d’évaluation
provient
du MondeDiplomatique (1990-1996)
et contient en-viron 400 000 mots.
2.2. TRANSCRIPTIONS DE PAROLE
SPONTANÉE
Les
transcriptions
deparole spontanée
ont été réalisées àpartir d’enregistrements
dedialogues
HommeIMachine[17].
Cesdialogues
concernent lesrenseignements
sur lesprestations
et services ferroviaires en France. Le texted’apprentissage,
ainsiconstitué,
contient environ 420 000 mots. Le
vocabulaire,
d’une taille de 1131 mots, est constitué des mots du texted’apprentissage, orthographiés
correctement et observésplus
d’une foissauf s’il
s’agit
d’un nom de ville. Etant donné le faible nombre de formesdifférentes,
lerepérage
des mots incorrects et celui des villes a été réalisé manuellement. Les 381 motsinconnus du texte
d’apprentissage
nonrépertoriés
dans levocabulaire,
sontregroupés
sousune même forme. Ce sont soit des
segments
de motsinterrompus (vou-, résu-,
par-,...),
soit des mots
n’apparaissant qu’une
seule fois(tabac,
rouge,avion,
raconter,empêche,...).
Nous avons choisi de ne pas tenir
compte
des évènements rares àl’apprentissage,
peu si-gnificatifs statistiquement,
àl’exception
des noms de villequi
sontindispensables
à latâche de
renseignements.
Lepourcentage
enfréquence
des mots inconnus dans le texted’apprentissage
est alors inférieur à0,5%.
Le nombre debigrammes
de mots observés estd’environ 14 000.
Sur les courbes de la
figure
2b sontreprésentés
les distributions desprobabilités
conditionnelles d’obtenir un mot connaissant les mots à et
Paris,
observés dans le texted’apprentissage provenant
destranscriptions
deparole.
Le texte
d’évaluation,
soit 12 000 mots,provient
detranscriptions
de données nonutilisées à
l’apprentissage.
3. PARTITION DU
VOCABULAIRE, Cp
Le nombre de
partitions
deLv
mots enLc
classes est le nombre deStirling
du deuxième ordre[6].
Pour nosapplications
où les vocabulaires contiennentplusieurs
milliers de mots ,l’espace
derecherche,
devient trèsrapidement gigantesque quand
le nombre de classesaugmente.
Une recherche exhaustive de lapartition optimale
est alorsimpossible
en un
temps polynomial,
aussi utilise-t-on uneexploration
au hasard(Monte Carlo)
pour rechercher une solutionqui
minimise notre critère de classification en untemps
réalisable.3.1.
CRITÈRE
DESÉLECTION,
DISTANCE DEKULLBACK-LEIBLER, Dp
Nous recherchons la classification
qui
assure une distance minimale entre la distribution debigrammes
des motsclassés,
et celle des mots non classés.On suppose que la
distribution,
p, de mots non classés estcomplètement
décritepar l’ensemble des
probabilités conditionnelles, p( v k 1 v j),
d’obtenir un mot vk connaissant le motprécédent
v j . Cesprobabilités
sont calculées àpartir
desfréquences
observéesdans le texte
d’apprentissage, TA,
desbigrammes Vj Vk
et desmots v j
et Vk.Quand
on re-groupe les mots dans des
classes,
cesprobabilités
sontmoyennées
et calculées àpartir
desfréquences
desséquences
de classesC ( v j) C (vk).
Achaque
classification sontgénérés
denouveaux
bigrammes
de mots résultant des interactionsclasse-classe,
d’où une nouvelledistribution, q(v~ ~ v~ ),
desprobabilités
conditionnelles.Pour obtenir une classification
optimale,
on utilise la distance de Kullback-Leiblerappliquée
à desprobabilités
conditionnelles[7],
entre ladistribution p
de référence et lesdistributions q
explorées, Dp (pl 1 q) :
Les valeurs des
probabilités
sont estimées par lesfréquences (notation N ( . ) )
desévènements
correspondants
dans le texted’apprentissage TA,
soit :où N est le nombre total de mots du texte TA.
3.2. ALGORITHME DE
Cp
L’algorithme
cherchealéatoirement,
larépartition qui
minimise la distanceDp
entre ladistribution des mots non classés et celle des mots classés
[ 13,14].
Le nombre de classesest défini a
priori.
Initialement tous les mots sontregroupés
dans une mêmeclasse,
cequi correspond
à une distributioninitiale q qui
nedépend
que desfréquences
des mots.La recherche aléatoire est réalisée de la manière suivante : à
chaque
pas on choisit un motau hasard et on lui affecte une nouvelle classe
également
au hasard. Si la distanceDp
diminue on
garde
la nouvelleaffectation,
sinon on conserve l’ancienne. On arrête le pro-cessus
quand
iln’y
aplus
dechangement
ouquand
les variations de distance deviennent infimes.A
chaque
pas, onbalaye
l’ensemble desbigrammes
de mots associés au mot choisialéatoirement. Si
NBv
est le nombre total debigrammes
de mots observés dans le texted’apprentissage,
il y a alors2NBv / Lv bigrammes
àexplorer
car le motpeut
être soit lepremier
terme soit le deuxième terme dubigramme.
Ensuite on calcule les variations desfréquences
desbigrammes
de classesassociés,
soit uneexploration
de4Lc bigrammes
declasses.
Expérimentalement,
on atteint unquasi-équilibre après
avoir effectué une cen-taine d’essais de
changement
de classe surchaque
mot. SiN(essais)
est cenombre,
la classification finale est donc obtenue enN(essais)(2NBv + 4 Le Lv) opérations.
A titreindicatif,
unepartition
en 1000 classes du corpus de 300 millions de mots est réalisée en5 heures sur une station de travail SGI RIO 000.
Notre méthode se rattache à la méthode des nuées
dynamiques [6],
la recherche aléatoirepermettant
un accèsrapide
à une solutionquasiment optimale.
Nous avons véri-fié que cette solution se
rapprochait
del’optimum global,
en lacomparant
à une solutionobtenue par recuit simulé
[13].
D’autresheuristiques
ont étéproposées
pour réaliser une classificationautomatique
de mots nonétiquetés
avec le même critère de sélection. Une des méthodes[5] correspond
à une classificationhiérarchique
ascendante. Les mots sont initialement chacun dans une classe et on regroupe les motspuis
les groupes de motsqui
minimisent l’accroissement deDp.
Cetalgorithme
est trèscoûteux,
et n’a pu être ap-pliqué
sur degrands
nombres de mots. Une deuxième méthode[18]
estégalement
dutype
nuées
dynamiques
maisl’exploration
del’espace
est réaliséesytématiquement
etdépend
crucialement des conditions
initiales,
cetalgorithme
estégalement plus
coûteux entemps.
4. CLASSIFICATION DES MOTS
SIMILAIRES, Cs
La méthode
précédente
utilise uneapproche
descendantequi
nécessite une connaissancea
priori
du nombre de classes danslesquelles
on autorise larépartition
de tous les mots.A l’inverse,
la méthode suivante utilise uneapproche ascendante,
cherchant à regrouperune
partie
des mots dans un nombre de classes non défini à l’avance.4.1.
SIMILARITÉ
Dans cette
classification,
les mots sontregroupés
selon un critère de similarité. On définit la similarité entre deux mots en considérant leurs voisins dans le texted’apprentissage.
On
rappelle
que les voisins ou contextes d’un mot sont l’ensemble des motsqui peuvent
setrouver immédiatement avant lui
(voisins
degauche)
ou immédiatementaprès
lui(voisins
de
droite)
dans le texted’apprentissage.
La classification d’un mot nécessite de connaître à la fois son contextegauche
et son contexte droit. Eneffet,
dans leterme P ( C ( V k) 1 C ( v j ) )
de
l’équation (2),
les classes interviennent aussi bien dans laprédiction (rôle
deC (vk ) )
que dans la condition
(rôle
deC(Vj)).
Si maintenant on considère les deux mots du
vocabulaires
et vn, dont on veutmesurer le
degré
desimilarité,
on définit l’intersection des ensembles des voisins degauche
de ces deux mots par l’ensemble des contextesgauches
communsà v,
et Vn, notéCGC(vj, vn).
On détermine de la même manièreCDC(vj, vn),
l’ensemble des contextesdroits communs
à v.
et vn .On définit les similarités
SG
etSD, applications
de V x V dansR+,
àpartir
desprobabilités
conditionnellesp(vi iv
etp(vç ~vn)
d’observer le mot Vi connaissant les mots v j et vn, le mot vipouvant
être soit à droite soit àgauche
desmots v,
et vn. On a :Les mots similaires sont ceux pour
lesquels
lesprobabilités
conditionnelles asso-ciées sont distribuées sur
quasiment
le même sous-espace.SG
etSD
sont bien des simi- larités car elles vérifient les deuxpropriétés
suivantes :A
partir
de cessimilarités,
on définit lasimilarité, S,
entre les deuxmots v,
et vnpar :
S est bien une similarité car :
2. d’une
part
or
donc d’autre
part
donc
La similarité entre deux mots est d’autant
plus grande
que l’intersection de leurs contextes estgrande.
Cette définition de la similarité S est une extension de celle utiliséeen
[3],
elle al’avantage
degénérer
une seulematrice,
carrée etsymétrique.
4.2. ALGORITHME DE
CS
A l’état
initial,
les mots sont isolés les uns des autres. Ensuite ils sontcomparés
itérative-ment deux par deux dans l’ordre
alphabétique.
L’ordre n’a pasd’importance
parce que les mots sonttoujours comparés
dans leur état initial. Les mots sontregroupés
dans unmême ensemble si leur similarité est
supérieure
à un seuil fixé initialement.Trois cas se
présentent :
. Les deux mots
comparés n’appartiennent
encore à aucun groupe de mots, un nouvelensemble,
contenant ces deux mots, est alors créé.~ Un des deux mots est
déjà regroupé
avecd’autres,
alors le motqui
était seul estajouté
au groupedéjà
existant.e Les deux mots sont
déjà regroupés
dans des ensemblesdifférents,
alors les deux ensembles sont fusionnés.Cette classification
correspond
auxcomposantes
connexes d’ungraphe
seuil[9].
Tousles mots du vocabulaire ne trouvent pas un mot
similaire,
cequi signifie qu’à
la fin de la classificationautomatique,
certains motsappartiennent
à des ensembles d’au moins deux mots et d’autres pas.On compare
chaque
mot duvocabulaire v,
à l’ensemble des mots du vocabulaire pourlesquels
leregroupement
avec v j n’a pas étéessayé,
cequi correspond
à(L v - 1) / 2 opérations
en moyenne. Achaque comparaison de Vj
avec un Vn , onrepère
les contextesde v j parmis
ceux de vn, soit2NBv / Lv opérations3
en moyenne. Les contextesde v j
étantreprésentés
par un vecteur de taille moyenneNB~ / Lv,
la classification de l’ensemble des mots est achevée en(2NBv / Lv
+2NB~ / Lv
*( ~~ -1 ) l2) Lv N NBY Lv opérations.
A titre
indicatif,
la classification réalisée sur les textes du Monde(1987-1988),
s’effectue en 2 heures environ sur une station de travail SGI RIO 000.
La notion de similarité a
déjà
été utilisée pour regrouper des mots nonétiquetés,
mais avec des définitions différentes du critère de sélection
(fréquence
des mots , in-formation mutuelle
[7] )
et del’espace
surlequel
il doit êtreappliqué [10], [8].
Notreméthode
qui prend
encompte
le contexte immédiat dechaque
mot estplus adaptée
aupoint
de vue markovien dessystèmes
de reconnaissance de laparole.
5. CLASSIFICATIONS OBTENUES
Les classifications ont été
apprises, indépendamment
l’une del’autre,
sur les deuxtypes
de textes décrits en section 2.2. Les résultats sont donnés
quantitativement
etqualitative-,
ment avec des
exemples
de classes.5.1.
CARACTÉRISTIQUES GÉNÉRALES
Les
paramètres initiaux,
le nombre de classes pourCp
et le seuil de similarité pourCs
sont déterminés
expérimentalement
sur des données dedéveloppement (différentes
del’apprentissage).
Pour la classificationCp
le nombre de classes est choisi de telle sortequ’ il corresponde
à uneprédiction optimale
sur ces données[ 13,14] .
Pour la classificationCs,
les critèresd’optimalité
décrits en[3, 4]
fixent le seuil de similarité. Le tableau 230n
rappelle
que NBV est le nombre debigrammes
de mots observés dans le texted’apprentissage
et Lv est la taille du vocabulairedonne,
à l’étatfinal,
le nombre de classes contenantplus
d’un mot, lepourcentage
de motsclassés,
le nombre debigrammes
declasses,
le nombre debigrammes
de motsgénérés
par la classification
(cf.
section1)
et le nombre debigrammes
de mots observés. Les valeurs enitalique
illustrent la classification des données dejournaux
parCs,
elles necorrespondent
pas à des critèresd’optimalité,
elles ont été obtenues avec le même seuilque celui des données de
parole,
et sont données à titre decomparaison.
Tableau 2:
Caractéristiques
de l’état final des classificationsCp
etCs
Dans ce tableau on observe une différence
significative
des nombres de motsclassés. Ceci est essentiellement dû au fait que la classification
Cp
contraint tous lesmots à se
répartir
dans un nombre de classesfixe,
alors que la classificationCs
ne re-groupe que les mots similaires.
Rappelons
que notreobjectif
est de trouver unéquilibre
entre
robustesse, précision
etcomplexité,
selon les textesd’apprentissage
utilisés et nonpas de classer tous les mots. On
peut également
constater que lacomplexité
est réduitepuisque
le nombre debigrammes
de classes est inférieur au nombre debigrammes
demots, notablement pour la classification
Cp
sur les textes dejournaux.
5.2. CONTENU DES CLASSES
L’étude a
posteriori
du contenu des classes estsubjective. Rappelons
que les mots quenous classons ne sont pas
étiquetés
et que nous n’utilisons pas de classesprédéfinies.
Nous
présentons quelques
classessignificatives
des classificationsapprises
sur les textesde
journaux
et sur lestranscriptions
dedialogues.
On constate que les classes ont une certaine
typologie
que l’onpeut qualifier
a pos- teriori.Cependant,
unepartie
d’entre elles nepeut
pas recevoir de dénomination car ces classes ont un contenu sans cohérenceapparente.
Onqualifie
une classelorsque
la ma-jorité
des motsqu’elle
contient a la mêmetypologie.
Rappelons
que ces classes de mots sont construites connaissant les mots ou les en-sembles de mots voisins et reflètent donc une certaine
syntaxe,
voire une certaine séman-tique
de lalangue,
mais réduites au contexte leplus proche.
C’est ainsi que l’on pourra observer des classes de mots aupluriel
car ces mots sontprécédés
d’un même article aupluriel
trèsfréquent,
des classes deprénoms
car ils sont suivismajoritairement
par desnoms propres, etc.
5.2.1.
Apprentissage
sur les textes dejournaux
Nous donnons ici
quelques exemples
de larépartition
des 20 000 mots duvocabulaire,
ap-prise
àpartir
des textes dejournaux,
les nombres entreparenthèses indiquent
lafréquence
des mots dans le texte.
Dans la classification effectuée par
Cp
et sur 100classes,
on reconnaît :· des classes avec un seul mot très
fréquent,
dont certains sont considérés commedes mots-outils à
(5
625414),
de(14
556521),
les(5
019641 ), s’ (1
044080), cent ( 1929 492)
e des classes
grammaticales :
- une classe de 544 noms féminins
singuliers :
Action(3 027), Agence (9 448), abbaye (1243),
abolition(1986),
abondance(1798),
absence(24 847), absorp-
tion
(915), ...
- une classe de 860 noms communs
pluriels :
Amis(679),
Cahiers(1 396),
Côtes(819),
abords(3 285),
académies(809),
accents(1756),
accusés(10 869), adjoints (2 183), ...
- une classe de 600
participes passés
au masculinsingulier :
abaissé(942),
abandonné(6 890),
abattu(5 000),
abordé(2 437),
abouti(4 620),
ab- sorbé(913),
...- une classe de 665 verbes à l’ infinitif : baisser
(5 755), balayer (699),
bar-rer
(702),
basculer(1 555),
battre(8 330), bloquer (3 047),
bombarder(1 357),
boucler( 1590),
...- une classe de 320 adverbes de manière : abondamment
(1 502),
abusive-ment
(605),
accessoirement(841),
activement(3 296),
actuellement(50 161),
admirablement(942),
.... des classes
"sémantiques",
parexemple :
- une classe de 600
prénoms :
Abdel(4 628),
Abel(1 121),
Abou(6 052),
Abra- ham(1 696),
Achille(1 408),
Adam(1 855),
Adrien(1 153), Agnès (1 531),
Ahmad
(1 548), ...
et entités secomportant
comme unprénom :
al(11 115),
cheikh
(3 842),
del(3 004),
der(1 835),
di(2 126),
el(4 755),
ex(5 244), in (8 671),
lord(1713),
m(1492),
...- une classe de mois :
janvier (99 658), février (79 700),
mars(104 005),
avril(91 267),
mai(99 653), juin (109 381), juillet (95 756),
août(74 540),
septembre (93 639),
octobre(96 196),
novembre(85 314),
décembre(97 751)
plus
un substantiftemporel
semestre(8153).
- des classes de nombres :
cinquante (175 374), cinquante-deux (25 088),
cinquante-quatre (23 632),
dix(219 063),
dix-huit(98 119), dix-sept (92 084),
_
douze (133 116), ...
Dans ces
classes,
il y a une faibleproportion
de motsqui
necorrespondent
pas àl’ étiquette
donnée a
posteriori.
Enrevanche,
d’autres classespeuvent
difficilement recevoir une éti-quette
par leurinhomogénéité.
Parexemple,
la classequi
contient les 12 mots suivants :Amnesty (3 876),
Antenne(1 990),
Manchester(3 836),
New(31137),
divers(45 534),
envi-’
ron
(64 508),
inscr.(4 965), quelque (90 031),
seules(10 214),
seuls(25 517),
tous(212 041),
toutes
(107 133). Quelques
mots, dans cetteclasse,
ont unetypologie comparable,
mais ily a des mots sans lien
apparent
avec les autres. Ceci est vraisemblablement dû au fait quechaque
mot nepeut
être que dans une seuleclasse,
cequi
introduit une distorsion d’autantplus grande
que le nombre de classes est faible.La classification
provenant
deCs
donne la mêmetypologie
que la classificationCp, qui
traduit unesyntaxe
deproximité,
mais avec un nombre réduit de mots classés :e des classes
grammaticales :
- une classe de 15 noms au
pluriel :
Internationaux(2 575),
abords(3 285),
alentours(3 518),
allures(2 751),
centaines(23 694),
chances(13 166),
chefs (33 607),
côtés(15 083), ...
- une classe de 131 noms au
singulier :
Mission(2 862),
Monde(81 155), Quai (3 869), Quotidien (2 059),
baisse(41 427), bien-fondé ( 1 800),
bord(29 986),
bordure(1 383),
...- une classe de 25
participes passés
masculinssinguliers.
-
plusieurs
classes de verbes à l’infinitif : obtenir(35 239),
éviter(33 001).
assurer(29 303), empêcher (16 187).
e des classes
"sémantiques" :
- une classe de 23 chiffres.
- la classe des 12 mois.
- la classe des 2 mots : matin
(52 069),
soir(77 536).
- la classe des 2 mots : heures
(216 297),
minutes(83 541 ).
Pour illustrer comment l’estimation des
probabilités
varie avec les classificationsCp
etCs,
nous avonsreprésenté
dans lafigure
3 les distributions desprobabilités
condi-tionnelles, q(motIJacques)
etq(motlle), générées
par les deuxclassifications,
les distribu-tions initiales sont
représentées
sur lafigure
2a.Figure
3: Distributions desprobabilités
conditionnellesq(motIJacques) (Figure 3a)
etq(motlle) (Figure 3b)
dansle journal
Le Monde(1987-1997) après
classificationDans les
figures
3a et3b,
onpeut
remarquer que la classificationCp
étenddavantage
les distributions que la classification
Cs.
Celle-ci suit de trèsprès
la distribution p de lafigure
2a. Dans le zoom de lafigure 3a,
les distributions se croisent vers le 20e rang. Sur lafigure 3b,
les distributions s’écartent vers le 2000e rang.5.2.2.
Apprentissage
sur les données desdialogues
La taille moins élevée du vocabulaire pour les données
provenant
desdialogues, permet
une
analyse plus
détaillée du contenu des classes pour les deux classifications.La classification
Cp
crée des classesgrammaticales,
comme :e une classe de 19 noms et 2
adjectifs,
fémininssinguliers :
Gare-de-l’Est(1),
couchette(18),
date(57), disposition (2),
durée(2), fois (3), journée (44), ligne (41),
liste
(406),
matinée(247),
...et meilleure
(12),
mieux(3).
e une classe de 19 noms
pluriels :
abonnements(2),
allers(1),
animaux(20),
avan-tages (8),
bars(6),
billets(105), changements (335),
chats(9),
choix(6),
...e une classe de 8 verbes à l’ infinitif : acheter
( 11 ),
choisir(31 ),
essayer( 1 ),
met-tre
(5),
payer(144), prendre (797), transporter (3),
trouver(2)
et 1 substantifadjectif
retraité
(1).
..
Par contre la classification
Cs
a très peu de classesgrammaticales,
laquasi-totalité
desclasses sont de
type "sémantique",
parexemple
lesvilles,
lesmois, les jours,
les chiffres(ou
mots formant desnombres)
et les ordinaux...On
peut
donc attribuer aposteriori
uneétiquette
à certaines classes cequi permet
d’étudier de manière
plus
fine leur contenu à l’aide de laterminologie
de l’extraction des connaissances[2],
en utilisant les mesures derappel (r), précision (pr)
et manque(m)
définies
plus
loin sur unexemple.
Les
étiquettes "Villes", "Mois",
"Chiffres" et "Ordinaux" ont été attribuées aux classescomportant plus
de 50% de ceséléments, plusieurs
classespeuvent
bénéficier de l’attribution de la mêmeétiquette.
Surl’exemple
desvilles,
en considérant l’ensemble des"Villes", S,9,
l’ensemble des classesportant l’ étiquette "Villes", C,9,
l’ensemble des classes neportant
pasl’ étiquette
"Villes"C,9,
et v k un mot du vocabulaireV,
on a :Le tableau 3
donne,
pour les deux classifications et partype "sémantique",
le nom-bre
Lc( * )
declasses correspondantes,
le nombre moyen de mots par classeN (C*),
lapré- cision, pr ( * ),
lerappel, r(~),
et le manque,m ( * ),
pour les"Villes", "Mois",
"Chiffres" et"Ordinaux". Le nombre entre
parenthèses
à côté dechaque type représente
le nombre de mots dutype
contenus dans le vocabulaire.Tableau 3:
Comparaison quantitative
de classessémantiques
dans les classifications deOn voit que pour les
quatre types,
la classificationCs
estplus précise
et a moinsde manques que la classification