Il existe de nombreux étiqueteurs morpho-syntaxiques disponibles ; nous avons
tou-tefois décidé de développer notre propre étiqueteur. Les raisons sont nombreuses et
essentiellement pratiques. Cela nous permet tout d'abord de pouvoir modier plus
fa-cilement notre outil pour le paramétrer pour l'oral, les étiqueteurs n'étant pas toujours
distribués en compagnie de leur code. De plus, nous voulons un outil assez rapide pour
étiqueter un grand nombre d'hypothèses de transcription en un temps raisonnable.
L'éti-queteur Multext, lent lors de l'étiquetage, ne satisfaisait pas à ce critère. En outre,
nous souhaitons un étiqueteur susamment exible pour choisir nos propres jeux
d'éti-quettes et le vocabulaire des mots reconnus par l'étiqueteur. Cette dernière possibilité
s'est avéré importante dans la mesure où les noms propres, transcrits sans majuscules
par notre système de RAP, sont systématiquement associés à une mauvaise classe
gram-maticale pour la plupart des outils que nous avons pu tester.
Nous avons choisi de construire un étiqueteur stochastique basé sur les MMC, une
première comparaison de la qualité de l'étiquetage produit par diérents outils sur
des transcriptions automatiques montrant que l'étiqueteur de Brill conduisait à des
résultats un peu moins bons que ceux obtenus avec Multext, TnT [Brants, 2000] ou
TreeTagger. L'utilisation d'étiqueteurs statistiques présente l'inconvénient de devoir
construire un corpus étiqueté, mais ce corpus nous est également utile pour apprendre
les paramètres du modèle intégrant les POS dans le calcul des probabilités du système
de RAP (cf. section 5.2). La suite de cette section expose le modèle statistique qui
est à la base de notre étiqueteur, puis présente brièvement le corpus d'apprentissage
et le lexique que nous avons utilisés pour notre étiqueteur. Elle décrit ensuite la phase
d'apprentissage de l'étiqueteur, puis celle d'étiquetage.
4.3.1 Le modèle utilisé et ses paramètres
Notre étiqueteur évalue la probabilité que W soit associé à la suite d'étiquettesT
à partir des paramètres P(w
i|t
i) et P(t
i|t
i−i−N1 +1) (cf. équation (4.1)). Il existe deux
approches pour estimer ces deux types de paramètres [Merialdo, 1994]. Une première
consiste à recourir à l'algorithme ordinairement utilisé pour l'apprentissage des
pro-babilités dans un MMC, i.e., l'algorithme de Baum-Welch. Sa particularité consiste à
estimer simultanément les deux types de paramètres en cherchant le modèle Mˆ qui
satisfait au critère du maximum de vraisemblance :
ˆ
M= arg max
MX
TP
M(W, T) (4.2)
où W représente les mots du corpus etT une succession possible d'étiquettes pour W.
Le principal avantage de cette méthode est de pouvoir paramétrer le modèle à partir
d'un corpus non étiqueté en estimant de manière itérative les probabilités, jusqu'à ce
que la probabilité P
TP
M(W, T)n'augmente plus. Toutefois, pour obtenir de meilleurs
résultats, l'algorithme gagne à être initialisé à partir des nombres d'occurrences des
séquences t
ii−N+1
dans un corpus étiqueté, ce qui réduit son intérêt.
Une seconde approche évalue séparément les deux types de probabilité P(w
i|t
i) et
P(t
i|t
i−i−N1 +1) au moyen des fréquences relatives. Les valeurs sont alors déterminées à
partir des nombres d'occurrences des étiquettes et des mots dans un corpus
d'appren-tissage :
P(w
i|t
i) = C(w
i, t
i)
C(t
i) (4.3)
P(t
i|t
i−i−N1+1) = C(t
i i−N+1)
C(t
i−i−N1 +1) (4.4)
où C(w
i, t
i) représente le nombre de fois où le mot w
iest associé à l'étiquette t
iet
C(t
ii−N+1
) le nombre d'occurrences de la séquence d'étiquettes t
ii−N+1
dans un corpus
d'apprentissage étiqueté. Même si les deux types de paramètres ne sont pas réestimés
en-semble pour améliorer la perplexité (cf. section 1.3.1) du corpus d'apprentissage comme
dans le cas de l'algorithme de Baum-Welch, cette seconde approche a des performances
d'étiquetage aussi bonnes, voire meilleures que la première [Merialdo, 1994]. Nous avons
donc opté pour un apprentissage basé sur les fréquences relatives.
4.3.2 Corpus d'apprentissage et vocabulaire
Le corpus utilisé pour l'apprentissage des paramètres de l'étiqueteur est un extrait
du corpus Ester. Ce corpus contenant des émissions d'information radiophoniques, il
relève à la fois de la parole préparée et spontanée et est donc plus adéquat que des
corpus de langue écrite pour étiqueter des documents oraux. Une expérience menée à
partir de deux étiqueteurs
2a montré l'intérêt d'estimer les paramètres sur un corpus de
langue parlée pour étiqueter de l'oral puisqu'en faisant l'apprentissage sur un extrait du
corpus oral Switchboard, le pourcentage d'étiquettes correctes avoisinait 85 %, alors
qu'il n'était que de 75 % à partir du Wall Street Journal [Hamaker, 1999].
Nous avons constitué un corpus d'apprentissage d'environ 200 000 mots
représen-tant une durée de 16 heures. Il est extrait de la partie du corpus Ester que nous avons
utilisée pour l'apprentissage du système de RAP (Tab. 3.1 page 54). Les transcriptions
manuelles, contenant à l'origine des majuscules et des ponctuations, ont été étiquetées
par des POS au moyen du logiciel Cordial
3. Le résultat a été converti
automatique-ment vers le jeu d'étiquettes que nous avons adopté, puis vérié manuelleautomatique-ment pour
corriger les erreurs d'étiquetage. Conservées dans un premier temps pour ne pas
pertur-ber Cordial, les majuscules et les marques de ponctuation dans le texte ont ensuite
été ôtées, avant de nalement segmenter le résultat en groupes de soue pour que le
format de notre corpus soit cohérent avec celui du texte produit par notre système de
transcription.
Nous recourons à un lexique étiqueté an de connaître les POS possibles pour chaque
mot. Ce dictionnaire a été construit à partir de celui élaboré pour le français dans le
cadre du projet Multext [Ide et Véronis, 1994], en le restreignant aux mots
apparte-nant au dictionnaire de prononciation que nous utilisons
4. Il ne contient ni ponctuation,
ni mots composés. Nous avons toutefois ajouté une dizaine de locutions telles que parce
que ou a priori . Le choix des étiquettes morpho-syntaxiques a été fait de manière
à discriminer le genre et le nombre des adjectifs, des noms, des déterminants et des
pronoms, et le temps et le mode des verbes, ce qui conduit à un jeu de 93 étiquettes
diérentes (cf. annexe A). Cet ensemble d'étiquettes est très proche de celui proposé
dans les grammaires scolaires et est directement inspiré de celui de Cordial.
4.3.3 Apprentissage du modèle
L'apprentissage de l'étiqueteur consiste à estimer deux types de paramètres : les
probabilités lexicales P(w
i|t
i) et les probabilités contextuellesP(t
i|t
i−i−N1+1).
4.3.3.1 Probabilités lexicales
Un vocabulaire ayant été xé pour l'étiqueteur, seules les probabilités lexicales
P(w
i|t
i) concernant les mots w
ide ce vocabulaire sont calculées à partir du corpus
d'apprentissage. En outre, l'application que nous visons étant l'étiquetage de
transcrip-tions automatiques produites par notre propre système de RAP, les textes à étiqueter ne
peuvent pas contenir de mots hors vocabulaire. Il n'est donc pas nécessaire d'eectuer
un traitement particulier pour les mots inconnus en réservant par exemple une masse
de probabilité P(w
unk|t
i) aux mots absents du vocabulaire du système de RAP mais
susceptibles de se présenter dans les textes à étiqueter. Certains mots du dictionnaire
sont en revanche absents du corpus d'apprentissage, ce qui conduit à adopter la
straté-gie suivante. Dans le cas où un mot w
iest associé une étiquette t
itotalement absente
3
Version 8.1 distribuée par la société Synapse Développement.
du corpus d'apprentissage
5, la probabilité P(w
i|t
i) est estimée selon une distribution
répartie uniformément entre les mots associés à t
id'après le dictionnaire. Dans le cas
contraire, C(t
i)devenant diérent de 0, les probabilités sont évaluées à l'aide de
l'éga-lité (4.3). Certains couples (w
i, t
i) n'apparaissant pas dans le corpus d'apprentissage,
il devient nécessaire d'appliquer des méthodes de lissage (cf. section 1.2.1) pour éviter
d'avoir des probabilités P(w
i|t
i) égales à 0. Nous avons testé deux types de lissage. Le
premier, qualié d'additif, calcule les probabilités par :
P(w
i|t
i) = C(w
i, t
i) +δ
δ× |V
ti|+C(t
i) (4.5)
oùδest une constante xée à 0,5 ou 1, et|V
ti|représente le nombre de mots pouvant être
étiquetés par t
iselon le vocabulaire de l'étiqueteur. Le deuxième, dit de Good-Turing,
procède de la manière suivante :
P(w
i|t
i) = C
∗(w
i, t
i)
C(t
i) (4.6)
où C
∗(w
i, t
i) est calculé au moyen de l'égalité (1.13) page 20. Dans la pratique, nous
avons utilisé une variante, la méthode simple de Good-Turing [Gale et Sampson, 1995],
qui tient compte du fait que pour certaines valeurs c, le nombre N
cde couples qui ont
été observés c fois dans le corpus peut être nul.
An de connaître les paramètres les plus satisfaisants pour lisser les probabilités
lexicales, nous avons mesuré le nombre d'étiquettes correctes attribuées par l'étiqueteur
sur un corpus de développement de 6 780 mots. Nos résultats montrent que le lissage
additif avec δ = 1 est légèrement plus performant (cf. annexe B), ce qui contredit
une des conclusions présentées dans [Nivre, 2000]. Les diérences observées peuvent
toutefois être liées aux diérences existant entre les corpus étudiés puisque notre corpus
de développement contient uniquement 46 mots absents du lexique de notre étiqueteur,
ce qui représente 0,7 % du total, alors que celui utilisé dans [Nivre, 2000] est en langue
suédoise et contient une proportion de mots inconnus nettement plus élevée de 7,3 %.
4.3.3.2 Probabilités contextuelles
Pour évaluer les probabilités contextuelles, nous avons construit des modèles de
langage sur les étiquettes au moyen de la boîte à outils SRILM
6[Stolcke, 2002]. Le
calcul de ces probabilités, contrairement à celui des probabilités lexicales, concerne des
N-grammes, ce qui autorise l'usage du repli pour lisser les probabilités :
P
repli(t
i|t
i−i−N1+1) =
½
P
∗(t
i|t
i−i−N1+1) siC(t
ii−N+1
)> k
α(t
i−i−N1+1)×P
repli(t
i|t
i−i−N1 +2) sinon (4.7)
Lorsque le nombre d'occurrences det
ii−N+1
dans le corpus d'apprentissage a dépassé un
seuil critiquek, xé à 0 par exemple, les probabilités contextuellesP
repli(t
i|t
i−i−N1 +1)sont
5
Cela peut se produire pour des étiquettes rares, notamment celles correspondant au subjonctif
imparfait.
estimées à partir des nombres d'occurrences constatées dans le corpus d'apprentissage.
De manière à conserver une masse de probabilité pour les séquences peu ou même non
observées, les probabilités P
∗(t
i|t
i−i−N1+1) incluent un facteur d'escompte :
P
∗(t
i|t
i−i−N1+1) = C
∗
(t
i i−N+1)
C(t
i−i−N1 +1) . (4.8)
Nous avons testé pour notre part les méthodes disponibles dans SRILM : les lissages
de Katz, Witten-Bell, Kneser-Ney et Kneser-Ney modié, dont la description peut être
trouvée dans [Chen et Goodman, 1998], et celui de Ristad [Ristad, 1995].
Pour les séquences observées moins de k fois dans le corpus, les probabilités sont
estimées à partir des N-grammes d'ordre inférieur.P
repli(t
i|t
i−i−N1+2) est alors pondérée
par un coecient α(t
i−i−N1+1) an que les estimations des probabilités conditionnelles
respectent les contraintes stochastiques, i.e.,
X
ti
P
repli(t
i|t
i−i−N1+1) = 1 . (4.9)
Ce coecient est déterminé à partir de la masse de probabilité réservée auxN-grammes
peu observés en remarquant que (4.9) est équivalent à :
X
tit.q.C(ti i−N+1)>kP
∗(t
i|t
i−i−N1+1) + X
tit.q.C(ti i−N+1)≤kα(t
i−i−N1+1)×P
repli(t
i|t
i−i−N1 +2) = 1 ,
(4.10)
ce qui donne :
α(t
i−i−N1 +1) = 1−
P
tit.q.C(ti i−N+1)>kP
∗(t
i|t
i−i−N1+1)
P
tit.q.C(tii−N+1)≤k
P
repli(t
i|t
i−i−N1+2) . (4.11)
Pour calculerP
repli(t
i|t
i−i−N1 +1), SRILM débute par les probabilités unigrammesP
repli(t
i)
en les assimilant à P
∗(t
i), puis calcule les probabilités contextuelles utilisant un ordre
de plus en plus grand.
Dans le but d'optimiser les calculs de l'étiqueteur, nous avons mesuré le nombre
d'étiquettes correctes sur le corpus de développement déjà employé pour paramétrer les
probabilités lexicales (cf. annexe B). En testant diérents ordres N et en comparant
plusieurs méthodes de lissage, nos expériences montrent qu'un ordre trigrammes sut
et qu'il y a peu de diérences observées entre les diérentes techniques de lissage. En
n'utilisant aucun lissage, nous n'observons notamment pas de dégradation signicative
des performances, ce qui montre donc que, dans le cas de l'étiquetage où le nombre de
classes envisagé reste restreint, le lissage est beaucoup moins primordial qu'il ne l'est
pour les modèles N-grammes de mots utilisés en RAP. Nous avons nalement adopté
un ordre de 3, qui est celui généralement employé pour les étiqueteurs stochastiques
[Merialdo, 1994 ; Brants, 2000], et un lissage de Katz pour le calcul des probabilités
contextuelles.
4.3.4 Utilisation du modèle pour l'étiquetage
Pour étiqueter un nouveau texte, celui-ci est tout d'abord préédité, de manière à
avoir une cohérence vis-à-vis du dictionnaire de l'étiqueteur. Cette opération consiste à
découper chaque groupe de soue en mots, en reconnaissant des locutions intégrées dans
le lexique, telles que parce que ou a priori . L'étiqueteur est ensuite utilisé sur le
texte ainsi transformé, de manière à estimer pour chaque groupe de soue la séquence
d'étiquettes la plus probableˆt
n1
parmi toutes celles possiblest
n1
d'après le dictionnaire. Le
choix deˆt
n1
pour chaque suite de motsw
n1
peut être réalisé selon deux critères [Merialdo,
1994]. Le premier, reposant sur l'utilisation de l'algorithme de Viterbi, consiste à choisir
globalement la séquence d'étiquettes la plus probable selon un critère MAP :
ˆ
t
n1= arg max
tn 1
P(t
n1|w
n1) . (4.12)
La seconde méthode, reposant sur l'algorithme forward-backward [Rabiner, 1989], choisit
séparément pour chaque mot w
il'étiquette tˆ
iqui lui paraît la plus probable :
ˆ
t
i= arg max
ti
P(t
i|w
1n) . (4.13)
Cette seconde approche minimise le nombre d'erreurs par mot, tout en requérant un
nombre de calculs supplémentaires très réduit par rapport à la première
7. Nous utilisons
donc l'algorithme forward-backward durant la phase d'étiquetage, même si
l'améliora-tion du nombre d'étiquettes correctes apportée par cette méthode reste très réduite (de
l'ordre de 0,1 % en variation absolue sur nos données).
Après avoir exposé le paramétrage et le mode de fonctionnement de notre étiqueteur,
nous mesurons la qualité de ses résultats sur des transcriptions, aussi bien manuelles
qu'automatiques.
4.4 Évaluation de l'étiquetage automatique sur des
Dans le document
Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
(Page 84-89)