5.2 Réordonnancement des N meilleures hypothèses
5.2.1 Décodage MAP
Le critère MAP consiste à rechercher parmi lesN hypothèses proposéesW
1,Npour
un groupe de soue donné celleWˆ qui vérie
2:
ˆ
W = arg max
W∈W1,N
score
glob(W) . (5.3)
Pour tester la validité de ce critère et de notre score incluant les POS, nous avons mené
plusieurs expérimentations, en confrontant nos résultats avec les méthodes usuelles.
5.2.1.1 Premiers résultats
Nous comparons dans un premier temps le WER obtenu avec notre système de RAP
selon que l'on inclut on non le score morpho-syntaxiqueβlogP(t
m1
). En optimisant les
2
Siscore
globest déni de telle manière à ce que sa valeur est d'autant plus grande que l'hypothèse
est correcte.
22 21.9 21.8 21.7 21.6 6 8 10 12 14 16 18 20 α 0 2 4 6 8 10 12 β 21.4 21.6 21.8 22 22.2 22.4 22.6 22.8 WER(%)
Fig. 5.2: Évolution du WER en fonction des paramètres αet β avec le jeu d'étiquettesext2 et
sur le corpus de développement
étiquettes Sub Del Ins WER α β γ
sans POS 13,5 4,5 2,0 19,9 12 0 0
norm 13,0 4,1 2,2 19,3 12 4 5
red1 13,1 4,2 2,2 19,5 13 3 5
red2 13,0 4,1 2,2 19,2 12 4 5
ext1 12,9 4,1 2,2 19,2 11 4 5
ext2 12,9 3,9 2,3 19,1 10 4 5
Tab. 5.2: Résultats obtenus sur le corpus de test pour diérents jeux d'étiquettes et avec un ordre
N = 7. Sub, Del et Ins représentent respectivement les taux d'erreur de substitution, de suppression
et d'insertion
coecientsα,β etγ pour chacun des jeux d'étiquettes sur le corpus de développement,
nous constatons une baisse du WER sur le corpus de test pour tous nos jeux d'étiquettes
3(Tab. 5.2). Cette évolution du taux d'erreur se révèle néanmoins assez sensible aux
étiquettes utilisées. Pour le meilleur ensemble, i.e., ext2, nous observons une baisse
absolue du WER de 0,8 % ; c'est dorénavant ce jeu d'étiquettes que nous utilisons dans
toutes les expériences qui suivent sur le réordonnancement d'hypothèses.
5.2.1.2 Comparaison avec les ML N-classes
An de montrer l'ecacité du score que nous proposons, nous comparons les
ré-sultats que nous avons obtenus avec ceux donnés par la méthode qui est généralement
employée pour prendre en compte les POS, i.e., les MLN-classes. Ces ML sont
système de RAP initial s(w
1n) ML N-classes
19,9 19,1 19,5
Tab. 5.3:WER(%) mesurés sur les données de test
lement introduits au cours du processus de transcription au moyen d'une interpolation
linéaire avec un ML de mots [Maltese et Mancini, 1992]. La recherche de la meilleure
hypothèse se fait à l'aide de la formulation classique de la RAP (cf. équation (1.11)
page 16) en calculant la probabilité de la séquence de mots de la manière suivante :
P(w
n1) =
nY
i=1[λP
mots(w
i|w
1n−1) + (1−λ)P
POS(w
i|w
1n−1)] (5.4)
avec :
P
POS(w
i|w
n−1 1) = X
t1∈T1...ti∈Ti[P(w
i|t
i)P(t
i|t
i−i−N1+1)] . (5.5)
λ est un coecient déterminant le poids du ML M-grammes par rapport au ML N
-classes et T
ireprésente l'ensemble des étiquettes possibles pour le mot w
i, suivant ledictionnaire de notre étiqueteur. Nous utilisons au cours de nos expériences un ML de
mots d'ordreM = 4 et un ML de classes d'ordre N = 7.
La variation des paramètres α, γ et λsur le corpus de développement montre une
baisse du WER quand on prend en compte le modèleN-classes. En xantλà 0,7, nous
obtenons sur le corpus de test une baisse absolue du WER de 0.4 % (Tab. 5.3, dernière
colonne), ce qui reste une diminution deux fois inférieure à celle observée précédemment
(Tab. 5.3, deuxième colonne) avec le scores(w
n1
) établi par l'égalité (5.2).
Une diérence importante des deux approches testées est l'utilisation des
probabili-tés lexicalesP(w
i|t
i)par les MLN-classes. Pour étudier l'inuence de ces valeurs, deux
nouveaux scores combinant les informations du MA, du ML et celles apportées par les
POS sont dénis. Le premier, calculé par :
s
0(w
n1) = logP(w
1n|A) +αlogP(w
1n) +β[
n
X
i=1
logP(w
i|t
i) + logP(t
m1)] +γn , (5.6)
prend en compte les probabilités lexicales après désambiguïsation
4. Le second considère
toutes les séquences possibles plutôt que la meilleure et est déterminé par :
s
00(w
n1) = logP(w
n1|A) +αlogP(w
n1) +β[
n
X
i=1
logP
POS(w
i|w
i−1 1) + logP(t
m1)] +γn (5.7)
oùP
POSest obtenue par (5.5). Les résultats obtenus avec ces deux scores (Tab. 5.4, lignes
3 et 4) montrent une légère amélioration du WER en prenant en compte les probabilités
4
Le nombre deP(w
i|t
i)à additionner peut en réalité être diérent dendans le cas où l'étiqueteur
reconnaît des locutions dansw
nsystème de RAP initial 19,9
probabilités contextuelles + désambiguïsation (s(w
n1
)) 19,1
probabilités lexicales et contextuelles + désambiguïsation (s
0(w
n1
)) 19,0
probabilités lexicales et contextuelles (s
00(w
1n)) 19,0
Tab. 5.4: WER(%) mesurés sur les données de test
contextuelles. Ils ne montrent pas clairement l'intérêt d'eectuer une désambiguïsation,
ce qui peut être lié au fait que généralement la meilleure suite de POS proposée par
l'étiqueteur possède une probabilité beaucoup plus grande que celle des autres. En
revanche, ils établissent clairement que l'interpolation linéaire des log-probabilités est
plus ecace que celle des probabilités.
5.2.1.3 Tests de signicativité
Nos expériences précédentes ont établi une baisse globale du WER quand on utilise
la connaissance des POS. En examinant individuellement chaque émission du corpus de
test, nous avons constaté qu'une diminution est toujours observée, à l'exception d'un
programme diusé sur RTM et d'une durée de 20 minutes. Bien que nos données
repré-sentent un volume conséquent, il convient cependant de recourir à des tests statistiques
pour s'assurer que cette amélioration des performances ne soit pas liée au hasard.
An de comparer le système de RAP sans les POS avec celui les incluant, les tests
statistiques confrontent le nombre d'erreurs de transcription produites par ces deux
systèmes sur plusieurs régions [Gillick et Cox, 1989]. Ces tests nécessitant que les erreurs
faites sur des segments diérents soient indépendantes, l'unité choisie est généralement le
groupe de soue puisque les MA et le ML traitent chaque groupe de soue de manière
isolée. Les tests étudient le comportement de la variable aléatoire Z
i= E
isans POS
−
E
iavec POS
représentant la diérence entre les nombres d'erreurs observées E
ientre les
deux systèmes à comparer sur le segment i. Ils évaluent la probabilité de l'hypothèse
H
0, stipulant que les diérences observées sont dues au hasard. Nous souhaitons quant
à nous établir que l'amélioration est bien signicative, ce qui conduit à nous intéresser
plutôt à la probabilité que H
0soit rejetée.
Le premier test que nous employons est le t-test pour des séries appariées, celui
généralement utilisé dans le cadre de la RAP (voir par exemple [Kim, 2004]). Il suppose
que Z suit une loi normale centrée sur 0 et nécessite le calcul de :
t= µˆ
Zˆ
σ
Z/√n (5.8)
où µˆ
Zreprésente la moyenne empirique calculée sur l'ensemble de test constitué den
segments :
ˆ
µ
Z=
nX
i=1Z
in (5.9)
etσˆ
Zest l'écart-type empirique établi sur l'ensemble de test :
ˆ
σ
Z2= 1
n−1
nX
i=1(Z
i−µˆ
Z)
2. (5.10)
Il est montré dans le cas général que siZ suit une loi normale centrée sur 0, la variable
aléatoiretsuit une distribution de Student avecn−1degrés de liberté. Le test de rejet
de H
0avec un niveau de conanceα
5revient alors à déterminerP(|T| ≥ |t|)≤α oùT
suit la loi de Student ett est estimé sur notre corpus de test.
Le deuxième test que nous utilisons est le test de Wilcoxon pour des séries appariées
qui présente l'avantage par rapport au premier de faire une hypothèse moins forte sur
Z puisqu'il suppose simplement que Z suit une distribution continue, symétrique et
centrée sur 0 sous l'hypothèse H
0. Il est souvent préféré pour cette raison au paired
t-test dans des domaines comme la recherche d'information [Hull, 1993] et est également
employé en RAP, quoique de manière plus marginale (voir par exemple [Heeman et
Allen, 1999]). Ce test implique le calcul de :
t=
P
n i=1R
iqP
n i=1R
2 i(5.11)
avec :
R
i=sign(Z
i)×rank(|Z
i|) (5.12)
où sign représente la fonction signe
6et rank est la fonction donnant le classement de
|Z
i|dans l'ordre décroissant pour chaque segmentidu corpus de test. Il est montré que
sous les hypothèses du test, t suit une loi normale standard. Le test d'acceptation de
H
0avec un niveau de conanceα se ramène alors au calcul de P(|T| ≥ |t|)≤α, où T
suit une loi normale standard et test calculé sur notre corpus de test.
L'examen de la variable aléatoire Z
isur les données que nous étudions suggère
qu'elle suive une loi normale avec une variance faible (Fig. 5.3), ce qui nous permet
d'utiliser les deux méthodes de test. Nous comparons ainsi deux à deux les WER
ob-tenus avec des systèmes calculant diéremment le score des hypothèses. Les résultats
montrent que pour les deux tests l'hypothèseH
0est rejetée avec un indice de conance
α≤10
−4quand on compare le système de RAP initial avec celui incluant des
informa-tions morpho-syntaxiques dans les scores globauxs(w
n1
),s
0(w
n1
)ous
00(w
n1
). Ceci établit
donc que l'amélioration du WER est signicative à 99,99 %. En outre, les mêmes tests
montrent que ces trois scores permettent une meilleure prise en compte des POS que
les ML N-classes au niveau du WER avec une conance supérieure à 99,9 %. Le gain
apporté par s
0(w
n1
) vis-à-vis des(w
n1
)est en revanche moins net puisque le paired t-test
et le paired Wilcoxon test indiquent respectivement une conance de 95 % et de 96 %
sur la diérence du nombre d'erreurs.
5
Généralement xé à 0,05 ou à 0,01.
0 500 1000 1500 2000 2500 3000 3500 −8 −6 −4 −2 0 2 4 6 nb de groupes de souffle Zi
Fig. 5.3:Calcul sur le corpus de test du nombre de groupes de soue associés à une valeur donnée
de la variable aléatoireZ
isur le corpus de test. Le graphique présenté ici correspond à l'étude de la
diérence entre un système sans POS, et un utilisant ces informations à l'aide du score s
0(w
n1
)et
du jeu d'étiquettes ext2
5.2.1.4 Tests réalisés avec un meilleur MA
Nous avons également cherché à savoir si l'amélioration du WER est toujours
ob-servée avec un meilleur système de RAP. Pour ce faire, nous avons employé au niveau
de la dernière passe du système Irene un MA amélioré, utilisant des points d'ancrages
[Moraru et Gravier, 2006]. Ce MA s'appuie sur une détection manuelle de la macroclasse
phonétique de chaque phone à reconnaître, de façon à guider le décodage du signal. La
connaissance de ces informations macrophonétiques conduit à un gain important du
WER puisque celui-ci diminue de 21,6 % à 12,9 % sur le corpus de développement et de
19,9 % à 13,0 % sur les donnés de test.
La gure 5.4 présente l'évolution du WER sur le corpus de développement qui nous
sert à xer les paramètres. Elle montre là aussi une réduction du nombre d'erreurs en
recourant aux POS. Nous constatons sur le corpus de test une baisse de 13,0 % à 12,1 %
en utilisant s
0(w
n1
), ce qui correspond à une baisse absolue identique (-0,9 %) à celle
obtenue avec le MA initial. Nous en concluons que même avec un système amélioré le
gain apporté par les informations morpho-syntaxiques reste signicatif. Il est toutefois
probable qu'en modiant le ML plutôt que le MA, la baisse n'aurait pas été aussi
importante dans la mesure où les POS complémentent le ML.
5.2.1.5 Comportement sur de l'oral spontané
Bien que les informations morpho-syntaxiques aient montré au cours de nos
ex-périences une certaine robustesse aux phénomènes de la langue parlée, il est possible
qu'elles soient moins pertinentes sur les portions de la transcription qui contiennent
de nombreuses disuences. Nous souhaitons ici montrer que l'apport des POS pour la
12 12.5 13 13.5 14 14.5 8 10 12 14 16 18 W E R (% ) α β=0 (sans POS) β>0 (avec POS)
Fig. 5.4: Évolution du WER en fonction du paramètreα avec le jeu d'étiquettes ext2 et sur le
corpus de développement, en utilisant un meilleur MA
extrait de 12 640 mots extrait de 3 650 mots
sans POS 32,7 46,3
s(w
n1) 31,4 44,5
s
0(w
n1
) 31,0 44,3
Tab. 5.5: WER obtenus sur des extraits du corpus de test correspondant à de l'oral spontané
transcription reste réel quand les conditions d'analyse des hypothèses de mots produites
par le système de RAP se dégradent. Nous avons à cette n isolé les extraits du corpus
de test correspondant à des interviews et qui correspondent donc davantage à de l'oral
spontané. Le WER initial produit par notre système de RAP sur ce passage de 12 640
mots est nettement plus élevé que les 19,9 % constatés pour la totalité des données de
test (Tab. 5.5). Que l'on utilise ou non les probabilités intra-classes, les POS permettent
une baisse du WER qui est en relatif identique à celle observée précédemment, voire
même supérieure. Pour l'ensemble du corpus de test, nous obtenions en eet une
diminu-tion de 4,0 % ou de 4,5 % selon que l'on recourait ou non aux probabilités intra-classes ;
sur ce nombre plus réduit de segments, on constate une réduction relative de 4,0 et de
5,2 %.
En examinant de plus près l'extrait que nous avons sélectionné, nous avons constaté
que les portions correspondant à des interviews d'hommes politiques contenaient moins
de marques de disuences. En écartant ces groupes de soue ce qui restreint à un
extrait de 3 650 mots nous constatons que les POS conduisent là encore à une baisse
relative du WER de 3.9 % ou de 4,3 % selon que l'on intègre ou non les probabilités
intra-classes dans le calcul des scores. Ces résultats établissent par conséquent que l'utilisation
des POS provoque une amélioration de la qualité de la transcription, y compris pour
les zones correspondant à de l'oral spontané.
Après avoir montré l'intérêt des informations morpho-syntaxiques avec un critère
MAP pour la transcription, nous proposons dans les deux sections suivantes deux
nou-velles méthodes d'intégration en modiant le critère de réordonnancement.
5.2.2 Décodage par minimisation du nombre d'erreurs sur les mots
Dans le document
Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
(Page 102-109)