• Aucun résultat trouvé

5.2 Réordonnancement des N meilleures hypothèses

5.2.1 Décodage MAP

Le critère MAP consiste à rechercher parmi lesN hypothèses proposéesW

1,N

pour

un groupe de soue donné celleWˆ qui vérie

2

:

ˆ

W = arg max

W∈W1,N

score

glob

(W) . (5.3)

Pour tester la validité de ce critère et de notre score incluant les POS, nous avons mené

plusieurs expérimentations, en confrontant nos résultats avec les méthodes usuelles.

5.2.1.1 Premiers résultats

Nous comparons dans un premier temps le WER obtenu avec notre système de RAP

selon que l'on inclut on non le score morpho-syntaxiqueβlogP(t

m

1

). En optimisant les

2

Siscore

glob

est déni de telle manière à ce que sa valeur est d'autant plus grande que l'hypothèse

est correcte.

22 21.9 21.8 21.7 21.6 6 8 10 12 14 16 18 20 α 0 2 4 6 8 10 12 β 21.4 21.6 21.8 22 22.2 22.4 22.6 22.8 WER(%)

Fig. 5.2: Évolution du WER en fonction des paramètres αet β avec le jeu d'étiquettesext2 et

sur le corpus de développement

étiquettes Sub Del Ins WER α β γ

sans POS 13,5 4,5 2,0 19,9 12 0 0

norm 13,0 4,1 2,2 19,3 12 4 5

red1 13,1 4,2 2,2 19,5 13 3 5

red2 13,0 4,1 2,2 19,2 12 4 5

ext1 12,9 4,1 2,2 19,2 11 4 5

ext2 12,9 3,9 2,3 19,1 10 4 5

Tab. 5.2: Résultats obtenus sur le corpus de test pour diérents jeux d'étiquettes et avec un ordre

N = 7. Sub, Del et Ins représentent respectivement les taux d'erreur de substitution, de suppression

et d'insertion

coecientsα,β etγ pour chacun des jeux d'étiquettes sur le corpus de développement,

nous constatons une baisse du WER sur le corpus de test pour tous nos jeux d'étiquettes

3

(Tab. 5.2). Cette évolution du taux d'erreur se révèle néanmoins assez sensible aux

étiquettes utilisées. Pour le meilleur ensemble, i.e., ext2, nous observons une baisse

absolue du WER de 0,8 % ; c'est dorénavant ce jeu d'étiquettes que nous utilisons dans

toutes les expériences qui suivent sur le réordonnancement d'hypothèses.

5.2.1.2 Comparaison avec les ML N-classes

An de montrer l'ecacité du score que nous proposons, nous comparons les

ré-sultats que nous avons obtenus avec ceux donnés par la méthode qui est généralement

employée pour prendre en compte les POS, i.e., les MLN-classes. Ces ML sont

système de RAP initial s(w

1n

) ML N-classes

19,9 19,1 19,5

Tab. 5.3:WER(%) mesurés sur les données de test

lement introduits au cours du processus de transcription au moyen d'une interpolation

linéaire avec un ML de mots [Maltese et Mancini, 1992]. La recherche de la meilleure

hypothèse se fait à l'aide de la formulation classique de la RAP (cf. équation (1.11)

page 16) en calculant la probabilité de la séquence de mots de la manière suivante :

P(w

n1

) =

n

Y

i=1

[λP

mots

(w

i

|w

1n−1

) + (1λ)P

POS

(w

i

|w

1n−1

)] (5.4)

avec :

P

POS

(w

i

|w

n−1 1

) = X

t1∈T1...ti∈Ti

[P(w

i

|t

i

)P(t

i

|t

i−i−N1+1

)] . (5.5)

λ est un coecient déterminant le poids du ML M-grammes par rapport au ML N

-classes et T

i

représente l'ensemble des étiquettes possibles pour le mot w

i, suivant le

dictionnaire de notre étiqueteur. Nous utilisons au cours de nos expériences un ML de

mots d'ordreM = 4 et un ML de classes d'ordre N = 7.

La variation des paramètres α, γ et λsur le corpus de développement montre une

baisse du WER quand on prend en compte le modèleN-classes. En xantλà 0,7, nous

obtenons sur le corpus de test une baisse absolue du WER de 0.4 % (Tab. 5.3, dernière

colonne), ce qui reste une diminution deux fois inférieure à celle observée précédemment

(Tab. 5.3, deuxième colonne) avec le scores(w

n

1

) établi par l'égalité (5.2).

Une diérence importante des deux approches testées est l'utilisation des

probabili-tés lexicalesP(w

i

|t

i

)par les MLN-classes. Pour étudier l'inuence de ces valeurs, deux

nouveaux scores combinant les informations du MA, du ML et celles apportées par les

POS sont dénis. Le premier, calculé par :

s

0

(w

n1

) = logP(w

1n

|A) +αlogP(w

1n

) +β[

n

X

i=1

logP(w

i

|t

i

) + logP(t

m1

)] +γn , (5.6)

prend en compte les probabilités lexicales après désambiguïsation

4

. Le second considère

toutes les séquences possibles plutôt que la meilleure et est déterminé par :

s

00

(w

n1

) = logP(w

n1

|A) +αlogP(w

n1

) +β[

n

X

i=1

logP

POS

(w

i

|w

i−1 1

) + logP(t

m1

)] +γn (5.7)

P

POS

est obtenue par (5.5). Les résultats obtenus avec ces deux scores (Tab. 5.4, lignes

3 et 4) montrent une légère amélioration du WER en prenant en compte les probabilités

4

Le nombre deP(w

i

|t

i

)à additionner peut en réalité être diérent dendans le cas où l'étiqueteur

reconnaît des locutions dansw

n

système de RAP initial 19,9

probabilités contextuelles + désambiguïsation (s(w

n

1

)) 19,1

probabilités lexicales et contextuelles + désambiguïsation (s

0

(w

n

1

)) 19,0

probabilités lexicales et contextuelles (s

00

(w

1n

)) 19,0

Tab. 5.4: WER(%) mesurés sur les données de test

contextuelles. Ils ne montrent pas clairement l'intérêt d'eectuer une désambiguïsation,

ce qui peut être lié au fait que généralement la meilleure suite de POS proposée par

l'étiqueteur possède une probabilité beaucoup plus grande que celle des autres. En

revanche, ils établissent clairement que l'interpolation linéaire des log-probabilités est

plus ecace que celle des probabilités.

5.2.1.3 Tests de signicativité

Nos expériences précédentes ont établi une baisse globale du WER quand on utilise

la connaissance des POS. En examinant individuellement chaque émission du corpus de

test, nous avons constaté qu'une diminution est toujours observée, à l'exception d'un

programme diusé sur RTM et d'une durée de 20 minutes. Bien que nos données

repré-sentent un volume conséquent, il convient cependant de recourir à des tests statistiques

pour s'assurer que cette amélioration des performances ne soit pas liée au hasard.

An de comparer le système de RAP sans les POS avec celui les incluant, les tests

statistiques confrontent le nombre d'erreurs de transcription produites par ces deux

systèmes sur plusieurs régions [Gillick et Cox, 1989]. Ces tests nécessitant que les erreurs

faites sur des segments diérents soient indépendantes, l'unité choisie est généralement le

groupe de soue puisque les MA et le ML traitent chaque groupe de soue de manière

isolée. Les tests étudient le comportement de la variable aléatoire Z

i

= E

i

sans POS

E

i

avec POS

représentant la diérence entre les nombres d'erreurs observées E

i

entre les

deux systèmes à comparer sur le segment i. Ils évaluent la probabilité de l'hypothèse

H

0

, stipulant que les diérences observées sont dues au hasard. Nous souhaitons quant

à nous établir que l'amélioration est bien signicative, ce qui conduit à nous intéresser

plutôt à la probabilité que H

0

soit rejetée.

Le premier test que nous employons est le t-test pour des séries appariées, celui

généralement utilisé dans le cadre de la RAP (voir par exemple [Kim, 2004]). Il suppose

que Z suit une loi normale centrée sur 0 et nécessite le calcul de :

t= µˆ

Z

ˆ

σ

Z

/n (5.8)

µˆ

Z

représente la moyenne empirique calculée sur l'ensemble de test constitué den

segments :

ˆ

µ

Z

=

n

X

i=1

Z

i

n (5.9)

etσˆ

Z

est l'écart-type empirique établi sur l'ensemble de test :

ˆ

σ

Z2

= 1

n1

n

X

i=1

(Z

i

µˆ

Z

)

2

. (5.10)

Il est montré dans le cas général que siZ suit une loi normale centrée sur 0, la variable

aléatoiretsuit une distribution de Student avecn1degrés de liberté. Le test de rejet

de H

0

avec un niveau de conanceα

5

revient alors à déterminerP(|T| ≥ |t|)αT

suit la loi de Student ett est estimé sur notre corpus de test.

Le deuxième test que nous utilisons est le test de Wilcoxon pour des séries appariées

qui présente l'avantage par rapport au premier de faire une hypothèse moins forte sur

Z puisqu'il suppose simplement que Z suit une distribution continue, symétrique et

centrée sur 0 sous l'hypothèse H

0

. Il est souvent préféré pour cette raison au paired

t-test dans des domaines comme la recherche d'information [Hull, 1993] et est également

employé en RAP, quoique de manière plus marginale (voir par exemple [Heeman et

Allen, 1999]). Ce test implique le calcul de :

t=

P

n i=1

R

i

qP

n i=1

R

2 i

(5.11)

avec :

R

i

=sign(Z

i

)×rank(|Z

i

|) (5.12)

sign représente la fonction signe

6

et rank est la fonction donnant le classement de

|Z

i

|dans l'ordre décroissant pour chaque segmentidu corpus de test. Il est montré que

sous les hypothèses du test, t suit une loi normale standard. Le test d'acceptation de

H

0

avec un niveau de conanceα se ramène alors au calcul de P(|T| ≥ |t|)α, où T

suit une loi normale standard et test calculé sur notre corpus de test.

L'examen de la variable aléatoire Z

i

sur les données que nous étudions suggère

qu'elle suive une loi normale avec une variance faible (Fig. 5.3), ce qui nous permet

d'utiliser les deux méthodes de test. Nous comparons ainsi deux à deux les WER

ob-tenus avec des systèmes calculant diéremment le score des hypothèses. Les résultats

montrent que pour les deux tests l'hypothèseH

0

est rejetée avec un indice de conance

α10

4

quand on compare le système de RAP initial avec celui incluant des

informa-tions morpho-syntaxiques dans les scores globauxs(w

n

1

),s

0

(w

n

1

)ous

00

(w

n

1

). Ceci établit

donc que l'amélioration du WER est signicative à 99,99 %. En outre, les mêmes tests

montrent que ces trois scores permettent une meilleure prise en compte des POS que

les ML N-classes au niveau du WER avec une conance supérieure à 99,9 %. Le gain

apporté par s

0

(w

n

1

) vis-à-vis des(w

n

1

)est en revanche moins net puisque le paired t-test

et le paired Wilcoxon test indiquent respectivement une conance de 95 % et de 96 %

sur la diérence du nombre d'erreurs.

5

Généralement xé à 0,05 ou à 0,01.

0 500 1000 1500 2000 2500 3000 3500 −8 −6 −4 −2 0 2 4 6 nb de groupes de souffle Zi

Fig. 5.3:Calcul sur le corpus de test du nombre de groupes de soue associés à une valeur donnée

de la variable aléatoireZ

i

sur le corpus de test. Le graphique présenté ici correspond à l'étude de la

diérence entre un système sans POS, et un utilisant ces informations à l'aide du score s

0

(w

n

1

)et

du jeu d'étiquettes ext2

5.2.1.4 Tests réalisés avec un meilleur MA

Nous avons également cherché à savoir si l'amélioration du WER est toujours

ob-servée avec un meilleur système de RAP. Pour ce faire, nous avons employé au niveau

de la dernière passe du système Irene un MA amélioré, utilisant des points d'ancrages

[Moraru et Gravier, 2006]. Ce MA s'appuie sur une détection manuelle de la macroclasse

phonétique de chaque phone à reconnaître, de façon à guider le décodage du signal. La

connaissance de ces informations macrophonétiques conduit à un gain important du

WER puisque celui-ci diminue de 21,6 % à 12,9 % sur le corpus de développement et de

19,9 % à 13,0 % sur les donnés de test.

La gure 5.4 présente l'évolution du WER sur le corpus de développement qui nous

sert à xer les paramètres. Elle montre là aussi une réduction du nombre d'erreurs en

recourant aux POS. Nous constatons sur le corpus de test une baisse de 13,0 % à 12,1 %

en utilisant s

0

(w

n

1

), ce qui correspond à une baisse absolue identique (-0,9 %) à celle

obtenue avec le MA initial. Nous en concluons que même avec un système amélioré le

gain apporté par les informations morpho-syntaxiques reste signicatif. Il est toutefois

probable qu'en modiant le ML plutôt que le MA, la baisse n'aurait pas été aussi

importante dans la mesure où les POS complémentent le ML.

5.2.1.5 Comportement sur de l'oral spontané

Bien que les informations morpho-syntaxiques aient montré au cours de nos

ex-périences une certaine robustesse aux phénomènes de la langue parlée, il est possible

qu'elles soient moins pertinentes sur les portions de la transcription qui contiennent

de nombreuses disuences. Nous souhaitons ici montrer que l'apport des POS pour la

12 12.5 13 13.5 14 14.5 8 10 12 14 16 18 W E R (% ) α β=0 (sans POS) β>0 (avec POS)

Fig. 5.4: Évolution du WER en fonction du paramètreα avec le jeu d'étiquettes ext2 et sur le

corpus de développement, en utilisant un meilleur MA

extrait de 12 640 mots extrait de 3 650 mots

sans POS 32,7 46,3

s(w

n1

) 31,4 44,5

s

0

(w

n

1

) 31,0 44,3

Tab. 5.5: WER obtenus sur des extraits du corpus de test correspondant à de l'oral spontané

transcription reste réel quand les conditions d'analyse des hypothèses de mots produites

par le système de RAP se dégradent. Nous avons à cette n isolé les extraits du corpus

de test correspondant à des interviews et qui correspondent donc davantage à de l'oral

spontané. Le WER initial produit par notre système de RAP sur ce passage de 12 640

mots est nettement plus élevé que les 19,9 % constatés pour la totalité des données de

test (Tab. 5.5). Que l'on utilise ou non les probabilités intra-classes, les POS permettent

une baisse du WER qui est en relatif identique à celle observée précédemment, voire

même supérieure. Pour l'ensemble du corpus de test, nous obtenions en eet une

diminu-tion de 4,0 % ou de 4,5 % selon que l'on recourait ou non aux probabilités intra-classes ;

sur ce nombre plus réduit de segments, on constate une réduction relative de 4,0 et de

5,2 %.

En examinant de plus près l'extrait que nous avons sélectionné, nous avons constaté

que les portions correspondant à des interviews d'hommes politiques contenaient moins

de marques de disuences. En écartant ces groupes de soue ce qui restreint à un

extrait de 3 650 mots nous constatons que les POS conduisent là encore à une baisse

relative du WER de 3.9 % ou de 4,3 % selon que l'on intègre ou non les probabilités

intra-classes dans le calcul des scores. Ces résultats établissent par conséquent que l'utilisation

des POS provoque une amélioration de la qualité de la transcription, y compris pour

les zones correspondant à de l'oral spontané.

Après avoir montré l'intérêt des informations morpho-syntaxiques avec un critère

MAP pour la transcription, nous proposons dans les deux sections suivantes deux

nou-velles méthodes d'intégration en modiant le critère de réordonnancement.

5.2.2 Décodage par minimisation du nombre d'erreurs sur les mots