Travaux connexes

2.3 La prédiction de performances

L’

correctwlog2(M C(W))+P

incorrectwlog2(1−M C(W))

2.3 La prédiction de performances

2.3.4 Travaux connexes

CHAPITRE 2. LA PRÉDICTION DE PERFORMANCES

L’

évaluation d’un système de RAP est une opération indispensable pour

dé-terminer la qualité des hypothèses générées. Lorsque la référence est

indis-ponible, la prédiction de performance s’avère utile pour déterminer la fiabilité des

sorties produites, notamment lorsque le système utilisé est inconnu.

Nous nous intéressons dans ce chapitre à la tâche de prédiction de performances

des systèmes de reconnaissance automatique de la parole. Nous introduisons dans

la section2.1la tâche d’estimation de la qualité des systèmes de RAP. Nous

présen-tons par la suite dans la section2.2la tâche d’estimation des mesures de confiance

qui représente la méthode classique pour estimer la qualité d’un système de RAP

particulier. Nous décrivons ensuite, la tâche de prédiction de performance dans la

section2.3. Nous conclurons enfin ce chapitre, dans la section 2.4.

2.1 Introduction

Depuis quelques années, la tâche de reconnaissance automatique de la

pa-role constitue un sujet d’intérêt croissant dans des applications "grand public".

On a vu ainsi émerger les systèmes de RAP dans plusieurs applications

d’intelli-gence artificielle telles que : SIRI

, Alexa

, Microsoft Translate

, etc. Malgré les

avancées spectaculaires dans le domaine, il n’existe toujours pas dans la littérature

de système de RAP parfait ou robuste dans toutes conditions. Ainsi, l’évaluation

automatique des systèmes est indispensable pour mesurer la fiabilité des

transcrip-tions produites.

Comme décrit dans la section 1.7, l’évaluation automatique d’un système de

RAP implique une transcription de référence (produite par des experts), une

hy-pothèse de transcription (sortie d’un SRAP) et une métrique d’évaluation (comme

le WER). Étant donné que la production d’une transcription de référence est très

coûteuse (en temps et ressources), l’estimation automatique et sans référence de

la qualité peut être une tâche utile pour déterminer la fiabilité a priori d’une

transcription automatique.

Afin d’estimer la qualité des systèmes de reconnaissance automatique de la

parole, de nombreux travaux ont proposé d’estimer des mesures de confiance pour

1. https://www.apple.com/fr/siri/

2. https://developer.amazon.com/alexa-voice-service

CHAPITRE 2. LA PRÉDICTION DE PERFORMANCES

détecter les erreurs dans les sorties d’un système de RAP particulier. La tâche de

prédiction de performances se présente comme une nouvelle tâche, visant à prédire

un taux d’erreur de mots, notamment lorsque le système de RAP est appliqué sur

de nouvelles collections de signaux. L’une de ses caractéristiques par rapport à une

tâche d’estimation de mesures de confiance est aussi qu’elle peut faire abstraction

du fonctionnement interne du système de reconnaissance automatique de la parole.

Nous introduisons dans les sections suivantes les deux tâches d’estimation de

qualité des système de reconnaissance automatique de la parole : l’estimation des

mesures de confiance et la prédiction de performances.

2.2 L’estimation des mesures de confiance

En reconnaissance automatique de la parole, les mesures de confiance ont été

introduites pour la tâche de détection des mots hors vocabulaire (OOV) parAsadi

et al. [1990] et exploitées par Young [1994] pour la tâche de reconnaissance de la

parole.

L’estimation des mesures de confiance est la méthode classique pour évaluer

la fiabilité d’un système de reconnaissance automatique de la parole particulier.

Cette opération est souvent basée sur des informations issues du fonctionnement

interne d’un système de RAP particulier. Elle consiste à attribuer à chaque mot

W une probabilité M C(W) ∈ [0,1] pour déterminer par la suite si le mot W est

« correct » (M C(W) proche de 1) ou « incorrect » (M C(W) proche de 0).

Afin d’avoir une approximation du taux d’erreur de mots (WER) à une

granu-larité pré-définie, la moyenne µ(M C) de M mots W étiquetés peut être calculée

comme suit :

µ(M C) = 1

M

X

M C(W

) (2.1)

Les mesures de confiance sont très utilisées dans plusieurs applications de TAL

telles que : les systèmes de dialogue [San-Segundo et al.,2001,Hazen et al., 2002,

Sarikaya et al., 2005], la traduction automatique [Blatz et al., 2004, Quirk, 2004,

Ueffing and Ney, 2007], la reconnaissance automatique de la parole [Asadi et al.,

CHAPITRE 2. LA PRÉDICTION DE PERFORMANCES

Apprentissage. les systèmes d’estimation des mesures de confiance sont

sou-vent appris à l’aide d’une technique d’apprentissage supervisé. En reconnaissance

automatique de la parole, la probabilité M C(W) est généralement estimée à une

granularité fine telle que : au niveau de phonème et au niveau de mot.

Plusieurs algorithmes d’apprentissage des systèmes d’estimation des MC ont

été proposés dans la littérature tels que : le boosting [Freund et al.,1996], les arbres

de décision [Breheny, 1984], les machines à vecteurs de support (SVM) [Vapnik,

µ(M C) = ¹

P = ^#mots ^correctement ^annot´^es

#mots annot´es ^(2.2)

R= ^#mots ^correctement ^annot´^es

#mots `a annoter ^(2.3)

F1 = ²∗P ∗R

P +R ^(2.4)