• Aucun résultat trouvé

4.5 Sélection dynamique de paramètres acoustiques

4.5.3 Expériences et résultats

Des expériences ont été effectuées avec les corpus de test d’Aurora3 (ITA.TEST, SPA.TEST) et de SpeechDat.IT. Les résultats sont présentés dans le tableau4.12.

Les modèles acoustiques ANN et GMM utilisant les paramètres acoustiques MRA et RPLP ont été utilisés.

Pour Aurora3, les résultats de base ont été obtenus avec les paramètres MRA qui montrent de meilleures performances que RPLP pour cette tâche (Gemello et al.,1999).

Avec la procédure proposée, 339 (54%) phrases pour l’italien et 309 (50.4%) pour l’espagnol ont été validées directement avec l’équation 4.7 (le second jeu de paramètres n’a pas été utilisé dans ce cas). Le WER pour ces phrases est de 4.8% pour l’italien et 0.5% pour l’espagnol.

Lorsque la phrase n’est pas validée directement, les hypothèses peu fiables sont remises en cause, et l’autre jeu de paramètres est invoqué. Dans environ 90% des cas pour l’italien et 80% pour l’espagnol, le second jeu de paramètres propose une hypothèse différente de celle générée par le jeu de référence. Pour les mots où le second jeu de paramètres propose la même hypothèse, on observe un WER de 33.7% pour l’italien et 12.8% pour l’espagnol. Ces taux d’erreur sont relativement élevés si on les compare à ceux obtenus lorsque l’on considère le

4.5. Sélection dynamique de paramètres acoustiques.

consensus mot sur tout le corpus (11.2% WER pour l’italien et 2.05% WER pour l’espagnol). Cela montre que cette zone est peu fiable.

Corpus Param. de référence Baseline (%) Stratégie (%) Oracle (%)

ITA.TEST CH1 MRA 21.13 17.66 15.03

SPA.TEST CH1 MRA 12.3 8.68 6.8

SpeechDat.IT RPLP 35.5 31.0 29.6

TAB.4.12: Résultat de la sélection de paramètres acoustiques en terme de WER.

Quand elle est applicable et quand les systèmes ne donnent pas les mêmes hypothèses, la stratégie apporte une réduction significative du WER. Le gain relatif est de 16.42% pour l’italien et 29.4% pour l’espagnol.

Pour le corpus SpeechDat.IT, le décodage a été effectué sans l’utilisation d’un modèle de langage. La raison est que l’étude se concentre sur l’impact des différents jeux de paramètres sur les performances du système.

Les paramètres RPLP donnent les meilleurs résultats de base pour ce cor-pus, il est donc choisi comme jeu de paramètres de référence. L’utilisation dy-namique des paramètres MRA réduit le WER d’environ 13% relatifs.

Le score Oracle consiste à sélectionner la bonne hypothèse de mot si elle est proposée par au moins l’un des deux systèmes. On observe que le gain relatif maximal que l’on peut espérer avec ce type de méthode est de 16.62% pour SpeechDat.IT.

Conclusion

Dans ce chapitre, différents jeux de paramètres sont comparés. La variabi-lité des paramètres acoustiques a été mise en évidence grâce à l’exploitation de différentes architectures de diagnostic. Le diagnostic révèle que des jeux de pa-ramètres calculés avec des algorithmes très différents affichent globalement la même ambiguïté pour l’ensemble de l’espace acoustique. Des différences appa-raissent lorsque les phonèmes sont analysés séparément.

Ces différences ont été exploitées dans des techniques de combinaison au niveau des mots et des phonèmes aboutissant à une amélioration des perfor-mances du système de reconnaissance.

Même si une évaluation précise de l’impact sur le WER de la variabilité in-trinsèque des paramètres acoustique est difficile à réaliser, il est probable qu’elle

soit responsable de la plupart des confusions observées. Le nombre considé-rable d’erreurs communes aux différents jeux de paramètres acoustiques in-dique qu’il y a des limitations dans la manière dont les paramètres sont calculés.

Chapitre 5

Combinaison acoustique à très bas niveau segmental

Sommaire

5.1 Matériel expérimental . . . 113 5.2 Analyse de la confusion au niveau de l’état . . . 114 5.2.1 Equivocation globale et equivocation locale. . . 115 5.2.2 Equivocation et KLD . . . 116 5.2.3 Conclusion . . . 118 5.3 Modèles acoustiquesjumeaux. . . . 118 5.3.1 Protocole d’apprentissage . . . 119 5.3.2 Propriétés du modèlejumeau . . . 120 5.4 Combinaison des probabilitésa posteriori . . . 121 5.4.1 Combinaison linéaire des probabilitésa posteriori. . . 121 5.4.2 Combinaison log-linéaire des probabilitésa posteriori . . 122 5.5 Expériences de reconnaissance . . . 125 5.5.1 Résultats et analyses . . . 125 5.6 Calcul des poids de combinaison . . . 129 5.6.1 Matrices de confusion . . . 129 5.6.2 Régressions logistiques . . . 130 5.6.3 Entropie des vecteurs de probabilités . . . 132 5.7 Adaptation des modèles acoustiques en vue de leur

combi-naison . . . 136 5.7.1 Impact du taux de concordance des modèles . . . 137 5.7.2 Résultats et observations. . . 138 5.7.3 Conclusion . . . 141 5.8 Discussion et conclusions . . . 142

Jusqu’à présent, la combinaison de systèmes post décodage à un niveau seg-mental élevé (phonème, mot) a montré de bons résultats sur des applications à petit vocabulaire. Nous allons maintenant nous intéresser aux applications grand vocabulaire.

Les méthodes de combinaison travaillanta posteriorisur les résultats de dé-codage sont appliquées sur une partie réduite des hypothèses : les N-meilleures hypothèses ou le treillis que l’on peut exploiter en sortie du système contiennent les hypothèses de mots les plus probables étant donné le signal d’entrée et les modèles acoustique et linguistique. La réduction de l’ensemble d’hypothèses li-mite le domaine de recherche qui est susceptible de ne pas contenir la solution.

Pour remédier à ce genre de problème, nous avons considéré la combinai-son de systèmes avant le décodage. Dans ce cadre, une des possibilités est la combinaison de probabilitésa posterioriau niveau de la trame.

L’objectif de ce type de combinaison est d’obtenir une meilleure estimation des probabilitésa posteriorid’un symbole étant donné une trame. Il en découle deux contraintes majeures.

La première est que les jeux de paramètres doivent être synchrones. Cela est nécessaire afin de combiner l’information capturée par les différentes analyses sur une même portion de signal. Il faut s’assurer que chaque trame de chaque jeu de paramètres est calculée avec un nombre maximum d’échantillons en communs. Dans la section2, nous avons vu que les fenêtres d’analyses peuvent avoir des tailles différentes, mais dès lors qu’elles sont centrées sur les mêmes échantillons, on peut alors considérer que les trames contiennent la même in-formation. Ceci nous permet raisonnablement de relâcher cette contrainte et de considérer que nos flux de paramètres sont synchrones.

La seconde contrainte concerne l’estimation des probabilités a posteriori.

Pour les calculer, il est nécessaire de se situer dans un espace probabiliste. Un es-pace probabiliste peut être défini par un ensemble fini d’événements (dans notre cas, l’apparition d’un symboleqappartenant à un vocabulaireQ) se partageant la probabilité totale, égale à 1. Ici, l’ensemble des symboles correspond aux états des modèles acoustiques. Cet ensemble doit être le même pour tous les jeux de paramètres acoustiques. De ce fait, il est nécessaire que les modèles acoustiques possèdent le même ensemble d’états, ou en d’autres termes, la même topologie.

Pour ce faire, nous avons développé une technique d’apprentissage permettant de générer des modèles acoustiques fondés sur des paramètres acoustiques dif-férents et ayant une topologie strictement identique.

5.1. Matériel expérimental

Plan du chapitre

La section5.2présente une analyse de l’equivocation présente dans les états du HMM. Cette analyse tente de caractériser les différences qualitatives de deux jeux de paramètres acoustiques en comparant leur contribution à l’ambiguïté.

La section5.3décrit la procédure permettant d’obtenir des modèles acoustiques ayant la même topologie, condition nécessaire à la combinaison cohérente des probabilités postérieures. La section5.4présente les différentes possibilités pour combiner plusieurs distributions de probabilités postérieures. La section5.6 re-late les différentes stratégies employées pour l’estimation des facteurs de pon-dération pour la combinaison des probabilités. Dans la section 5.7, différents types d’adaptation des modèles acoustiques sont présentés dans le but de gé-nérer des modèles différents en vue de les combiner.

5.1 Matériel expérimental

Trois jeux de paramètres correspondant à des manières plutôt différentes de transformer le signal de parole ont été utilisés. Le premier jeu de paramètres est un vecteur de coefficients cepstraux PLP présentés dans la section2.3, le se-cond est un vecteur de paramètres RPLP (voir section 2.4) et le troisième jeu est calculé avec l’analyse MRA (voir section2.5). Le système utilisé est Speeral, développé au Laboratoire Informatique d’Avignon (LIA) et décrit dansNocera et al. (2002). Un modèle tri-gramme de 64k mots est utilisé pour modéliser le langage. Les modèles acoustiques sont des HMMs utilisant des GMMs pour modéliser les états. Ils sont composés de 10040 modèles de phonèmes dépen-dants du contexte, 3600 états émetteurs (qui peuvent être partagés parmi des modèles ayant le même phonème central) et 232716 gaussiennes.

L’ensemble des résultats en terme de WER présentés dans le tableau5.2ont été obtenus avec le corpus de test de MEDIA, présentés dans le tableau5.1.

Langue Corpus Nombre de phrases Nombre de mots MEDIA

TRAIN 13641 82639

DEV 1377 10434

TEST 3771 26092

ESTER TRAIN 80217 ∼1 million

TEST_TEL 512 4813

TAB.5.1: Description des corpus Media et Ester.

MEDIA est un corpus de parole téléphonique constitué de dialogues de ré-servation d’hôtels obtenus par une méthode de magicien d’Oz. La méthode de

magicien d’Oz consiste à faire croire à l’utilisateur qu’il s’adresse à un serveur téléphonique alors qu’en fait c’est une personne qui lui répond.

Les trois modèles acoustiques ont été entraînés séparément avec l’approche jumeau décrite dans la section5.3, en utilisant les 82 heures de parole du corpus français ESTER (Galliano et al.,2005). Ce corpus large bande a préalablement été sous échantillonnées à 8 kHz puisque les modules d’extraction de paramètres acoustiques ont été développés pour de la parole téléphonique.

Les modèles ont ensuite été adaptés par MAP (voit section1.5.1p.36) avec le corpus d’entraînement de MEDIA.

Certains résultats ont été obtenus sur la partie téléphonique du cor-pus de test d’ESTER (noté ESTER.TEL). Ce corcor-pus correspond aux ap-pels téléphoniques passés durant les émissions de radio suivantes :

20041006_0700_0800_CLASSIQUE 20041006_0800_0900_CULTURE 20041025_1930_2000_RFI_ELDA 20041026_1930_2000_RFI_ELDA 20041027_1230_1300_RFI_ELDA 20041124_1230_1300_RFI_ELDA