Expérimentations et résultats - DECODAGE ACOUSTICO-PHONETIQUE

DECODAGE ACOUSTICO-PHONETIQUE

I- S sil

2.6. Expérimentations et résultats

Dans cette section, nous abordons les évaluations des systèmes précédemment décrits, effectuées sur le corpus Test_ESTER. Tout d'abord, un récapitulatif des systèmes est exposé, suivi d'une discussion sur les résultats obtenus en terme de taux d'erreur phonétique.

2.6.1. Récapitulatif des systèmes

Le Tableau 7 reprend les quatre systèmes implémentés, c'est-à-dire ASR_CI, ASR_CD_F, ASR_CD_I et ASR_T, et propose un exemple pour chacun d'entre eux, indiquant les structures particulières en fonction du type de modèle de langage appliqué, phonétique ou syllabique.

Unité Modèle

acoustique

Exemple (sil AI L V I S sil) Monophone

ASR_CI Phonème

Triphone (full expansion)

ASR_CD_F

Monophone ASR_CI

Triphone (full expansion)

ASR_CD_F

Triphone (internal expansion)

ASR_CD_I Syllabe

Transitoires ASR_T

Tableau 7 : Récapitulatif des systèmes de décodage acoustico-phonétique

Le Tableau 8 résume les complexités de chaque système en termes de topologies, c'est-à-dire de nombre de gaussiennes par mixture, de nombre de modèles physiques, du

AI_L

AI_S AI_C AI2L L_C L_E V2I I_C I2S SC S_E

V_I_S

AI_L V_I_S

AI-L V+I V-I+S I-S

AI+L

AI_L V_I_S

AI-L+V L-V+I V-I+S I-S AI+L

AI L V I S

AI_L V_I_S

AI+L AI-L+V L-V+I V-I+S I-S

V_S V_C

nombre d'états différents et du nombre d'états par syllabe. Il montre également la complexité de structure des graphes de décodage générés par HTK en termes de nombre de nœuds et de nombre d'arcs.

COMPLEXITE DES GRAPHES COMPLEXITE DES TOPOLOGIES Bigramme

phonétique

Bigramme syllabique

Nb gaussiennes

Nb modèles

Nb états

Nb états par syllabe

de N phonèmes

Nb noeuds

Nb liens

noeuds Nb liens

ASR_CI 256 35 105 3*N 111 1389 10208 97313

ASR_CD_F 32 19470 6053 3*N 30481 70006 199198 605369

ASR_CD_I 32 28687 2442 3*N 8196 94435

ASR_T 32 2000 1103 2*N+1 16369 99419

Tableau 8 : Complexité des systèmes de décodage acoustico-phonétique

Comparé aux autres graphe construits dans le cadre d'un bigram syllabique, ASR_CD_F est de loin le plus complexe, ce qui s'explique par l'expansion du contexte entre les syllabes. Notons qu'un nœud de graphe représente dans tous les cas une unité de base du système, c'est pourquoi ASR_T (une unité = un modèle transitoire à un état) a deux fois plus de nœuds que ASR_CD_I (une unité = un modèle triphone à 3 états). En outre, ASR_CD_I possède moins de nœuds qu'ASR_CI grâce au partage de modèles.

2.6.2. Résultats

La transcription phonétique est évaluée par comparaison des transcriptions résultantes et des références manuelles. Les trois types d'erreurs phonétiques rencontrées sont les insertions, suppressions et substitutions. Elles sont calculées par application d'un algorithme d'edit distance entre les transcriptions résultantes et les références. L'outil utilisé est le module HResults de la boîte à outils HTK (annexe A). Les performances de reconnaissance sont alors notées relativement au pourcentage de phonèmes correctement reconnus, encore appelé taux de rappel, et au taux d'erreur phonétique, ou Phoneme Error Rate (PER). Le Tableau 9 présente les performances des différents systèmes appliqués au corpus de test Test_Ester en termes de taux de rappel et de taux d'erreur phonétique.

Décodage phonétique Décodage syllabique

RAPPEL PER RAPPEL PER

ASR_CI 71.15 30.66 78.34 23.73

ASR_CD_F 79.52 28.16 83.43 23.46

ASR_CD_I 81.60 22.34

ASR_T 80.83 23.19

Tableau 9 : Résultats du décodage sur Test_Ester

Le Phoneme Error Rate est calculé sur les trois types d'erreurs comme suit :

N

D I Accuracy S

PER 100 * ( )

100 + +

=

−

=

₍₁₈₎

N est le nombre de phonèmes de la transcription de référence, I le nombre d'insertions, S le nombre de substitutions et D le nombre de phonèmes supprimés.

Pour une bonne compréhension du Tableau 9, remarquons que ASR_CD_I et ASR_T sont uniquement présentés associés au bigram syllabique, de part leur propriétés spécifiques.

Notons également que les silences et les inspirations ne sont pas pris en compte dans l'évaluation afin de ne pas sur-évaluer les résultats. Rappelons enfin que pour le décodage syllabique, les syllabes sont redécoupées en phonèmes.

A la lecture de ce tableau, on s'aperçoit que les performances sont relativement proches, autour de 30% de taux d'erreur phonétique dans le cas de l'application du modèle de langage phonétique, et aux environs de 23% dans le cas du modèle de langage syllabique. Le gain conséquent d'environ 7 points obtenus grâce au bigramme syllabique confirme donc nos attentes quant à l'influence de l'information syllabique dans le décodage phonétique.

Deuxièmement, ASR_CD_I obtient des performances similaires à ASR_CD_F. Il perd en taux de rappel ce qu'il gagne en taux d'erreur. Ce résultat est assez inattendu, au vu de la complexité d'ASR_CD_F et de sa gestion potentiellement optimale des effets de coarticulation. Deux causes peuvent expliquer ce phénomène : soit notre corpus d'apprentissage ne contient pas suffisamment de données pour un système de la complexité d'ASR_CD_F, soit une modélisation complète du contexte n'est pas nécessaire dans le cadre d'un système syllabique. Pour valider ces résultats, il serait donc important de ré-apprendre ces systèmes basés triphones à partir de données d'apprentissage bien plus importantes.

Finalement, ASR_T et ses unités transitoires atteignent 23.19% de PER. De part ces résultats et sa complexité réduite, ce système s'avère être le meilleur compromis entre performances et rapidité d'exécution, en particulier comparé aux systèmes basés triphones.

Pour terminer cette étude, intéressons-nous brièvement à la vitesse d'exécution de ces systèmes sur nos machines de travail.

Vitesse d'exécution

Concernant la vitesse d'exécution, tout dépend de la stratégie de décodage et du matériel informatique. Les valeurs indiquées ci-dessous sont purement informatives dans le but de comparer nos différents systèmes. Le Tableau 10 récapitule la vitesse moyenne d'exécution pour le décodage utilisant l'algorithme de Viterbi de HTK sur un CPU Xeon, 3.4GHz avec 2Go de RAM. Le même seuil d'élagage, relatif au beam-search, d'une valeur de 180 est utilisé, cette valeur étant choisie comme étant un bon compromis entre complexité et performances.

Phonetic LM Syllabic LM

ASR_CI 0.88 1.60

ASR_CD_F 5.81 10.38

ASR_CD_I 2.23

ASR_T 1.85

Tableau 10 : Vitesse d'exécution du décodage acoustico-phonétique (x plus long que le Temps réel)

Notons qu'il est toujours possible d'augmenter la vitesse d'exécution en réduisant ce seuil d'élagage, au risque de réduire les performances.

Dans le document En vue de l'obtention du (Page 72-76)