Reconnaissance basée triphones : ASR_CD - Présentation des systèmes

DECODAGE ACOUSTICO-PHONETIQUE

2.5. Description des systèmes développés

2.5.4. Présentation des systèmes

2.5.4.2. Reconnaissance basée triphones : ASR_CD

Les monophones font partie des modèles acoustiques les plus simples, modélisant chaque phonème un à un sans aucune prise en compte du contexte. Ceci entraîne un défaut de modélisation non négligeable, sachant l'existence de nombreux phénomènes de coarticulations dans la parole continue. Voilà pourquoi un autre type de modèle est généralement privilégié lorsqu'il s'agit de prendre en compte le contexte : les triphones.

Les triphones et les biphones sont des modèles acoustiques dépendants du contexte c'est-à-dire que leur apprentissage, et donc les modèles résultants, prennent en compte non seulement le phonème à modéliser mais aussi le contexte associé.

Dans la suite de ce document, nous utilisons le même formalisme que dans le manuel de la boîte à outils HTK [YOU 05] pour décrire ces modèles. Un triphone sera donc représenté par un triplet de phonèmes A-B+C, B étant le phonème "cœur" du triphone, A étant le phonème prédecesseur de B et C son successeur. Concernant les biphones ayant pour phonème "cœur" un phonème B, ils seront notés par des couples B+C ou A-B, B+C étant un biphone d'entrée, c'est-à-dire dont le prédecesseur est un silence ou un début de phrase, et A-B étant un biphone de sortie, c'est-à-dire dont le successeur est un silence ou une fin de phrase.

La Figure 23 illustre une topologie de triphone mise en parallèle avec un exemple de signal audio représenté.

Phonème "I"

Phonème "D"

Phonème "M"

Triphone "D-I+M"

Triphone "?-D+I" Triphone "I-M+?"

S C E S C E S C E

Figure 23 : Topologie d'un triphone

Ces triphones sont généralement modélisés, tout comme les monophones, par des modèles à 3 états. Théoriquement, les deux états extrêmes présentés comme étant les entrées et sorties des monophones se voient ici ajouter une information supplémentaire importante : l'influence du phonème adjacent. Les phénomènes de coarticulation seront donc modélisés au niveau des états START et END.

Notons également qu'une simple transition entre deux phonèmes est modélisée par deux états. Par exemple l'état End du triphone "?-D+I" modélise le début de la transition D vers I alors que l'état Start du triphone "D-I+M" modélise la fin de cette transition.

Construction des triphones

De part leur structure, les triphones demandent une attention particulière lors de leur construction. En effet, si on ne considère que tous les triphones différents, sans compter les biphones et monophones, que l'on peut construire à partir de nos 33 phonèmes (le silence et le short-pause sont considérés comme des états indépendants du contexte), on aboutit à un total de 35 937 triphones différents, ou encore 107 811 états différents, c'est-à-dire une complexité 1 000 fois plus importante que pour le système équivalent basé monophones.

Vu le grand nombre de triphones possibles, et vue la taille réduite du corpus d'apprentissage, le nombre d'occurrences de chaque triphone risque d'être trop faible pour le bon entraînement de chacun. Afin de pouvoir générer les triphones manquants, et par la même occasion réduire la complexité, une technique efficace de partage d'états a été mise au point par Young et Woodland [YOU 94]. Au final, grâce à ce partage d'états, il est possible de réduire à la fois le nombre d'états réels ainsi que le nombre de modèles physiques.

Un premier système a été construit, basé sur des modèles dépendants du contexte générés après un classement des chaînes de Markov suivant un arbre de décision, comme exposé dans [YOU 05]. L'ensemble ainsi obtenu contient 49 283 HMMs mais uniquement 19 470 différentes physiquement, partageant 6 053 mélanges de 32 gaussiennes différentes. En détaillant davantage, nous obtenons 35 modèles "sans contexte", 2 592 biphones et 46 656 triphones.

Pour l'apprentissage, on utilise une transcription phonétique convertie en chaînes de triphones intégralement connectées comme illustrée en Figure 24.

Figure 24 : Exemple de transcription du mot "Elvis" en triphones [SIL] AI L V I S [SIL]

[SIL] AI+L AI-L+V L-V+I V-I+S I-S [SIL]

Transcription phonétique

Transcription en triphones Génération de la transcription

en triphones

ASR_CD et bigram phonétique

A nos premiers modèles dépendants du contexte, on peut associer directement le modèle de langage phonétique. En effet, les outils de décodages de la boîte à outils HTK gèrent d'eux-mêmes le contexte des phonèmes en affectant automatiquement dans le vocabulaire un phonème à ses triphones associés, puis en contraignant par graphe les connexions d'un triphone à l'autre.

De la même façon qu'illustré sur la Figure 21 pour le système ASR_CI, nous présentons en Figure 25 un exemple de graphe généré automatiquement par le système sur un vocabulaire de deux termes A et B non plus modélisés par des monophones mais par l'ensemble équivalent de modèles dépendants du contexte. Comme on peut le constater, ce graphe est bien plus complexe en termes de nombre de nœuds et de liens que dans le cas des monophones.

Un tel graphe généré sur nos données applicatives contient 30 481 nœuds et 70 006 liens, c'est-à-dire environ 300 fois plus de nœuds et 70 fois plus de liens que le graphe équivalent basé sur des monophones.

Figure 25 : Exemple de graphe généré par un bigram sur un vocabulaire constitué de deux termes dépendants du contexte A et B

ASR_CD et bigram syllabique

Comme pour les monophones, on construit les syllabes par concaténation de triphones.

Ces derniers étant dépendants du contexte, un choix doit être effectué sur leur fonction "inter-syllabique". En d'autres termes, si le contexte est parfaitement modélisé à l'intérieur des syllabes, doit-on ou non l'étendre entre les syllabes ?

A+B

B+A

A-B

B-A A-B+A

B-A+B

Entrée Sortie

En terme de performances, il semblerait logique qu'une expansion totale du contexte permette d'obtenir de meilleurs résultats, sachant que le flux audio sera plus fidèlement modélisé. Malgré tout, le graphe généré par un tel système appliqué à nos 2 000 syllabes sera bien plus complexe qu'il ne l'est pour uniquement 35 phonèmes.

Pour tenter de répondre à cette question, nous avons comparé les deux systèmes décrits ci-dessous, l'un basé sur une expansion totale du contexte, et l'autre se limitant à une expansion intra-syllabique.

ASR_CD, bigram syllabique, et expansion totale du contexte : ASR_CD_F

Le système ASR_CD_F, suffixé ainsi pour "Full expansion", utilise les modèles acoustiques dépendants du contexte dans la construction des syllabes par concaténation de modèles, comme indiqué en Figure 26 sur la chaîne phonétique déjà utilisée en Figure 22.

Une syllabe composée de N phonèmes correspond ici aussi à une chaîne de 3*N états.

Figure 26 : Triphones concaténés en syllabes avec expansion totale pour le mot "Elvis"

C'est au niveau inter-syllabique qu'intervient la spécificité de ce système : les triphones modélisant les extrémités syllabiques sont ici automatiquement choisis par le système en fonction des phonèmes composant les syllabes précédente et suivante. Cette expansion permet au système d'avoir une couverture complète des effets de co-articulation mais rend le système très complexe en termes de nombre de nœuds et de liens dans le graphe résultant du modèle de langage. En effet, concernant le graphe de décodage généré sur ces syllabes à partir du bigramme syllabique, on obtient 199 198 noeuds et 605 369 liens.

Remarquons par ces données chiffrées que la construction de ce système combinant modèle de langage syllabique et triphones multiplie de façon significative la complexité relativement au système utilisant le modèle de langage phonétique : environ 7 fois plus de nœuds et 9 fois plus de liens. En comparaison du système basique monophones/bigramme phonétique, on obtient donc environ 2 000 fois plus de nœuds et 430 fois plus de liens.

ASR_CD, bigram syllabique, et expansion interne uniquement : ASR_CD_I

Avec le système ASR_CD_I, I pour "Internal Expansion", l'objectif est de conserver une modélisation totale du contexte à l'intérieur des syllabes, tout en évitant l'expansion entre elles et ainsi limiter la complexité du système.

Pour générer notre ensemble de syllabes, il est envisageable de réutiliser les triphones appris pour ASR_CD_F, mais au vu des premiers résultats obtenus, il nous a paru évident que

AI+L AI-L+V L-V+I V-I+S I-S

AI_L V_I_S

ce premier apprentissage n'était pas adapté à cette nouvelle configuration. En effet, là où apparaissait auparavant un triphone en fin de syllabe (Ex : "AI-L+V" en fin de la syllabe

"AI_L") et un autre triphone en début de la syllabe suivante (Ex : "L-V+I" en début de la syllabe "V_I_S"), apparaissent désormais deux biphones ("AI-L" et "V+I"), comme montré en Figure 27. Ces mauvais résultats s'expliquent donc par un apprentissage des biphones non adapté à un tel système.

Plus précisément, les biphones, dans le cas précédent, modélisaient uniquement les transitions d'un silence vers un phonème ou d'un phonème vers un silence. Dans ce nouveau système, ils sont contraints de modéliser des zones de coarticulation très éloignées de leurs exemples d'apprentissage.

Figure 27 : Triphones concaténés en syllabes avec expansion interne uniquement

Pour pallier ce défaut, une seconde transcription en triphones est réalisée, non plus extraite des transcriptions phonétiques mais des transcriptions syllabiques, comme indiqué plus loin en Figure 30. L'étiquetage finalement utilisé y est nommé "Triphones avec expansion interne uniquement". Un découpage de ce type permet de labelliser les modèles aux extrémités des syllabes comme étant des biphones qui seront ainsi plus représentatifs des zones "inter-syllabes". La couverture résultante sera évidemment bien plus "floue" que celle de ASR_CD_F.

Une syllabe composée de N phonèmes correspond ici aussi à une chaîne de 3*N états.

Au final, on obtient ici 34 852 HMMs dont 28 687 différentes physiquement, partageant 2 442 mixtures de 32 gaussiennes différentes.

Le nouveau graphe de décodage ne contient plus que 8 196 nœuds et 94 435 liens, aboutissant à un système bien moins complexe que le modèle syllabique appliqué à ASR_CD_F , en divisant par 25 le nombre de nœuds et par 6 le nombre de liens.

2.5.4.3. Reconnaissance basée "unités transitoires" : ASR_T

L'inconvénient majeur du système monophonique est l'apprentissage de chaque modèle phonétique indépendamment de leur contexte. Or les phonèmes, au sein d'un flux de parole, ne se suivent pas brutalement et des phénomènes de coarticulation apparaissent en fonction du contexte d'émission de chaque phonème. Il s'agit là d'un problème récurrent de la reconnaissance de parole auquel on répond le plus souvent, comme nous l'avons vu, par l'ajout d'informations contextuelles (biphones, triphones) [LAM 93]. Néanmoins, l'utilisation des triphones, malgré des techniques efficaces de partage d'états, aboutit généralement à des

AI+L AI-L V+I V-I+S I-S

AI_L V_I_S

systèmes complexes, en particulier lorsqu'il s'agit d'utiliser des unités plus longues que les phonèmes.

Dans le cadre d'un système basé sur des unités syllabiques, il est souhaitable de travailler sur des modèles syllabiques cohérents à l'intérieur desquels le contexte est pris en compte et correctement modélisé, à l'instar des systèmes ASR_CD. Cependant, cette approche ne nous satisfaisait pas totalement, tout d'abord à cause de la complexité des graphe générés et ensuite à cause des transitions entre phonèmes modélisées par deux états successifs au sein même des syllabes. Dans l'optique de simplifier les systèmes basés triphones, nous proposons la création d'une nouvelle unité inspirée des monophones, permettant de limiter au maximum le nombre de modèles acoustiques. Cette unité se rapproche des pseudo-diphones présentés dans les travaux de [AND 93].

Chacune des 2 000 syllabes est donc associée à une chaîne de Markov spécifique, directement issue de la modélisation des monophones vue ci-dessus et présentée en Figure 28.

Figure 28 : Création d'une syllabe à partir d'unités transitoires

Cette modélisation conserve la topologie issue de la concaténation des chaînes de Markov phonétiques, à ceci près que les états extrémités des phonèmes contigus sont fusionnés en un seul état, représentant le contexte de transition. La nouvelle notation consacrée pour ces nouveaux états transitoires entre deux phonèmes X et Y est X2Y (X to Y).

Ainsi, sur l'exemple présenté en Figure 28, les états SE et OS sont fusionnés en S2O et OE et LS

en O2L. Cette fusion de deux états entraîne une réduction du nombre d'états à parcourir lors du décodage, car là où une concaténation de n phonèmes était modélisée par 3n états, le modèle syllabique correspondant n'en a plus que 2n+1. Par ce formalisme, l'intégralité de l'espace de parole est donc couverte par un ensemble de 1 103 états différents. En outre, la topologie de ces syllabes permet d'étendre l'apprentissage aux modèles non rencontrés en partageant les états comme indiqué en Figure 29. Les modèles de syllabes ainsi construits sont bien entendu ré-estimés de zéro.

Figure 29 : Partage d'états entre syllabes

Au final, les 2 000 syllabes se partagent 1 103 états différents, c'est-à-dire près de 10 fois plus de probabilités d'émission à calculer lors du décodage que pour le système monophonique.

Le graphe de décodage quant à lui possède 16 369 nœuds et 99 419, ce qui le positionne globalement en équivalent d'un système ASR_CD_I en termes de complexité de graphe.

Dans le document En vue de l'obtention du (Page 64-70)