• Aucun résultat trouvé

1.3 Conclusion

2.1.2 Mod´elisation HTK

Initialement, la suite logicielle HTK a ´et´e con¸cue pour utiliser les mod`eles de Markov cach´es dans le cadre de la reconnaissance de la parole. Plusieurs raffinements ont ´et´e apport´es pour satisfaire les contraintes de ce domaine. Nous allons maintenant pr´esenter les sp´ecificit´es de la suite logicielle HTK utilis´ee par le syst`eme HTS. Pour plus de d´etails sur HTK, le lecteur pourra se r´ef´erer `a l’article introductif [Young1993] ainsi qu’au HTK book[Young2005].

tel-00913565, version 1 - 3 Dec 2013

Topologie des mod`eles

Pour pouvoir mod´eliser un signal de parole par un HMM, il est n´ecessaire de fournir deux types d’informations `a HTK : l’ensemble des s´equences d’observations{O1, . . . , OK}, qui correspondent `a des vecteurs de coefficients acoustiques permettant de d´ecrire un si-gnal de parole et qui sont g´en´eralement compl´et´es par les informations de dynamique ; l’ensemble des s´equences d’´etiquettes phon´etiques {E1, . . . , EK} associ´ees `a ces observa-tions. Ces ´etiquettes sont obtenues grˆace `a un processus d’annotation, automatique ou manuel, comme par exemple le processus qui a ´et´e utilis´e pour ces travaux et qui est pr´esent´e dans la section5.2 du chapitre5.

En tenant compte de propri´et´es inh´erentes au signal de parole, deux caract´eristiques de ce signal permettent de contraindre la topologie des mod`eles [Odell1995] : la parole correspond `a une s´equence de phones et chaque phone correspond `a une s´equence de trames ; il existe une dur´ee minimale naturelle pour chaque phone. Ces contraintes abou-tissent `a utiliser, dans la majorit´e des cas, une topologie dite lin´eaire (de gauche `a droite et sans saut, ou mod`ele de Bakis) illustr´ee par la figure2.1. Pour ces nombreux syst`emes de reconnaissance ainsi que pour notre ´etude, un HMM mod´elise un phone. Il est donc n´ecessaire de pouvoir concat´ener diff´erents HMM pour repr´esenter un ´enonc´e. Pour cela, HTK ajoute en d´ebut et en fin de HMM deux ´etats non ´emetteurs qui servent uniquement

`

a pouvoir ancrer deux mod`eles cons´ecutifs.

Figure2.1 – Topologie de HMM couramment utilis´es avec HTK pour mod´eliser un signal de parole. Si on consid`ere un signal associ´e `a un phone et la s´equence d’observations O extraite de ce signal, un HMM repose sur une topologie lin´eaire pour mod´eliser ce signal en utilisant des lois normales comme probabilit´es d’´emission.

tel-00913565, version 1 - 3 Dec 2013

HTK introduit la notion de flux afin de pouvoir consid´erer diff´erentes parties d’un vecteur d’observation comme statistiquement ind´ependantes [Young2005].

Elagage´

Lors de la phase d’apprentissage, l’estimation des variablesαetβpeut s’av´erer coˆuteuse en temps et en espace. N´eanmoins, il est possible de r´eduire l’espace de recherche en tenant compte de la topologie particuli`ere des HMM de Bakis sans saut. En effet, cette topologie impose de parcourir tous les ´etats du HMM. Il n’est donc pas possible que le premier ´etat soit associ´e `a la derni`ere trame dans le cadre d’un HMM compos´e d’au moins deux ´etats

´emetteurs. En appliquant ce raisonnement sur l’ensemble des ´etats, nous constatons qu’en r´ealit´e l’association entre les trames et les ´etats de la phrase-HMM1 forme un faisceau comme l’illustre la figure 2.2.

Figure 2.2 – ´Elagage lors du Forward-backward. Lors de la phase de calcul de β, une largeur maximale de faisceau est d´efinie. Cette largeur est contrainte, en se basant sur les r´esultats obtenus lors de la phase Backward, pour d´eterminer α. Figure extraite de [Young1993].

Ainsi il est possible de r´eduire la complexit´e en temps et en espace pour d´eterminer P(O|λ) en effectuant une op´eration d’´elagage (pruning)[Young1993]. Pour cela, on consi-d`ere la taille maximaleF du faisceau. Lors de la phasebackward2, la taille du faisceau est limit´ee `aF etβ. Pour le calcul de α, cette taille est encore r´eduite en tenant compte des r´esultats obtenus lors de la phasebackward. De cette mani`ere, les ´etats dont la probabilit´e d’´emission de l’observation ot est tr`es faible, `a cause de la topologie du mod`ele, sont ignor´es ce qui permet de r´eduire l’espace et le temps n´ecessaire pour d´eterminerαetβ.

1. Une phrase-HMM correspond `a la concat´enation des HMM d´etermin´es par la s´equence d’´etiquettes phon´etiques associ´ees.

2. HTK ex´ecute le calcul deβavant le calcul deα

tel-00913565, version 1 - 3 Dec 2013

Arbre de d´ecision et tying

Afin d’obtenir des mod`eles plus pertinents, le syst`eme HTK permet de prendre en compte le contexte linguistique associ´e `a chaque segment utilis´e pour effectuer l’appren-tissage des HMM. Toutefois, la prise en compte du contexte conduit rapidement `a une explosion combinatoire des param`etres. Pour pallier ce probl`eme, HTK introduit des arbres de d´ecision [Young1994] pour limiter le nombre de param`etres contextuels.

Les arbres de d´ecision associ´es `a un param`etre d’observation et `a un ´etat donn´e, dont un exemple est illustr´e par la figure 2.3, sont des arbres binaires respectant la topologie suivante :

— chaquenoeudcorrespond `a une propri´et´e li´ee au contexte linguistique et prosodique du segment mod´elis´e. `A chaque propri´et´e est associ´e un ensemble de valeurs qui d´efinissent cette propri´et´e. En fonction des valeurs de description, les param`etres acoustiques sont obtenus par descente dans l’arbre jusqu’`a rencontrer une feuille.

— chaque feuille contient une distribution statistique. Pour aboutir `a une feuille, il est n´ecessaire de valider un ensemble de caract´eristiques linguistiques/prosodiques.

Cet ensemble correspond au parcours dans l’arbre. Si l’on consid`ere un ensemble de mod`eles li´es `a des observations dont les descripteurs valident cet ensemble de caract´eristiques, nous obtenons alors un ensemble de distributions correspondant aux ´emissions de chacun des mod`eles pour l’´etat donn´e. La distribution associ´ee `a la feuille est d´etermin´ee `a partir de cet ensemble grˆace `a un m´ecanisme de partage de distributions (outying).

Figure 2.3 – Exemple d’arbre de d´ecision. Si l’on suppose un arbre associ´e au second

´etat des HMM, alors les feuilles de cet arbre correspondent `a des distributions statistiques et, pour chaque HMM, la probabilit´e d’´emission du second ´etat est li´ee `a l’une de ces distributions. La distribution est d´etermin´ee en fonction des descripteurs caract´erisant les segments associ´es aux HMM.

tel-00913565, version 1 - 3 Dec 2013