Intégration d’une information temporelle externe

Nous revenons dans la section 9.3 sur les techniques vidéo état-de-l’art, qui per-mettent d’extraire un signal caractéristique du mouvement des articulateurs, tout en veillant à limiter la quantité de calcul requise. Nous présentons ensuite une proposi-tion pour caractériser simplement la quantité de mouvement liée à la producproposi-tion de parole, ainsi que les résultats obtenus par cette méthode.

9.1 Intégration d’une information temporelle externe au sein de l’architecture acoustique

L’intégration d’une contrainte temporelle provenant d’un flux externe, au sein du système acoustique présenté dans les chapitres 7 et 8 est motivée, d’une part, par la volonté d’améliorer la modélisation de la structure des mots de passe et, d’autre part, par la volonté de pénaliser les séquences prononcées par des imposteurs lors de la phase de test. Ces deux aspects sont détaillés dans les paragraphes suivants.

9.1.1 Améliorer l’apprentissage des modèles en améliorant la segmentation en cellules acoustiques

La structure temporelle des mots de passe est modélisée par des modèles à états finis (cf. chapitre 8). Chaque état de ces modèles est supposé modéliser une cellule acoustique, élément de base de la structure du signal de parole. Nous avons conclu, dans le chapitre 8, que la segmentation en cellules acoustiques élémentaires gagnerait à profiter d’une information a priori.

Idéalement, l’information apportée au système acoustique permettrait de fixer les limites temporelles de chacune des cellules acoustiques composant un mot de passe.

En pratique, l’extraction des points de synchronisation ne permet pas de garantir ce ré-sultat. Dans le cas où le flux de synchronisation est extrait du flux vidéo, par exemple, le taux d’échantillonnage du flux vidéo est inférieur à celui de la modalité audio. De plus, nous avons vu dans la section 4.2.2, que la correspondance entre entités acoustiques et entités visuelles est rarement vérifiée.

Nous émettons l’hypothèse que les points de synchronisation correspondent, non pas aux débuts et fins de chaque cellule acoustique, mais à des points caractéristiques de la structure temporelle du mot de passe.

Le processus d’apprentissage des modèles SCHMMs est adapté par la méthode itéra-tive décrite dans la section 8.2. Comme expliqué dans la partie 8.2, les modèles SCHMMs utilisés ont une structureGauche-Droite.

Initialisation

La première version du modèle SCHMM d’un mot de passe est obtenue par une adaptation des états qui utilise une segmentation issue de la contrainte temporelle.

Cette procédure d’initialisation est présentée en trois étapes sur la figure 9.16 :

Étape 1 la contrainte temporelle permet une première segmentation de la séquence acoustique d’un mot de passe ;

Étape 2 les états du modèle SCHMM de ce mot de passe sont répartis entre chacun des segments, selon la durée de ces derniers. Chaque segment initial est alors lui même découpé en sous-segments de même longueur, permettant l’adaptation des états du modèle SCHMM ;

Étape 3 une fois apprise les probabilités d’émission de chaque état, nous fixons les va-leurs des transitions entre états. À partir de la solution précédemment utilisée (transitions équiprobables), nous distinguons deux types de transitions, repré-sentés à l’étape 3 de la figure 9.16.

Les transitions de typeA, dont la probabilité, fixée ci-dessus ne subit aucune mo-dification liée à l’usage du flux vidéo ;

Les transitions de typeV, dont la probabilité est déterminée directement par le flux vidéo.

SEGMENT 3

SEGMENT 1 SEGMENT 2

Synchronisation issue d'un processus externe

SEGMENT 1 SEGMENT 2 SEGMENT 3

Synchronisation issue d'un processus externe

1 2 3 4 5

1 2

SEGMENT 1 SEGMENT 2 SEGMENT 3

Synchronisation issue d'un processus externe

1 2 3 4 5

A V A V

A A A A A

FIG. 9.1: Représentation des trois étapes principales du processus d’initialisation contraint d’un modèle SCHMM.

Une première version du modèle SCHMM est ainsi obtenue.

Itérations

Chaque itération débute par un décodage Viterbi contraint par la synchronisation vidéo de la séquence d’apprentissage avec le modèle obtenu à l’itération précédente.

Il s’agit d’un décodage Viterbi classique pour lequel la valeur des transitions de type V du modèle SCHMM varie au cours du temps. Ainsi ces transitions, correspondant aux points de synchronisation vidéo, sont presque toujours interdites (elles ont pour

9.1. Intégration d’une information temporelle externe

valeur 0). Elles ne sont autorisées qu’à l’instant qui correspond à leur point de synchro-nisation. Dans la pratique, la transition correspondant au point de synchronisation au tempsτreste activée durant l’intervalle de temps[τ−^∆;τ+∆], où∆permet de pallier l’asynchronie éventuelle des deux sources.

Cet alignement fournit une nouvelle segmentation. Chacun des segments de cette nou-velle segmentation est utilisé pour ré-apprendre un état du modèle SCHMM.

9.1.2 Effet d’une contrainte temporelle en phase de test

En plus du gain escompté, grâce au processus d’apprentissage contraint par le signal de synchronisation, nous proposons d’utiliser la contrainte de synchronisation durant la phase de test. La synchronisation imposée est cette fois utilisée pour dégrader les scores obtenus lors de la comparaison d’un modèle de mot de passe avec une séquence de structure temporelle différente.

Dans la section 8.1.1, nous avons présenté l’algorithme de Viterbi. Nous avons sou-ligné son caractère optimal : l’alignement obtenu par cette méthode maximise la vrai-semblance cumulée sur la séquence de paramètres. Dans notre cas, en phase de test, l’algorithme de Viterbi maximise le score de chaque test effectué en calculant l’aligne-ment optimal entre les données d’entrée et le modèle de Markov. Or, si la maximisation du score d’un test client est bénéfique, maximiser le score des tests imposteurs peut engendrer une augmentation du nombre d’erreurs commises pour la tâche de vérifica-tion.

Nous proposons d’utiliser la contrainte temporelle comme un a priori sur le type de test effectué. Cette contrainte a pour but d’obtenir un score moins élevé dans le cas où la structure des séquences de test diffère de celle du modèle testé. La suite de cette partie présente les effets auxquels nous souhaitons parvenir grâce à l’usage de la synchroni-sation contrainte.

La figure 9.2 illustre les alignements obtenus sans contrainte, sur un même modèle de mot de passe, pour trois séquences :

– la séquence qui a permis l’apprentissage de ce modèle ;

– une séquence de test du client prononçant son mot de passe, donc proche de la séquence d’apprentissage ;

– la séquence d’un imposteur prononçant un contenu lexical différent de celui du mot de passe auquel il est comparé.

L’alignement des séquences consiste à déterminer le meilleur chemin à travers le graphe représenté sur cette figure. Sans contrainte extérieure, l’algorithme de Viterbi garanti la maximisation du score de chacune des séquences testées.

FIG.9.2:Illustration de l’alignement de différentes séquences pour un même modèle de mot de passe dans le cadre d’un décodage de Viterbi (optimal).

La contrainte extérieure est illustrée par la figure 9.17. Cette contrainte interdit, au chemin calculé selon l’algorithme de Viterbi, tout passage dans les zones où les états sont noircis. Les zones autorisées correspondent à l’intersection de la synchronisations imposée lors de l’apprentissage du modèle avec la synchronisation imposée par la sé-quence de test.

Synchronisation calculée sur la séquence de test Synchronisation calculée sur la séquence d'apprentissage

FIG.9.3:Illustration de l’alignement de la séquences d’apprentissage du mot de passe et d’une séquence de test client pour le modèle de mot de passe correspondant, dans le cadre d’un décodage de Viterbi contraint par une synchronisation externe

Dans le document Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée. ~ Association Francophone de la Communication Parlée (Page 163-167)