Exploiter pleinement l’architecture à trois niveaux

segmentation permettant l’initialisation du processus était réalisée sans aucune infor-mation a priori. La séquence était découpée en segments de longueurs égales. Des expé-riences réalisées en faisant varier le nombre d’itérations du processus ont fait apparaître deux comportements. Dans certains cas, la segmentation converge après deux ou trois itérations alors que pour d’autres séquences, la convergence n’est jamais atteinte et le système oscille entre deux alignements. Les performances du système ne variant pas de façon significative avec l’augmentation du nombre d’itérations, nous fixons le nombre d’itérations à 1.

La recherche d’une segmentation initiale ainsi que le développement d’un algorithme permettant l’optimisation de cette segmentation nous apparaît néanmoins comme un champ d’investigation important qui permettrait peut être d’améliorer la modélisation des mots de passe de manière significative.

8.4 Exploiter pleinement l’architecture à trois niveaux

Le partage des distributions Gaussiennes entre le modèle du locuteur indépendant du texte et les états du SCHMMs qui modélisent le mot de passe de ce locuteur permet de réduire significativement le coût de calcul du score lors de la comparaison d’une séquence de test avec ce modèle. Cette architecture permet également de calculer non pas un mais deux scores.

Les deux premières couches de l’architecture sont issues du paradigme GMM/UBM et permettent le calcul d’un premier score, n’exploitant pas la structure de la séquence acoustique.

8.4.1 Calcul d’un score double

Soit un locuteurI_Xdont le modèle GMM est de la forme

∑

i=1

γ^loc_i N(O_t,µ^loc_i ,Σ^loc_i ), où γ^loc_i ,µ^loc_i etΣ^loc_i sont respectivement le poids, le vecteur de moyennes et la matrice de co-variance de la distributioni. Le résultat de la comparaison d’une séquence de test O={^Ot}^,^t ∈[1,T]avec le modèle deI_Xest un score dont l’expression est donnée par :

On pose : Lors de la comparaison de la même séquence avec le modèle SCHMM de mot de passe du locuteurI_X, un décodage de Viterbi fournit un alignementA= {^a0,a₁, ...,a_T}^. Le score de ce test est un rapport entre la vraisemblance de la séquenceAavec les états alignés et la vraisemblance obtenue pour le modèle du monde du premier niveau de l’architecture. L’expression de ce score est :

LLR(S) = ¹

Or, les distributions Gaussiennes des états du SCHMM et du modèle du locuteur indé-pendant du texte sont les mêmes, donc :

µ_i^a^t = µ_i^loc et Σ^a_i^t =Σ^loc_i (8.19)

On observe que les expressions des deux scores sont semblables à l’exception des pa-ramètres de poids. Aussi le surcoût du au calcul du score dépendant de la structure du mot de passe se limite à une somme pondérée par vecteur de données et par état.

Pour une séquence acoustique d’entrée, chacun des scores, dépendant ou indépen-dant de la structure temporelle, décrits précédemment peut être calculé à partir duflux brut ou du flux de parole (cf. section 8.3.1). Le traitement d’une même séquence peut donc générer quatre scores :

8.4. Exploiter pleinement l’architecture à trois niveaux

– un scoreSc^parole_GMMindépendant de la structure temporelle et ne prenant en compte que les trames étiquetées parole par le VAD ;

– un score Sc^brut_GMM indépendant de la structure temporelle et prenant en compte toutes les trames ;

– un scoreSc_SCHMM^parole dépendant de la structure temporelle et ne prenant en compte que les trames étiquetées parole par le VAD ;

– un score Sc_SCHMM^parole dépendant de la structure temporelle et prenant en compte toutes les trames.

Considérant que la conservation des tramesnon-paroleest motivée par une volonté de prendre en compte les pauses et silences au sein du modèle structural, il ne sera plus question dans ce document du scoreSc^brut_GMM. De nombreux travaux (Besacier et al., 2000) ont déjà traité de la sélection de trames pour les systèmes GMM/UBM et la sup-pression du VAD pour ce type de système dégrade fortement leurs performances. Par la suite, toutes les références au score indépendant de la structure temporelle renver-ront au scoreSc_GMM^parole. Toutes les expériences, sauf mention explicite, seront réalisées à partir duflux de parole

Nous reviendrons dans le chapitre 9 sur les effets de la suppression du VAD et compa-rerons à cette occasion les scores obtenus pour l’approche structurale avec lesflux brut etflux de parole.

8.4.2 Comparaison des scores dépendants et indépendants de la structure temporelle

Les deux modèles de locuteur, dépendant et indépendant du texte (deuxième et troi-sième couche de l’architecture hiérarchique), modélisent des informations communes.

Les deux scores, dépendant et indépendant de la structure temporelle contiennent pour-tant deux informations différentes. Nous avons donc testé une fusion de scores (cf. sec-tion 5.2).

Le tableau 9.10 présente les résultats obtenus par l’approche non-structurale, cor-respondant au système GMM/UBM de référence, mais également aux deux premiers niveaux de notre architecture, les performances de l’approche structurale (SCHMMs du troisième niveau), ainsi qu’une fusion de ces approches. Il s’agit simplement d’une fu-sion de scores par une somme pondérée. Les poids attribués empiriquement aux deux approches sont les suivants :

– approche structurale : 0, 3 – approche non structurale : 0, 7

Nous avons analysé les performances du système GMM/UBM dans ces trois condi-tions dans la section 7.3.2. L’introduction de l’information structurelle permet un gain important dans la conditionFAUXpuisque le taux d’égales erreurs diminue de 60%

relatifs (de 2,46% à 0,94%). L’utilisation des modèles SCHMMs permet une réelle dis-crimination des structures temporelles. Cette disdis-crimination est certainement la cause

Conditions Taux d’égales erreurs de test Approche non

structurale Fusion Approche

structurale

MDP 4,00 4,06 4,62

FAUX 2,46 1,11 0,94

TOUS 3,22 2,83 3,17

TAB.8.4:Performances obtenues par les approches structurales, non-structurales et par une fusion des scores de celles-ci.

des mauvaises performances de l’approche structurale dans la conditionMDP où les imposteurs prononcent le mot de passe des clients. Il semble que dans cette condition, le modèle « reconnaît » la structure au détriment du locuteur. La réunion de ces deux expériences au sein de la conditionTOUSmontre que la différence entre les deux ap-proches n’est pas significative.

Les résultats obtenus par fusion des deux approches montrent en revanche un gain relatif de 10% dans la conditionTOUS. En effet, les performances de la fusion de sys-tèmes pour la condition MDP sont équivalentes à celles de l’approche GMM/UBM alors qu’elles restent, dans la conditionFAUX, très proches de ceux de l’approche struc-turale.

À la lecture du tableau 9.10, nous voyons que la fusion des informations de chaque niveau de notre architecture permet de tirer le meilleur parti des deux approches.

Comme nous l’avons indiqué, la fusion des scores est une simple somme pondérée, pour laquelle les poids ont été déterminés empiriquement. Il est certainement possible d’améliorer les performances en choisissant une méthode de fusion plus adaptée.

Conclusion

Nous avons introduit dans ce chapitre une approche permettant d’intégrer une in-formation structurelle au sein d’un processus de reconnaissance du locuteur. Cette mé-thode repose sur une segmentation en cellules acoustiques des séquences sonores. Nous avons proposé un algorithme itératif permettant de déterminer les cellules acoustiques composant les mots de passe des clients. L’architecture proposée a été évaluée sur la base de données MyIdea et a montré des capacités intéressantes en terme de vérifica-tion d’identité, notamment dans le cas où les imposteurs ne connaissent pas le mot de passe des clients. L’utilisation des trois niveaux de notre système permet d’égaler ou de surpasser les performances des systèmes GMM/UBM état-de-l’art dans toutes les conditions testées.

Un certain nombre de points pourraient être améliorés comme, par exemple, l’ap-prentissage itératif des modèles SCHMMs modélisant la structure temporelle des mots

8.4. Exploiter pleinement l’architecture à trois niveaux

de passe. Le processus de segmentation en cellules acoustiques nécessiterait une meil-leure prise en compte de la structure globale des séquences sonores incluant un pro-cessus discriminant du type MMIE (Bahl et al., 1986). Le procédé de fusion des scores pourrait aussi être perfectionné et il serait certainement intéressant de fusionner les in-formations issues des approches structurales et non-structurales au cours du processus de scoring.

Chapitre 9

Renforcement de la structure

temporelle par une contrainte de synchronisation

Sommaire

Introduction . . . 162 9.1 Intégration d’une information temporelle externe . . . 163

9.1.1 Améliorer l’apprentissage des modèles en améliorant la seg-mentation en cellules acoustiques . . . 163 9.1.2 Effet d’une contrainte temporelle en phase de test . . . 165 9.2 Validation expérimentale avec un alignement phonétique . . . 167 9.2.1 Configuration de test et choix de l’alignement phonétique . . . 168 9.2.2 Influence d’une contrainte synchrone . . . 168 9.2.3 Vérification des hypothèses . . . 170 9.2.4 Retour sur la place des « silences » . . . 173 9.3 Retour sur la structuration temporelle des vidéo . . . 174 9.3.1 Approches Markoviennes . . . 175 9.3.2 Approches morphologiques . . . 175 9.4 Calcul d’une synchronisation vidéo dans le cadre de nos contraintes 175 9.5 Validation expérimentale . . . 177 Conclusion . . . 178

Résumé

Ce chapitre présente une nouvelle méthode de vérification du locuteur dépendante du texte basée sur la contrainte du processus acoustique par une synchronisation extérieure. Cette approche est validée dans un premier temps par l’utilisation d’une information provenant d’un alignement phonétique. La suite de ce chapitre est consacrée à la synchronisation du décodage acoustique par une information provenant du flux vidéo. Cette étude est réalisée dans le cadre de nos contraintes applicatives. Les expériences présentées corroborent l’ana-lyse déjà exposée dans le chapitre 4 : l’extraction d’une information structurelle à partir d’un flux vidéo nécessite un traitement coûteux.

Introduction

C

^E chapitre est consacré au renforcement de la structure temporelle des modèles acoustiques de mots de passe par l’ajout d’une information synchrone. L’ajout de cette contrainte a pour but de pallier le manque de données d’entraînement et la courte durée des séquences de test.

L’approche acoustique structurale développée dans le chapitre 8 a montré des per-formances intéressantes dans ce cadre applicatif. Nous avons cependant souligné le fait que la segmentation temporelle en cellules acoustiques, nécessaire à l’initialisation de cette méthode, doit être améliorée. Nous proposons d’exploiter une connaissance a priori sur la segmentation.

Les travaux de Yehia et al. (1997) et de Eveno et Besacier (2005) ont démontré la forte corrélation existant entre les flux audio et vidéo lors de la production de parole. Eveno et Besacier (2005) ont également exploité cette corrélation pour détecter des impostures par play-back.

Comme nous l’avons vu précédemment, la plupart des systèmes embarqués dis-posent d’une caméra et permettent des traitements simples du flux vidéo. Les travaux de Barker et Berthommier (1999), Goecke et Millar (2003) ou encore Siracusa et Fisher (2007), déjà évoqués, ont montré que les mouvements des articulateurs sont très forte-ment corrélés avec le signal de parole.

Un signal caractérisant les mouvements des articulateurs, ou la quantité de mouvement visible sur la vidéo, possède un fort potentiel pour apporter une information permet-tant la synchronisation du décodage acoustique. Cette information pourrait également être exploitée afin de détecter certains types d’impostures (Eveno et Besacier, 2005).

Afin de respecter le cadre applicatif que nous nous sommes fixé, l’extraction de cette information vidéo ne doit pas nécessiter de traitement du flux vidéo trop onéreux. Cette contrainte a des implications fortes, du fait de la nature même du signal. Il s’agit en effet d’un signal de grande dimension (nombre de pixels par image×temps) qui requiert, de plus, une prise en compte de la nature bi-dimensionnelle des images, au sens où l’information portée par un pixel au cours du temps est fortement corrélée avec celle des pixels voisins.

Nous présentons dans la section 9.1.1 le processus d’intégration de l’information temporelle dans le cadre de l’architecture acoustique. La section 9.1.2 décrit plus par-ticulièrement l’effet de cette information sur le décodage Viterbi lors des phases d’ap-prentissage et de test. Cette approche est validée grâce à une information issue d’un ali-gnement phonétique, les conditions et conclusions des expériences sont décrites dans la partie 9.2.

Dans le document Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée. ~ Association Francophone de la Communication Parlée (Page 155-163)