Validation expérimentale avec un alignement phonétique

Nous observons sur la figure 9.17 que l’alignement obtenu pour la séquence de test client n’est pas perturbé par la synchronisation contrainte. Le score calculé est donc le même que celui calculé sans cette contrainte, c’est le score maximisé par le décodage de Viterbi.

La figure 9.18 présente les alignements obtenus pour un test imposteur, avec et sans la synchronisation contrainte. L’alignement obtenu sans synchronisation contrainte (iden-tique à celui de la figure 9.2) traverse des zones interdites par la synchronisation exté-rieure. Cette contrainte impose alors de passer par un autre chemin qui, cette fois, est confiné aux parties du graphe autorisées. Le chemin obtenu sous la contrainte n’est plus celui du Viterbi original. Le score du test imposteur n’est plus maximal.

Séquence de test imposteur contraint Séquence de test imposteur non contraint

Synchronisation calculée sur la séquence de test Synchronisation calculée sur la séquence d'apprentissage

FIG.9.4:Illustration de l’alignement d’une séquence de test imposteur pour un mo-dèle de mot de passe, dans le cadre d’un décodage de Viterbi contraint ou non par une synchronisation externe,

9.2 Validation expérimentale avec un alignement phonétique

Afin de valider les hypothèses formulées dans la section précédente (cf. section 9.1), nous utilisons, dans un premier temps, une synchronisation issue d’un alignement pho-nétique automatique (Bürki et al., 2008) dont nous extrayons des points de synchroni-sation forts, correspondant à des frontières inter-mots. De cette façon, nous sommes assurés de la cohérence des deux flux de données.

9.2.1 Configuration de test et choix de l’alignement phonétique

L’alignement phonétique permet, connaissant le texte prononcé par les locuteurs, d’aligner temporellement la séquence phonétique correspondante avec le signal audio.

Dans notre cas, ce procédé nous permet de déterminer 5 segments pour chaque mot de passe. Le nombre de segments phonétiques utilisés a été choisi afin de se rapprocher des conditions qui nous paraissent envisageables lors du remplacement de l’alignement phonétique par une source externe, comme la vidéo.

L’alignement phonétique pourrait permettre une segmentation en phonèmes, qui pa-raissent les cellules acoustiques les plus pertinentes, au vue de la littérature du domaine de la RAP. Mais les travaux présentés dans la partie 4.2.2 montrent que la vidéo ne per-met pas une telle segmentation. Il nous paraît donc pertinent de considérer que l’infor-mation externe ne délimite qu’un nombre restreint de segments pour une séquence de parole de longueur comprise entre 2 et 3 secondes.

Nous avons choisi un nombre de segments phonétiques indépendant du contenu lin-guistique des mots de passe afin de restreindre la variabilité inter mots de passe et de ne pas sur-estimer les possibilités de notre approche.

La segmentation phonétique utilisée est décrite dans l’annexe A.

Les expériences sont réalisées avec des modèles GMMs à 256 distributions, les 256 vecteurs moyens des modèle de locuteurs indépendants du texte sont adaptés selon le critère MAP. Les modèles SCHMMs sont initialisés avec 20 états, dont les 256 para-mètres de poids sont adaptés selon le critère MAP contraint. Le paramètre∆(cf. section 9.1.1), qui détermine lalibertédu système, a pour valeur 10ms. Cette valeur a été fixée d’après les travaux d’Eveno et Besacier (2005).

9.2.2 Influence d’une contrainte synchrone sur les performances de notre approche

Une première expérience est réalisée afin de déterminer l’effet de la synchroni-sation acoustique sur les performances de notre système de vérification du locuteur.

Nous comparons les performances obtenues en utilisant notre architecture avec ou sans contrainte externe. Les expériences sont réalisées dans les trois conditionsTOUS,MDP etFAUX.

Afin de vérifier l’effet de la contrainte structurelle, une expérience supplémentaire est réalisée. Pour cette expérience, la phase d’apprentissage est inchangée. Le proto-cole de test des trois conditions :MDP,FAUXetTOUS, est modifié. Pour chaque test -client ou imposteur - la séquence audio testée est associée aléatoirement à une synchro-nisation provenant de l’alignement phonétique d’un imposteur prononçant une phrase différente. Dans ces conditions, la contrainte temporelle devrait dégrader les résultats.

Le tableau 9.11 présente les résultats comparés à ceux du système GMM/UBM de

9.2. Validation expérimentale avec un alignement phonétique

TAB.9.1:Incidence d’une contrainte externe provenant d’un alignement phonétique sur les performances en vérification du locuteur de l’approche structurale. Résultats exprimés en terme de taux d’égales erreurs (EER).

référence.

Lorsque les imposteurs prononcent le mot de passe des clients (conditionMDP) l’ajout de la contrainte temporelle externe n’influe pas sur le taux d’égales erreurs. En re-vanche, dans le cas où les imposteurs ne connaissent pas le mot de passe d’un client, l’ajout d’une contrainte structurelle permet de réduire l’EER de 34% relatif (de 0, 94%

à 0, 62%). Notons également que le taux d’erreurs obtenu est relativement faible dans cette condition (−85% relatif par rapport à la conditionMDPet−80% par rapport à la conditionTOUS).

La baisse de performances (cf. tableau 9.11) entraînée par l’utilisation d’une chronisation aléatoire lors de la phase de test montre que le gain apporté par la syn-chronisation externe est lié à la corrélation des différentes informations.

Fusion des scores dépendants et indépendants de la structure

Nous avons montré (cf. section 8.4) que la fusion des scores des approches struc-turale et non-strucstruc-turale permet, lors des expériences réalisées, de toujours égaler ou surpasser les performances du système GMM/UBM de référence. L’ajout d’une infor-mation temporelle, qui contraint les modèles SCHMMs dépendants du texte, devrait apporter une information absente du processus de vérification du locuteur indépen-dant du texte. Une complémentarité des informations fournies par les deux scores, de-vrait ainsi bénéficier à la fusion.

Le tableau 9.12 montre les taux d’égales erreurs obtenus en opérant une fusion (décrite dans la section 8.4) entre les scores présentés dans le tableau 9.11 et les scores indépen-dant de la structure temporelle.

La fusion, par somme pondérée, des scores dépendants et indépendants du texte, n’apporte qu’un gain marginal. Plusieurs raisons peuvent expliquer cela. Tout d’abord le mode de fusion. La somme pondérée ne prend pas en compte la présence supposée d’une information différente qui serait introduite par la contrainte externe. Mais ces résultats peuvent être dus au fait que les informations sont redondantes. En effet, la synchronisation provient d’un alignement phonétique. Il est possible que l’information

Configurations

GMM-UBM Aucune

segmentation Segmentation phonétique

TOUS 3,22 2,83 2,83

MDP 4,00 4,06 4,07

FAUX 2,46 1,11 0,89

TAB.9.2:Incidence d’une contrainte externe provenant d’un alignement phonétique sur les performances en vérification du locuteur d’un système résultant de la fusion des approches structurale et non-structurales. Résultats exprimés en terme de taux d’égales erreurs (EER).

introduite soit trop corrélée à celle qui est portée par la séquence acoustique.

9.2.3 Vérification des hypothèses

La modification des processus d’entraînement des modèles et de tests, par l’ajout d’une contrainte structurelle au sein du décodage de Viterbi, a répondu aux attentes qui étaient les nôtres. Elle permet une relative amélioration des performances en vérifi-cation d’identité, dans le cas où les imposteurs ne connaissent pas le mot de passe des clients.

Les résultats présentés jusque là n’ont cependant pas permis de valider ou d’invalider les deux hypothèses qui ont motivé notre démarche (cf. sections 9.1.1 et 9.1.2). Nous proposons maintenant une analyse détaillée de ces deux hypothèses, à la lumière des résultats obtenus.

La contrainte externe améliore l’apprentissage des modèles

L’amélioration de l’apprentissage des modèles de mots de passe devrait rapprocher les modèles acoustiques appris des données à modéliser et donc augmenter la valeur des scores clients.

La figure 9.19(a), qui illustre l’évolution des scores clients, lorsque la contrainte tem-porelle est ajoutée, ne laisse pas apparaître de différence entre les distributions des scores avec et sans synchronisation externe. Cette impression est renforcée par la lecture de la figure 9.19(b) qui présente la distribution des différences entre les scores calculés avec et sans contrainte temporelle. L’évolution des scores des tests client ne permet au-cune conclusion quant à la pertinence de la segmentation obtenue pour l’apprentissage des états du modèle SCHMM.

La contrainte temporelle permet de réduire les scores imposteurs

La contrainte temporelle imposée au cours du décodage Viterbi est supposée, lors de la phase de test, dégrader les scores des tests imposteurs (particulièrement lorsque

9.2. Validation expérimentale avec un alignement phonétique

(a) Évolution des scores clients (b) Différence des scores clients FIG.9.5: Évolution des scores clients, dépendants de la structure sous l’effet d’une contrainte temporelle imposée lors du décodage de Viterbi.

La figure(a)montre les distributions des scores obtenus avec ou sans la synchronisa-tion externe.

La figure(b)présente la distribution des différences entre les scores obtenus avec une synchronisation externe et ceux obtenus sans contrainte.

le mot de passe prononcé n’est pas celui du client).

ConditionFAUX les figures 9.20(a) et 9.20(b) représentent les distributions des scores imposteurs dépendants de la structure temporelle, obtenus dans la conditionFAUX, avec et sans contrainte externe. Sur la figure 9.20(a), nous observons que la distribution

-0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 FIG.9.6:Évolution des scores imposteurs dépendants de la structure, dans la condi-tionFAUX, sous l’effet d’une contrainte temporelle imposée lors du décodage de Vi-terbi.

La figure(a)montre les distributions des scores obtenus avec ou sans la synchronisa-tion externe.

La figure(b)présente la distribution des différences entre les scores obtenus avec une synchronisation externe et ceux obtenus sans contrainte.

des scores imposteurs se décale vers la gauche sous l’effet de la synchronisation externe.

Ceci laisse supposer que la synchronisation externe permet de dégrader les scores im-posteurs en rendant l’algorithme de Viterbi sous-optimal dans ce cas. Ce constat est confirmé par la figure 9.20(b), puisque cette figure montre que les différences calculées entre les scores résultant d’un algorithme de Viterbi contraint et ceux résultant d’un algorithme de Viterbi non contraint sont majoritairement négatives. La contrainte im-posée lors du décodage de Viterbi dégrade donc le score imposteur dans une grande majorité des cas.

ConditionMDP: la même analyse dans la conditionMDP, pour laquelle les impos-teurs prononcent le mot de passe du client, montre que la synchronisation par l’ali-gnement phonétique affecte beaucoup moins la distribution des scores imposteurs (cf.

figure 9.7).

-0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1

1 0,5

0 1,5

2 2,5

Pas de segmentation Segmentation phonétique

p(scores)

Scores

FIG.9.7:Évolution des scores imposteurs dépendants de la structure, dans la condi-tionMDP, sous l’effet d’une contrainte temporelle imposée lors du décodage de Vi-terbi.

Nous observons toutefois que la distribution des scores imposteurs calculés sous la contrainte phonétique est décalée très légèrement vers la gauche. Nous tirons trois conclusions de cette observation :

– la dégradation des scores moins importante pour les tests imposteurs où ceux-ci prononcent le bon mot de passe montre que leur structure temporelle est plus proche de celle des données d’apprentissage ;

– nous pensons qu’il existe, pour un même énoncé, une variabilité inter-locuteurs liée à la façon de le prononcer. Le léger décalage observé entre les distributions pourrait illustrer cette variabilité. Néanmoins, ce décalage n’est pas significatif compte tenu du protocole expérimental et de la base de données utilisée ;

– la contrainte de synchronisation, contient une information dépendante de l’énoncé, mais ne semble pas assez précise pour apporter une information dépendante du locuteur.

9.2. Validation expérimentale avec un alignement phonétique

9.2.4 Retour sur la place des « silences »

La question de l’importance des silences, pauses ou plus généralement des trames acoustiques étiquetées non-parole (cf. section 3.1.4), a déjà été posée dans le chapitre précédent (cf. section 8.3.1). Nous avons montré que supprimer la détection d’activité dégrade fortement les performances de notre système structural.

Les trames étiquetéesnon-parolecomprennent, bien évidemment, les trames correspon-dant aux interruptions du signal de parole, mais peuvent également être des trames correspondant à certaines consonnes. En effet, la partie plosive des consonnes occlu-sives (/p/, /t/ ou /k/) possède un niveau d’énergie assez bas et peut être étiquetée non-parolepar des systèmes n’utilisant que l’énergie en guise de VAD, comme celui que nous utilisons.

Il n’est donc pas exclu que certaines tramesnon-parolecontiennent de l’information et nous proposons ici de supprimer le module de détectionparole/non-parolede notre sys-tème, afin de tester la capacité de notre approche à exploiter cette information.

Les expériences réalisées sont identiques à celles de la section précédente à l’excep-tion de l’étape de détecl’excep-tionparole/non-parole qui est supprimée (les trames non-parole sont utilisées pour estimer les probabilités d’émission des états). Les résultats obtenus par notre approche structurale, avec et sans synchronisation externe, sont présentés dans le tableau 9.3

TAB.9.3:Incidence d’une contrainte externe provenant d’un alignement phonétique sur les performances en vérification du locuteur de l’approche structurale sans détec-tion d’activité. Résultats exprimés en terme de taux d’égales erreurs (EER).

L’apport de la synchronisation externe s’avère assez surprenant. La colonne cen-trale du tableau reprend les résultats de la partie 8.3.1. La suppression de la détection parole/non-paroleau sein de l’approche structurale augmente considérablement les taux d’erreurs dans toutes les conditions de tests. L’introduction de la synchronisation is-sue de l’alignement phonétique améliore globalement les performances de ce système, jusqu’à obtenir des résultats comparables au système GMM/UBM dans la condition TOUSet même des résultats comparables à ceux de nos meilleures approches dans la conditionFAUX. Le taux d’erreur obtenu pour cette condition est comparable à celui obtenu pour une fusion de l’approche structurale incluant une synchronisation externe et une détectionparole/non-paroleavec une approche non-structurale (cf. section 9.2.2).

Cependant, si les imposteurs connaissent le mot de passe des client (conditionMDP), le taux d’égales erreurs reste très élevé. Le tableau 9.4 présente les résultats obtenus

pour les mêmes expériences après fusion des deux scores (dépendant et indépendant du texte) calculés par notre système.

Configurations

GMM-UBM Aucune

segmentation

Segmentation phonétique

TOUS 3,22 3,33 2,99

MDP 4,00 4,50 4,22

FAUX 2,46 1,44 1,06

TAB.9.4:Incidence d’une contrainte externe provenant d’un alignement phonétique sur les performances en vérification du locuteur d’un système résultant de la fusion des approches structurale et non-structurale sans détection d’activité. Résultats ex-primés en terme de taux d’égales erreurs (EER).

Comme précédemment, cette configuration de notre système obtient de bons résul-tats dans les conditionsTOUSetFAUX. Les résultats présentés semblent indiquer que le système ne disposant pas du module de détectionparole/non-paroleest plus à même de modéliser la structure temporelle des séquences acoustiques. Ceci explique les faibles taux d’erreurs observés dans la conditionFAUX, pour laquelle la structure temporelle des séquences de tests est différente de celle du mot de passe client. Cette conclusion permet aussi d’expliquer les mauvaises performances obtenues lorsque la structure de la séquence de test est proche de celle du mot de passe du locuteur (conditionMDP).

La base de données MyIdea, à partir de laquelle ont été validés nos travaux, a été en-registrée dans des conditions de studio qui se traduisent, d’un point de vue audio, par l’absence de bruit extérieur. L’influence du module de détectionparole/non-paroledans cet environnement n’est certainement pas aussi importante que dans un environnement bruyant. La vérification des comportements observés pour la base MyIdea nécessiterait des expériences réalisées en milieu bruyant. Encore une fois, les données d’évaluation nous font défaut. Nous retiendrons tout de même les bonnes performances de notre ap-proche contrainte par un alignement phonétique en l’absence d’un module de détection parole/non-parole.

Dans le document Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée. ~ Association Francophone de la Communication Parlée (Page 167-174)