Mesurer la sensibilité des systèmes - Parole de locuteur : performance et confiance en identifi

Mesurer la sensibilité des systèmes automatiques aux fichiers d’apprentissage re-vient àquantifier les différences en terme de performance qu’amène le changement de l’enregistrement utilisé en apprentissage. Plusieurs angles d’étude peuvent être envisagés. Dans un premier temps, nous proposons d’utiliser comme élément de com-paraisonles distributions de scores cible et imposteur obtenues pour chaque modèle.

Cette solution connaissant quelques limites, nous présenterons, dans une second temps, la méthode que nous avons adoptée et quis’appuie sur les FA et FR moyens.

4.5.1 Analyse des distributions de scores

Une première approche pour rendre compte de la sensibilité des systèmes à la vari-abilité des fichiers d’apprentissage est decomparer les distributions de scores obtenues en comparaison cible et imposteur pour un locuteur en fonction des enregistrements utilisés pour l’apprentissage du modèle.

En effet, nous pouvons faire l’hypothèse que, pour un même locuteur, les distributions de scores observées pour une même série de comparaisons devraient être sensiblement les mêmes si les enregistrements d’un même locuteur sont équivalents pour le mod-éliser.

Les figures 4.8 et 4.9 sont des exemples de distributions de scores que nous avons obtenues pour la base de données M-08 en comparaison imposteur.

FIGURE4.8 –Distribution de scores imposteur pour les différents modèles d’un locuteur de la base de données M-08 : les distributions sont globalement les mêmes. La distribution au trait plus épais correspond à la moyenne des distributions

Pour le premier locuteur (92), nous observons que les distributions sont très proches les unes des autres, tandis que pour le second (locuteur 209), nous voyons plutôt deux distributions différentes apparaître. Si deux distributions différentes apparaissent, cela signifie que les modèles de ce locuteur ne se comportent pas de la même manière face

aux tests.

FIGURE4.9 –Distribution de scores pour les différents modèles d’un locuteur de la base de données M-08 : 2 groupes de distributions avec des moyennes différentes. La distribution au trait plus épais correspond à la moyenne des distributions

Ces différences de distribution ont évidemment des conséquences sur les FA et les FR.

Le seuil de décision à l’EER étant -0.1549, les modèles dont les distributions de scores sont les plus à gauche (moyennes les plus faibles) donneront lieu à moins de FA que les distributions de droite.

Par cette première représentation, nous avons mis en évidence que les fichiers d’ap-prentissage ne conduisent pas aux mêmes distributions de scores en comparaison imposteur. Il apparaît que tous les fichiers ne sont pas équivalents.

L’analyse des résultats en comparaison cible pose, en revanche, plus de problème.

En effet, nous n’avons accès qu’à peu de comparaisons cible par locuteur (entre 3 et 20 pour M-08 et 21 pour BREF). Il n’est pas possible de comparer des distributions de scores dans ce cas.

Par ailleurs, une autre difficulté de cette méthode réside dansl’obtention d’une mesure des variations observées qui soit comparable avec les métriques largement utilisées

afin d’avoir des valeurs de référence. En effet, si nous voyons des différences entre les distributions, nous ne savons pas mesurer facilement leur implication. De plus, ce type de comparaisons sépare les comparaisons cible des comparaisons imposteur et il n’est pas facile de tenir compte du recouvrement entre les deux.

Une autre représentation pour mesurer cette sensibilité du système doit donc être envisagée.

4.5.2 Utiliser le meilleur et le pire modèle

DéfinirFA_ijetFR_ijsur la totalité des données pour la sélection du meilleur et du pire modèle

Comme nous l’avons fait pour les locuteurs, nous pouvons obtenirle taux de Fausses Acceptations, FA_ij et de Faux Rejets, FR_ij, avec le seuil de l’EER pour chaque locu-teuri et chaque modèle j. Il est possible alors dedéterminer pour chaque locuteur quel est le meilleur et le pire modèle en fonction de ces taux. Le meilleur modèle est celui qui minimise la somme de FA et de FR tandis que le pire maximise cette somme.

La sélection du meilleur et du pire modèle est réalisée sur le plus grand nombre de comparaisons possibles (intégralité de M-08, de BREF ou de BREF 2min30svs30s).

Établir différentes séries de tests où seul change le fichier d’apprentissage

Une fois le meilleur et le pire modèle sélectionné pour chaque locuteur, il s’agit de mesurer l’écart de performance entre les deux modèles du même locuteur. Pour ef-fectuer la comparaison, une cohorte de fichiers test est définie. Au lieu de rattacher chaque fichier test à un fichier d’apprentissage comme cela est fait habituellement pour définir une comparaison, nous rattachons chaque fichier test à un locuteur qui est con-sidéré comme le locuteur d’apprentissage. Une comparaison est donc ici composée d’un locuteur « d’apprentissage » et d’un fichier de test. Nous pouvons définir de nombreuses comparaisons afin d’être certains que les différents locuteurs interviennent dans la cohorte et qu’ils seront tous testés en comparaison cible et imposteur.Cette co-horte est le canevas qui répertorie la série de test. En effet, pour chaque locuteur nous pouvons choisir un fichier d’apprentissage dont nous connaissons à priori la perfor-mance localFA_ij+FR_ij (Meilleur, Pire ou aléatoire). Une série de tests correspond au

canevas tel que nous l’avons défini où le locuteur est modélisé à l’aide du fichier d’ap-prentissage de notre choix. Ainsi, chaque série de tests se compose exactement des mêmes locuteurs et des mêmes fichiers de test, seul change le fichier d’apprentissage utilisé. Une fois le fichier d’apprentissage sélectionné, un locuteur est représenté par le modèle élaboré à partir d’un seul fichier d’apprentissage dans toute la série.

Afin de mesurer l’influence du choix de ce fichier sur les performances du système, nous avons réalisé plusieurs séries de tests. Pour la première série, nous avons util-isé en apprentissage pour chaque locuteur sonmeilleur modèle (sérieMin), puis nous avons réalisé la série de tests en utilisant en apprentissage le pire modèle du locu-teur (sérieMax).Cette démarche nous permet de mesurer l’écart maximum de per-formance que nous pouvons observer pour les mêmes tests et les mêmes locuteurs lorsque seuls les fichiers d’apprentissage changent. Pour établir la performance du système lorsque le fichier d’apprentissage n’est ni le meilleur ni le pire, des tirages aléatoires de modèlesont également été réalisés pour le corpus BREF. Ces modèles ont ensuite été testés dans les mêmes conditions que les sériesMinetMax. Pour le corpus issus de NIST, nous avons conservé les fichiers qui étaient la référence lors de l’évalua-tion.

Comparer des performances globales

La performance globale est mesurée à l’aide d’une courbe DET et d’un taux d’EER pour chacune des séries. Nous pouvons ainsi comparer les performances obtenues pour chacune des séries et rendre compte de la variation de performance due au fichier d’ap-prentissage puisque c’est l’unique élément qui change entre nos séries de tests.

Pour M-08, la cohorte de tests choisie est celle proposée par NIST où les 171 locuteurs de M-08 sont testés en apprentissage. Comme certains fichiers que nous avons sélec-tionnés comme meilleurs ou comme pires étaient à l’origine utilisés comme fichiers test, nous avons du supprimer certaines comparaisons. Cette cohorte se compose de 511 comparaisons cible et 2 856 comparaisons imposteur.

Pour BREF et BREF 2min30svs30s, la cohorte de tests est composée de l’ensemble des tests déjà décrit en4.2.2. Pour les femmes, la série se compose de 1 344 comparaisons cible et de 84 672 comparaisons imposteur. Pour les hommes, la série se compose de 987 comparaisons cible et 45 402 comparaisons imposteur. Toutes les conditions de

com-paraisons sont résumées par le tableau4.5.

Bases de données Comparaisons cible Comparaisons imposteur Nombre de locuteurs

NIST 511 2 856 171

BREF Femmes 1 344 84 672 64

Hommes 987 45 402 47

TABLE4.5 –Nombre de comparaisons utilisées pour mesurer la sensibilité des systèmes à la vari-abilité intra-locuteur sur les bases de données NIST et BREF

La démarche que nous avons adoptée permet de mesurer les écarts maximaux que nous pouvons observer en fonction des fichiers d’apprentissage sélectionnés. Les comparaisons de performance sont faites à l’aide des mesures classiques.

La variation relative,Vr, entre les séries pour chaque système et chaque base de donnée testée est définie par l’équation4.1.Cette mesure nous permet de rendre compte de la variation due aux données d’apprentissage.

Vr= ^EER^Max−EER_Min

EER_Moyen (4.1)

Dans le document Parole de locuteur : performance et confiance en identification biométrique vocale ~ Association Francophone de la Communication Parlée (Page 118-123)