• Aucun résultat trouvé

4.6 Variabilité de la performance

4.6.1 NIST

Approche UBM-GMM

La courbe DET de la figure4.10présente les résultats obtenus par ALIZE/SpkDet.

Si la sérieMin obtient un EER à 4.1%, la série Max a un EER de 21.9%. La sélection correspondant à celle de NIST conduit à un EER de 12.1%. Dans ce cas,Vr=1.47.

Nous observons un écart de performance de plus de 17 points absolus ce qui représente 34% d’erreur en plus. Le choix du modèle d’apprentissage a donc des conséquences très

FIGURE 4.10 – Courbes DET pour les séries Min, Max et aléatoire pour la base de données NIST 2008 (511 comparaisons cible et 2 856 comparaisons imposteur) testées sur le système AL-IZE/SpkDet : fluctuation de performance de 4.1% à plus de 21.9%

importantes sur les performances du système. Ceci est indépendant du type de locu-teur puisque ce sont exactement les mêmes loculocu-teurs qui sont comparés dans les deux séries. La série correspondant à NIST montre que si les fichiers d’apprentissage sont tirés aléatoirement, la performance du système se situe entre les deux sérieMinetMax et rend compte d’une performance moyenne en lissant les écarts importants dus au choix du fichiers d’apprentissage.

Le système ALIZE/SpkDet est sensible au choix du fichier d’apprentissage pour mod-éliser le locuteur. Tous les fichiers d’apprentissage ne sont donc pas équivalents pour ce système. Afin de conforter ces résultats et de vérifier que ces écarts sont dus, non pas au système, mais au contenu des enregistrements de parole choisi pour représen-ter le locuteur, nous avons, lors de notre séjour au SRI, réalisé les mêmes séries de test avec Idento.

Approche i-vector

Les courbes des figures 4.11 et 4.12 présentent les résultats obtenus en utilisant Idento. La figure4.11illustre les résultats sans normalisation des scores tandis que la figure4.12présente les résultats avec une normalisation ZT.

FIGURE4.11 –Courbes DET pour les séries Min, Max et aléatoire pour les séries de tests issues de NIST 2008 (511 comparaisons cible et 2 856 comparaisons imposteur) testées sur le système Idento sans normalisation : fluctuation de performance de 3.8% à plus de 16.8%

Sans normalisation, l’EER varie de 3.8% pour la sérieMin à 16.8% pour la sérieMax.

La série où les modèles correspondent à ceux choisi par NIST a un EER de 9.2%. Dans ce cas,Vr= 1.41. Des écarts de performance s’observent donc également pour un sys-tème basé sur les i-vectors, dans des proportions semblables à celles obtenues pour ALIZE/SpkDet.

La normalisation ne corrige que partiellement ces écarts de performance. En ZT-norm, l’EER varie de 3.1% avec la sérieMinà 13.8% pourMax, le tirage correspondant à NIST conduisant à un EER de 7.3%.Vrest alors égal à 1.46. Les écarts de performances

exis-FIGURE4.12 –Courbes DET pour les séries Min, Max et aléatoire pour la base de données NIST 2008 (511 comparaisons cible et 2 856 comparaisons imposteur) testées sur le système Idento avec une normalisation ZT-norm : fluctuation de performance de 3.1% à plus de 13.8%

tent toujours malgré la normalisation.

Sur les séries de tests issues de NIST, nous observons des variations relatives de performance entre 1.41 et 1.47. Il existe des écarts de performances aussi bien pour l’approche UBM-GMM que pour l’approche i-vector et la normalisation des scores ne permet pas de corriger ces écarts de variation. Ceux-ci sont donc à attribuer aux en-registrements utilisés pour modéliser le locuteur. Certains fichiers contiennent plus d’indices idiosynchratiques que d’autres.En étudiant les fichiers de chaque sérieMin et Max sélectionnés pour ALIZE/SpkDet et Idento, il est apparu que seul 30% des fichiers qui sont considérés comme les pires pour le système ALIZE/SpkDet le sont aussi pour Idento. De même, 30% des fichiers qui sont considérés comme les meilleurs pour le système ALIZE/SpkDet le sont pour Idento. Il semble donc qu’il existe une certaine variabilité entre le systèmes pour déterminer le meilleur et le pire enreg-istrement. Ceci est sans doute dû à la mesure deFRijqui est calculée sur peu de com-paraisons cible.

La cohorte de NIST connaît de nombreuses sources de variation comme la langue, les conditions d’enregistrement ou encore le nombre de trames sélectionnées pour con-struire le modèle. En effet, si les enregistrements ont une durée moyenne de 2 min-utes 30 secondes, cela ne signifie pas que le système sélectionne la même quantité de données pour construire le modèle du locuteur. D’ailleurs, il existe une différence significative entre le nombre de trames sélectionnées entre la sérieMinetMax d’AL-IZE/SpkDet (F = 11.11, p < 0.001). Ce sont peut-être ces critères qui expliquent les écarts de performance. Voyons quelles sont les variations de performance lorsque la base de données est plus contrôlée.

4.6.2 BREF

Seul le système ALIZE/SpkDet a été évalué à l’aide de la base de données BREF. Ici encore, les fichiers de tests sont exactement les mêmes pour chacun des locuteurs, seul change entre les séries le fichier d’apprentissage utilisé pour représenter le locuteur.

Nous avons utilisé, dans un premier temps, des fichiers d’enregistrements qui compor-taient entre 30 et 33 secondes de trames sélectionnées puis nous avons travaillé avec des fichiers de 2.5 minutes de trames sélectionnées afin demesurer l’influence de la quantité des données d’apprentissage sur la variation de performance.

30 secondes de trames sélectionnées

Les courbes DET des figures 4.13 et 4.14 sont respectivement calculées sur 1 344 comparaisons cible et 84 672 comparaisons imposteur pour les femmes et sur 987 com-paraisons cible et 45 402 comcom-paraisons imposteur pour les hommes.

Pour les femmes, l’EER varie de 1.1% pour la sérieMinà 28.5% pour la sérieMax. Les 10 séries pour lesquelles nous avons choisi aléatoirement le fichier d’apprentissage de chacune des locutrices ont un EER qui varie de 8.8% à 11.5% avec une moyenne de 10.3% et un écart type de 1.1. En utilisant un EER moyen de 10.3%,Vrest égal à 2.66.

Pour les hommes, l’EER fluctue de 1.0% à 33.0% entre la sérieMinet la sérieMax. L’EER est en moyenne de 9.0% avec un écart type de 1.4, il fluctue entre 6.3% et 11.6% pour les dix séries où le choix du fichier d’apprentissage se fait aléatoirement. Avec un EER

FIGURE4.13 –Courbes DET pour les séries Min, Max et 10 séries aléatoires pour les séries de tests issues de BREF, avec 64 femmes (1 344 comparaisons cible et 84 672 comparaisons imposteur) et des enregistrements de 30 secondes de trames sélectionnées en apprentissage et en test, testées sur le système ALIZE/SpkDet : fluctuation de performance de 1.1% à 28.5%

moyen de 9.0%,Vrest ici égal à 3.55.

Dans un contexte plus contrôlé (même microphone, langue unique, parole lue...), des écarts de performances très importants sont également observés. Il apparaît claire-ment que les enregistreclaire-ments utilisés ne comportent pas tous la même quantité d’in-formation nécessaire pour modéliser le locuteur par un système de RAL. Nous avons ensuite étudié l’influence de la durée des enregistrements sur ces écarts de perfor-mance.

2.5 minutes de trames sélectionnées

Les courbes DET des figures4.15et4.16sont calculées comme précédemment sur 1 344 comparaisons cible et 84 672 comparaisons imposteur pour les femmes et sur 987

FIGURE4.14 –Courbes DET pour les séries Min, Max et 10 séries aléatoires pour les séries de tests issues de BREF, avec 47 hommes (987 comparaisons cible et 45 402 comparaisons imposteur) et des enregistrements de 30 secondes de trames sélectionnées en apprentissage et en test, testées sur le système ALIZE/SpkDet : fluctuation de performance de 1.0% à 33.0%

comparaisons cible et 45 402 comparaisons imposteur pour les hommes.

Pour les femmes, l’EER varie de 0.9% à 6.0%.

Le même phénomène est observé pour les hommes : l’EER fluctue de 1.0% à 5.8%.

Si l’augmentation du nombre de trames sélectionnées a une influence importante sur les pires modèles (l’EER passant de 33% à 6%), il est toutefois possible avec seule-ment 30 secondes de parole d’obtenir des résultats équivalents à ceux obtenus avec des enregistrements 5 fois plus longs. La quantité de trames sélectionnées, aspect quantitatif, joue donc un rôle primordial dans la constitution du modèle mais la question de la pertinence de l’information, aspect qualitatif, est également soulevée par cette expérience.

Les résultats présentés dans cette section sont résumés par le tableau4.6.

FIGURE4.15 –Courbes DET pour les séries Min, Max pour la base de données Bref, avec 64 femmes (1 344 comparaisons cible et 84 672 comparaisons imposteur) et des enregistrements de 2 minutes 30 de trames sélectionnées en apprentissage et de 30 secondes de trames sélectionnées en test, testées sur le système ALIZE/SpkDet : fluctuation de performance de 0.9% à 6.0%

Conditions

Min Max Aléatoires Vr

Bases de Données Systèmes

NIST

ALIZE/SpkDet 4.1% 21.9% 12.1% 1.47 Idento No norm 3.8% 16.8% 9.2% 1.41

ZT norm 3.1% 13.8% 7.3% 1.46

BREF

Femmes 30 secondes

ALIZE/SpkDet

1.1% 28.5% 10.3% (1.1) 2.66

2.5 minutes 0.9% 6.0% non calculé

Hommes 30 secondes 1.0% 33.0% 9.0% (1.4) 3.55

2.5 minutes 1.0% 5.8% non calculé

TABLE4.6 –Variation de performance selon les fichiers d’apprentissage choisis

Nous avons déterminé pour deux bases de données, l’une régulièrement utilisée en vérification du locuteur et l’autre avec un contenu beaucoup plus contrôlé et pour deux systèmes, ALIZE/SpkDet et Idento, qu’une part importante de la performance des systèmes automatiques dépend du choix des fichiers d’apprentissage. En effet, alors que les locuteurs modélisés et les fichiers de test sont exactement les mêmes

FIGURE4.16 –Courbes DET pour les séries Min, Max, avec 47 hommes (987 comparaisons cible et 45 402 comparaisons imposteur) et des enregistrements de 2 minutes 30 de trames sélection-nées en apprentissage et de 30 secondes de trames sélectionsélection-nées en test, testées sur le système AL-IZE/SpkDet : fluctuation de performance de 1.0% à 5.8%

nous pouvons observer des variations de performance très importantes. Cette varia-tion semble dépendre de la base de données. A notre surprise, plus la base de don-nées est contrôlée, plus la variation en fonction du fichier d’apprentissage est im-portante. Ceci peut également être attribué au fait que le nombre de trames sélec-tionnées est plus faible dans BREF que dans NIST. En effet, la quantité de trames sélectionnées pour construire le modèle a une influence importante sur les écarts de performance. Ceci montre que le choix du fichier d’apprentissage n’est pas anodin : il est important de pouvoir comprendre ce qui différencie les séries de fichiers ayant conduit aux meilleures et aux pires performances afin de pouvoir prédire si un fichier d’apprentissage contient les informations pertinentes permettant de bien modéliser le locuteur. Cet objectif est celui de la partieIIIde ce document.