• Aucun résultat trouvé

Performances successives de systèmes basés sur le GMM-UBM

Dans le document The DART-Europe E-theses Portal (Page 73-76)

Nous présentons ici, à titre de comparaison, les performances de systèmes basés sur les représentations issues des mixtures de gaussienne avec GMM-UBM, qui ont chronologiquement pris le titre d’état-de-l’art dans cette gamme de systèmes de VAL.

Elles sont données pour une configuration du LIA qui est détaillée dans le paragraphe suivant.

– Le premier système utilise un GMM-UBM, la représentation par statistiques du GMM (supervecteurs) adaptées par MAP et un scoring LLR-by-frame dans lequel le modèle imposteur est approximé par le GMM-UBM. Il est notéMAPen abrégé.

– Le second est basé sur les avancées de la Factor Analysis. Il soustrait le terme attribué au canalUx au supervecteur et applique le scoring LLR-by-frame. Il est notéFA.

– Le troisième est la meilleure fusion obtenue au LIA, en terme de performance, d’un système du type du précédent et d’un système par classifieur SVM (Larcher et al.,2010). Une normalisation des scores par les techniques z- ou zt-norm (Au-ckenthaler et al.,2000) a été également réalisée. Il constitue donc la meilleure solu-tion dans notre laboratoire avant l’apparisolu-tion des i-vectors. Il est notéFA+SVM.

– Le quatrième utilise la solution i-vector proposée par son initiateur N. Dehak : une réduction de dimension par LDA suivie du scoring WCCN-cosinus. Il est notéIVECT+COS.

Pour évaluer plus complètement cette dernière solution, les résultats obtenus par N. Dehak lors de sa présentation originelle des i-vectors sont également présentés et commentés.

Protocole expérimental

Le GMM-UBM utilisé est celui du LIA codé GMM-UBM-LIA dont le détail est donné en annexeA.

L’expérience de vérification du locuteur est conduite sur l’évaluation NIST-SRE 2008 détaillée est en annexe A. Les résultats sont donnés en terme d’EER et de DCF mi-nimale, suivant les coûts de fausse alerte et faux rejet imposés par NIST durant cette campagne 2008.

Seuls les résultats des expériences sur les locuteurs mâles sont présentés ici. Ceux obtenus avec les femmes conduisent au même conclusion. De même, ces conclusions sont généralisables, ayant été constatées dans l’ensemble des laboratoires.

Pour le système basé sur un SVM, la matrice de variabilité intra-locuteur est ap-prise sur la base NIST-SRE-2004 de 2938 exemples de 124 locuteurs (20 itérations pour converger). De la même base, 200 locuteurs imposteurs sont utilisés pour la normali-sation des scores et comme exemples "négatifs" pour le classifieur SVM. Dans le troi-sième système, qui fusionne deux approches (GMM-UBM FA et SVM), les scores sont normalisés avant calibration, par zt-norm (Auckenthaler et al.,2000) pour le premier

2.7. Performances successives de systèmes basés sur le GMM-UBM

EER % DCF min

MAP 7.74 0.0354

FA 3.87 0.0189

FA+SVM 2.72 0.0154 IVECT+COS 3.26 0.0187

TABLE2.1 –Performances, en terme d’EER, de différents systèmes état-de-l’art successifs évalués sur la condition "téléphone- téléphone anglais natifs det 7" de NIST-SRE 2008 short2-short3.

et z-norm pour le second. La calibration est effectuée par régression logistique (Linear Logistic Regression LLR) à l’aide du toolkit FoCal de Niko Brümmer2.

La matrice de variabilité totale T du système i-vector est celle codée T15660-LIA dont le détail est en annexeA.

Comparaison de performance

La table2.1 affiche les performances des quatre systèmes. Le premier (MAP) a été grandement amélioré par les hypothèses de décomposition en facteurs réduits de P.

Kenny (FA). La fusion d’un tel système et d’un classifieur SVM atteint la meilleure performance.

Le dernier système, basé sur les i-vectors, n’améliore pas le troisième, mais dépasse le second. C’est à dire que la stratégie de facteurstotal variabilitys’avère plus judicieuse que celle des facteurs séparés. Qui plus est, cette stratégie ramène entièrement les cal-culs de décision dans un espace de faible dimension, laissant espérer l’application de méthodes complexes, impraticables dans la haute dimension d’origine.

Le troisième système reste pour l’instant meilleur que la solution i-vector mais il s’agit d’une fusion de systèmes et, de plus, les scores y ont été normalisés. L’EER de 3.26% obtenu au LIA avec un mono-système par i-vectors, sur des scores bruts, laisse augurer une progression des performances avec cette solution. L’amélioration de ces performances passe par l’élaboration de nouvelles modélisations et formules de scores dans l’espace des facteurs de variabilité totale.

Commentaires sur les résultats originels

Dans (Dehak et al.,2009), les auteurs comparent les performances de la JFA du labo-ratoire CRIM de Montréal avec le système i-vector qu’ils ont mis en place. Nous présen-tons dans la table2.2ces résultats, mais également ceux du LIA et ceux du laboratoire I2R Singapour avec qui nous avons travaillé.

Les résultats concernent les deux conditions téléphone-téléphone de NIST-SRE 2008 : - locuteurs d’anglais natif seulement (codée det 7 par NIST, il s’agit de l’expérience précédente),

- tous locuteurs (codée det 6 par NIST, 12511 tests dont 874 tests-cible).

2. http ://www.dsp.sun.ac.za/~nbrummer/focal/index.htm

téléphone téléphone anglais natif (det 7) tous (det 6) EER % DCF min EER % DCF min

LIA best 2.72 0.0154 6.29 0.0357

LIA ivect 3.26 0.0187 6.29 0.0335

I2R best 2.93 0.0116 5.96 0.0319

I2R ivect 3.00 0.0162 5.23 0.0284

CRIM JFA 2.64 0.0111 5.15 0.0273

BUT best w 2.28 0.0104 5.11 0.0267

CRIM ivect 1.12 0.0094 4.48 0.0247

TABLE2.2 –Performances, en terme d’EER, obtenues par différents systèmes de CRIM. La condi-tion est "téléphone- téléphone anglais natifs det 7" NIST-SRE 2008 short2-short3.

Pour LIA et I2R,bestindique les meilleures performances obtenues avant i-vectors.

Il s’agit dans les deux cas de fusions de systèmes. Puis les performances obtenues par un système unique basé sur les i-vectors, avec le score précédent et sans normalisation des scores, sont indiquées (ivect). Pour le laboratoire CRIM, le système noté JFA est une Joint Factor Analysis détaillée dans (Dehak et al., 2009). Au passage sont insérés pour comparaison les résultats obtenus par le laboratoire tchèque BUT, en fusionnant des systèmes normalisés de type FA ou SVM (Burget et al.,2009) (best w). Ces derniers résultats sont les meilleurs de la littérature, avant la solution i-vectors.

Pour le LIA et I2R, le mono-système i-vector approche les meilleurs multi-systèmes (notamment I2R les dépassent sur la condition "téléphone tous det 6"). Pour la configu-ration CRIM, les résultats i-vectors outrepassent ceux d’une JFA, mais également ceux des meilleurs multi-systèmes de l’époque (best wde BUT), démontrant définitivement la prédominance du concept i-vectors sur les décompositions en facteurs antérieures.

Mais ce résultat doit être relativisé : le gain exceptionnel de performance procuré par le scoring WCCN-cosinus n’a été reconstitué ni au LIA ni à I2R. Le même phénomène a été plus ou moins constaté dans la plupart des laboratoires qui se sont penchés sur le nouveau concept d’i-vectors. Ce n’est pas au volume ou à la qualité des bases d’entraî-nement mais bien au manque de robustesse de la méthode de scoring que cette faiblesse est attribuable.

Cette double conclusion : "- potentiel discriminant incontestable des facteurs i-vectors, - gain de performance exceptionnel ... mais non complètement reproductible" a conduit aux différents modèles et scorings que nous avons décrits précédemment. Mais l’ana-lyse a montré l’aspect primordial de certaines transformations, que nous introduisons et décrivons en détail dans le chapitre3, pour assurer la réussite de ces méthodes dans le champ des i-vectors.

Dans le document The DART-Europe E-theses Portal (Page 73-76)