• Aucun résultat trouvé

Bilan et conclusion

Dans le document The DART-Europe E-theses Portal (Page 139-144)

Les transformations que nous avons mises en place, sous forme de standardisations et normalisations de longueur successives, ont montré leur pertinence et leur effica-cité dans le champ des i-vectors. Deux transformations dans le champ des i-vectors, appliquées dès leur extraction, ont été proposées : EFR (ou LΣ) et SphN (ou LW), la seconde étant spécifique à la PLDA. Elles visent au même objectif que les représenta-tions par supervecteurs, décomposition en facteurs par FA-total var ou modèle géné-ratif PLDA : optimiser la qualité de la modélisation en respectant des hypothèses et contraintes gaussiennes.

Nous montrons en effet, pour chacune de ces deux transformations, la convergence empirique des données transformées vers un modèle théorique. Ce modèle est chaque fois doté d’un certain nombre de propriétés qui justifient son opportunité dans l’objectif précédent. Nous recensons et démontrons ces propriétés puis les observons sur des données expérimentales. Les principales propriétés sont :

– EFR et SphN : gaussianisation, maximisation de la dispersion, mise au jour d’une base commune aux variabilités locuteur et nuisible (eigen factors), meilleure confor-mité des données de tests aux paramètres de l’apprentissage.

– EFR : optimalité déterministe de la séparation des variabilités en facteurs, équi-valence des démarches déterministes LDA et NAP.

– SphN : transformation du modèle en modèle isotropique, quasi-équivalence de ce modèle déterministe aux modèles génératifs obtenus par maximum de vraisem-blance.

La convergence des vecteurs transformés vers un modèle théorique plus cohérent et plus fiable entraîne une amélioration des performances des systèmes. Le gain moyen procuré par l’application de ces transformations, qu’il s’agisse d’EFR pour le modèle LDA-two-covariance ou de SphN pour le modèle PLDA-gaussienne, est de l’ordre de 50% en terme de diminution du taux d’erreur. Dans le dernier cas (SphN+PLDA-gaussienne), ce gain permet d’atteindre, par la voie du cadre probabiliste gaussien, les meilleurs taux de détection dans le domaine. Il est de l’ordre de 35% par rapport à l’approche LDA-WCNN-cosine scoring de (Dehak et al.,2011).

Les investigations et solutions qui ont été exposées rappellent que deux stratégies s’affrontent souvent dans le traitement des représentations vectorielles d’objets à dis-criminer :

La première considère que les versions numériques des objets, de par leur procédé d’extraction, suivent nécessairement une loi théorique qu’il s’agit de déterminer (sta-tistiqueconfirmatoire). Lorsque le phénomène vectorisé est formé d’une accumulation considérable de variables aléatoires indépendantes, sans qu’aucune ne soit dominante, le choix de la loi gaussienne paraît le plus pertinent. Eventuellement, une loi de la même famille (Student) peut s’accorder aux quelques anomalies constatées. Dans le cadre des modèles dits génératifs, tels que la PLDA par EM-ML, le vecteur représen-tant les observations n’est en aucun cas modifié, les facteurs à extraire éreprésen-tant estimés

4.9. Bilan et conclusion

par maximum de vraisemblance à posteriori de ces vecteurs. La collection d’apprentis-sage est ainsi soigneusement préservée tandis que les paramètres à estimer évoluent.

La même démarche se retrouve dans les méthodes de réduction de dimensionnalité : elles conservent seulement la partie principale d’une représentation donnée.

La seconde stratégie applique des transformations non nécessairement affines, li-néaires ou paramétriques aux représentations vectorielles. Cela revient à considérer ces versions numériques des objets comme des contenants potentiels d’informations expli-catives, mais non ou insuffisamment distribués suivant une loi théorique. La question de la pertinence des transformations à appliquer se pose alors (statistiqueexploratoire).

Les techniques de normalisation précédentes dans l’espace des i-vectors s’apparentent, par exemple, à celle du noyau de Fisher et du classifieur SVM : dans cette méthode, les données sont transportées dans un sur-espace par une fonction non-linéaire, afin de linéariser les cloisons entre classes. Les données ont été rendues compatibles avec des outils mathématiques à disposition : sous-espace linéaire, distributions usuelles. Le choix des transformations appliquées n’est souvent justifié qu’à posteriori, par la voie de l’empirisme.

L’utilisation de techniques de normalisation dans l’espace des i-vectors n’est ni concur-rente ni incompatible avec les décompositions de la première stratégie, mais complé-mentaire. Le réalisme voudrait que ces deux outils soient toujours à disposition sur la table du chercheur, plutôt qu’en balance au nom d’écolesstatistiques.

Chapitre 5

Fondements du paradigme

Les propriétés des vecteurs, après les transformations présentées dans le chapitre précédent, montrent l’opportunité de ces transformations dans le cadre de la recon-naissance du locuteur. Ces techniques de normalisation visent aux mêmes objectifs que les représentations par supervecteurs, décomposition en facteurs par FA-total var ou modèle génératif PLDA : optimiser la qualité de la modélisation en respectant des hy-pothèses et contraintes gaussiennes. Au delà des performances, les résultats expérimen-taux confirment le rôle de ces transformations dans l’élaboration de représentations fiables des énoncés de voix pour la RAL.

Dans notre cadre d’étude, la réduction de dimensionnalité suivant la variabilité to-tale suivie d’une technique de normalisation telle qu’EFR ou SphN apparaît comme un facteur déterminant de réussite de la solution i-vector. Nous avançons l’hypothèse que la participation de cette approche aux objectifs de qualité de la modélisation est prépondérante.

La part jouée par chacun des modules de la chaîne de traitement dans la qualité doit donc être évaluée, pour mieux cerner leurs impacts respectifs dans la réussite de la démarche. Cette évaluation fait l’objet de ce chapitre. Le dépouillement de cette éva-luation va également permettre d’isoler les facteurs-clés du concept : des étapes fonda-mentales -et non plus des méthodes précises- qui assurent la qualité d’un système de discrimination du locuteur basé sur ce concept.

5.1 Objectifs

La figure5.1affiche la chaîne de traitement i-vectors de notre étude, en y incluant maintenant la phase de normalisation. Une fois le signal vocal paramétrisé dans l’es-pace acoustique et les trames utiles sélectionnées par VAD, un GMM-UBM a été consti-tué pour structurer cet espace. A partir de ces étapes initiales, que nous ne remettons pas en question, l’ensemble des étapes du système emploie des méthodes (représen-tation des énoncés par statistiques d’ordre 0 et 1 du GMM-UBM, extraction des

i-GMM-UBM

Représentation issue du GMM-UBM

Réduction de dimension

Normalisation i-vectors

Modèle et scoring

supervecteurs (MAP)

FA-total var PLDA

...

vecteurs acoustiques signal vocal

FIGURE 5.1 –Les étapes d’un système de reconnaissance du locuteur basé sur le concept de i-vectors.

vectors par FA-total-var, modélisation PLDA) qui tentent, en respectant des contraintes d’a priori gaussien, de modéliser et traiter au mieux la représentation compacte par i-vectors. Les phases successives de représentation par UBM et d’extraction doivent produire une représentation compacte qui puisse être considérée comme une observa-tion d’un modèle génératif, de nature gaussienne. Cette gaussianité s’entend au sens le plus large du terme, le i-vector devant être décomposable en facteurs indépendants de variabilité eux-mêmes gaussiens.

Nous avons montré au chapitre précédent que les techniques de normalisation jouaient un rôle déterminant dans la qualité du système, en participant à ces objectifs de modé-lisation. Les expériences qui testaient plusieurs de ces techniques (avec standardisation suivant Σ ou W) ont déjà conduit à comparer plusieurs modèles i-vectors. Si le mo-dèle PLDA s’avère le plus performant, l’écart avec le momo-dèle déterministe LDA-two-covariance est réduit, en particulier s’il est comparé à celui en l’absence de normalisa-tion. Ces différents constats soulèvent plusieurs questions :

– quelle part joue chaque étape du système dans la qualité de la modélisation ? L’adéquation des i-vectors à un modèle génératif tient-elle à l’ensemble des mé-thodes, ou principalement à certaines d’entre elles ?

– peut-on quantifier ces impacts ? Les effets des différentes procédures, en terme de performance, peuvent-il être isolés ?

– pour orienter les recherches futures, une telle évaluation peut-elle dégager les facteurs-clés de la réussite du concept i-vectors ? Les étapes du système ont été élaborées sur une vingtaine d’années, au fur et à mesure de l’avancement du domaine. La pertinence des démarches successives dans le nouveau contexte i-vectors est-elle toujours effective ?

Notre objectif est d’évaluer la part, dans la réussite des systèmes i-vectors, des trois méthodes état-de-l’art :

– représentation par supervecteurs-MAP,

– réduction de dimensionnalité par FA-total variability, – PLDA gaussienne

Dans le document The DART-Europe E-theses Portal (Page 139-144)