• Aucun résultat trouvé

Objectifs du modèle de clés binaires : le concept d’exceptions

Dans le document The DART-Europe E-theses Portal (Page 79-85)

2.8 Modélisations par clés binaires

2.8.4 Objectifs du modèle de clés binaires : le concept d’exceptions

Le modèle de clés binaires localise d’abord chaque trame suivant le régionnement du GMM-UBM. Il relève ensuite les points de densité les plus vraisemblables par gaus-sienne : il peut s’agir de sous-régions de la gausgaus-sienne à forte densité, mais aussi de zones plus isolées. La méthode suit une philosophie en partie inverse de celle utilisée par les statistiques d’ordre 0 et 1 : elle retient des pics de haute densité, mais surtout de haute énergie, c’est à dire dont la dérivée première de la densité apparaît significative-ment élevée. Plusieurs points peuvent être retenus par composante et non plus un seul, comme c’est le cas dans le modèle par supervecteur. D’autre part, la notion de point de

"haute densité" doit se comprendre localement, c’est à dire au voisinage de ce point.

Alors que les méthodes statistiques relèvent par accumulation les éléments les plus représentés, aboutissant le plus souvent à unmodede densité maximale, la méthode de sélection de clés met également en évidence desexceptions. Celles-ci sont susceptibles de caractériser un segment de voix et de là un locuteur. Ce concept sera développé plus complètement dans la section8 de nos contributions au modèle de clés binaires, en particulier une opération d’égalisation des comptes qui met en avant les exceptions d’un énoncé.

Deuxième partie

Contributions

Chapitre 3

Analyse statistique de la représentation

Aussitôt proposé le concept i-vectors de facteur réduit de variabilité totale, il nous est apparu indispensable d’effectuer une analyse statistique de cette nouvelle représen-tation, pour tenter d’en expliquer les capacités comme d’en améliorer l’efficacité. Le concept i-vector mérite en effet, autant qu’il le nécessite, une plus grande maîtrise de ses propriétés théoriques, de ses hypothèses et de mieux cerner ses comportements, en particulier vis à vis de la variable-cible locuteur, mais aussi ses limites.

Partant d’un constat d’insuffisance de la décomposition en facteurs des supervec-teurs (le facteur locuteur de la JFA contenant une part non négligeable de variabilité session (Dehak, 2009)), leur réduction suivant la variabilité totale s’est avérée plus à même de discriminer les locuteurs, sans toutefois que cette faculté ne soit justifiée par d’autres arguments que l’efficacité de certaines techniques (LDA, cosine-scoring). De même, la décomposition en facteurs telle que la PLDA dans ce nouvel espace compact de représentation ne s’est avérée pertinente qu’une fois redressées des anomalies au postulat gaussien, par la modélisation HT-PLDA (Kenny,2010). La question du cadre probabiliste à proposer pour cette nouvelle représentation ne nous a pas semblé réglée par cette avancée. Les points suivants ont plus particulièrement attiré notre attention, motivant et guidant l’analyse que nous avons menée :

– la meilleure efficacité de la loi de Student par rapport à la loi gaussienne pour la PLDA montre une non-conformité partielle des données au modèle théorique gaussien. Si la loi de Student intervient dans des cas statistiques de carence en in-formations (échantillon insuffisant) et plus ou moins dans des cas de sur-effectifs d’observations atypiques, la reconnaissance du locuteur, avec maintenant ses vastes jeux d’apprentissage en terme de segments et de locuteurs et malgré l’existence de quelques productions vocales "extrêmes", ne semble pas concernée par ce genre de lois.

– le scoring par cosinus revient à un produit scalaire sur des vecteurs dont l’infor-mation de longueur a été ignorée (au sens de la métrique euclidienne ou de la

matrice WCCN). Ce fait est surprenant : la collection complète de trames d’un énoncé de voix, et donc l’énoncé lui-même, est entièrement représenté par 400 à 600 coefficient réels seulement, ou spatialement par un unique point dans un espace de dimension réduite. Annuler l’information de distance à l’origine pour ne conserver que l’information directionnelle est une opération audacieuse. Les i-vectors sont issus des supervecteurs : s’il n’est pas possible de décrire exactement l’opération réciproque dans l’espace de grande dimension (à quoi correspond la division par la norme d’un i-vector sur son supervecteur d’origine ?), nous remar-quons que la représentation par la moyenne est une translation et que l’adaptation MAP relativise l’intensité de ce mouvement mais préserve sa direction.

– Considérant les i-vectors comme une transformation des représentations issues du GMM-UBM, la question se pose de leur nature : peut-on, ignorant leur pro-cessus d’extraction, les considérer comme des observations issues d’un modèle génératif probabiliste ? Ou bien faut-il les transformer à nouveau pour les rendre compatibles aux hypothèses probabilistes d’un modèle de décomposition des va-riances ?

Nous présentons ici les résultats de l’analyse que nous avons menée sur les i-vectors.

Pour conduire l’analyse, nous avons d’abord mis en place un outil de visualisation des variabilités, que nous emploierons régulièrement pour appuyer nos propos.

3.1 Un outil visuel d’analyse : le graphe spectral

Dans le paradigme i-vector, un énoncé de voix est représenté numériquement par un unique vecteur de dimension réduite. Les modélisations utilisent alors des fichiers d’apprentissage pour décomposer les vecteurs en une somme de facteurs associés aux parts de variabilité intrinsèque et extrinsèque au locuteur. Elles calculent également les paramètres de leurs distributions qui sont employés dans les formules de scoring. Ces modélisations déterminent donc des axes principaux de ces variabilités.

Dans le cadre d’une analyse statistique et spatiale des i-vectors, il est nécessaire d’étudier en premier lieu les variabilités propres à chaque axe d’une base de l’espace de représentation. Chaque dimension de l’espace initial contribue aux diverses variabili-tés et les coordonnées des vecteurs sur les axes principaux y contribuent en maximisant l’une des variabilités qui nous intéressent. D’autre part, l’emploi éventuel de transfor-mations modifie les coordonnées des vecteurs et donc les intensités de leurs variabilités par dimension.

Les variabilités sur un axe sont estimées par les variances de la série unidimension-nelle des coordonnées sur cet axe issues d’un vaste fichier d’apprentissage. Trois types de variances doivent être prises en compte :

– les variances totales par dimension,

– les variances selon la variable latente locuteur, c’est à dire entre les classes-locuteur, – les variances résiduelles, combinant ce que l’on nomme généralement l’effet-session

et le bruit. Nous parlerons ici de variance "session".

3.1. Un outil visuel d’analyse : le graphe spectral

Les séries de ces valeurs sur une base de l’espace ont pour longueur p, où p est la dimension de l’espace i-vectors (de l’ordre de 400 à 600). L’emploi d’un outil de visuali-sation apparaît indispensable pour les analyser de manière simple et claire. La série des variances totales des dimensions initiales est obtenue par la diagonale de la matrice de covariance totaleΣ. Les séries des variances locuteur et session sont obtenues par les diagonales des matrices inter-locuteurBet intra-locuteurWdes équations2.42et2.41.

Par décomposition des variances, la somme de ces deux dernières séries ( locuteur + session) est nécessairement égale à la première (totale).

Nous appelonsgraphe spectral (par analogie au "spectre" des valeurs propres d’une matrice qui indique ces variances dans sa base de vecteurs propres) le graphe affichant simultanément les trois courbes de ces diagonales dans une base de l’espace.

La visibilité du graphique sera réduite dans la base initiale (immédiatement après extraction) : en effet, ces séries ne sont alors en aucun cas assurées d’être croissantes ou décroissantes, ni proportionnelles par dimension. Il est possible d’exprimer les don-nées dans une base préalablement choisie, ce qui permet d’afficher les trois variances suivant un ordre plus lisible. Pour ce faire, les données sont pivotées suivant les axes de variabilité décroissante d’une des trois matricesΣ,B ou W. L’opération s’effectue par projection des observations sur ses vecteurs propres rangés par ordre décroissant des valeurs propres. Les trois matrices sont alors recalculées dans cette nouvelle base et leurs diagonales affichées. Quelques points doivent être précisés :

– lorsqu’une telle opération est réalisée (par exemple suivantΣ), la nouvelle matrice Σaprès rotation est diagonale et sa diagonale est constituée par le spectre décrois-sant de ses valeurs propres. La courbe du graphe spectral qui lui correspond sera donc nécessairement décroissante.

– par contre, les deux autres matrices ne seront pas nécessairement diagonales et les courbes de leurs diagonales non nécessairement décroissantes.

– la variable latente étant le locuteur, la rotation suivantBsera la plus couramment utilisée dans notre étude.

Nous noterons "Graphe Spectral-Σ" (resp. -B, -W) le graphe spectral dans la base des vecteurs propres deΣ(resp.B,W).

La figure3.1présente un exemple de graphe spectral-Σ, sur un jeu de données ar-tificiel. Dans la base des vecteurs propres deΣ, la courbe des variances totales des 600 dimensions est décroissante. Sur chaque dimension, cette variance totale se décompose exactement en somme des variances locuteur et session. Sur cet exemple, les variances locuteur sont majoritairement plus faibles que les variances session, dans des propor-tions que le graphe spectral permet d’apprécier. D’autre part, aucune corrélation entre ces trois variances n’est perceptible sur ce graphe.

Les graphes spectraux sont autant utiles à effectuer une "radioscopie" des i-vectors initiaux, tels que fournis par l’extracteur FA-total-var, qu’à observer l’effet de transfor-mations sur les vecteurs. Ils participent également à justifier des méthodes, notamment celles mises en place pour améliorer la qualité des modélisations. En effet, la séparation des parts de variabilité locuteur et session dans une représentation vectorielle constitue

0 100 200 300 400 500 600

02468

Variances : totale locuteur session

FIGURE3.1 –Un exemple de graphe spectral-Σ. Les abscisses sont les600dimensions de l’espace i-vector.

un enjeu important de la discrimination du locuteur et le dépouillement visuel permet d’apprécier clairement et rapidement la justesse d’hypothèses ou les effets de transfor-mations appliquées à ces représentations.

Dans le document The DART-Europe E-theses Portal (Page 79-85)