• Aucun résultat trouvé

Compensation de modèles

Malgré les avancées qui ont été achevées en compensation de paramètres,

l’utili-sation de telles techniques avec un système de RAL appris sur des données propres

peut produire des estimations biaisées d’i-vecteurs. Ceci est dû à la nature des ces

algo-rithmes qui fournissent une estimation des paramètres débruitées mais ne permettent

pas de prendre en compte ni l’incertitude relative à cette procédure ni la fiabilité des

paramètres acoustiques utilisées lors du calcul d’i-vecteurs.

Pour faire face à ce problème des approches de compensation de modèles qui

per-mettent d’intégrer l’effet des nuisances acoustiques au niveau des modèles ou de

conce-voir des extracteurs d’i-vecteurs plus robustes ont été développées.

3.3.1 Entraînementmulti-style

Les approches d’entraînementmulti-style

8

ont pris du succès en traitement de la

pa-role permettant de construire des modèles acoustiques plus robustes en se basant

seule-ment sur les données. Cette méthode vise à modéliser une grande variété de conditions

acoustiques et à construire des modèles (UBM, matriceT, PLDA) plus robustes en

utili-sant à la fois des données d’apprentissage correspondant à de la parole propre et bruitée

(Ribas et al.,2015a). Ce régime d’apprentissage est appeléfull multi-style trainingdans

la littérature vu qu’il injecte l’information de bruit dans toutes les composantes du

sys-tème i-vecteur, une alternative qui utilise les seulement les données bruitées lors de

l’apprentissage du modèle PLDA est appeléepartial multi-style training.

Cette méthode d’apprentissage est populaire en pratique en raison de sa

simpli-cité et permet d’améliorer d’une manière consistante les performances des systèmes de

RAL en présence de bruit additif ou de réverbération atteignant des gains de 20% en

termes d’EER par rapport à un système appris sur des données propres. Cependant, les

connaissances à priori sur les conditions acoustiques de test peut permettre d’atteindre

des gains plus importants (∼45% d’amélioration relative) (Ribas et al.,2015a).

3.3. Compensation de modèles

3.3.2 Utilisation de méthodes de décodage d’incertitude

Étant donné un ensemble de paramètres acoustiques X

s

correspondant à un

seg-ment propres, le processus l’extraction de l’i-vecteur correspondantwsse base sur le

calcul de l’espérance (Dehak et al.,2011) :

ws =E[P(w|Xs)] (3.5)

En présence d’une distorsion acoustique (bruit additif, réverbération, etc), les

para-mètresXsutilisées pour estimer la distribution conditionnelleP(w|Xs)deviennent peu

fiables. Les techniques de propagation d’incertitude visent à rendre le processus

d’ex-traction d’i-vecteurs plus robuste en intégrant l’incertitude liée aux distorsions

acous-tiques dans les calculs et permettent à l’extracteur d’i-vecteurs de se concentrer sur les

paramètres acoustiques fiables ou efficacement compensés.

Dans (Yu et al.,2014), le décodage d’incertitude est fait en utilisant la distribution

des paramètres acoustiques propres et celle des paramètres acoustiques corrompues

(SPLICE Uncertainty Estimation) ou la distribution jointe entre les deux représentations

(Joint Uncertainty Estimation) pour permettre une estimation plus robuste du terme

P(w|X). Ces algorithmes montrent des améliorations relatives plus élevées à mesure

que le niveau SNR augmente. Ceci est dû au fait que la qualité de l’incertitude estimée

diminue à mesure que le SNR diminue. Le calcul de statistiques a aussi été modifié

dans (Ribas et al.,2015b) pour permettre le calcul non-biaisé de statistiques. Les gains

données par cette classe d’algorithmes peuvent atteindre 30% d’amélioration relative

en termes d’EER.

3.3.3 Utilisation des séries de Taylor

Un ensemble d’algorithmes basés sur les séries de Taylor (VTS :Vector Taylor

Se-ries) ont été proposés dans (Lei et al.,2013, 2014a) pour la reconnaissance robuste du

locuteur basée sur les i-vecteurs en présence du bruit additif ou de la réverbération. En

substance, ces algorithmes propagent l’effet du bruit du domaine temporel jusqu’aux

paramètres du modèle acoustique (UBM). Cette approche utilise le développement en

séries de Taylor pour approximer la fonction de corruption au voisinage des moyennes

de l’UBM et permet de calculer d’une manière plus robuste les i-vecteurs

correspon-dants. Un autre algorithme a été proposé dans (Martınez et al., 2014) qui utilise une

méthode d’approximation de fonction non-linéaires appelée la transformée UT (

Uns-cented Transform) et a donné de meilleures performances dans le contexte de la RAL.

Des gains significatifs sont atteints par ces systèmes donnant entre 70% et 80% de

gains en fausses acceptations pour une probabilité FA aux alentours de 10% et

amélio-rant le EER d’un facteur de deux par rapport à un système propre. Il est important de

préciser que les algorithmes basés sur les séries de Taylor sont dépendant de la nature

de la nuisance ciblée et de la paramétrisation utilisée. En effet, la transposition de ces

techniques dans un système qui utilise des paramètres acoustiques ou une procédure

de normalisation différente pourrait impliquer la re-dérivation de l’algorithme.

3.3.4 Modélisation robuste à base de DNN

Avec la montée des réseaux de neurones profonds, deux approches ont été

déve-loppées pour l’estimation robuste de modèles de locuteurs. La première approche se

focalise sur la génération de versions plus robustes d’i-vecteurs en entraînant un

classi-fieur de trames et en l’utilisant pour l’estimation robuste des statistiques. La deuxième

utilise un réseau de neurones pour apprendre une représentation vectorielle plus

re-présentative que les i-vecteurs.

Calcul robuste de statistiques

Le processus d’extraction d’i-vecteurs se base sur des statistiques calculées sur les

données par rapport à un modèle acoustique générique (UBM) (Dehak et al., 2011).

Dans ce contexte, deux types de statistiques sont calculées ; les statistiques d’ordre zéro

qui correspondent à l’accumulation des probabilités à posteriori des vecteurs de

pa-ramètres pour chaque composante de l’UBM et les statistiques du premier ordre qui

correspondent à l’accumulation des vecteurs de paramètres pondérées par leurs

proba-bilités à posteriori pour chaque composante de l’UBM.

Ceci rend la phase d’estimation des probabilités à posteriori par rapport aux

pa-ramètres acoustique cruciale pour l’estimation des i-vecteurs et pour avoir de bonnes

performances. Dans cette optique, des approches basées sur les réseaux de neurones

profonds ont été proposées afin de servir d’estimateurs robustes de probabilités à

pos-teriori (Lei et al.,2014b;Garcia-Romero et al.,2014). Dans ces travaux, un contexte deN

trames consécutives est donné en entée au DNN et les états d’un HMM entraîné pour

la reconnaissance de la parole sont utilisées comme classes de sortie. Le DNN est alors

entraîné comme classifieur pour la trame centrale en mettant à 1 le neurone de sortie

correspondant à l’état HMM qui le génère et à 0 le reste des neurones. Afin de pouvoir

intégrer ce DNN dans un système de RAL à base d’i-vecteurs, un nouvel UBM

"super-visé" est construit en calculant les poids, moyennes et matrices de covariance sur les

données correspondant à chaque état du HMM (Lei et al.,2014b;Tan et al.,2016). Enfin,

le nouvel UBM supervisé est utilisé pour estimer une nouvelle matrice de variabilité

to-taleTet le DNN est utilisé pour le calcul des probabilités à posteriori en entraînement

et en test.

Cette approche permet de tirer parti de la puissance de classification des réseaux de

neurones tout en restant dans le cadre de la RAL à base d’i-vecteurs et devient le

nou-veau standard en termes de modélisation robuste dans le domaine permettant d’avoir

des gains relatifs en termes d’EER variant entre 10% et 35% sur les données de NIST