Malgré les avancées qui ont été achevées en compensation de paramètres,
l’utili-sation de telles techniques avec un système de RAL appris sur des données propres
peut produire des estimations biaisées d’i-vecteurs. Ceci est dû à la nature des ces
algo-rithmes qui fournissent une estimation des paramètres débruitées mais ne permettent
pas de prendre en compte ni l’incertitude relative à cette procédure ni la fiabilité des
paramètres acoustiques utilisées lors du calcul d’i-vecteurs.
Pour faire face à ce problème des approches de compensation de modèles qui
per-mettent d’intégrer l’effet des nuisances acoustiques au niveau des modèles ou de
conce-voir des extracteurs d’i-vecteurs plus robustes ont été développées.
3.3.1 Entraînementmulti-style
Les approches d’entraînementmulti-style
8ont pris du succès en traitement de la
pa-role permettant de construire des modèles acoustiques plus robustes en se basant
seule-ment sur les données. Cette méthode vise à modéliser une grande variété de conditions
acoustiques et à construire des modèles (UBM, matriceT, PLDA) plus robustes en
utili-sant à la fois des données d’apprentissage correspondant à de la parole propre et bruitée
(Ribas et al.,2015a). Ce régime d’apprentissage est appeléfull multi-style trainingdans
la littérature vu qu’il injecte l’information de bruit dans toutes les composantes du
sys-tème i-vecteur, une alternative qui utilise les seulement les données bruitées lors de
l’apprentissage du modèle PLDA est appeléepartial multi-style training.
Cette méthode d’apprentissage est populaire en pratique en raison de sa
simpli-cité et permet d’améliorer d’une manière consistante les performances des systèmes de
RAL en présence de bruit additif ou de réverbération atteignant des gains de 20% en
termes d’EER par rapport à un système appris sur des données propres. Cependant, les
connaissances à priori sur les conditions acoustiques de test peut permettre d’atteindre
des gains plus importants (∼45% d’amélioration relative) (Ribas et al.,2015a).
3.3. Compensation de modèles
3.3.2 Utilisation de méthodes de décodage d’incertitude
Étant donné un ensemble de paramètres acoustiques X
scorrespondant à un
seg-ment propres, le processus l’extraction de l’i-vecteur correspondantwsse base sur le
calcul de l’espérance (Dehak et al.,2011) :
ws =E[P(w|Xs)] (3.5)
En présence d’une distorsion acoustique (bruit additif, réverbération, etc), les
para-mètresXsutilisées pour estimer la distribution conditionnelleP(w|Xs)deviennent peu
fiables. Les techniques de propagation d’incertitude visent à rendre le processus
d’ex-traction d’i-vecteurs plus robuste en intégrant l’incertitude liée aux distorsions
acous-tiques dans les calculs et permettent à l’extracteur d’i-vecteurs de se concentrer sur les
paramètres acoustiques fiables ou efficacement compensés.
Dans (Yu et al.,2014), le décodage d’incertitude est fait en utilisant la distribution
des paramètres acoustiques propres et celle des paramètres acoustiques corrompues
(SPLICE Uncertainty Estimation) ou la distribution jointe entre les deux représentations
(Joint Uncertainty Estimation) pour permettre une estimation plus robuste du terme
P(w|X). Ces algorithmes montrent des améliorations relatives plus élevées à mesure
que le niveau SNR augmente. Ceci est dû au fait que la qualité de l’incertitude estimée
diminue à mesure que le SNR diminue. Le calcul de statistiques a aussi été modifié
dans (Ribas et al.,2015b) pour permettre le calcul non-biaisé de statistiques. Les gains
données par cette classe d’algorithmes peuvent atteindre 30% d’amélioration relative
en termes d’EER.
3.3.3 Utilisation des séries de Taylor
Un ensemble d’algorithmes basés sur les séries de Taylor (VTS :Vector Taylor
Se-ries) ont été proposés dans (Lei et al.,2013, 2014a) pour la reconnaissance robuste du
locuteur basée sur les i-vecteurs en présence du bruit additif ou de la réverbération. En
substance, ces algorithmes propagent l’effet du bruit du domaine temporel jusqu’aux
paramètres du modèle acoustique (UBM). Cette approche utilise le développement en
séries de Taylor pour approximer la fonction de corruption au voisinage des moyennes
de l’UBM et permet de calculer d’une manière plus robuste les i-vecteurs
correspon-dants. Un autre algorithme a été proposé dans (Martınez et al., 2014) qui utilise une
méthode d’approximation de fonction non-linéaires appelée la transformée UT (
Uns-cented Transform) et a donné de meilleures performances dans le contexte de la RAL.
Des gains significatifs sont atteints par ces systèmes donnant entre 70% et 80% de
gains en fausses acceptations pour une probabilité FA aux alentours de 10% et
amélio-rant le EER d’un facteur de deux par rapport à un système propre. Il est important de
préciser que les algorithmes basés sur les séries de Taylor sont dépendant de la nature
de la nuisance ciblée et de la paramétrisation utilisée. En effet, la transposition de ces
techniques dans un système qui utilise des paramètres acoustiques ou une procédure
de normalisation différente pourrait impliquer la re-dérivation de l’algorithme.
3.3.4 Modélisation robuste à base de DNN
Avec la montée des réseaux de neurones profonds, deux approches ont été
déve-loppées pour l’estimation robuste de modèles de locuteurs. La première approche se
focalise sur la génération de versions plus robustes d’i-vecteurs en entraînant un
classi-fieur de trames et en l’utilisant pour l’estimation robuste des statistiques. La deuxième
utilise un réseau de neurones pour apprendre une représentation vectorielle plus
re-présentative que les i-vecteurs.
Calcul robuste de statistiques
Le processus d’extraction d’i-vecteurs se base sur des statistiques calculées sur les
données par rapport à un modèle acoustique générique (UBM) (Dehak et al., 2011).
Dans ce contexte, deux types de statistiques sont calculées ; les statistiques d’ordre zéro
qui correspondent à l’accumulation des probabilités à posteriori des vecteurs de
pa-ramètres pour chaque composante de l’UBM et les statistiques du premier ordre qui
correspondent à l’accumulation des vecteurs de paramètres pondérées par leurs
proba-bilités à posteriori pour chaque composante de l’UBM.
Ceci rend la phase d’estimation des probabilités à posteriori par rapport aux
pa-ramètres acoustique cruciale pour l’estimation des i-vecteurs et pour avoir de bonnes
performances. Dans cette optique, des approches basées sur les réseaux de neurones
profonds ont été proposées afin de servir d’estimateurs robustes de probabilités à
pos-teriori (Lei et al.,2014b;Garcia-Romero et al.,2014). Dans ces travaux, un contexte deN
trames consécutives est donné en entée au DNN et les états d’un HMM entraîné pour
la reconnaissance de la parole sont utilisées comme classes de sortie. Le DNN est alors
entraîné comme classifieur pour la trame centrale en mettant à 1 le neurone de sortie
correspondant à l’état HMM qui le génère et à 0 le reste des neurones. Afin de pouvoir
intégrer ce DNN dans un système de RAL à base d’i-vecteurs, un nouvel UBM
"super-visé" est construit en calculant les poids, moyennes et matrices de covariance sur les
données correspondant à chaque état du HMM (Lei et al.,2014b;Tan et al.,2016). Enfin,
le nouvel UBM supervisé est utilisé pour estimer une nouvelle matrice de variabilité
to-taleTet le DNN est utilisé pour le calcul des probabilités à posteriori en entraînement
et en test.
Cette approche permet de tirer parti de la puissance de classification des réseaux de
neurones tout en restant dans le cadre de la RAL à base d’i-vecteurs et devient le
nou-veau standard en termes de modélisation robuste dans le domaine permettant d’avoir
des gains relatifs en termes d’EER variant entre 10% et 35% sur les données de NIST
Dans le document
Reconnaissance du locuteur en milieux difficiles
(Page 85-88)