FIGURE3.4 –Structure d’un DNN utilisé pour l’extraction des paramètres bottleneck. Une conca-ténation des vecteurs paramètres de N trames consécutives est donnée en entrée et la classe corres-pondante à la trame centrale est donnée en sortie. En phase d’entraînement, un seul neurone est mis à 1 pour chaque entrée et le reste des neurones sont mis à 0. En phase de test, les valeurs des neurones de sortie correspondent à la probabilité d’appartenance à posteriori de la trame centrale à chacune des classes. Les activations de la couche bottleneck fournissent une nouvelle paramétrisation des données d’entrée.
utilisé pour extraire des paramètres bottleneck. Par la suite, les paramètres bottleneck
correspondant à des trames espacées de 5 trames sont empilées et utilisées comme
entrée pour un deuxième DNN (5 vecteurs sont empilés, correspondant aux instants
t−10,t−5,t,t+5 ett+10). Le contexte final correspond donc à 11 trames ×5 = 55
trames. Cette approche permet de capturer un contexte acoustique plus large qui
mo-délise des unités phonétiques et capture éventuellement l’information locuteur d’une
manière plus robuste. Ce système apporte un gain de 20% en termes de performance
en EER par rapport aux systèmesbottleneckqui utilisent un seul DNN.
3.2 Amélioration de signal et compensation de paramètres
Depuis le début des années 90, une grande gamme de techniques d’amélioration
de signal (speech enhancement) et de compensation de paramètres ont été proposées à
savoir la soustraction spectrale, l’égalisation spectrale (Acero,1990), le filtrage Wiener
(Paliwal et Basu,1987) ainsi que des méthodes de filtrage plus robustes tel que le
fil-trage RASTA (Hermansky et Morgan, 1994). Dans la dernière décennie, de nouvelles
approches plus efficaces ont été proposées pour la RAL. Certains exemples de ces
tech-niques sont présentés dans ce qui suit.
3.2.1 Techniques à base de réseaux de neurones profonds
Amélioration de signal
Les réseaux de neurones profonds ont été utilisés pour l’amélioration du signal dans
base de LSTM (Long Short-Term Memory)
6et transforme la version bruitée d’un signal
donné en sa version propre. Dans ce système, le module des coefficients FFT est
utili-sés comme entrée pour le modèle LSTM avec un contexte qui comporte les 15 trames
précédentes et les 15 trames suivantes (un total de N
FFT×31 = 257×31 = 7967
co-efficients). Cette approche a été testée sur les données RSR2015 et a permis des gains
significatifs qui peuvent atteindre jusqu’à 40% en termes d’EER.
Compensation de paramètres
Les réseaux de neurones profonds (DNN) ont aussi été utilisés pour la
compen-sation de paramètres en présence de bruit additif. Dans ces approches un réseau de
neurones profond est utilisé pour transformer la version bruitée des paramètres
acous-tiques vers la version propre correspondante. L’entraînement est fait sur un contexte de
N trames comme le montre la figure3.5 (généralement 1 trame + les 5 trames
précé-dentes + les 5 trames suivantes = 11 trames).
FIGURE3.5 –Exemple de DNN pour la compensation de paramètres bruitées.
Dans ces systèmes, le DNN est d’abord entraîné en utilisant un DAE (Denoising
Autoencoder)
7(Vincent et al., 2008) ou un empilement de machines de Boltzman (
Sa-lakhutdinov et Hinton, 2009) de manière à minimiser l’erreur quadratique entre les
paramètres propres et les paramètres transformés. Ces approches apportent des gains
qui peuvent atteindre jusqu’à 26% d’amélioration relative en EER sur les données NIST
SRE 2010.
6. Les LSTM sont une classe de réseaux de neurones récurrents qui permettent de gérer les données séquentielles à taille variable et de faire les transformations séquence-vers-séquence. Ils implémentent le concept de "mémoire" qui permet d’extraire des paramètres caractérisant un long contexte de données.
7. Un autoencodeur est un réseau de neurones profond qui apprend la fonction identité f(X) = X en minimisant l’erreur de reconstruction quadratique (les mêmes vecteurs sont utilisés en entrée et en sortie). Un DAE est une version d’autoencodeurs qui vise à apprendre une version robuste des vecteurs de données en rajoutant artificiellement un bruit Gaussien aux entrées (f(Xbruité) =X).
3.2. Amélioration de signal et compensation de paramètres
3.2.2 Compensation stochastique de paramètres
Une classe d’algorithmes de compensation stochastique de paramètres a été évaluée
pour la RAL dans (Sarkar et Sreenivasa Rao,2014). Ces approches se basent sur la
distri-bution des paramètres acoustiques propres et celle des paramètres acoustiques bruités
et visent à débruiter les paramètres acoustiques en phase de test. Étant donné un
vec-teur de paramètres de test bruitéy
t, le critère de l’erreur quadratique moyenne (MMSE :
Minimum mean square error) est utilisé pour estimer le vecteur paramètre propre
corres-pondant ˆx
tcomme suit :
ˆ
x
t=E[x|y
t] =
Z
X