Amélioration de signal et compensation de paramètres

FIGURE3.4 –Structure d’un DNN utilisé pour l’extraction des paramètres bottleneck. Une conca-ténation des vecteurs paramètres de N trames consécutives est donnée en entrée et la classe corres-pondante à la trame centrale est donnée en sortie. En phase d’entraînement, un seul neurone est mis à 1 pour chaque entrée et le reste des neurones sont mis à 0. En phase de test, les valeurs des neurones de sortie correspondent à la probabilité d’appartenance à posteriori de la trame centrale à chacune des classes. Les activations de la couche bottleneck fournissent une nouvelle paramétrisation des données d’entrée.

utilisé pour extraire des paramètres bottleneck. Par la suite, les paramètres bottleneck

correspondant à des trames espacées de 5 trames sont empilées et utilisées comme

entrée pour un deuxième DNN (5 vecteurs sont empilés, correspondant aux instants

t−10,t−5,t,t+5 ett+10). Le contexte final correspond donc à 11 trames ×5 = 55

trames. Cette approche permet de capturer un contexte acoustique plus large qui

mo-délise des unités phonétiques et capture éventuellement l’information locuteur d’une

manière plus robuste. Ce système apporte un gain de 20% en termes de performance

en EER par rapport aux systèmesbottleneckqui utilisent un seul DNN.

3.2 Amélioration de signal et compensation de paramètres

Depuis le début des années 90, une grande gamme de techniques d’amélioration

de signal (speech enhancement) et de compensation de paramètres ont été proposées à

savoir la soustraction spectrale, l’égalisation spectrale (Acero,1990), le filtrage Wiener

(Paliwal et Basu,1987) ainsi que des méthodes de filtrage plus robustes tel que le

fil-trage RASTA (Hermansky et Morgan, 1994). Dans la dernière décennie, de nouvelles

approches plus efficaces ont été proposées pour la RAL. Certains exemples de ces

tech-niques sont présentés dans ce qui suit.

3.2.1 Techniques à base de réseaux de neurones profonds

Amélioration de signal

Les réseaux de neurones profonds ont été utilisés pour l’amélioration du signal dans

base de LSTM (Long Short-Term Memory)

⁶

et transforme la version bruitée d’un signal

donné en sa version propre. Dans ce système, le module des coefficients FFT est

utili-sés comme entrée pour le modèle LSTM avec un contexte qui comporte les 15 trames

précédentes et les 15 trames suivantes (un total de N

_FFT

×31 = 257×31 = 7967

co-efficients). Cette approche a été testée sur les données RSR2015 et a permis des gains

significatifs qui peuvent atteindre jusqu’à 40% en termes d’EER.

Compensation de paramètres

Les réseaux de neurones profonds (DNN) ont aussi été utilisés pour la

compen-sation de paramètres en présence de bruit additif. Dans ces approches un réseau de

neurones profond est utilisé pour transformer la version bruitée des paramètres

acous-tiques vers la version propre correspondante. L’entraînement est fait sur un contexte de

N trames comme le montre la figure3.5 (généralement 1 trame + les 5 trames

précé-dentes + les 5 trames suivantes = 11 trames).

FIGURE3.5 –Exemple de DNN pour la compensation de paramètres bruitées.

Dans ces systèmes, le DNN est d’abord entraîné en utilisant un DAE (Denoising

Autoencoder)

⁷

(Vincent et al., 2008) ou un empilement de machines de Boltzman (

Sa-lakhutdinov et Hinton, 2009) de manière à minimiser l’erreur quadratique entre les

paramètres propres et les paramètres transformés. Ces approches apportent des gains

qui peuvent atteindre jusqu’à 26% d’amélioration relative en EER sur les données NIST

SRE 2010.

6. Les LSTM sont une classe de réseaux de neurones récurrents qui permettent de gérer les données séquentielles à taille variable et de faire les transformations séquence-vers-séquence. Ils implémentent le concept de "mémoire" qui permet d’extraire des paramètres caractérisant un long contexte de données.

7. Un autoencodeur est un réseau de neurones profond qui apprend la fonction identité f(X) = X en minimisant l’erreur de reconstruction quadratique (les mêmes vecteurs sont utilisés en entrée et en sortie). Un DAE est une version d’autoencodeurs qui vise à apprendre une version robuste des vecteurs de données en rajoutant artificiellement un bruit Gaussien aux entrées (f(Xbruité) =X).

3.2. Amélioration de signal et compensation de paramètres

3.2.2 Compensation stochastique de paramètres

Une classe d’algorithmes de compensation stochastique de paramètres a été évaluée

pour la RAL dans (Sarkar et Sreenivasa Rao,2014). Ces approches se basent sur la

distri-bution des paramètres acoustiques propres et celle des paramètres acoustiques bruités

et visent à débruiter les paramètres acoustiques en phase de test. Étant donné un

vec-teur de paramètres de test bruitéy

, le critère de l’erreur quadratique moyenne (MMSE :

Minimum mean square error) est utilisé pour estimer le vecteur paramètre propre

corres-pondant ˆx

comme suit :

ˆ

x

=E[x|y

] =

P(x|y

)x dx (3.4)

xest une variable aléatoire représentant le vecteur de paramètres propres etp(x|yt)

représente la distribution de probabilité conditionnelle dexsachanty

.

Différents algorithmes ont été proposés pour l’estimation deP(x|yt); Les algorithmes

RATZ (Moreno et al.,1998) (Multivariate Gaussian-based cepstral normalization) et SPLICE

(Stereo-based Piecewise LInear CompEnsation for Environments) (Deng et al., 2001)

modé-lisent le décalage entre la distribution des paramètres acoustiques propres et bruitées

sous forme de composantes additives au niveau des moyennes et des matrices de

cova-riance. Cette relation est par la suite intégrée dans le calcul deP(x|y

)dans l’équation

3.4. Grâce au caractère bayésien de cette estimation, ces algorithmes permettent

d’inté-grer des connaissances à priori sur la distribution des paramètres acoustiques propres

P(x). Ceci permet de fournir des estimations de ˆx

qui sont consistantes avec la

distri-bution des paramètres ciblés. RATZ et SPLICE permettent d’atteindre une amélioration

relative en EER variant entre 30% et 50% respectivement par rapport à un système de

base propre (Sarkar et Sreenivasa Rao,2014).

Malgré les bonnes performances données par ces algorithmes, la compensation de

paramètres peut causer des inconsistances lors de l’utilisation des coefficients

dyna-miques (∆et∆∆). Vu que la compensation est faite trame par trame, la cohérence des

composantes dynamiques des trames successives débruitées ne peut pas être garantie.

Ce problème a été traité dans (Zen et al.,2009) avec l’algorithme TRAJMAP (

TRAJec-tory Mapping) (Zen et al.,2009) où la distribution jointe de trames successives sur une

fenêtre de taille fixe est prise en compte dans la modélisation, garantissant plus de

consistance au niveau des paramètres prédits et donnant des résultats largement

su-périeurs aux algorithmes précédents. Cette méthode vient confirmer l’importance de la

composante dynamique en présence de bruit additif et a permis d’atteindre 70%

d’amé-lioration relative en termes d’EER par rapport à un système de base propre (Sarkar et

Sreenivasa Rao,2014).

Un autre algorithme basé sur les modèles joints a aussi été développé dans (Afify

et al.,2009) sous le nom de SSM (Stereo Stochastic Mapping). Au lieu d’estimer les

distri-butions des paramètres propres et bruitées, cet algorithme estime la distribution jointe

et SPLICE en termes de performances permettant d’atteindre 70% d’amélioration

rela-tive en EER par rapport à un système de base propre (Sarkar et Sreenivasa Rao,2014).

Ces performances sont dues à l’information supplémentaire intégrée dans l’estimateur

MMSE (par rapport à RATZ et SPLICE) et qui décrit la composante jointe entre la

dis-tribution des paramètres propres et bruitées.

Malgré l’amélioration significative de performances en utilisant ces algorithmes, ces

approches ne sont pas pratiques dans des applications réelles vu qu’elles supposent une

connaissance à priori des conditions acoustiques de test. Une base de données

stéréo-phonique est aussi requise pour pouvoir entraîner tous les modèles citées dans cette

sous-section.

Dans le document Reconnaissance du locuteur en milieux difficiles (Page 82-85)