• Aucun résultat trouvé

Performances en utilisant I-MAP

5.4 Un algorithme bayésien pour la compensation de variabilités nuisibles

5.4.5 Performances en utilisant I-MAP

Dans cette sous-section, les nouveaux i-vecteurs propres estimés (correspondant à

deux segments de test ou d’apprentissage) seront appelés vecteurs "I-MAP".

Les données d’apprentissage et de test ont été bruités par deux ensembles différents

de bruits :

— { bruit de nature, pluie et bruit d’un moteur } pour les sessions d’apprentissage.

— { bruit de climatiseur, bruit de voiture et bruit de foule } pour les sessions de test.

Les données ont été générés pour 4 niveaux de SNR différents : 0dB, 5dB, 10dB et 15dB.

Nous allons comparer dans cette section les performances des 4 systèmes :

Système de base :i-vecteurs bruités utilisés avec une PLDA propre (une

des-cription détaillée du système est donnée dans la section4.5).

Systèmemulti-style:i-vecteurs bruités utilisés avec un modèle PLDA entraîné

avec des données bruitées. Les données d’entraînement sont bruités avec les

bruits { applaudissements, sonnerie, bruit de fond d’une station de bus, bruit

de vagues et bruit de pluie } à des niveaux de SNR variant entre 0dB à 25dB (une

description détaillée du système est donnée dans la section4.5).

Système PLDA bruité : i-vecteurs bruités utilisés avec un modèle PLDA

en-traîné avec des données bruitées avec les bruits/SNRs des données de test (une

description détaillée du système est donnée dans la section4.5).

Système I-MAP : Vecteurs I-MAP utilisés avec un modèle de scoring propre

5.4. Un algorithme bayésien pour la compensation de variabilités nuisibles dans

l’espace des i-vecteurs

Nous présentons d’abord les performances du système en utilisant des données

d’apprentissage propres, puis nous présentons les résultats sur des données

hétéro-gènes (apprentissage et test bruité avec différents bruits et niveaux de SNR).

Performances du système en utilisant des données de test bruitées

Pour trois bruits différents de test, le tableau5.5 montre les performances des

sys-tèmes lorsqu’ils sont utilisés sur des données d’apprentissage propres et des données

de test bruitées.

TABLE5.5 –Performances des différents systèmes sur des données d’apprentissage propres et des

données de test bruitées.

EER

Condition de test Systèmede base Multi-styleSystème PLDA BruitéeSystème I-MAP

Bruit

de climatiseur

0dB 26.85 23.53 22.01 13.21

5dB 15.21 12.21 12.92 7.25

10dB 9.51 8.62 7.32 4.85

15dB 5.41 4.72 4.65 2.85

Bruit

de voiture

0dB 25.54 22.85 22.21 12.05

5dB 14.54 10.54 11.63 6.65

10dB 8.32 7.24 6.40 3.78

15dB 4.82 4.20 4.14 2.36

Bruit de foule

0dB 24.24 22.03 20.60 11.55

5dB 13.94 10.01 10.73 5.09

10dB 7.77 5.97 6.75 3.05

15dB 4.01 3.82 3.12 2.02

Lorsque la compensation I-MAP est utilisée, une amélioration relative variant entre

48% et 64% est observée, alors que le systèmemulti-styleest limité à un maximum de

28% d’amélioration relative par rapport au système de base. Le système PLDA bruité

surpasse le systèmemulti-style(atteignant 33% d’amélioration relative), mais donne des

résultats moins bons que ceux de I-MAP. Cependant, la construction d’un tel système

(PLDA bruité) nécessite un grand nombre de sessions d’entraînement, ceci n’est pas

pratique en particulier pour les applications réelles. D’un autre coté, I-MAP requiert

moins de sessions d’entraînement tout en donnant de meilleurs résultats (cependant,

I-MAP a un coût élevé en termes de temps de calcul). Cette expérience prouve

claire-ment le potentiel de notre méthode dans des conditions demismatchentre les conditions

Performances du système sur des données hétérogènes

Une autre expérience a été effectuée pour prouver la validité de cette technique

dans une situation où le niveau de bruit varie de façon aléatoire entre les segments

d’apprentissage et de test. Dans cette expérience, toutes les sessions d’apprentissage

et le test sont corrompues par un bruit choisi aléatoirement parmi les bruits suivants

{bruit de climatiseur, bruit de voiture et bruit de foule} avec un niveau de SNR choisi

au hasard entre 0dB à 20dB. Le tableau5.6montre les résultats obtenus avec les quatre

systèmes.

TABLE 5.6 –Comparaison de performance dans un contexte hétérogène. Toutes les sessions

d’ap-prentissage et le test sont corrompues par un bruit choisi aléatoirement parmi les bruits suivants {bruit de climatiseur, bruit de voiture et bruit de foule} avec un niveau de SNR choisi au hasard entre 0dB à 20dB.

EER

Système de base 29.65

Systèmemulti-style 23.12

Système PLDA bruité 20.72

I-MAP 16.27

En raison de la grande variabilité en termes de bruit et de niveau SNR, une

amélio-ration significative est observée dans cette condition en utilisant I-MAP sur les données

bruités avec un système de scoring appris sur des données propre comparé à un régime

de scoringmulti-style. En fait, cela montre les limites de lamulti-styleliés à sa propriété

de généralisation. Cela rend notre méthode plus efficace dans des conditions de test /

apprentissage inconnues car elle permet de s’adapter à tout bruit et niveau SNR présent

dans un segment de test.

Le système PLDA bruité surpasse le systèmemulti-style, mais ne peut pas être utilisé

dans des applications réelles, car il suppose une connaissance préalable sur les

condi-tions de test / apprentissage et nécessite l’ajout de bruit à un grand nombre de sessions

d’entraînement. La différence entre les deux systèmes (multi-styleet PLDA bruité) dans

cette expérience est que le premier est construit en utilisant des segments propres et

bruités affectés par des bruits qui ne figurent pas dans les conditions de test /

appren-tissage alors que le deuxième est construit en utilisant des bruits test / apprenappren-tissage à

différents niveaux de SNR. Ceci explique la différence entre leurs performances.

5.4.6 Performances sur SITW

Dans (Ben Kheder et al., 2016a), on a testé la procédure de débruitage I-MAP sur

l’ensemble de test de la base SITW. Dans cette expérience, l’ensemble I des données

de test de SITW décrits dans la section4.2 est utilisé. Cet ensemble correspond à des

données d’apprentissage et de test bruitées (SNR inférieurs à 10dB) de longues durées

5.5. Optimisation d’implémentation des méthodes de débruitage d’i-vecteurs pour

des systèmes réels

est appliqué (6000 i-vecteurs sont utilisés pour estimer f(X)et 500 pour estimer f(N)).

Enfin, le scoring est effectué avec le backend PLDA propre.

TABLE5.7 –Performances de I-MAP sur l’ensemble de test de SITW.

EER

Système de base 12.69

SystèmeMulti-style 10.58

I-MAP 6.34

Il est clair que I-MAP améliore considérablement les performances du système de

RAL pour atteindre 50% d’amélioration relative du EER sur les données de test

brui-tées par rapport aux performances du système de base. L’algorithme surpasse aussi le

systèmeMulti-style de 16% en gain relatif validant sa capacité à s’adapter aux

condi-tions acoustiques des segments de test. Ceci confirme l’efficacité de l’algorithme

pro-posé dans en présence de bruits réels.

Note :

La différence de gains obtenue entre les deux bases (NIST SRE 2008 et SITW)

peut être due plusieurs facteurs. En effet, les performances de l’algorithme I-MAP

dépendent de la qualité de la distribution de bruit estimée. Cette distribution

est construite en se basant sur des données bruitées artificiellement et peut ne

pas traduire fidèlement tous les effets induits par le bruit additif dans le cas des

bruits réels (exp : effet Lombard). Un autre facteur à considérer est aussi ledataset

mismatch

a

. Ce terme est généralement utilisé dans la littérature pour qualifier

ce problème qui peut survenir lors de l’utilisation d’une base de test différente

de celle utilisée pour entraîner le système. Cemismatchpeut se manifester sous

forme d’une différence de performances entre les deux bases en raison de leurs

propriétés acoustiques distinctes (types de microphones, différences de langues,

etc).

a. Le termeinter-dataset variability(Aronowitz,2014) est aussi utilisé au sein de la communauté de RAL.

5.5 Optimisation d’implémentation des méthodes de

débrui-tage d’i-vecteurs pour des systèmes réels