• Aucun résultat trouvé

Amélioration des performances de la reconnaissance automatique locuteur par des méthodes de fusion de

N/A
N/A
Protected

Academic year: 2021

Partager "Amélioration des performances de la reconnaissance automatique locuteur par des méthodes de fusion de "

Copied!
34
0
0

Texte intégral

(1)

MAGISTER Filière :

Systèmes Électroniques

Par : Mr. RAMOU Naim

Rapporteur : M. DJEDDOU Mustapha Chargé de cours/EMP.

Amélioration des performances de la reconnaissance automatique locuteur par des méthodes de fusion de

données

(2)

Introduction g´en´erale 1

I Reconnaissance automatique du locuteur 4

I.1 Reconnaissance automatique du locuteur . . . 5

I.1.1 La v´erification automatique du locuteur . . . 5

I.1.2 L’identification automatique du locuteur . . . 5

I.1.3 Param`etres MFCC . . . 5

I.2 Mesures de performances . . . 6

I.3 Les courbes DET . . . 6

I.4 Applications . . . 7

I.4.1 Contrˆole d’acc`es physique . . . 7

I.4.2 Applications dans le domaine criminalistique . . . 7

I.5 Mod´elisation par mixture de gaussiennes . . . 8

I.5.1 Apprentissage de l’UBM . . . 9

I.5.2 Mod´elisation du locuteur . . . 9

I.5.3 Adaptation MAP des param`etres de moyenne du GMM . . . 9

I.5.4 Test d’hypoth`ese bay´esien pour le mod`ele UBM . . . 10

I.5.5 V´erification du locuteur par GMM-UBM . . . 10

I.5.6 Identification du locuteur par GMM-UBM . . . 10

I.6 La normalisation des scores . . . 10

I.6.1 Z-norm . . . 11

I.6.2 T-norm . . . 12

I.6.3 H-norm . . . 13

I.6.4 Normalisation par le moment d’orde 3 ”skewness” . . . 13

I.7 Machines `a vecteurs de support(SVM) . . . 15

I.7.1 Construction de l’hyperplan optimal . . . 15

(3)

I.7.2 Cas de donn´ees lin´eairement s´eparables . . . 16

I.7.3 Cas des donn´ees non-lin´eairement s´eparables . . . 17

I.7.4 Exploitation du mod`ele g´en´erique pour la mod´elisation discrimi- nante des locuteurs . . . 17

I.8 La fusion des donn´ees . . . 19

I.8.1 Fusion par Moyenne Arithm´etique . . . 19

I.8.1.1 Fusion par Moyenne Geom´etrique . . . 20

I.8.1.2 Fusion par r´egression logistique objectif . . . 20

CONCLUSION G´EN´ERALE 22

R´EF´ERENCES BIBLIOGRAPHIQUES 26

LISTE DES COMMUNICATIONS 30

(4)

I.1 Extraction des param`etres MFCC . . . 5

I.2 Types d’erreurs dans un syst`eme RAL . . . 6

I.3 Exemple courbe DET . . . 7

I.4 Structure g´en´erale d’un syst`eme RAL `a base GMM-UBM. . . 8

I.5 Syst`eme RAL `a base GMM-UBM avec normalisation de type Znorm. . . . 11

I.6 Syst`eme RAL `a base GMM-UBM avec normalisation Tnorm. . . 12

I.7 Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm. . . 13

I.8 Histogramme des scores imposteurs et clients sans normalisation. . . 14

I.9 Distribution des scores du syst`eme RAL en HNORM / skewness. . . 14

I.10 Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm. . . 15

I.11 Structure g´en´erale d’un syst`eme SVM-GMM . . . 18

I.12 Les performances d’un syst`eme RAL `a base GMM-UBM et GMM-SVM . 18 I.13 Les performances d’un syst`eme RAL `a base fusion de donn´ee entre GMM- UBM et GMM-SVM . . . 19

I.14 Fusion par Moyenne Geom´etrique entre GMM-UBM et GMM-SVM . . . 20

I.15 Les performances d’un syst`eme RAL `a base fusion de donn´ee par r´egression logistique objectif . . . 21

(5)

INTRODUCTION

(6)

Introduction

L’automatisation des syst`emes d’authentification, en vue de leur d´eploiement `a grande

´echelle, constitue par cons´equent un enjeu important. Dans ce cadre, les syst`emes de Reconnaissance Automatique du Locuteur (RAL) s’appuient sur les caract´eristiques de la parole permettant de reconnaˆıtre les individus.

Les syst`emes de RAL actuels reposent majoritairement sur des approches probabilistes.

Parmi ces approches, les syst`emes ” ´etat de l’art ” sont g´en´eralement bas´es sur une mod´elisation des locuteurs par des mod`eles g´en´eratifs, comme les mod`eles `a m´elange de gaussiennes (GMM), associ´ee `a une repr´esentation du signal bas´ee sur des param`etres cepstraux (enveloppe spectrale `a court-terme). Les syst`emes les plus performants uti- lisent classiquement un mod`ele g´en´erique, ´egalement appel´e mod`ele du monde, ou UBM (Universal Background Model), pour repr´esenter le mod`ele du non-locuteur. Depuis quelques ann´ees, afin de r´epondre aux d´efis pr´esent´es pr´ec´edemment, les syst`emes de RAL ont ´evolu´e selon deux tendances :

– la premi`ere consiste `a mieux mod´eliser les variabilit´es des locuteurs et du canal de transmission survenant au cours d’enregistrements successifs. Ces m´ethodes ont n´ecessit´e l’incorporation de grandes quantit´es de donn´ees ainsi que l’augmentation de la complexit´e des mod`eles, afin de mod´eliser et de normaliser ces variabilit´es ; – la seconde tient `a la nature des syst`emes de RAL actuels qui associent g´en´eralement

une multitude de syst`emes diff´erents, chacun traitant d’une source d’information sp´ecifique ou apportant une nouvelle mani`ere de mod´eliser les locuteurs par l’adop- tion de classifieurs de nature diff´erente. Ainsi, la caract´erisation du locuteur par des informations linguistiques ou syntaxiques (comme les phon`emes ou le lexique utilis´e) et le d´eveloppement d’approches discriminantes pour la mod´elisation sont les th`emes r´ecurrents des travaux de recherche de la communaut´e. Le gain en performance est recherch´e par la fusion des informations nouvelles et compl´ementaires issues de ces diff´erentes approches, au prix d’un accroissement notable de la complexit´e. Il est en effet n´ecessaire, d’une part, de mettre au point s´epar´ement chacun des syst`emes, puis d’autre part, d’´elaborer des m´ethodes robustes de combinaison de l’information.

Cahier de charge Afin de concevoir un syst`eme de reconnaissance automatique de locuteur (RAL) aussi correct que possible, il convient : d’une part de comprendre en quoi

(7)

le signal de parole est r´eellement complexe, c’est `a dire connaˆıtre l’objet ou l’observa- tion d’entr´ee, d’autre part de d´efinir correctement la tˆache du syst`eme, c’est `a dire les contraintes impos´ees et les performances attendues. Ce travail s’appuyant sur diverses langages de programmation, divers axes de recherches et de d´eveloppement ont dus ˆetre d´efinis :

En rapport avec la reconnaissanceet et synth`ese vocale

– Conception du syst`eme de reconnaissance du locuteur `a base GMM/UBM (avec diff´erents type de normalisation )

– Conception du syst`eme de reconnaissance du locuteur hybride GMM/UBM et SVM pour diff´erents noyaux.

– Fusion des donn´ees entre les deux syst`emes (moyenne arithm´etique, g´eom´etrique et r´egression logistique).

En rapport avec les langages de programmation Utilisation IDE ECLIPSE sous le syst`eme d’´exploitation Linux (ubuntu) avec deux langages de programmation

– C++ pour g´en´erer les ex´ecutables de chaque module de syst`eme RAL

– JAVA pour Cr´eer une interface graphique capable d’une part d’acqu´erir un signal audio et d’autre part de faire analyser celui-ci pour identifie ou v´erifier le locuteur.

(8)

CHAPITRE I

RECONNAISSANCE AUTOMATIQUE

DU LOCUTEUR

(9)

I.1 Reconnaissance automatique du locuteur

La reconnaissance automatique du locuteur consiste `a reconnaˆıtre l’identit´e d’un in- dividu `a partir de sa voix [2]. Les applications des syst`emes de RAL se distinguent par leur contexte applicatif et leur niveau de s´ecurit´e. Ces contraintes peuvent ˆetre prises en compte pour la d´efinition d’une tˆache sp´ecifique de la RAL. Il est commun´ement admis de regrouper ces tˆaches dans des grandes cat´egories : identification, v´erification.

I.1.1 La v´erification automatique du locuteur

Il s’agit de d´eterminer si le locuteur est bien celui qu’il ou elle fait valoir.

I.1.2 L’identification automatique du locuteur

Etant donn´e une liste connue de locuteur, l’identit´e de la voix entrante peut ˆetre iden-´ tifi´ee.

I.1.3 Param`etres MFCC

Le d´eveloppement des MFCC (voir Figure I.1) est obtenu `a la suite d’une s´erie d’´etapes dont les plus importantes sont :

Figure I.1 — Extraction des param`etres MFCC

l’´echantillonnage, la pr´eaccentuation, le fenˆetrage, la transform´ee rapide de Fourier, le calcul des coefficients mel et la convolution cosinuso¨ıdale.

(10)

I.2 Mesures de performances

Les performances d’un syst`eme de VAL s’´evaluent en fonction de deux taux d’erreurs.

La probabilit´e de faux rejets (FR) ou de rejet du client `a l’identit´e proclam´ee et la pro- babilit´e de fausses acceptations (FA) ou d’acceptations d’impostures (figure I.2).

Figure I.2 — Types d’erreurs dans un syst`eme RAL

I.3 Les courbes DET

La repr´esentation la plus commun´ement utilis´ee pour ´evaluer la pertinence du seuil de d´ecision en fonction de ces deux taux d’erreurs est la courbe DET (Detection Error Tra- deoff [12]) figure I.3. La courbe DET permet d’´evaluer, pour chaque seuil de v´erification, les valeurs du couple (FA, FR). La figure I.3 illustre un exemple de courbe DET.

(11)

Probabilité de fausse alarme

Probabilitédemiss

Figure I.3 — Exemple courbe DET

I.4 Applications

On peut distinguer plusieurs profils d’applications de la reconnaissance automatique du locuteur : le contrˆole d’acc`es physique, la s´ecurisation de transactions `a distance, l’organisation de l’information sonore et enfin les applications criminalistiques.

I.4.1 Contrˆole d’acc`es physique

Les applications de types contrˆoles d’acc`es physiques sont les applications n´ecessitant la pr´esence effective de l’utilisateur devant le syst`eme pour r´ealiser l’op´eration souhait´ee, celle-ci n´ecessitant une interaction mat´erielle en un endroit pr´ecis.

I.4.2 Applications dans le domaine criminalistique

Un volet que nous n’avons pas encore ´evoqu´e est l’utilisation de la RAL dans les domaines judiciaires ou criminalistique. L’utilisation de la reconnaissance automatique du locuteur dans ce domaine peut aller jusqu’`a l’orientation d’une enquˆete, la recherche de suspects ou la constitution d’´el´ements de preuves.

(12)

I.5 Mod´elisation par mixture de gaussiennes

La structure g´en´erale d’un syst`eme RAL `a base GMM-UBM est illustr´ee dans La figure 1. Apr`es l’extraction des param`etres, l’apprentissage n´ecessite la construction pr´ealable

Figure I.4 — Structure g´en´erale d’un syst`eme RAL `a base GMM-UBM.

d’un mod`ele g´en´erique UBM. L’UBM est adapt´e sur les donn´ees d’apprentissage d’un locuteur pour estimer les param`etres du mod`ele sp´ecifique `a ce locuteur. Lors du test de v´erification, le calcul de score fait intervenir l’UBM et le mod`ele correspondant `a l’identit´e proclam´ee (correspondant au segment de test). La d´ecision rejet/acc`es est prise par rap- port `a ce score. La densit´e de probabilit´e d’une mixture de gaussiennes `aN composantes pour une variable al´eatoire x s’exprime sous la forme suivante :

p(x/Θ) = XN

i=1

γiN(x;µi,Σi) (I.1)

sous la contrainte P

iγi = 1 et ∀i : γi 0. γ est le vecteur de poids de la mixture, N(x;µ,Σ) est la loi gaussienne de moyenne µ et de variance Σ, Θ = [µ,Σ, γ]T est le vecteur de param`etre global du GMM. Si x est de dimension d alors, une mixture de gaussienne est param´etr´ee N*d param`etres de moyennes, N∗d2 param`etres de variance, et N param`etres de poids. La densit´e d’une distribution normale de dimensions d est exprim´ee par :

N(x;µ,Σ) = 1

(2/pi)d/2|Σ|1/2exp[−1

2(x−µ)TΣ−1(x−µ)] (I.2) Pour calculer la vraisemblance d’une s´equenceX = [x1...xT], pour un mod`ele param´etr´e par Θ, le logarithme est g´en´eralement utilis´e en consid´erant l’ind´ependance des r´ealisations de la s´equence d’apprentissage. Posons la notation log(p(.)) =`(.), alors

(13)

logp(X|Θ) =`(X|Θ) = XT

t=1

Log XN

i=1

γiN(x;µi,Σi) (I.3)

L’apprentissage d’un GMM est g´en´eralement r´ealis´e avec l’algorithme EM [14].

I.5.1 Apprentissage de l’UBM

Pour la construction du mod`ele UBM, plusieurs approches peuvent ˆetre employ´ees.

L’approche la plus simple est de collecter toutes les donn´ees d’apprentissage pour former un seul mod`ele (UBM) `a l’aide de l’algorithme EM. Mais il faut faire un ´equilibrage entre les sous populations pendant le choix des donn´ees. Par exemple, si on employ´e des donn´ees ind´ependantes du genre, on devrait ˆetre sˆur qu’il y a un ´equilibre des discours masculins et f´eminins. Autrement, le mod`ele final sera d´ecentr´e vers la sous population dominante, le mod`ele du monde repr´esente les conditions d’enregistrement, l’environnement, le type et la qualit´e de parole, produits dans la phase d’apprentissage. Ce mod`ele g´en´eraliste est appris en utilisant une heure `a deux heures de signal audio provenant de multiples locuteurs, Le nombre de composantes utilis´e varie de 512 `a 2048.

I.5.2 Mod´elisation du locuteur

La mod´elisation du locuteur en RAL diff`ere de l’estimation du mod`ele UBM car les donn´ees disponibles ne sont pas en quantit´e suffisante pour estimer les param`etres du mod`ele si le nombre de composantes est ´elev´e. Les m´ethodes dites d’adaptation per- mettent d’estimer de mani`ere robuste des mod`eles sp´ecifiques au locuteur en ajoutant de l’information a priori sur la distribution des param`etres. Les techniques essentielles les plus utilis´ees en RAL sont largement tir´ees de l’adaptation bay´esienne, particuli`erement celle du MAP (maximum a posteriori) [17].

I.5.3 Adaptation MAP des param`etres de moyenne du GMM

La m´ethode d’adaptation la plus utilis´ee en RAL est celle du maximum a posteriori.

Elle consiste `a d´efinir des distributions a priori p(Θ) pour les param`etres du mod`ele et

`a maximiser leurs probabilit´es a posteriori p(Θ|X) sur un signal d’apprentissage X. Le crit`ere d’adaptation pour l’estimation des nouveaux param`etres s’´ecrit comme suit :

Θ = arg maxˆ

Θ p(Θ|X) = arg max

Θ p(X|Θ)p(Θ) (I.4)

(14)

I.5.4 Test d’hypoth`ese bay´esien pour le mod`ele UBM

Le rˆole de l’UBM tient `a la mod´elisation de l’hypoth`ese inverse dans la strat´egie de d´ecision. La mod´elisation de l’hypoth`ese inverse se fait grˆace `a la construction d’un mod`ele universel appel´e mod`ele du monde, ou UBM, et d´enot´eW. Pr´ecis´ement, siS et ¯S repr´esentent respectivement le mod`ele du locuteur et celui du non-locuteur et soit X un segment de test dont l’identit´e proclam´ee correspond `aS, alors le rapport de vraisemblance est donn´e par :

LR(X, H0, H1) = LR(X, S, W) = p(X|S)

p(X|S)¯ ' p(X|S)

p(X|W) (I.5)

I.5.5 V´erification du locuteur par GMM-UBM

Le score de v´erification correspondant `a la vraisemblance d’une s´equence de donn´ees de test X = [x1...xt]T sur un mod`ele de locuteur S est exprim´e sous la forme de l’esp´erance du logarithme du rapport de vraisemblance sur toutes les trames du segment de test.

Pr´ecis´ement :

ys(X) = 1 T

X

i

log p(Xt|S)

p(Xt|W) (I.6)

o`u p(xt|S) et p(xt|W) sont les vraisemblances du vecteur cepstral xt respectivement sur le mod`ele du locuteur S et sur le mod`ele du monde W.

I.5.6 Identification du locuteur par GMM-UBM

Pour la phase de l’identification, le proc´edure est la mˆeme que le GMM sauf que le mod`ele de chaque locuteur l est donn´e par l’adaptation bay´esienne des param`etres du mod`ele du monde utilisant les signaux d’apprentissage sp´ecifique `a chaque locuteur. Donc, l’objectif est de trouver le mod`ele qui donne la probabilit´e maximale pour une s´equence d’observation donn´ee :

log Λ = 1 T

XT

t=1

logp(xtT ar) 1 T

XT

t=1

logp(xtU BM) (I.7) I.6 La normalisation des scores

La variabilit´e du canal de transmission est un facteur important de perte de perfor- mance en VAL [28]. Elle est souvent nomm´ee variabilit´e inter-session, car c’est la diff´erence de contexte entre plusieurs enregistrements qui la caract´erise. Les diff´erences de contexte d’enregistrement entre les sessions de test et d’apprentissage introduisent des disparit´es entre les donn´ees. Pour renforcer la robustesse d’un syst`eme de RAL, des techniques de

(15)

compensation au niveau des scores ont ´et´e propos´ees. La normalisation de scores a pour but de proposer un score optimal pour chaque locuteur, la Z-norm[2], pour chaque tests, la T-norm [29], pour chaque type de combin´e, H-norm.

Les techniques de normalisation sont essentiellement bas´ees sur l’analyse des distribu- tions de scores clients et imposteurs du syst`eme de VAL. elles consistent `a retrancher la moyenne de la distribution des scores imposteurs aux scores de v´erification, puis `a les diviser par la variance :

ScoreN orm= Score−µimp σimp

(I.8) µimp etσimp sont respectivement la moyenne et la variance des scores imposteurs.

I.6.1 Z-norm

Figure I.5 — Syst`eme RAL `a base GMM-UBM avec normalisation de type Znorm.

L’utilisation de la Z-normalisation a permet d’apporter un gain de 91% de classification correcte `a ´egale erreur (P F A=P M).

(16)

I.6.2 T-norm

Figure I.6 — Syst`eme RAL `a base GMM-UBM avec normalisation Tnorm.

Un gain significatif 92% de classification correcte `a ´egale erreur (P F A = P M), donc la T-norm permet de compenser les variations de conditions d’enregistrements observ´ees dans les tests.

(17)

I.6.3 H-norm

Figure I.7 — Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm.

Les r´esultats de la figure I.7 montrent une am´elioration l´eg`ere des performances du syst`eme 90% de classification correcte `a ´egale erreur (P F A = P M), `a cause de la sup- pression des effets du combin´e.

I.6.4 Normalisation par le moment d’orde 3 ”skewness”

En observant les distributions des scores obtenus figure I.8, nous avons remarqu´es qu’

il y a une asym´etrie des distributions, ainsi on se propose de faire une transformation sur les scores pour enlever la valeur de skewness et observ´e l’´effet sur les performance du syst`eme.

Le coefficient de Skewness mesure le degr´e d’asym´etrie de la distribution. Il est d´efinit comme :

S = [E(X−µ)]3 [p

(X−µ)2]3 (I.9)

On applique ce moment sur les scores imposteurs de type carbon et electret pour calculer le Skecar etSkeelec, puis on fait une transformation de type Log comme le montre l’´equation suivante :

Ss =S+ (1/skeα)log(S/skeα) (I.10)

(18)

-1 0 1 2 3 4 5 6 0

50 100 150 200 250 300 350 400 450

Scores

Nombred’occurrence

Figure I.8 — Histogramme des scores imposteurs et clients sans normalisation.

O`u α d´esigne le type carbon ou electret suivant le type du signal de test. la figure I.9 montre l’histogramme des distributions des scores client et imposteur pour le syst`eme de base apr´es normalisation Hnorm et apr´es l’application de la correction de Skewnnes :

-3 -2 -1 0 1 2 3 4 5

0 100 200 300

Scores

Nombred’occurrence

-3 -2 -1 0 1 2 3

0 100 200 300 400

Scores

Nombred’occurrence

Figure I.9 — Distribution des scores du syst`eme RAL en HNORM / skewness.

Pour bien distinguer l’effet de cette technique sur notre syst`eme on a trac´e les courbes de DET comme le montre la figure I.10

(19)

Figure I.10 — Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm.

La figure I.10 montre une am´elioration du syst`eme. Ce gain a attient des performances satisfaisantes de 90% de classification correcte `a ´egale erreur (P F A=P M).

I.7 Machines `a vecteurs de support(SVM)

Les machines `a support de vecteurs est une nouvelle technique discriminante dans la th´eorie de l’apprentissage statistique propos´ee par V.Vapnick [23]. Elle permet d’aborder des probl`emes tr`es divers comme la classification, la r´egression, la fusion, etc.

Le principe de cette technique est de projeter les donn´ees de l’espace d’entr´ee (apparte- nant `a deux classes diff´erentes non-lin´eairement s´eparables) dans un espace de plus grande dimension appel´e espace de caract´eristiques. Dans cet espace, on construit un hyperplan optimal s´eparant les deux classes tel que :

– Les vecteurs appartenant aux diff´erentes classes se trouvent de diff´erents cˆot´es de l’hyperplan,

– la plus petite distance entre les points et l’hyperplan ( la marge ) est maximale.

I.7.1 Construction de l’hyperplan optimal

Dans ce paragraphe, on pr´esente la m´ethode g´en´erale pour la construction d’un hy- perplan optimal qui s´epare deux classes [25]. Pour cela on suppose qu’on a une base de

(20)

donn´ees D de m points d’un espace de dimension p appartenant `a deux classes diff´erentes qu’on notera la classe 1 et la classe −1.

D= (xi, yi|xi)²<p;yi²1,−1;i= 1, ...., m (I.11) I.7.2 Cas de donn´ees lin´eairement s´eparables

Dans ce cas, tout hyperplan H :(w.x) +b s´eparant les deux classes satisfait la condition suivante :

yi((w.xi) +b) pour i= 1, ...., m (I.12) Maximiser la marge M (la plus petite distance entre les donn´ees des deux classes et l’hyperplan) est ´equivalent `a maximiser la somme des distances des classes par rapport `a l’hyperplan. La marge `a donc l’expression math´ematique suivante :

M = min

xi|yi=1

w.x+b kwk max

xi|yi=−1

w.x+b kwk = 2

kwk (I.13)

Par cons´equent, l’hyperplan optimal d´efini par (w0, b0) est celui qui satisfait la condition (I.12) et qui minimise Φ(w) d´efinie par :

Φ(w) = kwk2

2 (I.14)

En utilisant les multiplicateur de Lagrange et le th´eor`eme de Kuhn-Tucker, le probl`eme se transforme au probl`eme dual suivant : Maximiser :

L(w, b, α) = Xm

i=1

αi1 2(

Xm

i,j=1

αiαjyiyjxixj) (I.15) sous la contrainte : m

X

i=1

αiyi = 0 ; αi 0 (I.16)

Soit la solution α˚= (α˚

1, ..., α˚

m). D’apr`es le th´eor`eme de K¨uhn-Tucker [21], une condi- tion n´ecessaire et suffisante pour que α˚ soit optimal est :

α˚

iyi[(w0.x) +b0]1 = 0 pour i= 1, ...., M (I.17) Cela veut dire que : α˚

i = 0 ou yi[(w0.x) +b0] = 1. Ainsi on d´efinit les Vecteurs Supports VS par les xi tels que yi[(w0.x) +b0] = 1 , ce qui est ´equivalent :V S =xi tel que αi >0.

Ces vecteurs se placent g´eom´etriquement comme les plus proches de l’hyperplan optimal qui s´epare les deux classes. La normale w0 est calcul´ee par :

w0 =X

V S

α˚

iyixi (I.18)

(21)

Le biais b0 est calcul´e par la formule suivante : b0 =1

2[(w0.x(1)) + (w˙ 0.x(−1))]˙ (I.19) O`u x(1) est un vecteur support de la classe1,et˙ x(−1) un vecteur support de la classe˙

−1. La fonction de classification, classe(x), est ´egale `a : classe(x) = sign(w0.x+b0) si classe(x) est inf´erieur `a 0 alors x est de la classe −1 sinon il est de la classe 1.

I.7.3 Cas des donn´ees non-lin´eairement s´eparables

Dans le cas o`u les donn´ees ne sont pas lin´eairement s´eparables, l’hyperplan optimal s´eparant les deux classes est celui qui s´epare les donn´ees avec le minimum d’erreurs, et donc celui qui satisfait les contraintes suivantes :

– la distance entre les vecteurs bien class´es et l’hyperplan doit ˆetre maximale, – la distance entre les vecteurs mal class´ees et l’hyperplan doit ˆetre minimale.

Pour formaliser cela, on introduit des variables de p´enalit´e non-n´egatives, εi pour i = 1, ...., m appel´es variables d’´ecart. Ces variables transforment l’in´egalit´e (I.12) comme suit :

yi((w.xi) +b)≥1−εi pour i= 1, ...., m (I.20) et on essaye de minimiser la fonction suivante :

Φ(w, ε) = kwk2 2 +C

Xm

i=1

εi (I.21)

Ou C est un param`etre de r´egularisation. Celui-ci permet de conc´edera plus ou moins d’importance aux erreurs. Cela m`ene a un probl`eme dual l´eg`erement diff´erent de celui du cas s´eparable. Dans le cas non-lin´eairement s´eparables, il faut maximiser L(α, w, b) par rapport a α sous les contraintes suivantes :

Xm

i=1

αiyi = 0 ; 0≤αi ≤C pouri= 1, ..., m (I.22) Le calcul de la normale w0, le biais b0 et la fonction de classification classe(x) reste exactement le mˆeme que dans le cas lin´eaire.

I.7.4 Exploitation du mod`ele g´en´erique pour la mod´elisation discriminante des locuteurs

L’approche majoritairement utilis´ee en RAL est bas´ee sur les mod`eles g´en´eratifs pour repr´esenter le locuteur. L’utilisation du paradigme GMM-UBM [7] apparaˆıt maintenant

(22)

comme une ´etape indispensable pour obtenir des performances proches de l’´etat de l’art dans des campagnes d’´evaluation internationales telles que les campagnes NIST-SRE. Ces derni`eres ann´ees ont vu l’apparition d’approches discriminantes bas´ees sur l’utilisation des machines `a vecteurs supports (SVM).

úú ú û ù

êê ê ë é

mn

m M Adaptation 1

MAP

Cible

Non-Cible SVM locuteur

Apprentissage SVM

å S-

=

i

i b i t

i a i b

a g

g

K ,

1

) ,

,

( hm m

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

lubm

Locuteurs

Noyau

Adaptation MAP

lubm

Score SVM

Modèle SVM

Décision úú

ú û ù êê ê ë é

mn

m M

1

Test

Figure I.11 — Structure g´en´erale d’un syst`eme SVM-GMM

Figure I.12 — Les performances d’un syst`eme RAL `a base GMM-UBM et GMM- SVM

Il est int´eressant de remarquer que la combinaison permet d’am´eliorer les performances du syst`eme, les r´esultats de la figure I.12 sont en faveur du syst`eme GMM-SVM puisqu’un

(23)

gain d’environ 6% est apport´e.

I.8 La fusion des donn´ees

R´ecemment, de nouvelles techniques sont apparues en vue d’augmenter la robustesse des syst`emes de reconnaissance, leur caract´eristique commune est l’utilisation de plusieurs classificateurs qui sont recombin´es aux niveaux de diff´erents niveaux de traitement pour prendre une d´ecision finale (La fusion de donn´ees), Ces r´ecentes techniques sont divis´ees en deux approches :

I.8.1 Fusion par Moyenne Arithm´etique

Pour fusionner des scores, une approche commun´ement utilis´ee consiste simplement `a moyenner les scores des L experts pour prendre la d´ecision d’acceptation ou de rejet. La

Figure I.13 — Les performances d’un syst`eme RAL `a base fusion de donn´ee entre GMM-UBM et GMM-SVM

figure I.13 illustre les performances des deux syst`emes GMM/SVM et GMM/UBM `a l’aide d’une courbe DET, La combinaison des deux syst`emes `a l’aide d’une fusion arithm´etique montre un gain significatif compar´e au syst`eme GMM/UBM.

(24)

I.8.1.1 Fusion par Moyenne Geom´etrique

Cette m´ethode de fusion sert `a fusionner les scores de deux syst`emes ou plusieurs suivant l’´equation indiquer ci dessous :

pour tout entier T et tout score S = (S1, ...ST) on a : Sf usion= (

Yn

j=1

xj)1n (I.23)

Figure I.14 — Fusion par Moyenne Geom´etrique entre GMM-UBM et GMM-SVM

En effet, d’apr´es la figure I.14 arrive `a classifier les fichiers tests avec un taux de classifi- cation correct 97% `a ´egale erreur (P F A=P M)

I.8.1.2 Fusion par r´egression logistique objectif

La r´egression logistique [33] est une technique statistique qui `a pour objectif d’estimer des scores par apprentissage supervis´e, il s’agit d’une fusion simultan´ee des scores de multiples sous-syst`emes, principalement pour am´eliorer la capacit´e de classifieur.

(25)

Figure I.15 — Les performances d’un syst`eme RAL `a base fusion de donn´ee par r´egression logistique objectif

Le meilleur r´esultat est obtenu pour la fusion optimale comme le montre la figure I.15 mais la difficult´e r´eside dans l’apprentissage de cette fusion. Ces m´ethodes sont tr`es populaires, mais l’inconv´enient qui en r´esulte est que les ressources `a mettre en oeuvre peuvent ˆetre multipli´ees par le nombre de syst`emes `a fusionner.

(26)

CONCLUSION

(27)

Conclusions

La Reconnaissance Automatique du Locuteur (RAL) consiste `a confirmer ou infirmer l’identit´e proclam´ee d’un individu par sa voix. Les travaux pr´esent´es dans cette th`ese s’inscrivent dans le cadre de cette tˆache et sont orient´es autour de trois axes principaux :

La normalisation des scores qu’est une m´ethode performante, simple `a mettre en oeuvre mais tr`es coˆuteuse parce qu’elle implique une ´etape d’essais pour calculer les param`etres de normalisation. Son apport est significatif comme il est montr´e dans les exp´eriences r´ealis´ees le long de ce travail, elle est devenu maintenant indissociable d’un syst`eme de RAL. Les r´esultats obtenus par ces techniques de normalisation sont meilleurs que celles du syst`eme de r´ef´erence GMM-UBM

L’int´egration du mod`ele g´en´erique utilis´e dans la mod´elisation g´en´erative au sein des nouveaux formalismes apparus ces derni`eres ann´ees : les syst`emes bas´es sur une mod´elisation discriminante des locuteurs. Les syst`emes de cette cat´egorie utilisent g´en´eralement le formalisme des machines `a vecteurs supports (SVM). Les syst`emes r´ecents de reconnaissance du locuteur associent en g´en´eral un reconnaisseur g´en´eratif de type GMM-UBM et un autre de type SVM. Les contributions apport´ees dans ce document s’inscrivent dans cette d´emarche, mais en essayant d’unifier les diff´erents formalismes et de simplifier la structure globale du syst`eme, en int´egrant le mod`ele g´en´erique `a ce syst`eme discriminant. Les r´esultats montrent que les performances de notre syst`eme hybride sont meilleurs que celles du syst`eme de r´ef´erence bas´e sur la technique GMM-UBM avec normalisation des scores.

La fusion Ce travail a principalement consist´e en l’introduction de la fusion en scores pour l’identification et la v´erification automatique du locuteur. Les approches de fusion propos´ees dans ce travail sont les plus r´epandues, car les plus simples `a mettre en oeuvre, peuvent aussi conduire `a des performances plus robuste. Nous avons d’ailleurs r´ealis´e des exp´eriences dans ce sens, o`u l’am´elioration des performances r´esultat de la fusion des scores d’un syst`eme GMM-UBM et du GMM-SVM ´etait significative, le taux de reconnaissance correct `a ´egale erreurs a attient 97%.

(28)

La derni`ere partie de ce travail de th`ese a ´et´e consacr´ee `a la cr´eation d’une interface graphique pour faciliter aux utilisateurs la manipulation des diff´erentes taches de l’application, acqu´erir un signal audio, analyser celui-ci pour identifier ou v´erifier le locuteur.

(29)

Perspectives

Comme perspectives, nous proposons :

– Etude et implementation des m´ethodes de compensation des effets du canal t´el´ephonique.

– Utilisation d’autres m´ethodes de fusion de donn´ees.

– Concevoir un syst`eme d’identification en temps r´eel.

– Reconnaissance d’un locuteur par surveillance d’une ligne t´el´ephonique.

(30)

[1] R. Bolle et S. Pankanti. Biometrics, Personal Identification in Networked Society : Personal Identification in Networked Society. Norwell, MA, USA : Kluwer Academic Publishers, 1998.

[2] G. R. Doddington. Speaker recognition. identifying people by their voices. Dans IEEE transactions, 1985.

[3] D. A. Reynolds, Speaker identification and verification using gaussian mixture spea- ker models, Speech Communication, vol. 17(1-2), pp. 91-108, 1995.

[4] H. Hermansky. Perceptual linear predictive (PLP) analysis of speech. The Journal of the Acoustical Society of America, 1990.

[5] S.B. DAVIS et P.MERMELSTEIN. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IN Proceedings of the ICASSP,

[6] J.-F. Bonastre, N. Scheffer, C. Fredouille, et D. Matrouf, 2004. NIST’04 speaker re- cognition evaluation campaign : new lia speaker detection plateform based on ALIZE toolkit. Dans les actes de NIST SRE’04 Workshop : speaker detection evaluation cam- paign, 2004.

[7] D. A. Reynolds et R. C. Rose. Robust text-independent speaker identification using Gaussian Mixture speaker Models. Speech and Audio Processing, IEEE Transactions, 1995.

[8] A. E. Rosenberg et F. K. Soong. Advances in Speech Signal Processing, Chapter Recent Research in Automatic Speaker Recognition, 1992

[9] F. Soong, A. Rosenberg, L. Rabiner, et B. Juang. A vector quantization approach to speaker recognition. Dans les actes de ICASSP, Volume 10, 1985.

(31)

[10] V.Wan etW. M. Campbell. Support vector machines for speaker verification and identification. Dans les actes de Neural Networks for Signal Processing, Volume 2, 2000.

[11] W. M. Campbell, D. E. Sturim, D. E. Sturim, D. A. Reynolds, et D. A. Reynolds.

Support vector machines usingGMMsupervectors for speaker verification. Signal Pro- cessing Letters, IEEE 13(5), 2006.

[12] A. F. Martin et M. A. Przybocki. The DET curve in assessment of detection task performance. Dans Proceedings of European Conference on Speech Communication and Technology (Eurospeech 97), 1997.

[13] D. A. Reynolds, Speaker identification and verification using gaussian mixture spea- ker models. Dans Speech Communication, 1995.

[14] A. P. Dempster, N. M. Laird, et D. B. Rubin, ”Maximum-likelihood from incomplete data via the EM algorithm”. Dans Journal of Acoustical Society of America JASA, 1977.

[15] I. Magrin Chagnolleau, J. Wilke, F. Bimbot, Further investigation on AR-vector mo- dels for text-independent speaker identification, International Conference on Acous- tics, Speech, and Signal Processing (ICASSP), pp. 401-404, Atlanta (USA), 1996.

HMM

[16] L. R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition, IEEE transactions Speech Audio Processing, vol. 77(2), pp. 257- 285, 1989.

[17] J. L. Gauvain et C. H. Lee, Maximum a posteriori estimation for multivariate gaus- sian mixture observations of markov chains. Dans IEEE Transactions on Speech and Audio Processing, 1994.

[18] J. De Veth, H. Bourlard, Comparison of hidden Markov model techniques for automa- tic speaker verification, Workshop on Automatic Speaker Recognition, Identification, Verification, pp. 11-14, Avril 1994, Martigny (Suisse).

[19] D. A. Reynolds, T.F. Quatieri, R. B. Dunn, Speaker verification using adapted gaus- sian mixture models , Digital Signal Processing Journal, 2000.

[20] R. Auckenthaler, J. S. Mason Score normalisation for text-independent speaker veri- fication systems Digital Signal Processing Journal, 2000.

(32)

[21] D. A. Reynolds, T. F. Quatieri, R. B. Dunn, Speakerverification using adapted Gaus- sian mixture models, Digital Signal Processing (DSP), a review journal-Special issue on NIST 1999 speaker recognition workshop, 10(1-3), 2000.

[22] M. J. Carey et E. S. Parris. Speaker verification using connected words. Dans Pro- ceedings of Institute of Acoustics, 1992.

[23] V. N. Vapnik. Statistical Learning Theory. Wiley, 1998.

[24] C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition.Data Mining and Knowledge Discovery , 1998.

[25] N. Cristianini et J. Shawe-Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000.

[26] M. A. Aizerman, E. M. Braverman, and L. I. Rozomer, Theoretical foundations of the potentiel fonction method in pattern recognition learning, In Automation and Remote Contol,

[27] R. Courant and D. Hilbert. M´ethods of Mathematical Physics, Inter-science, 1953.

[28] M. Bin, H. Meng, et M. Man-Wai. Effects of device mismatch, language mismatch and environmental mismatch on speaker verification. Dans les actes de ICASSP, 2007.

[29] R. Auckenthaler, M. Carey, et H. Lloyd-Thomas. Score normalization for text- independent speaker verification systems. Digital Signal Processing (DSP), a review journal - Special issue on NIST 1999 speaker recognition workshop, 2000.

[30] A. Rosenberg. The use of cohort normalized scores for speaker verification. Dans les actes de ISCLP, 1992.

[31] R. Courant and D. Hilbert. M´ethods of Mathematical Physics, Inter-science, 1953.

[32] Anil Jain, Karthik Nandakumar, Arun Ross,Score normalization in multimodal bio- metric systems, PATTERN RECOGNITION, The journal of the pattern recognition society, 2005.

[33] N. Brummer. Focal, tools for fusion and calibration of automatic speaker detection systems, 2005.

[34] J.-F. Bonastre, N. Scheffer, D. Matrouf, C. Fredouille, A. Larcher, A. Preti, G. Pou- choulin, N. Evans, B. Fauve, and J. S. Mason. ALIZE/SpkDet : a state-of-the-art open source software for speaker recognition. The Speaker and Language Recogni- tion Workshop, 2008.

(33)

[35] Site web, http :// www.nist.com..

[36] Site web, http ://gforge.inria.fr/projects/spro.

[37] http :Site web, //www.csie.ntu.edu.tw/ cjlin.

(34)

Liste des communications

1. N. RAMOU, M. Djeddou, ”D´etection de genre et technique de normalisation des scores pour la v´erification du locuteur”, premi`ere conf´erence international de ” IMAGE AND SIGNAL PROCESSING AND THEIR APPLICATIONS ”, ISPA OCT 2009, Universit´e Abdelhamid Ibn Badis, Mostaganem, 19-20-21 OCT 2009.

Références

Documents relatifs

Abstract : Dans le cadre de ce travail de thèse, nous nous intéressons au problème d’amélioration des performances de reconnaissance automatique de locuteur en mode indépendant

L’impact de différents paramètres sur la reconnaissance a été testé : le nombre d’états des HMM, les paramètres MFCC, la probabilité d’apparition d’un silence, ainsi

Third, Monte-Carlo simulations show that all our GMM-based tests have good properties in terms of power, especially in small samples and for a 5% coverage rate (95% interval

Notion de fichier Ouverture de fichier R´ epertoires Syst` eme de fichiers Conclusion Rˆ ole dans l’OS File Control Block Op´ erations.. Syst` eme de fichiers Partie visible

For that purpose, we first propose a new GMM training and decoding criterion called log-likelihood integration which, as opposed to the con- ventional likelihood integration

The simulation results suggest that the indirect CGMM procedure makes an e¢cient use of the information content of moment restrictions.. Keywords: Conditional moment

Dans un travail pr´ec´edent, nous avons propos´e un algorithme d’apprentissage discriminant des GMM (`a matrices de covariance diagonales) minimisant une fonction de perte `a

For unlock pattern based systems, the concerned biometric data is the dynamic pattern, and the extracted features (see Section 3) are stored in the mobile phone memory.. In the