MAGISTER Filière :
Systèmes Électroniques
Par : Mr. RAMOU Naim
Rapporteur : M. DJEDDOU Mustapha Chargé de cours/EMP.
Amélioration des performances de la reconnaissance automatique locuteur par des méthodes de fusion de
données
Introduction g´en´erale 1
I Reconnaissance automatique du locuteur 4
I.1 Reconnaissance automatique du locuteur . . . 5
I.1.1 La v´erification automatique du locuteur . . . 5
I.1.2 L’identification automatique du locuteur . . . 5
I.1.3 Param`etres MFCC . . . 5
I.2 Mesures de performances . . . 6
I.3 Les courbes DET . . . 6
I.4 Applications . . . 7
I.4.1 Contrˆole d’acc`es physique . . . 7
I.4.2 Applications dans le domaine criminalistique . . . 7
I.5 Mod´elisation par mixture de gaussiennes . . . 8
I.5.1 Apprentissage de l’UBM . . . 9
I.5.2 Mod´elisation du locuteur . . . 9
I.5.3 Adaptation MAP des param`etres de moyenne du GMM . . . 9
I.5.4 Test d’hypoth`ese bay´esien pour le mod`ele UBM . . . 10
I.5.5 V´erification du locuteur par GMM-UBM . . . 10
I.5.6 Identification du locuteur par GMM-UBM . . . 10
I.6 La normalisation des scores . . . 10
I.6.1 Z-norm . . . 11
I.6.2 T-norm . . . 12
I.6.3 H-norm . . . 13
I.6.4 Normalisation par le moment d’orde 3 ”skewness” . . . 13
I.7 Machines `a vecteurs de support(SVM) . . . 15
I.7.1 Construction de l’hyperplan optimal . . . 15
I.7.2 Cas de donn´ees lin´eairement s´eparables . . . 16
I.7.3 Cas des donn´ees non-lin´eairement s´eparables . . . 17
I.7.4 Exploitation du mod`ele g´en´erique pour la mod´elisation discrimi- nante des locuteurs . . . 17
I.8 La fusion des donn´ees . . . 19
I.8.1 Fusion par Moyenne Arithm´etique . . . 19
I.8.1.1 Fusion par Moyenne Geom´etrique . . . 20
I.8.1.2 Fusion par r´egression logistique objectif . . . 20
CONCLUSION G´EN´ERALE 22
R´EF´ERENCES BIBLIOGRAPHIQUES 26
LISTE DES COMMUNICATIONS 30
I.1 Extraction des param`etres MFCC . . . 5
I.2 Types d’erreurs dans un syst`eme RAL . . . 6
I.3 Exemple courbe DET . . . 7
I.4 Structure g´en´erale d’un syst`eme RAL `a base GMM-UBM. . . 8
I.5 Syst`eme RAL `a base GMM-UBM avec normalisation de type Znorm. . . . 11
I.6 Syst`eme RAL `a base GMM-UBM avec normalisation Tnorm. . . 12
I.7 Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm. . . 13
I.8 Histogramme des scores imposteurs et clients sans normalisation. . . 14
I.9 Distribution des scores du syst`eme RAL en HNORM / skewness. . . 14
I.10 Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm. . . 15
I.11 Structure g´en´erale d’un syst`eme SVM-GMM . . . 18
I.12 Les performances d’un syst`eme RAL `a base GMM-UBM et GMM-SVM . 18 I.13 Les performances d’un syst`eme RAL `a base fusion de donn´ee entre GMM- UBM et GMM-SVM . . . 19
I.14 Fusion par Moyenne Geom´etrique entre GMM-UBM et GMM-SVM . . . 20
I.15 Les performances d’un syst`eme RAL `a base fusion de donn´ee par r´egression logistique objectif . . . 21
INTRODUCTION
Introduction
L’automatisation des syst`emes d’authentification, en vue de leur d´eploiement `a grande
´echelle, constitue par cons´equent un enjeu important. Dans ce cadre, les syst`emes de Reconnaissance Automatique du Locuteur (RAL) s’appuient sur les caract´eristiques de la parole permettant de reconnaˆıtre les individus.
Les syst`emes de RAL actuels reposent majoritairement sur des approches probabilistes.
Parmi ces approches, les syst`emes ” ´etat de l’art ” sont g´en´eralement bas´es sur une mod´elisation des locuteurs par des mod`eles g´en´eratifs, comme les mod`eles `a m´elange de gaussiennes (GMM), associ´ee `a une repr´esentation du signal bas´ee sur des param`etres cepstraux (enveloppe spectrale `a court-terme). Les syst`emes les plus performants uti- lisent classiquement un mod`ele g´en´erique, ´egalement appel´e mod`ele du monde, ou UBM (Universal Background Model), pour repr´esenter le mod`ele du non-locuteur. Depuis quelques ann´ees, afin de r´epondre aux d´efis pr´esent´es pr´ec´edemment, les syst`emes de RAL ont ´evolu´e selon deux tendances :
– la premi`ere consiste `a mieux mod´eliser les variabilit´es des locuteurs et du canal de transmission survenant au cours d’enregistrements successifs. Ces m´ethodes ont n´ecessit´e l’incorporation de grandes quantit´es de donn´ees ainsi que l’augmentation de la complexit´e des mod`eles, afin de mod´eliser et de normaliser ces variabilit´es ; – la seconde tient `a la nature des syst`emes de RAL actuels qui associent g´en´eralement
une multitude de syst`emes diff´erents, chacun traitant d’une source d’information sp´ecifique ou apportant une nouvelle mani`ere de mod´eliser les locuteurs par l’adop- tion de classifieurs de nature diff´erente. Ainsi, la caract´erisation du locuteur par des informations linguistiques ou syntaxiques (comme les phon`emes ou le lexique utilis´e) et le d´eveloppement d’approches discriminantes pour la mod´elisation sont les th`emes r´ecurrents des travaux de recherche de la communaut´e. Le gain en performance est recherch´e par la fusion des informations nouvelles et compl´ementaires issues de ces diff´erentes approches, au prix d’un accroissement notable de la complexit´e. Il est en effet n´ecessaire, d’une part, de mettre au point s´epar´ement chacun des syst`emes, puis d’autre part, d’´elaborer des m´ethodes robustes de combinaison de l’information.
Cahier de charge Afin de concevoir un syst`eme de reconnaissance automatique de locuteur (RAL) aussi correct que possible, il convient : d’une part de comprendre en quoi
le signal de parole est r´eellement complexe, c’est `a dire connaˆıtre l’objet ou l’observa- tion d’entr´ee, d’autre part de d´efinir correctement la tˆache du syst`eme, c’est `a dire les contraintes impos´ees et les performances attendues. Ce travail s’appuyant sur diverses langages de programmation, divers axes de recherches et de d´eveloppement ont dus ˆetre d´efinis :
En rapport avec la reconnaissanceet et synth`ese vocale
– Conception du syst`eme de reconnaissance du locuteur `a base GMM/UBM (avec diff´erents type de normalisation )
– Conception du syst`eme de reconnaissance du locuteur hybride GMM/UBM et SVM pour diff´erents noyaux.
– Fusion des donn´ees entre les deux syst`emes (moyenne arithm´etique, g´eom´etrique et r´egression logistique).
En rapport avec les langages de programmation Utilisation IDE ECLIPSE sous le syst`eme d’´exploitation Linux (ubuntu) avec deux langages de programmation
– C++ pour g´en´erer les ex´ecutables de chaque module de syst`eme RAL
– JAVA pour Cr´eer une interface graphique capable d’une part d’acqu´erir un signal audio et d’autre part de faire analyser celui-ci pour identifie ou v´erifier le locuteur.
CHAPITRE I
RECONNAISSANCE AUTOMATIQUE
DU LOCUTEUR
I.1 Reconnaissance automatique du locuteur
La reconnaissance automatique du locuteur consiste `a reconnaˆıtre l’identit´e d’un in- dividu `a partir de sa voix [2]. Les applications des syst`emes de RAL se distinguent par leur contexte applicatif et leur niveau de s´ecurit´e. Ces contraintes peuvent ˆetre prises en compte pour la d´efinition d’une tˆache sp´ecifique de la RAL. Il est commun´ement admis de regrouper ces tˆaches dans des grandes cat´egories : identification, v´erification.
I.1.1 La v´erification automatique du locuteur
Il s’agit de d´eterminer si le locuteur est bien celui qu’il ou elle fait valoir.
I.1.2 L’identification automatique du locuteur
Etant donn´e une liste connue de locuteur, l’identit´e de la voix entrante peut ˆetre iden-´ tifi´ee.
I.1.3 Param`etres MFCC
Le d´eveloppement des MFCC (voir Figure I.1) est obtenu `a la suite d’une s´erie d’´etapes dont les plus importantes sont :
Figure I.1 — Extraction des param`etres MFCC
l’´echantillonnage, la pr´eaccentuation, le fenˆetrage, la transform´ee rapide de Fourier, le calcul des coefficients mel et la convolution cosinuso¨ıdale.
I.2 Mesures de performances
Les performances d’un syst`eme de VAL s’´evaluent en fonction de deux taux d’erreurs.
La probabilit´e de faux rejets (FR) ou de rejet du client `a l’identit´e proclam´ee et la pro- babilit´e de fausses acceptations (FA) ou d’acceptations d’impostures (figure I.2).
Figure I.2 — Types d’erreurs dans un syst`eme RAL
I.3 Les courbes DET
La repr´esentation la plus commun´ement utilis´ee pour ´evaluer la pertinence du seuil de d´ecision en fonction de ces deux taux d’erreurs est la courbe DET (Detection Error Tra- deoff [12]) figure I.3. La courbe DET permet d’´evaluer, pour chaque seuil de v´erification, les valeurs du couple (FA, FR). La figure I.3 illustre un exemple de courbe DET.
Probabilité de fausse alarme
Probabilitédemiss
Figure I.3 — Exemple courbe DET
I.4 Applications
On peut distinguer plusieurs profils d’applications de la reconnaissance automatique du locuteur : le contrˆole d’acc`es physique, la s´ecurisation de transactions `a distance, l’organisation de l’information sonore et enfin les applications criminalistiques.
I.4.1 Contrˆole d’acc`es physique
Les applications de types contrˆoles d’acc`es physiques sont les applications n´ecessitant la pr´esence effective de l’utilisateur devant le syst`eme pour r´ealiser l’op´eration souhait´ee, celle-ci n´ecessitant une interaction mat´erielle en un endroit pr´ecis.
I.4.2 Applications dans le domaine criminalistique
Un volet que nous n’avons pas encore ´evoqu´e est l’utilisation de la RAL dans les domaines judiciaires ou criminalistique. L’utilisation de la reconnaissance automatique du locuteur dans ce domaine peut aller jusqu’`a l’orientation d’une enquˆete, la recherche de suspects ou la constitution d’´el´ements de preuves.
I.5 Mod´elisation par mixture de gaussiennes
La structure g´en´erale d’un syst`eme RAL `a base GMM-UBM est illustr´ee dans La figure 1. Apr`es l’extraction des param`etres, l’apprentissage n´ecessite la construction pr´ealable
Figure I.4 — Structure g´en´erale d’un syst`eme RAL `a base GMM-UBM.
d’un mod`ele g´en´erique UBM. L’UBM est adapt´e sur les donn´ees d’apprentissage d’un locuteur pour estimer les param`etres du mod`ele sp´ecifique `a ce locuteur. Lors du test de v´erification, le calcul de score fait intervenir l’UBM et le mod`ele correspondant `a l’identit´e proclam´ee (correspondant au segment de test). La d´ecision rejet/acc`es est prise par rap- port `a ce score. La densit´e de probabilit´e d’une mixture de gaussiennes `aN composantes pour une variable al´eatoire x s’exprime sous la forme suivante :
p(x/Θ) = XN
i=1
γiN(x;µi,Σi) (I.1)
sous la contrainte P
iγi = 1 et ∀i : γi ≥ 0. γ est le vecteur de poids de la mixture, N(x;µ,Σ) est la loi gaussienne de moyenne µ et de variance Σ, Θ = [µ,Σ, γ]T est le vecteur de param`etre global du GMM. Si x est de dimension d alors, une mixture de gaussienne est param´etr´ee N*d param`etres de moyennes, N∗d2 param`etres de variance, et N param`etres de poids. La densit´e d’une distribution normale de dimensions d est exprim´ee par :
N(x;µ,Σ) = 1
(2/pi)d/2|Σ|1/2exp[−1
2(x−µ)TΣ−1(x−µ)] (I.2) Pour calculer la vraisemblance d’une s´equenceX = [x1...xT], pour un mod`ele param´etr´e par Θ, le logarithme est g´en´eralement utilis´e en consid´erant l’ind´ependance des r´ealisations de la s´equence d’apprentissage. Posons la notation log(p(.)) =`(.), alors
logp(X|Θ) =`(X|Θ) = XT
t=1
Log XN
i=1
γiN(x;µi,Σi) (I.3)
L’apprentissage d’un GMM est g´en´eralement r´ealis´e avec l’algorithme EM [14].
I.5.1 Apprentissage de l’UBM
Pour la construction du mod`ele UBM, plusieurs approches peuvent ˆetre employ´ees.
L’approche la plus simple est de collecter toutes les donn´ees d’apprentissage pour former un seul mod`ele (UBM) `a l’aide de l’algorithme EM. Mais il faut faire un ´equilibrage entre les sous populations pendant le choix des donn´ees. Par exemple, si on employ´e des donn´ees ind´ependantes du genre, on devrait ˆetre sˆur qu’il y a un ´equilibre des discours masculins et f´eminins. Autrement, le mod`ele final sera d´ecentr´e vers la sous population dominante, le mod`ele du monde repr´esente les conditions d’enregistrement, l’environnement, le type et la qualit´e de parole, produits dans la phase d’apprentissage. Ce mod`ele g´en´eraliste est appris en utilisant une heure `a deux heures de signal audio provenant de multiples locuteurs, Le nombre de composantes utilis´e varie de 512 `a 2048.
I.5.2 Mod´elisation du locuteur
La mod´elisation du locuteur en RAL diff`ere de l’estimation du mod`ele UBM car les donn´ees disponibles ne sont pas en quantit´e suffisante pour estimer les param`etres du mod`ele si le nombre de composantes est ´elev´e. Les m´ethodes dites d’adaptation per- mettent d’estimer de mani`ere robuste des mod`eles sp´ecifiques au locuteur en ajoutant de l’information a priori sur la distribution des param`etres. Les techniques essentielles les plus utilis´ees en RAL sont largement tir´ees de l’adaptation bay´esienne, particuli`erement celle du MAP (maximum a posteriori) [17].
I.5.3 Adaptation MAP des param`etres de moyenne du GMM
La m´ethode d’adaptation la plus utilis´ee en RAL est celle du maximum a posteriori.
Elle consiste `a d´efinir des distributions a priori p(Θ) pour les param`etres du mod`ele et
`a maximiser leurs probabilit´es a posteriori p(Θ|X) sur un signal d’apprentissage X. Le crit`ere d’adaptation pour l’estimation des nouveaux param`etres s’´ecrit comme suit :
Θ = arg maxˆ
Θ p(Θ|X) = arg max
Θ p(X|Θ)p(Θ) (I.4)
I.5.4 Test d’hypoth`ese bay´esien pour le mod`ele UBM
Le rˆole de l’UBM tient `a la mod´elisation de l’hypoth`ese inverse dans la strat´egie de d´ecision. La mod´elisation de l’hypoth`ese inverse se fait grˆace `a la construction d’un mod`ele universel appel´e mod`ele du monde, ou UBM, et d´enot´eW. Pr´ecis´ement, siS et ¯S repr´esentent respectivement le mod`ele du locuteur et celui du non-locuteur et soit X un segment de test dont l’identit´e proclam´ee correspond `aS, alors le rapport de vraisemblance est donn´e par :
LR(X, H0, H1) = LR(X, S, W) = p(X|S)
p(X|S)¯ ' p(X|S)
p(X|W) (I.5)
I.5.5 V´erification du locuteur par GMM-UBM
Le score de v´erification correspondant `a la vraisemblance d’une s´equence de donn´ees de test X = [x1...xt]T sur un mod`ele de locuteur S est exprim´e sous la forme de l’esp´erance du logarithme du rapport de vraisemblance sur toutes les trames du segment de test.
Pr´ecis´ement :
ys(X) = 1 T
X
i
log p(Xt|S)
p(Xt|W) (I.6)
o`u p(xt|S) et p(xt|W) sont les vraisemblances du vecteur cepstral xt respectivement sur le mod`ele du locuteur S et sur le mod`ele du monde W.
I.5.6 Identification du locuteur par GMM-UBM
Pour la phase de l’identification, le proc´edure est la mˆeme que le GMM sauf que le mod`ele de chaque locuteur l est donn´e par l’adaptation bay´esienne des param`etres du mod`ele du monde utilisant les signaux d’apprentissage sp´ecifique `a chaque locuteur. Donc, l’objectif est de trouver le mod`ele qui donne la probabilit´e maximale pour une s´equence d’observation donn´ee :
log Λ = 1 T
XT
t=1
logp(xt|λT ar)− 1 T
XT
t=1
logp(xt|λU BM) (I.7) I.6 La normalisation des scores
La variabilit´e du canal de transmission est un facteur important de perte de perfor- mance en VAL [28]. Elle est souvent nomm´ee variabilit´e inter-session, car c’est la diff´erence de contexte entre plusieurs enregistrements qui la caract´erise. Les diff´erences de contexte d’enregistrement entre les sessions de test et d’apprentissage introduisent des disparit´es entre les donn´ees. Pour renforcer la robustesse d’un syst`eme de RAL, des techniques de
compensation au niveau des scores ont ´et´e propos´ees. La normalisation de scores a pour but de proposer un score optimal pour chaque locuteur, la Z-norm[2], pour chaque tests, la T-norm [29], pour chaque type de combin´e, H-norm.
Les techniques de normalisation sont essentiellement bas´ees sur l’analyse des distribu- tions de scores clients et imposteurs du syst`eme de VAL. elles consistent `a retrancher la moyenne de la distribution des scores imposteurs aux scores de v´erification, puis `a les diviser par la variance :
ScoreN orm= Score−µimp σimp
(I.8) µimp etσimp sont respectivement la moyenne et la variance des scores imposteurs.
I.6.1 Z-norm
Figure I.5 — Syst`eme RAL `a base GMM-UBM avec normalisation de type Znorm.
L’utilisation de la Z-normalisation a permet d’apporter un gain de 91% de classification correcte `a ´egale erreur (P F A=P M).
I.6.2 T-norm
Figure I.6 — Syst`eme RAL `a base GMM-UBM avec normalisation Tnorm.
Un gain significatif 92% de classification correcte `a ´egale erreur (P F A = P M), donc la T-norm permet de compenser les variations de conditions d’enregistrements observ´ees dans les tests.
I.6.3 H-norm
Figure I.7 — Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm.
Les r´esultats de la figure I.7 montrent une am´elioration l´eg`ere des performances du syst`eme 90% de classification correcte `a ´egale erreur (P F A = P M), `a cause de la sup- pression des effets du combin´e.
I.6.4 Normalisation par le moment d’orde 3 ”skewness”
En observant les distributions des scores obtenus figure I.8, nous avons remarqu´es qu’
il y a une asym´etrie des distributions, ainsi on se propose de faire une transformation sur les scores pour enlever la valeur de skewness et observ´e l’´effet sur les performance du syst`eme.
Le coefficient de Skewness mesure le degr´e d’asym´etrie de la distribution. Il est d´efinit comme :
S = [E(X−µ)]3 [p
(X−µ)2]3 (I.9)
On applique ce moment sur les scores imposteurs de type carbon et electret pour calculer le Skecar etSkeelec, puis on fait une transformation de type Log comme le montre l’´equation suivante :
Ss =S+ (1/skeα)log(S/skeα) (I.10)
-1 0 1 2 3 4 5 6 0
50 100 150 200 250 300 350 400 450
Scores
Nombred’occurrence
Figure I.8 — Histogramme des scores imposteurs et clients sans normalisation.
O`u α d´esigne le type carbon ou electret suivant le type du signal de test. la figure I.9 montre l’histogramme des distributions des scores client et imposteur pour le syst`eme de base apr´es normalisation Hnorm et apr´es l’application de la correction de Skewnnes :
-3 -2 -1 0 1 2 3 4 5
0 100 200 300
Scores
Nombred’occurrence
-3 -2 -1 0 1 2 3
0 100 200 300 400
Scores
Nombred’occurrence
Figure I.9 — Distribution des scores du syst`eme RAL en HNORM / skewness.
Pour bien distinguer l’effet de cette technique sur notre syst`eme on a trac´e les courbes de DET comme le montre la figure I.10
Figure I.10 — Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm.
La figure I.10 montre une am´elioration du syst`eme. Ce gain a attient des performances satisfaisantes de 90% de classification correcte `a ´egale erreur (P F A=P M).
I.7 Machines `a vecteurs de support(SVM)
Les machines `a support de vecteurs est une nouvelle technique discriminante dans la th´eorie de l’apprentissage statistique propos´ee par V.Vapnick [23]. Elle permet d’aborder des probl`emes tr`es divers comme la classification, la r´egression, la fusion, etc.
Le principe de cette technique est de projeter les donn´ees de l’espace d’entr´ee (apparte- nant `a deux classes diff´erentes non-lin´eairement s´eparables) dans un espace de plus grande dimension appel´e espace de caract´eristiques. Dans cet espace, on construit un hyperplan optimal s´eparant les deux classes tel que :
– Les vecteurs appartenant aux diff´erentes classes se trouvent de diff´erents cˆot´es de l’hyperplan,
– la plus petite distance entre les points et l’hyperplan ( la marge ) est maximale.
I.7.1 Construction de l’hyperplan optimal
Dans ce paragraphe, on pr´esente la m´ethode g´en´erale pour la construction d’un hy- perplan optimal qui s´epare deux classes [25]. Pour cela on suppose qu’on a une base de
donn´ees D de m points d’un espace de dimension p appartenant `a deux classes diff´erentes qu’on notera la classe 1 et la classe −1.
D= (xi, yi|xi)²<p;yi²1,−1;i= 1, ...., m (I.11) I.7.2 Cas de donn´ees lin´eairement s´eparables
Dans ce cas, tout hyperplan H :(w.x) +b s´eparant les deux classes satisfait la condition suivante :
yi((w.xi) +b) pour i= 1, ...., m (I.12) Maximiser la marge M (la plus petite distance entre les donn´ees des deux classes et l’hyperplan) est ´equivalent `a maximiser la somme des distances des classes par rapport `a l’hyperplan. La marge `a donc l’expression math´ematique suivante :
M = min
xi|yi=1
w.x+b kwk max
xi|yi=−1
w.x+b kwk = 2
kwk (I.13)
Par cons´equent, l’hyperplan optimal d´efini par (w0, b0) est celui qui satisfait la condition (I.12) et qui minimise Φ(w) d´efinie par :
Φ(w) = kwk2
2 (I.14)
En utilisant les multiplicateur de Lagrange et le th´eor`eme de Kuhn-Tucker, le probl`eme se transforme au probl`eme dual suivant : Maximiser :
L(w, b, α) = Xm
i=1
αi−1 2(
Xm
i,j=1
αiαjyiyjxixj) (I.15) sous la contrainte : m
X
i=1
αiyi = 0 ; αi ≥0 (I.16)
Soit la solution α˚= (α˚
1, ..., α˚
m). D’apr`es le th´eor`eme de K¨uhn-Tucker [21], une condi- tion n´ecessaire et suffisante pour que α˚ soit optimal est :
α˚
iyi[(w0.x) +b0]−1 = 0 pour i= 1, ...., M (I.17) Cela veut dire que : α˚
i = 0 ou yi[(w0.x) +b0] = 1. Ainsi on d´efinit les Vecteurs Supports VS par les xi tels que yi[(w0.x) +b0] = 1 , ce qui est ´equivalent :V S =xi tel que αi >0.
Ces vecteurs se placent g´eom´etriquement comme les plus proches de l’hyperplan optimal qui s´epare les deux classes. La normale w0 est calcul´ee par :
w0 =X
V S
α˚
iyixi (I.18)
Le biais b0 est calcul´e par la formule suivante : b0 =−1
2[(w0.x(1)) + (w˙ 0.x(−1))]˙ (I.19) O`u x(1) est un vecteur support de la classe1,et˙ x(−1) un vecteur support de la classe˙
−1. La fonction de classification, classe(x), est ´egale `a : classe(x) = sign(w0.x+b0) si classe(x) est inf´erieur `a 0 alors x est de la classe −1 sinon il est de la classe 1.
I.7.3 Cas des donn´ees non-lin´eairement s´eparables
Dans le cas o`u les donn´ees ne sont pas lin´eairement s´eparables, l’hyperplan optimal s´eparant les deux classes est celui qui s´epare les donn´ees avec le minimum d’erreurs, et donc celui qui satisfait les contraintes suivantes :
– la distance entre les vecteurs bien class´es et l’hyperplan doit ˆetre maximale, – la distance entre les vecteurs mal class´ees et l’hyperplan doit ˆetre minimale.
Pour formaliser cela, on introduit des variables de p´enalit´e non-n´egatives, εi pour i = 1, ...., m appel´es variables d’´ecart. Ces variables transforment l’in´egalit´e (I.12) comme suit :
yi((w.xi) +b)≥1−εi pour i= 1, ...., m (I.20) et on essaye de minimiser la fonction suivante :
Φ(w, ε) = kwk2 2 +C
Xm
i=1
εi (I.21)
Ou C est un param`etre de r´egularisation. Celui-ci permet de conc´edera plus ou moins d’importance aux erreurs. Cela m`ene a un probl`eme dual l´eg`erement diff´erent de celui du cas s´eparable. Dans le cas non-lin´eairement s´eparables, il faut maximiser L(α, w, b) par rapport a α sous les contraintes suivantes :
Xm
i=1
αiyi = 0 ; 0≤αi ≤C pouri= 1, ..., m (I.22) Le calcul de la normale w0, le biais b0 et la fonction de classification classe(x) reste exactement le mˆeme que dans le cas lin´eaire.
I.7.4 Exploitation du mod`ele g´en´erique pour la mod´elisation discriminante des locuteurs
L’approche majoritairement utilis´ee en RAL est bas´ee sur les mod`eles g´en´eratifs pour repr´esenter le locuteur. L’utilisation du paradigme GMM-UBM [7] apparaˆıt maintenant
comme une ´etape indispensable pour obtenir des performances proches de l’´etat de l’art dans des campagnes d’´evaluation internationales telles que les campagnes NIST-SRE. Ces derni`eres ann´ees ont vu l’apparition d’approches discriminantes bas´ees sur l’utilisation des machines `a vecteurs supports (SVM).
úú ú û ù
êê ê ë é
mn
m M Adaptation 1
MAP
Cible
Non-Cible SVM locuteur
Apprentissage SVM
å S-
=
i
i b i t
i a i b
a g
g
K ,
1
) ,
,
( hm m
úú ú û ù
êê ê ë é
mn
m M
1
úú ú û ù
êê ê ë é
mn
m M
1
úú ú û ù
êê ê ë é
mn
m M
1
úú ú û ù
êê ê ë é
mn
m M
1
úú ú û ù
êê ê ë é
mn
m M
1
lubm
Locuteurs
Noyau
Adaptation MAP
lubm
Score SVM
Modèle SVM
Décision úú
ú û ù êê ê ë é
mn
m M
1
Test
Figure I.11 — Structure g´en´erale d’un syst`eme SVM-GMM
Figure I.12 — Les performances d’un syst`eme RAL `a base GMM-UBM et GMM- SVM
Il est int´eressant de remarquer que la combinaison permet d’am´eliorer les performances du syst`eme, les r´esultats de la figure I.12 sont en faveur du syst`eme GMM-SVM puisqu’un
gain d’environ 6% est apport´e.
I.8 La fusion des donn´ees
R´ecemment, de nouvelles techniques sont apparues en vue d’augmenter la robustesse des syst`emes de reconnaissance, leur caract´eristique commune est l’utilisation de plusieurs classificateurs qui sont recombin´es aux niveaux de diff´erents niveaux de traitement pour prendre une d´ecision finale (La fusion de donn´ees), Ces r´ecentes techniques sont divis´ees en deux approches :
I.8.1 Fusion par Moyenne Arithm´etique
Pour fusionner des scores, une approche commun´ement utilis´ee consiste simplement `a moyenner les scores des L experts pour prendre la d´ecision d’acceptation ou de rejet. La
Figure I.13 — Les performances d’un syst`eme RAL `a base fusion de donn´ee entre GMM-UBM et GMM-SVM
figure I.13 illustre les performances des deux syst`emes GMM/SVM et GMM/UBM `a l’aide d’une courbe DET, La combinaison des deux syst`emes `a l’aide d’une fusion arithm´etique montre un gain significatif compar´e au syst`eme GMM/UBM.
I.8.1.1 Fusion par Moyenne Geom´etrique
Cette m´ethode de fusion sert `a fusionner les scores de deux syst`emes ou plusieurs suivant l’´equation indiquer ci dessous :
pour tout entier T et tout score S = (S1, ...ST) on a : Sf usion= (
Yn
j=1
xj)1n (I.23)
Figure I.14 — Fusion par Moyenne Geom´etrique entre GMM-UBM et GMM-SVM
En effet, d’apr´es la figure I.14 arrive `a classifier les fichiers tests avec un taux de classifi- cation correct 97% `a ´egale erreur (P F A=P M)
I.8.1.2 Fusion par r´egression logistique objectif
La r´egression logistique [33] est une technique statistique qui `a pour objectif d’estimer des scores par apprentissage supervis´e, il s’agit d’une fusion simultan´ee des scores de multiples sous-syst`emes, principalement pour am´eliorer la capacit´e de classifieur.
Figure I.15 — Les performances d’un syst`eme RAL `a base fusion de donn´ee par r´egression logistique objectif
Le meilleur r´esultat est obtenu pour la fusion optimale comme le montre la figure I.15 mais la difficult´e r´eside dans l’apprentissage de cette fusion. Ces m´ethodes sont tr`es populaires, mais l’inconv´enient qui en r´esulte est que les ressources `a mettre en oeuvre peuvent ˆetre multipli´ees par le nombre de syst`emes `a fusionner.
CONCLUSION
Conclusions
La Reconnaissance Automatique du Locuteur (RAL) consiste `a confirmer ou infirmer l’identit´e proclam´ee d’un individu par sa voix. Les travaux pr´esent´es dans cette th`ese s’inscrivent dans le cadre de cette tˆache et sont orient´es autour de trois axes principaux :
La normalisation des scores qu’est une m´ethode performante, simple `a mettre en oeuvre mais tr`es coˆuteuse parce qu’elle implique une ´etape d’essais pour calculer les param`etres de normalisation. Son apport est significatif comme il est montr´e dans les exp´eriences r´ealis´ees le long de ce travail, elle est devenu maintenant indissociable d’un syst`eme de RAL. Les r´esultats obtenus par ces techniques de normalisation sont meilleurs que celles du syst`eme de r´ef´erence GMM-UBM
L’int´egration du mod`ele g´en´erique utilis´e dans la mod´elisation g´en´erative au sein des nouveaux formalismes apparus ces derni`eres ann´ees : les syst`emes bas´es sur une mod´elisation discriminante des locuteurs. Les syst`emes de cette cat´egorie utilisent g´en´eralement le formalisme des machines `a vecteurs supports (SVM). Les syst`emes r´ecents de reconnaissance du locuteur associent en g´en´eral un reconnaisseur g´en´eratif de type GMM-UBM et un autre de type SVM. Les contributions apport´ees dans ce document s’inscrivent dans cette d´emarche, mais en essayant d’unifier les diff´erents formalismes et de simplifier la structure globale du syst`eme, en int´egrant le mod`ele g´en´erique `a ce syst`eme discriminant. Les r´esultats montrent que les performances de notre syst`eme hybride sont meilleurs que celles du syst`eme de r´ef´erence bas´e sur la technique GMM-UBM avec normalisation des scores.
La fusion Ce travail a principalement consist´e en l’introduction de la fusion en scores pour l’identification et la v´erification automatique du locuteur. Les approches de fusion propos´ees dans ce travail sont les plus r´epandues, car les plus simples `a mettre en oeuvre, peuvent aussi conduire `a des performances plus robuste. Nous avons d’ailleurs r´ealis´e des exp´eriences dans ce sens, o`u l’am´elioration des performances r´esultat de la fusion des scores d’un syst`eme GMM-UBM et du GMM-SVM ´etait significative, le taux de reconnaissance correct `a ´egale erreurs a attient 97%.
La derni`ere partie de ce travail de th`ese a ´et´e consacr´ee `a la cr´eation d’une interface graphique pour faciliter aux utilisateurs la manipulation des diff´erentes taches de l’application, acqu´erir un signal audio, analyser celui-ci pour identifier ou v´erifier le locuteur.
Perspectives
Comme perspectives, nous proposons :
– Etude et implementation des m´ethodes de compensation des effets du canal t´el´ephonique.
– Utilisation d’autres m´ethodes de fusion de donn´ees.
– Concevoir un syst`eme d’identification en temps r´eel.
– Reconnaissance d’un locuteur par surveillance d’une ligne t´el´ephonique.
[1] R. Bolle et S. Pankanti. Biometrics, Personal Identification in Networked Society : Personal Identification in Networked Society. Norwell, MA, USA : Kluwer Academic Publishers, 1998.
[2] G. R. Doddington. Speaker recognition. identifying people by their voices. Dans IEEE transactions, 1985.
[3] D. A. Reynolds, Speaker identification and verification using gaussian mixture spea- ker models, Speech Communication, vol. 17(1-2), pp. 91-108, 1995.
[4] H. Hermansky. Perceptual linear predictive (PLP) analysis of speech. The Journal of the Acoustical Society of America, 1990.
[5] S.B. DAVIS et P.MERMELSTEIN. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IN Proceedings of the ICASSP,
[6] J.-F. Bonastre, N. Scheffer, C. Fredouille, et D. Matrouf, 2004. NIST’04 speaker re- cognition evaluation campaign : new lia speaker detection plateform based on ALIZE toolkit. Dans les actes de NIST SRE’04 Workshop : speaker detection evaluation cam- paign, 2004.
[7] D. A. Reynolds et R. C. Rose. Robust text-independent speaker identification using Gaussian Mixture speaker Models. Speech and Audio Processing, IEEE Transactions, 1995.
[8] A. E. Rosenberg et F. K. Soong. Advances in Speech Signal Processing, Chapter Recent Research in Automatic Speaker Recognition, 1992
[9] F. Soong, A. Rosenberg, L. Rabiner, et B. Juang. A vector quantization approach to speaker recognition. Dans les actes de ICASSP, Volume 10, 1985.
[10] V.Wan etW. M. Campbell. Support vector machines for speaker verification and identification. Dans les actes de Neural Networks for Signal Processing, Volume 2, 2000.
[11] W. M. Campbell, D. E. Sturim, D. E. Sturim, D. A. Reynolds, et D. A. Reynolds.
Support vector machines usingGMMsupervectors for speaker verification. Signal Pro- cessing Letters, IEEE 13(5), 2006.
[12] A. F. Martin et M. A. Przybocki. The DET curve in assessment of detection task performance. Dans Proceedings of European Conference on Speech Communication and Technology (Eurospeech 97), 1997.
[13] D. A. Reynolds, Speaker identification and verification using gaussian mixture spea- ker models. Dans Speech Communication, 1995.
[14] A. P. Dempster, N. M. Laird, et D. B. Rubin, ”Maximum-likelihood from incomplete data via the EM algorithm”. Dans Journal of Acoustical Society of America JASA, 1977.
[15] I. Magrin Chagnolleau, J. Wilke, F. Bimbot, Further investigation on AR-vector mo- dels for text-independent speaker identification, International Conference on Acous- tics, Speech, and Signal Processing (ICASSP), pp. 401-404, Atlanta (USA), 1996.
HMM
[16] L. R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition, IEEE transactions Speech Audio Processing, vol. 77(2), pp. 257- 285, 1989.
[17] J. L. Gauvain et C. H. Lee, Maximum a posteriori estimation for multivariate gaus- sian mixture observations of markov chains. Dans IEEE Transactions on Speech and Audio Processing, 1994.
[18] J. De Veth, H. Bourlard, Comparison of hidden Markov model techniques for automa- tic speaker verification, Workshop on Automatic Speaker Recognition, Identification, Verification, pp. 11-14, Avril 1994, Martigny (Suisse).
[19] D. A. Reynolds, T.F. Quatieri, R. B. Dunn, Speaker verification using adapted gaus- sian mixture models , Digital Signal Processing Journal, 2000.
[20] R. Auckenthaler, J. S. Mason Score normalisation for text-independent speaker veri- fication systems Digital Signal Processing Journal, 2000.
[21] D. A. Reynolds, T. F. Quatieri, R. B. Dunn, Speakerverification using adapted Gaus- sian mixture models, Digital Signal Processing (DSP), a review journal-Special issue on NIST 1999 speaker recognition workshop, 10(1-3), 2000.
[22] M. J. Carey et E. S. Parris. Speaker verification using connected words. Dans Pro- ceedings of Institute of Acoustics, 1992.
[23] V. N. Vapnik. Statistical Learning Theory. Wiley, 1998.
[24] C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition.Data Mining and Knowledge Discovery , 1998.
[25] N. Cristianini et J. Shawe-Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000.
[26] M. A. Aizerman, E. M. Braverman, and L. I. Rozomer, Theoretical foundations of the potentiel fonction method in pattern recognition learning, In Automation and Remote Contol,
[27] R. Courant and D. Hilbert. M´ethods of Mathematical Physics, Inter-science, 1953.
[28] M. Bin, H. Meng, et M. Man-Wai. Effects of device mismatch, language mismatch and environmental mismatch on speaker verification. Dans les actes de ICASSP, 2007.
[29] R. Auckenthaler, M. Carey, et H. Lloyd-Thomas. Score normalization for text- independent speaker verification systems. Digital Signal Processing (DSP), a review journal - Special issue on NIST 1999 speaker recognition workshop, 2000.
[30] A. Rosenberg. The use of cohort normalized scores for speaker verification. Dans les actes de ISCLP, 1992.
[31] R. Courant and D. Hilbert. M´ethods of Mathematical Physics, Inter-science, 1953.
[32] Anil Jain, Karthik Nandakumar, Arun Ross,Score normalization in multimodal bio- metric systems, PATTERN RECOGNITION, The journal of the pattern recognition society, 2005.
[33] N. Brummer. Focal, tools for fusion and calibration of automatic speaker detection systems, 2005.
[34] J.-F. Bonastre, N. Scheffer, D. Matrouf, C. Fredouille, A. Larcher, A. Preti, G. Pou- choulin, N. Evans, B. Fauve, and J. S. Mason. ALIZE/SpkDet : a state-of-the-art open source software for speaker recognition. The Speaker and Language Recogni- tion Workshop, 2008.
[35] Site web, http :// www.nist.com..
[36] Site web, http ://gforge.inria.fr/projects/spro.
[37] http :Site web, //www.csie.ntu.edu.tw/ cjlin.
Liste des communications
1. N. RAMOU, M. Djeddou, ”D´etection de genre et technique de normalisation des scores pour la v´erification du locuteur”, premi`ere conf´erence international de ” IMAGE AND SIGNAL PROCESSING AND THEIR APPLICATIONS ”, ISPA OCT 2009, Universit´e Abdelhamid Ibn Badis, Mostaganem, 19-20-21 OCT 2009.