Amélioration des performances de la reconnaissance automatique locuteur par des méthodes de fusion de

(1)

MAGISTER Filière :

Systèmes Électroniques

Par : Mr. RAMOU Naim

Rapporteur : M. DJEDDOU Mustapha Chargé de cours/EMP.

Amélioration des performances de la reconnaissance automatique locuteur par des méthodes de fusion de

données

(2)

Introduction g´en´erale 1

I Reconnaissance automatique du locuteur 4

I.1 Reconnaissance automatique du locuteur . . . 5

I.1.1 La v´erification automatique du locuteur . . . 5

I.1.2 L’identification automatique du locuteur . . . 5

I.1.3 Param`etres MFCC . . . 5

I.2 Mesures de performances . . . 6

I.3 Les courbes DET . . . 6

I.4 Applications . . . 7

I.4.1 Contrˆole d’acc`es physique . . . 7

I.4.2 Applications dans le domaine criminalistique . . . 7

I.5 Mod´elisation par mixture de gaussiennes . . . 8

I.5.1 Apprentissage de l’UBM . . . 9

I.5.2 Mod´elisation du locuteur . . . 9

I.5.3 Adaptation MAP des param`etres de moyenne du GMM . . . 9

I.5.4 Test d’hypothèse bayésien pour le modèle UBM . . . 10

I.5.5 V´erification du locuteur par GMM-UBM . . . 10

I.5.6 Identification du locuteur par GMM-UBM . . . 10

I.6 La normalisation des scores . . . 10

I.6.1 Z-norm . . . 11

I.6.2 T-norm . . . 12

I.6.3 H-norm . . . 13

I.6.4 Normalisation par le moment d’orde 3 ”skewness” . . . 13

I.7 Machines `a vecteurs de support(SVM) . . . 15

I.7.1 Construction de l’hyperplan optimal . . . 15

(3)

I.7.2 Cas de données linéairement séparables . . . 16

I.7.3 Cas des données non-linéairement séparables . . . 17

I.7.4 Exploitation du modèle générique pour la modélisation discriminante des locuteurs . . . 17

I.8 La fusion des donn´ees . . . 19

I.8.1 Fusion par Moyenne Arithm´etique . . . 19

I.8.1.1 Fusion par Moyenne Geom´etrique . . . 20

I.8.1.2 Fusion par r´egression logistique objectif . . . 20

CONCLUSION G´EN´ERALE 22

R´EF´ERENCES BIBLIOGRAPHIQUES 26

LISTE DES COMMUNICATIONS 30

(4)

I.1 Extraction des param`etres MFCC . . . 5

I.2 Types d’erreurs dans un syst`eme RAL . . . 6

I.3 Exemple courbe DET . . . 7

I.4 Structure générale d’un système RAL à base GMM-UBM. . . 8

I.5 Syst`eme RAL `a base GMM-UBM avec normalisation de type Znorm. . . . 11

I.6 Syst`eme RAL `a base GMM-UBM avec normalisation Tnorm. . . 12

I.7 Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm. . . 13

I.8 Histogramme des scores imposteurs et clients sans normalisation. . . 14

I.9 Distribution des scores du syst`eme RAL en HNORM / skewness. . . 14

I.10 Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm. . . 15

I.11 Structure générale d’un système SVM-GMM . . . 18

I.12 Les performances d’un système RAL à base GMM-UBM et GMM-SVM . 18 I.13 Les performances d’un système RAL à base fusion de donnée entre GMM- UBM et GMM-SVM . . . 19

I.14 Fusion par Moyenne Geom´etrique entre GMM-UBM et GMM-SVM . . . 20

I.15 Les performances d’un système RAL à base fusion de donnée par régression logistique objectif . . . 21

(5)

INTRODUCTION

(6)

Introduction

L’automatisation des systèmes d’authentification, en vue de leur déploiement à grande

échelle, constitue par conséquent un enjeu important. Dans ce cadre, les systèmes de Reconnaissance Automatique du Locuteur (RAL) s’appuient sur les caractéristiques de la parole permettant de reconnaˆıtre les individus.

Les syst`emes de RAL actuels reposent majoritairement sur des approches probabilistes.

Parmi ces approches, les systèmes ” état de l’art ” sont généralement basés sur une modélisation des locuteurs par des modèles génératifs, comme les modèles à mélange de gaussiennes (GMM), associée à une représentation du signal basée sur des paramètres cepstraux (enveloppe spectrale à court-terme). Les systèmes les plus performants utilisent classiquement un modèle générique, également appelé modèle du monde, ou UBM (Universal Background Model), pour représenter le modèle du non-locuteur. Depuis quelques années, afin de répondre aux défis présentés précédemment, les systèmes de RAL ont évolué selon deux tendances :

– la première consiste à mieux modéliser les variabilités des locuteurs et du canal de transmission survenant au cours d’enregistrements successifs. Ces méthodes ont nécessité l’incorporation de grandes quantités de données ainsi que l’augmentation de la complexité des modèles, afin de modéliser et de normaliser ces variabilités ; – la seconde tient à la nature des systèmes de RAL actuels qui associent généralement

une multitude de systèmes différents, chacun traitant d’une source d’information spécifique ou apportant une nouvelle manière de modéliser les locuteurs par l’adop- tion de classifieurs de nature différente. Ainsi, la caractérisation du locuteur par des informations linguistiques ou syntaxiques (comme les phonèmes ou le lexique utilisé) et le développement d’approches discriminantes pour la modélisation sont les thèmes récurrents des travaux de recherche de la communauté. Le gain en performance est recherché par la fusion des informations nouvelles et complémentaires issues de ces différentes approches, au prix d’un accroissement notable de la complexité. Il est en effet nécessaire, d’une part, de mettre au point séparément chacun des systèmes, puis d’autre part, d’élaborer des méthodes robustes de combinaison de l’information.

Cahier de charge Afin de concevoir un syst`eme de reconnaissance automatique de locuteur (RAL) aussi correct que possible, il convient : d’une part de comprendre en quoi

(7)

le signal de parole est réellement complexe, c’est à dire connaˆıtre l’objet ou l’observation d’entrée, d’autre part de définir correctement la tâche du système, c’est à dire les contraintes imposées et les performances attendues. Ce travail s’appuyant sur diverses langages de programmation, divers axes de recherches et de développement ont dus être définis :

En rapport avec la reconnaissanceet et synth`ese vocale

– Conception du système de reconnaissance du locuteur à base GMM/UBM (avec différents type de normalisation )

– Conception du syst`eme de reconnaissance du locuteur hybride GMM/UBM et SVM pour diff´erents noyaux.

– Fusion des données entre les deux systèmes (moyenne arithmétique, géométrique et régression logistique).

En rapport avec les langages de programmation Utilisation IDE ECLIPSE sous le syst`eme d’´exploitation Linux (ubuntu) avec deux langages de programmation

– C++ pour générer les exécutables de chaque module de système RAL

– JAVA pour Créer une interface graphique capable d’une part d’acquérir un signal audio et d’autre part de faire analyser celui-ci pour identifie ou vérifier le locuteur.

(8)

CHAPITRE I

RECONNAISSANCE AUTOMATIQUE

DU LOCUTEUR

(9)

I.1 Reconnaissance automatique du locuteur

La reconnaissance automatique du locuteur consiste à reconnaˆıtre l’identité d’un individu à partir de sa voix [2]. Les applications des systèmes de RAL se distinguent par leur contexte applicatif et leur niveau de sécurité. Ces contraintes peuvent être prises en compte pour la définition d’une tâche spécifique de la RAL. Il est communément admis de regrouper ces tâches dans des grandes catégories : identification, vérification.

I.1.1 La v´erification automatique du locuteur

Il s’agit de d´eterminer si le locuteur est bien celui qu’il ou elle fait valoir.

I.1.2 L’identification automatique du locuteur

Etant donné une liste connue de locuteur, l’identité de la voix entrante peut être iden-´ tifiée.

I.1.3 Param`etres MFCC

Le développement des MFCC (voir Figure I.1) est obtenu à la suite d’une série d’étapes dont les plus importantes sont :

Figure I.1 — Extraction des param`etres MFCC

l’échantillonnage, la préaccentuation, le fenêtrage, la transformée rapide de Fourier, le calcul des coefficients mel et la convolution cosinuso¨ıdale.

(10)

I.2 Mesures de performances

Les performances d’un syst`eme de VAL s’´evaluent en fonction de deux taux d’erreurs.

La probabilité de faux rejets (FR) ou de rejet du client à l’identité proclamée et la pro- babilité de fausses acceptations (FA) ou d’acceptations d’impostures (figure I.2).

Figure I.2 — Types d’erreurs dans un syst`eme RAL

I.3 Les courbes DET

La représentation la plus communément utilisée pour évaluer la pertinence du seuil de décision en fonction de ces deux taux d’erreurs est la courbe DET (Detection Error Tra- deoff [12]) figure I.3. La courbe DET permet d’évaluer, pour chaque seuil de vérification, les valeurs du couple (FA, FR). La figure I.3 illustre un exemple de courbe DET.

(11)

Probabilité de fausse alarme

Probabilitédemiss

Figure I.3 — Exemple courbe DET

I.4 Applications

On peut distinguer plusieurs profils d’applications de la reconnaissance automatique du locuteur : le contrôle d’accès physique, la sécurisation de transactions à distance, l’organisation de l’information sonore et enfin les applications criminalistiques.

I.4.1 Contrˆole d’acc`es physique

Les applications de types contrôles d’accès physiques sont les applications nécessitant la présence effective de l’utilisateur devant le système pour réaliser l’opération souhaitée, celle-ci nécessitant une interaction matérielle en un endroit précis.

I.4.2 Applications dans le domaine criminalistique

Un volet que nous n’avons pas encore évoqué est l’utilisation de la RAL dans les domaines judiciaires ou criminalistique. L’utilisation de la reconnaissance automatique du locuteur dans ce domaine peut aller jusqu’à l’orientation d’une enquête, la recherche de suspects ou la constitution d’éléments de preuves.

(12)

I.5 Mod´elisation par mixture de gaussiennes

La structure générale d’un système RAL à base GMM-UBM est illustrée dans La figure 1. Après l’extraction des paramètres, l’apprentissage nécessite la construction préalable

Figure I.4 — Structure générale d’un système RAL à base GMM-UBM.

d’un modèle générique UBM. L’UBM est adapté sur les données d’apprentissage d’un locuteur pour estimer les paramètres du modèle spécifique à ce locuteur. Lors du test de vérification, le calcul de score fait intervenir l’UBM et le modèle correspondant à l’identité proclamée (correspondant au segment de test). La décision rejet/accès est prise par rapport à ce score. La densité de probabilité d’une mixture de gaussiennes àN composantes pour une variable aléatoire x s’exprime sous la forme suivante :

p(x/Θ) = XN

i=1

γ_iN(x;µ_i,Σ_i) (I.1)

sous la contrainte P

iγ_i = 1 et ∀i : γ_i ≥ 0. γ est le vecteur de poids de la mixture, N(x;µ,Σ) est la loi gaussienne de moyenne µ et de variance Σ, Θ = [µ,Σ, γ]^T est le vecteur de paramètre global du GMM. Si x est de dimension d alors, une mixture de gaussienne est paramétrée N*d paramètres de moyennes, N∗d² paramètres de variance, et N paramètres de poids. La densité d’une distribution normale de dimensions d est exprimée par :

N(x;µ,Σ) = 1

(2/pi)^d/2|Σ|^1/2exp[−1

2(x−µ)^TΣ⁻¹(x−µ)] (I.2) Pour calculer la vraisemblance d’une séquenceX = [x₁...x_T], pour un modèle paramétré par Θ, le logarithme est généralement utilisé en considérant l’indépendance des réalisations de la séquence d’apprentissage. Posons la notation log(p(.)) =`(.), alors

(13)

logp(X|Θ) =`(X|Θ) = XT

t=1

Log XN

i=1

γ_iN(x;µ_i,Σ_i) (I.3)

L’apprentissage d’un GMM est généralement réalisé avec l’algorithme EM [14].

I.5.1 Apprentissage de l’UBM

Pour la construction du modèle UBM, plusieurs approches peuvent être employées.

L’approche la plus simple est de collecter toutes les données d’apprentissage pour former un seul modèle (UBM) à l’aide de l’algorithme EM. Mais il faut faire un équilibrage entre les sous populations pendant le choix des données. Par exemple, si on employé des données indépendantes du genre, on devrait être sûr qu’il y a un équilibre des discours masculins et féminins. Autrement, le modèle final sera décentré vers la sous population dominante, le modèle du monde représente les conditions d’enregistrement, l’environnement, le type et la qualité de parole, produits dans la phase d’apprentissage. Ce modèle généraliste est appris en utilisant une heure à deux heures de signal audio provenant de multiples locuteurs, Le nombre de composantes utilisé varie de 512 à 2048.

I.5.2 Mod´elisation du locuteur

La modélisation du locuteur en RAL diffère de l’estimation du modèle UBM car les données disponibles ne sont pas en quantité suffisante pour estimer les paramètres du modèle si le nombre de composantes est élevé. Les méthodes dites d’adaptation per- mettent d’estimer de manière robuste des modèles spécifiques au locuteur en ajoutant de l’information a priori sur la distribution des paramètres. Les techniques essentielles les plus utilisées en RAL sont largement tirées de l’adaptation bayésienne, particulièrement celle du MAP (maximum a posteriori) [17].

I.5.3 Adaptation MAP des param`etres de moyenne du GMM

La m´ethode d’adaptation la plus utilis´ee en RAL est celle du maximum a posteriori.

Elle consiste à définir des distributions a priori p(Θ) pour les paramètres du modèle et

à maximiser leurs probabilités a posteriori p(Θ|X) sur un signal d’apprentissage X. Le critère d’adaptation pour l’estimation des nouveaux paramètres s’écrit comme suit :

Θ = arg maxˆ

Θ p(Θ|X) = arg max

Θ p(X|Θ)p(Θ) (I.4)

(14)

I.5.4 Test d’hypothèse bayésien pour le modèle UBM

Le rôle de l’UBM tient à la modélisation de l’hypothèse inverse dans la stratégie de décision. La modélisation de l’hypothèse inverse se fait grâce à la construction d’un modèle universel appelé modèle du monde, ou UBM, et dénotéW. Précisément, siS et ¯S représentent respectivement le modèle du locuteur et celui du non-locuteur et soit X un segment de test dont l’identité proclamée correspond àS, alors le rapport de vraisemblance est donné par :

LR(X, H₀, H₁) = LR(X, S, W) = p(X|S)

p(X|S)¯ ' p(X|S)

p(X|W) (I.5)

I.5.5 V´erification du locuteur par GMM-UBM

Le score de vérification correspondant à la vraisemblance d’une séquence de données de test X = [x₁...x_t]^T sur un modèle de locuteur S est exprimé sous la forme de l’espérance du logarithme du rapport de vraisemblance sur toutes les trames du segment de test.

Pr´ecis´ement :

y_s(X) = 1 T

X

i

log p(X_t|S)

p(X_t|W) (I.6)

où p(x_t|S) et p(x_t|W) sont les vraisemblances du vecteur cepstral x_t respectivement sur le modèle du locuteur S et sur le modèle du monde W.

I.5.6 Identification du locuteur par GMM-UBM

Pour la phase de l’identification, le procédure est la même que le GMM sauf que le modèle de chaque locuteur l est donné par l’adaptation bayésienne des paramètres du modèle du monde utilisant les signaux d’apprentissage spécifique à chaque locuteur. Donc, l’objectif est de trouver le modèle qui donne la probabilité maximale pour une séquence d’observation donnée :

log Λ = 1 T

XT

t=1

logp(x_t|λ_{T ar})− 1 T

XT

t=1

logp(x_t|λ_{U BM}) (I.7) I.6 La normalisation des scores

La variabilité du canal de transmission est un facteur important de perte de performance en VAL [28]. Elle est souvent nommée variabilité inter-session, car c’est la différence de contexte entre plusieurs enregistrements qui la caractérise. Les différences de contexte d’enregistrement entre les sessions de test et d’apprentissage introduisent des disparités entre les données. Pour renforcer la robustesse d’un système de RAL, des techniques de

(15)

compensation au niveau des scores ont été proposées. La normalisation de scores a pour but de proposer un score optimal pour chaque locuteur, la Z-norm[2], pour chaque tests, la T-norm [29], pour chaque type de combiné, H-norm.

Les techniques de normalisation sont essentiellement basées sur l’analyse des distributions de scores clients et imposteurs du système de VAL. elles consistent à retrancher la moyenne de la distribution des scores imposteurs aux scores de vérification, puis à les diviser par la variance :

Score_{N orm}= Score−µ_imp σimp

(I.8) µ_imp etσ_imp sont respectivement la moyenne et la variance des scores imposteurs.

I.6.1 Z-norm

Figure I.5 — Syst`eme RAL `a base GMM-UBM avec normalisation de type Znorm.

L’utilisation de la Z-normalisation a permet d’apporter un gain de 91% de classification correcte `a ´egale erreur (P F A=P M).

(16)

I.6.2 T-norm

Figure I.6 — Syst`eme RAL `a base GMM-UBM avec normalisation Tnorm.

Un gain significatif 92% de classification correcte à égale erreur (P F A = P M), donc la T-norm permet de compenser les variations de conditions d’enregistrements observées dans les tests.

(17)

I.6.3 H-norm

Figure I.7 — Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm.

Les résultats de la figure I.7 montrent une amélioration légère des performances du système 90% de classification correcte à égale erreur (P F A = P M), à cause de la sup- pression des effets du combiné.

I.6.4 Normalisation par le moment d’orde 3 ”skewness”

En observant les distributions des scores obtenus figure I.8, nous avons remarqu´es qu’

il y a une asymétrie des distributions, ainsi on se propose de faire une transformation sur les scores pour enlever la valeur de skewness et observé l’éffet sur les performance du système.

Le coefficient de Skewness mesure le degré d’asymétrie de la distribution. Il est définit comme :

S = [E(X−µ)]³ [p

(X−µ)²]³ (I.9)

On applique ce moment sur les scores imposteurs de type carbon et electret pour calculer le Ske_car etSke_elec, puis on fait une transformation de type Log comme le montre l’´equation suivante :

Ss =S+ (1/skeα)log(S/skeα) (I.10)

(18)

-1 0 1 2 3 4 5 6 0

50 100 150 200 250 300 350 400 450

Scores

Nombred’occurrence

Figure I.8 — Histogramme des scores imposteurs et clients sans normalisation.

Où α désigne le type carbon ou electret suivant le type du signal de test. la figure I.9 montre l’histogramme des distributions des scores client et imposteur pour le système de base aprés normalisation Hnorm et aprés l’application de la correction de Skewnnes :

-3 -2 -1 0 1 2 3 4 5

0 100 200 300

Scores

-3 -2 -1 0 1 2 3

0 100 200 300 400

Scores

Figure I.9 — Distribution des scores du syst`eme RAL en HNORM / skewness.

Pour bien distinguer l’effet de cette technique sur notre syst`eme on a trac´e les courbes de DET comme le montre la figure I.10

(19)

Figure I.10 — Syst`eme RAL `a base GMM-UBM avec normalisation Hnorm.

La figure I.10 montre une amélioration du système. Ce gain a attient des performances satisfaisantes de 90% de classification correcte à égale erreur (P F A=P M).

I.7 Machines `a vecteurs de support(SVM)

Les machines à support de vecteurs est une nouvelle technique discriminante dans la théorie de l’apprentissage statistique proposée par V.Vapnick [23]. Elle permet d’aborder des problèmes très divers comme la classification, la régression, la fusion, etc.

Le principe de cette technique est de projeter les données de l’espace d’entrée (appartenant à deux classes différentes non-linéairement séparables) dans un espace de plus grande dimension appelé espace de caractéristiques. Dans cet espace, on construit un hyperplan optimal séparant les deux classes tel que :

– Les vecteurs appartenant aux différentes classes se trouvent de différents côtés de l’hyperplan,

– la plus petite distance entre les points et l’hyperplan ( la marge ) est maximale.

I.7.1 Construction de l’hyperplan optimal

Dans ce paragraphe, on présente la méthode générale pour la construction d’un hyperplan optimal qui sépare deux classes [25]. Pour cela on suppose qu’on a une base de

(20)

données D de m points d’un espace de dimension p appartenant à deux classes différentes qu’on notera la classe 1 et la classe −1.

D= (x_i, y_i|x_i)²<^p;y_i²1,−1;i= 1, ...., m (I.11) I.7.2 Cas de données linéairement séparables

Dans ce cas, tout hyperplan H :(w.x) +b s´eparant les deux classes satisfait la condition suivante :

y_i((w.x_i) +b) pour i= 1, ...., m (I.12) Maximiser la marge M (la plus petite distance entre les données des deux classes et l’hyperplan) est équivalent à maximiser la somme des distances des classes par rapport à l’hyperplan. La marge à donc l’expression mathématique suivante :

M = min

xi|yi=1

w.x+b kwk max

xi|yi=−1

w.x+b kwk = 2

kwk (I.13)

Par conséquent, l’hyperplan optimal défini par (w₀, b₀) est celui qui satisfait la condition (I.12) et qui minimise Φ(w) définie par :

Φ(w) = kwk²

2 (I.14)

En utilisant les multiplicateur de Lagrange et le théorème de Kuhn-Tucker, le problème se transforme au problème dual suivant : Maximiser :

L(w, b, α) = Xm

i=1

α_i−1 2(

Xm

i,j=1

α_iα_jy_iy_jx_ix_j) (I.15) sous la contrainte : _m

X

i=1

α_iy_i = 0 ; α_i ≥0 (I.16)

Soit la solution α˚= (α˚

1, ..., α˚

m). D’après le théorème de Kühn-Tucker [21], une condition nécessaire et suffisante pour que α˚ soit optimal est :

α˚

iy_i[(w₀.x) +b₀]−1 = 0 pour i= 1, ...., M (I.17) Cela veut dire que : α˚

i = 0 ou y_i[(w₀.x) +b₀] = 1. Ainsi on d´efinit les Vecteurs Supports VS par les x_i tels que y_i[(w₀.x) +b₀] = 1 , ce qui est ´equivalent :V S =x_i tel que α_i >0.

Ces vecteurs se placent géométriquement comme les plus proches de l’hyperplan optimal qui sépare les deux classes. La normale w₀ est calculée par :

w0 =X

V S

α˚

iyixi (I.18)

(21)

Le biais b₀ est calcul´e par la formule suivante : b0 =−1

2[(w0.x(1)) + (w˙ 0.x(−1))]˙ (I.19) O`u x(1) est un vecteur support de la classe1,et˙ x(−1) un vecteur support de la classe˙

−1. La fonction de classification, classe(x), est égale à : classe(x) = sign(w₀.x+b₀) si classe(x) est inférieur à 0 alors x est de la classe −1 sinon il est de la classe 1.

I.7.3 Cas des données non-linéairement séparables

Dans le cas où les données ne sont pas linéairement séparables, l’hyperplan optimal séparant les deux classes est celui qui sépare les données avec le minimum d’erreurs, et donc celui qui satisfait les contraintes suivantes :

– la distance entre les vecteurs bien classés et l’hyperplan doit être maximale, – la distance entre les vecteurs mal classées et l’hyperplan doit être minimale.

Pour formaliser cela, on introduit des variables de pénalité non-négatives, ε_i pour i = 1, ...., m appelés variables d’écart. Ces variables transforment l’inégalité (I.12) comme suit :

y_i((w.x_i) +b)≥1−ε_i pour i= 1, ...., m (I.20) et on essaye de minimiser la fonction suivante :

Φ(w, ε) = kwk² 2 +C

Xm

i=1

εi (I.21)

Ou C est un paramètre de régularisation. Celui-ci permet de concédera plus ou moins d’importance aux erreurs. Cela mène a un problème dual légèrement différent de celui du cas séparable. Dans le cas non-linéairement séparables, il faut maximiser L(α, w, b) par rapport a α sous les contraintes suivantes :

Xm

i=1

α_iy_i = 0 ; 0≤α_i ≤C pouri= 1, ..., m (I.22) Le calcul de la normale w₀, le biais b₀ et la fonction de classification classe(x) reste exactement le mˆeme que dans le cas lin´eaire.

I.7.4 Exploitation du modèle générique pour la modélisation discriminante des locuteurs

L’approche majoritairement utilisée en RAL est basée sur les modèles génératifs pour représenter le locuteur. L’utilisation du paradigme GMM-UBM [7] apparaˆıt maintenant

(22)

comme une étape indispensable pour obtenir des performances proches de l’état de l’art dans des campagnes d’évaluation internationales telles que les campagnes NIST-SRE. Ces dernières années ont vu l’apparition d’approches discriminantes basées sur l’utilisation des machines à vecteurs supports (SVM).

úú ú û ù

êê ê ë é

mn

m M Adaptation 1

MAP

Cible

Non-Cible SVM locuteur

Apprentissage SVM

å ^S^-

=

i

i b i t

i a i b

a g

g

K ,

1

) ,

,

( hm m

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

úú ú û ù

êê ê ë é

mn

m M

1

lubm

Locuteurs

Noyau

Adaptation MAP

lubm

Score SVM

Modèle SVM

Décision úú

ú û ù êê ê ë é

mn

m M

1

Test

Figure I.11 — Structure générale d’un système SVM-GMM

Figure I.12 — Les performances d’un syst`eme RAL `a base GMM-UBM et GMM- SVM

Il est intéressant de remarquer que la combinaison permet d’améliorer les performances du système, les résultats de la figure I.12 sont en faveur du système GMM-SVM puisqu’un

(23)

gain d’environ 6% est apport´e.

I.8 La fusion des donn´ees

Récemment, de nouvelles techniques sont apparues en vue d’augmenter la robustesse des systèmes de reconnaissance, leur caractéristique commune est l’utilisation de plusieurs classificateurs qui sont recombinés aux niveaux de différents niveaux de traitement pour prendre une décision finale (La fusion de données), Ces récentes techniques sont divisées en deux approches :

I.8.1 Fusion par Moyenne Arithm´etique

Pour fusionner des scores, une approche communément utilisée consiste simplement à moyenner les scores des L experts pour prendre la décision d’acceptation ou de rejet. La

Figure I.13 — Les performances d’un système RAL à base fusion de donnée entre GMM-UBM et GMM-SVM

figure I.13 illustre les performances des deux systèmes GMM/SVM et GMM/UBM à l’aide d’une courbe DET, La combinaison des deux systèmes à l’aide d’une fusion arithmétique montre un gain significatif comparé au système GMM/UBM.

(24)

I.8.1.1 Fusion par Moyenne Geom´etrique

Cette méthode de fusion sert à fusionner les scores de deux systèmes ou plusieurs suivant l’équation indiquer ci dessous :

pour tout entier T et tout score S = (S1, ...ST) on a : S_{f usion}= (

Yn

j=1

x_j)¹ⁿ (I.23)

Figure I.14 — Fusion par Moyenne Geom´etrique entre GMM-UBM et GMM-SVM

En effet, d’aprés la figure I.14 arrive à classifier les fichiers tests avec un taux de classification correct 97% à égale erreur (P F A=P M)

I.8.1.2 Fusion par r´egression logistique objectif

La régression logistique [33] est une technique statistique qui à pour objectif d’estimer des scores par apprentissage supervisé, il s’agit d’une fusion simultanée des scores de multiples sous-systèmes, principalement pour améliorer la capacité de classifieur.

(25)

Figure I.15 — Les performances d’un système RAL à base fusion de donnée par régression logistique objectif

Le meilleur résultat est obtenu pour la fusion optimale comme le montre la figure I.15 mais la difficulté réside dans l’apprentissage de cette fusion. Ces méthodes sont très populaires, mais l’inconvénient qui en résulte est que les ressources à mettre en oeuvre peuvent être multipliées par le nombre de systèmes à fusionner.

(26)

CONCLUSION

(27)

Conclusions

La Reconnaissance Automatique du Locuteur (RAL) consiste à confirmer ou infirmer l’identité proclamée d’un individu par sa voix. Les travaux présentés dans cette thèse s’inscrivent dans le cadre de cette tâche et sont orientés autour de trois axes principaux :

La normalisation des scores qu’est une méthode performante, simple à mettre en oeuvre mais très coûteuse parce qu’elle implique une étape d’essais pour calculer les paramètres de normalisation. Son apport est significatif comme il est montré dans les expériences réalisées le long de ce travail, elle est devenu maintenant indissociable d’un système de RAL. Les résultats obtenus par ces techniques de normalisation sont meilleurs que celles du système de référence GMM-UBM

L’intégration du modèle générique utilisé dans la modélisation générative au sein des nouveaux formalismes apparus ces dernières années : les systèmes basés sur une modélisation discriminante des locuteurs. Les systèmes de cette catégorie utilisent généralement le formalisme des machines à vecteurs supports (SVM). Les systèmes récents de reconnaissance du locuteur associent en général un reconnaisseur génératif de type GMM-UBM et un autre de type SVM. Les contributions apportées dans ce document s’inscrivent dans cette démarche, mais en essayant d’unifier les différents formalismes et de simplifier la structure globale du système, en intégrant le modèle générique à ce système discriminant. Les résultats montrent que les performances de notre système hybride sont meilleurs que celles du système de référence basé sur la technique GMM-UBM avec normalisation des scores.

La fusion Ce travail a principalement consisté en l’introduction de la fusion en scores pour l’identification et la vérification automatique du locuteur. Les approches de fusion proposées dans ce travail sont les plus répandues, car les plus simples à mettre en oeuvre, peuvent aussi conduire à des performances plus robuste. Nous avons d’ailleurs réalisé des expériences dans ce sens, où l’amélioration des performances résultat de la fusion des scores d’un système GMM-UBM et du GMM-SVM était significative, le taux de reconnaissance correct à égale erreurs a attient 97%.

(28)

La dernière partie de ce travail de thèse a été consacrée à la création d’une interface graphique pour faciliter aux utilisateurs la manipulation des différentes taches de l’application, acquérir un signal audio, analyser celui-ci pour identifier ou vérifier le locuteur.

(29)

Perspectives

Comme perspectives, nous proposons :

– Etude et implementation des méthodes de compensation des effets du canal téléphonique.

– Utilisation d’autres m´ethodes de fusion de donn´ees.

– Concevoir un syst`eme d’identification en temps r´eel.

– Reconnaissance d’un locuteur par surveillance d’une ligne t´el´ephonique.

(30)

[1] R. Bolle et S. Pankanti. Biometrics, Personal Identification in Networked Society : Personal Identification in Networked Society. Norwell, MA, USA : Kluwer Academic Publishers, 1998.

[2] G. R. Doddington. Speaker recognition. identifying people by their voices. Dans IEEE transactions, 1985.

[3] D. A. Reynolds, Speaker identification and verification using gaussian mixture speaker models, Speech Communication, vol. 17(1-2), pp. 91-108, 1995.

[4] H. Hermansky. Perceptual linear predictive (PLP) analysis of speech. The Journal of the Acoustical Society of America, 1990.

[5] S.B. DAVIS et P.MERMELSTEIN. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IN Proceedings of the ICASSP,

[6] J.-F. Bonastre, N. Scheffer, C. Fredouille, et D. Matrouf, 2004. NIST’04 speaker recognition evaluation campaign : new lia speaker detection plateform based on ALIZE toolkit. Dans les actes de NIST SRE’04 Workshop : speaker detection evaluation campaign, 2004.

[7] D. A. Reynolds et R. C. Rose. Robust text-independent speaker identification using Gaussian Mixture speaker Models. Speech and Audio Processing, IEEE Transactions, 1995.

[8] A. E. Rosenberg et F. K. Soong. Advances in Speech Signal Processing, Chapter Recent Research in Automatic Speaker Recognition, 1992

[9] F. Soong, A. Rosenberg, L. Rabiner, et B. Juang. A vector quantization approach to speaker recognition. Dans les actes de ICASSP, Volume 10, 1985.

(31)

[10] V.Wan etW. M. Campbell. Support vector machines for speaker verification and identification. Dans les actes de Neural Networks for Signal Processing, Volume 2, 2000.

[11] W. M. Campbell, D. E. Sturim, D. E. Sturim, D. A. Reynolds, et D. A. Reynolds.

Support vector machines usingGMMsupervectors for speaker verification. Signal Pro- cessing Letters, IEEE 13(5), 2006.

[12] A. F. Martin et M. A. Przybocki. The DET curve in assessment of detection task performance. Dans Proceedings of European Conference on Speech Communication and Technology (Eurospeech 97), 1997.

[13] D. A. Reynolds, Speaker identification and verification using gaussian mixture speaker models. Dans Speech Communication, 1995.

[14] A. P. Dempster, N. M. Laird, et D. B. Rubin, ”Maximum-likelihood from incomplete data via the EM algorithm”. Dans Journal of Acoustical Society of America JASA, 1977.

[15] I. Magrin Chagnolleau, J. Wilke, F. Bimbot, Further investigation on AR-vector models for text-independent speaker identification, International Conference on Acous- tics, Speech, and Signal Processing (ICASSP), pp. 401-404, Atlanta (USA), 1996.

HMM

[16] L. R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition, IEEE transactions Speech Audio Processing, vol. 77(2), pp. 257- 285, 1989.

[17] J. L. Gauvain et C. H. Lee, Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains. Dans IEEE Transactions on Speech and Audio Processing, 1994.

[18] J. De Veth, H. Bourlard, Comparison of hidden Markov model techniques for automatic speaker verification, Workshop on Automatic Speaker Recognition, Identification, Verification, pp. 11-14, Avril 1994, Martigny (Suisse).

[19] D. A. Reynolds, T.F. Quatieri, R. B. Dunn, Speaker verification using adapted gaussian mixture models , Digital Signal Processing Journal, 2000.

[20] R. Auckenthaler, J. S. Mason Score normalisation for text-independent speaker verification systems Digital Signal Processing Journal, 2000.

(32)

[21] D. A. Reynolds, T. F. Quatieri, R. B. Dunn, Speakerverification using adapted Gaus- sian mixture models, Digital Signal Processing (DSP), a review journal-Special issue on NIST 1999 speaker recognition workshop, 10(1-3), 2000.

[22] M. J. Carey et E. S. Parris. Speaker verification using connected words. Dans Pro- ceedings of Institute of Acoustics, 1992.

[23] V. N. Vapnik. Statistical Learning Theory. Wiley, 1998.

[24] C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition.Data Mining and Knowledge Discovery , 1998.

[25] N. Cristianini et J. Shawe-Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000.

[26] M. A. Aizerman, E. M. Braverman, and L. I. Rozomer, Theoretical foundations of the potentiel fonction method in pattern recognition learning, In Automation and Remote Contol,

[27] R. Courant and D. Hilbert. M´ethods of Mathematical Physics, Inter-science, 1953.

[28] M. Bin, H. Meng, et M. Man-Wai. Effects of device mismatch, language mismatch and environmental mismatch on speaker verification. Dans les actes de ICASSP, 2007.

[29] R. Auckenthaler, M. Carey, et H. Lloyd-Thomas. Score normalization for text- independent speaker verification systems. Digital Signal Processing (DSP), a review journal - Special issue on NIST 1999 speaker recognition workshop, 2000.

[30] A. Rosenberg. The use of cohort normalized scores for speaker verification. Dans les actes de ISCLP, 1992.

[31] R. Courant and D. Hilbert. M´ethods of Mathematical Physics, Inter-science, 1953.

[32] Anil Jain, Karthik Nandakumar, Arun Ross,Score normalization in multimodal bio- metric systems, PATTERN RECOGNITION, The journal of the pattern recognition society, 2005.

[33] N. Brummer. Focal, tools for fusion and calibration of automatic speaker detection systems, 2005.

[34] J.-F. Bonastre, N. Scheffer, D. Matrouf, C. Fredouille, A. Larcher, A. Preti, G. Pou- choulin, N. Evans, B. Fauve, and J. S. Mason. ALIZE/SpkDet : a state-of-the-art open source software for speaker recognition. The Speaker and Language Recogni- tion Workshop, 2008.

(33)

[35] Site web, http :// www.nist.com..

[36] Site web, http ://gforge.inria.fr/projects/spro.

[37] http :Site web, //www.csie.ntu.edu.tw/ cjlin.

(34)

Liste des communications

1. N. RAMOU, M. Djeddou, ”Détection de genre et technique de normalisation des scores pour la vérification du locuteur”, première conférence international de ” IMAGE AND SIGNAL PROCESSING AND THEIR APPLICATIONS ”, ISPA OCT 2009, Université Abdelhamid Ibn Badis, Mostaganem, 19-20-21 OCT 2009.