• Aucun résultat trouvé

2.3 M´ethodes bas´ees sur la minimisation des α-divergences

2.3.2 Approche 1 : m´ethode “d´ecorr´elation-rotation”

Description et principe de la m´ethode

Sans perte de g´en´eralit´e, nous consid´erons le cas de deux sources-deux observations (p = 2). Nous consid´erons d’abord l’´etape de blanchiment des m´elanges x. Cette derni`ere consiste `a d´ecorr´eler les signaux observ´es pour obtenir les signaux blanchis que l’on note z. Ensuite, on applique l’´etape de rotation des signaux blanchis afin de restituer les sources inconnues via la minimisation d’un crit`ere bas´e sur le choix d’une divergence. Pour ce faire, nous appliquons aux signaux blanchiszune matrice de rotation U v´erifiant det(U) = 1. Cette matrice est param´etr´ee par une rotation de Givens et s’´ecrit comme suit

U(θ) :=

 cos(θ) sin(θ)

sin(θ) cos(θ)

,

o`u θ est l’angle de rotation des signaux blanchis z tel que θ [−π, π].

D’o`u la possibilit´e d’´ecrire les ´egalit´es suivantes

y1(n) = cos(θ)z1(n) + sin(θ)z2(n), y2(n) = sin(θ)z1(n) + cos(θ)z2(n).

Il s’agit de trouver l’angle θboptimal tel que les sources estim´ees y1 et y2 soient le plus ind´ependantes possible en utilisant cette fois les α-divergences.

Soit y:= (y1, y2)T un vecteur al´eatoire, et notons fy la densit´e jointe du vecteur y et fyi la densit´e marginale de yi, la ieme composante de y. La Iϕα-divergence entre

le produit fy1fy2 des densit´es marginales et la densit´e jointe fy s’´ecrit (voir 2.24)

D’apr`es la propri´et´e (2.26), la quantit´e (2.33) est positive et s’annule si et seulement sify1fy2 =fy, i.e., ssi les composantesy1, y2sont mutuellement ind´ependantes. Cette propri´et´e peut nous servir de crit`ere. Celui-ci peut ˆetre estim´e par

Ibϕα(y) := 1 fy. Dans ce cas, pour s´eparer les sources nous avons besoin de rendre ind´ependants les signaux y1 et y2 et la s´eparation sera obtenue par la minimisation du crit`ere (2.34) par rapport `a l’angle θ

minθ

Pour calculer ce minimum nous allons utiliser la m´ethode de descente du gradient.

Nous avons besoin de calculer le gradient du crit`ere (2.34). Nous donnons dans le paragraphe suivant, la forme explicite du gradient.

Calcul du gradient dIbϕα(y)

Pour calculer cette quantit´e dIϕα(y),il suffit donc de calculer les deux termes suivants ϕ0α

Cependant, pour faire ce calcul, nous avons besoin au pr´ealable de calculer les esti-mateurs fby1,fby2 et fby. Ceci est l’objet du paragraphe suivant.

2.3 M´ethodes bas´ees sur la minimisation des α-divergences 67 Estimation de la densit´e par la m´ethode `a noyau

En statistique, l’estimation par noyau (ou encore m´ethode de Parzen-Rosenblatt) est une m´ethode non-param´etrique d’estimation de la densit´e de probabilit´e d’une variable al´eatoire. Elle se base sur un ´echantillon d’une population statistique et permet d’estimer la densit´e en tout point du support. Le principe de cette m´ethode est le suivant.

D´efinition 2.6. Soit (y(n), n = 1, . . . , N) une suite de variables al´eatoires `a va-leurs dans R ind´ependantes et identiquement distribu´ees (i.i.d). Soit fy la densit´e commune aux variables (y(n), n = 1, . . . , N). L’estimateur `a noyau, not´e fby, de la densit´e fy est d´efini comme suit

fby(y) := 1

de l’estimateur et h est la largeur de la fenˆetre du noyau ou le param`etre de lissage.

Pour que fby(y) soit une densit´e de probabilit´e, le noyau doit satisfaire les deux conditions suivantes :

1. ∀y, K(y)≥0.

2. R+∞

−∞ K(y)dy = 1.

Les cas les plus usuels sont la densit´e gaussienne, celle uniforme sur [−1,1] ou trian-gulaire. La forme du noyau n’est pas tr`es d´eterminante pour la qualit´e de l’estimation contrairement `a la valeur de h. Bien souvent, la fonctionK est choisie comme ´etant la densit´e gaussienne standard (esp´erance nulle et variance unitaire). Notons que le noyau gaussien s’exprime de la fa¸con suivante

K :y∈R7→K(y) := 1

C’est ce noyau que nous allons utiliser pour l’ensemble de nos simulations. Le pa-ram`etre de lissage h d´etermine la r´egularit´e et la pr´ecision de l’estimation de la

densit´e (voir la figure 2.9). Th´eoriquement [97], l’estimateur `a noyau est une estima-tion biais´ee de la densit´e. Le biais de l’estimaestima-tion tend vers z´ero quand h→0, et la variance de l’estimation tend vers z´ero quand Nh +∞. Ainsi, dans la pratique, quand un nombre limit´e d’observations est disponible, le choix de h est important.

La figure 2.9 montre l’estimation de la densit´e d’une r´ealisation normale centr´ee uni-taire de 4000 ´echantillons avec une valeur “optimale” de h 1.06N15 = 0.2, puis h= 2 et enfinh = 0.02. La loi th´eorique est repr´esent´ee par des courbes discontinues et les densit´es estim´ees sont repr´esent´ees en continu. Si h est trop faible on a des irr´egularit´es dans l’estimation de la densit´e ce qui pose des probl`emes lors du calcul des fonctions scores par d´erivation des densit´es estim´ees. Mais un choix de h trop grand conduit `a une mauvaise estimation de la densit´e. Une r`egle de base pour le choix de h, lorsque le noyau utilis´e est gaussien, est [97]

h=bσy

o`u ˆσy d´esigne l’´ecart-type (cette formule est optimale lorsque les densit´es `a estimer sont gaussiennes).

Une fois les fonctions de densit´e estim´ees, nous pouvons facilement calculer l’esti-mateur du gradient dIϕα(y) donn´e par l’´equation (2.36).

Pour donner l’expression du premier termeϕ0α

³b

fy1(y1(n))fby2(y2(n)) fby(y1(n),y2(n))

´

,nous avons besoin de revenir `a la d´efinition des fonctions convexes ´evoqu´ees pr´ec´edemment (2.32). Ainsi

2.3 M´ethodes bas´ees sur la minimisation des α-divergences 69

Fig. 2.9 – Influence de la largeur du noyau gaussien pour une distribution gaus-sienne.

il convient d’´etudier chaque fonction suivant le choix des valeurs de α. Dans ce cas, on a (voir Annexe ; A.3)

Le second terme de la relation (2.36) s’´ecrit d³b

o`u

Nous r´esumons la m´ethode de s´eparation propos´ee par l’algorithme suivant

Blanchiment des m´elangesz=Wx.

Centrage et normalisation de z.

Initialisation deθ, µ.

It´erer :

1. y=U(θ)z.

2. Calculer dIbϕα(y). 3. θ ←θ−µdIbϕα(y).

R´ep´eter jusqu’`a convergence.

Restitution des sources s=U(θ)z.

2.3 M´ethodes bas´ees sur la minimisation des α-divergences 71 R´esultats de simulations

Nous pr´esentons dans ce paragraphe un exemple de simulations pour illustrer la performance de ces m´ethodes. Dans cet exemple, on traite le cas de deux sources et deux m´elanges.

Exemple 2.4. (le cas non bruit´e)

Nous consid´erons deux signaux ind´ependants s1(n) et s2(n), n = 1, . . . , N, i.i.d de loi uniforme sur [0,1] (centr´es et normalis´es). Le nombre d’´echantillons est fix´e `a N = 1000. La matrice de m´elange est

A:=

 1 0.85 0.65 1

.

L’angle optimal obtenu pour les crit`eres KLm, H et KL est respectivement θbKLm =

−0.0480rd,θbH =−0.0482rd etθbKL =−0.0484 rd. Toutes ces valeurs sont calcul´ees par utilisation de l’algorithme de descente du gradient avec un pas fixe (µ = 0.02), pour 60 it´erations, en prenant comme point initial θ = 0. Pour mesurer la qualit´e de s´eparation, nous utilisons le crit`ere de performance (1.65) d´efini dans le chapitre 1. Nous illustrons sur la figure 2.10 les courbes de la convergence de l’angle θ vers ses valeurs optimales en utilisant les divergences KLm = 0),H = 0.5) et KL = 1). Nous pr´esentons dans le tableau (2.2), en dB, le rapport signal sur r´esidus (SNR) pour les crit`eres KLm(α= 0), H = 0.5) et KL(α= 1), que l’on compare avec les r´esultats de s´eparation obtenus en utilisant les algorithmes de Jade et Sobi ; pour des signaux de taille N = 1000. Notons que (s,x), dans le tableau (2.2), est d´efini par la relation suivante

SNRi := 10 log10 E{sb 2i}

E{(xb i−si)2}, i= 1, . . . , p. (2.40) Les simulations sont r´ep´et´ees 50 fois. Nous constatons que les m´ethodes KLm, H et KL donnent de bien meilleurs r´esultats que les algorithmes de Jade et Sobi. Par

contre, nous ne constatons aucune diff´erence significative entre les m´ethodes utilisant les divergences. Nous pr´esentons ´egalement dans la figure 2.11 les plans d’espace des signaux sources, observations, signaux blanchis et sources estim´ees par la m´ethode bas´ee sur la divergence de Hellinger (H).

0 10 20 30 40 50 60

−0.0487

−0.0486

−0.0485

−0.0484

−0.0483

−0.0482

−0.0481

−0.048

Itérations

θ(rd)

α=0 α=0.5 α=1

Fig. 2.10 – Courbes de l’angle θ suivant le nombre d’iterations pour les crit`eres KLm, H etKL.

(s,x) Sobi(s,y) Jade(s,y) I0(s,y) I0.5(s,y) I1(s,y)

sources1 3.23 16.04 35.48 37.95 37.60 37.25

sources2 4.92 17.25 37.75 39.06 39.03 39.05

Tab.2.2 – SNR en dB pour Sobi, Jade, KLm, H et KL.

Exemple 2.5. (le cas bruit´e)

Dans cet exemple, on contamine les signaux de m´elange As(n) de l’exemple (2.4) avec un bruit gaussien b(n) := (b1(n), b2(n))T. Sur la figure 2.12, nous pr´esentons

2.3 M´ethodes bas´ees sur la minimisation des α-divergences 73 les SNRs moyens (des deux sources) pour les trois crit`eres, KLm, H et KL en fonction du rapport signal sur bruit (RSB). Rappelons que le RSB du signal observ´e xi(n), n= 1, . . . , N, est d´efini par la relation suivante

RSBi :=−10 log10Pxi

Pbi, i= 1,2, (2.41)

o`uPxi :=E(xi(n)2)est la puissance du signal m´elange observ´exi etPbi :=E(bi(n)2) est la puissance du bruit bi.

Le RSB varie entre −60 dB et −20 dB. Nous constatons que KLm est plus robuste pour certaines valeurs du RSB entre −50 et −27 dB, par contre entre −60 et −50 dB, et entre −27 et −20 dB, KLm est moins robuste. On observe le ph´enom`ene contraire pour KL. Le crit`ere bas´e sur Hellinger pr´esente un bon compromis entre les crit`eres KL et KLm et ce quelque soit le degr´e de contamination des donn´ees ; voir figure 2.12. Ceci peut s’expliquer de la fa¸con suivante. Lorsque les donn´ees sont bruit´ees, deux cas peuvent se produire (voir crit`ere 2.34).

cas 1 : fby1fb(y1(n))fby2(y2(n))

y(y1(n),y2(n)) <<1, on l’appelle “outlier”.

cas 2 : fby1fb(y1(n))fby2(y2(n))

y(y1(n),y2(n)) >>1, on l’appelle “inlier”.

D’apr`es la figure 2.8, il est clair que KL est la plus robuste par rapport aux outliers, et la moins robuste par rapport aux inliers. A contrario, KLm est la moins robuste par rapport aux outliers et la plus robuste par rapports aux inliers. Comme la fonction convexe associ´ee `a Hellinger est comprise entre celles associ´ees `a KL et KLm, le crit`ere bas´e sur la divergence de Hellinger pr´esente un bon compromis en terme de robustesse dans le cas des outliers et inliers. Comme dans la pratique, nous ne connaissons pas si le bruit conduit `a un outlier ou `a un inlier, il convient donc d’utiliser le crit`ere bas´e sur la divergence de Hellinger.