2.3 M´ethodes bas´ees sur la minimisation des α-divergences
2.3.2 Approche 1 : m´ethode “d´ecorr´elation-rotation”
Description et principe de la m´ethode
Sans perte de g´en´eralit´e, nous consid´erons le cas de deux sources-deux observations (p = 2). Nous consid´erons d’abord l’´etape de blanchiment des m´elanges x. Cette derni`ere consiste `a d´ecorr´eler les signaux observ´es pour obtenir les signaux blanchis que l’on note z. Ensuite, on applique l’´etape de rotation des signaux blanchis afin de restituer les sources inconnues via la minimisation d’un crit`ere bas´e sur le choix d’une divergence. Pour ce faire, nous appliquons aux signaux blanchiszune matrice de rotation U v´erifiant det(U) = 1. Cette matrice est param´etr´ee par une rotation de Givens et s’´ecrit comme suit
U(θ) :=
cos(θ) sin(θ)
−sin(θ) cos(θ)
,
o`u θ est l’angle de rotation des signaux blanchis z tel que θ ∈[−π, π].
D’o`u la possibilit´e d’´ecrire les ´egalit´es suivantes
y1(n) = cos(θ)z1(n) + sin(θ)z2(n), y2(n) = −sin(θ)z1(n) + cos(θ)z2(n).
Il s’agit de trouver l’angle θboptimal tel que les sources estim´ees y1 et y2 soient le plus ind´ependantes possible en utilisant cette fois les α-divergences.
Soit y:= (y1, y2)T un vecteur al´eatoire, et notons fy la densit´e jointe du vecteur y et fyi la densit´e marginale de yi, la ieme composante de y. La Iϕα-divergence entre
le produit fy1fy2 des densit´es marginales et la densit´e jointe fy s’´ecrit (voir 2.24)
D’apr`es la propri´et´e (2.26), la quantit´e (2.33) est positive et s’annule si et seulement sify1fy2 =fy, i.e., ssi les composantesy1, y2sont mutuellement ind´ependantes. Cette propri´et´e peut nous servir de crit`ere. Celui-ci peut ˆetre estim´e par
Ibϕα(y) := 1 fy. Dans ce cas, pour s´eparer les sources nous avons besoin de rendre ind´ependants les signaux y1 et y2 et la s´eparation sera obtenue par la minimisation du crit`ere (2.34) par rapport `a l’angle θ
minθ
Pour calculer ce minimum nous allons utiliser la m´ethode de descente du gradient.
Nous avons besoin de calculer le gradient du crit`ere (2.34). Nous donnons dans le paragraphe suivant, la forme explicite du gradient.
Calcul du gradient dIbϕαdθ(y)
Pour calculer cette quantit´e dIϕαdθ(y),il suffit donc de calculer les deux termes suivants ϕ0α
Cependant, pour faire ce calcul, nous avons besoin au pr´ealable de calculer les esti-mateurs fby1,fby2 et fby. Ceci est l’objet du paragraphe suivant.
2.3 M´ethodes bas´ees sur la minimisation des α-divergences 67 Estimation de la densit´e par la m´ethode `a noyau
En statistique, l’estimation par noyau (ou encore m´ethode de Parzen-Rosenblatt) est une m´ethode non-param´etrique d’estimation de la densit´e de probabilit´e d’une variable al´eatoire. Elle se base sur un ´echantillon d’une population statistique et permet d’estimer la densit´e en tout point du support. Le principe de cette m´ethode est le suivant.
D´efinition 2.6. Soit (y(n), n = 1, . . . , N) une suite de variables al´eatoires `a va-leurs dans R ind´ependantes et identiquement distribu´ees (i.i.d). Soit fy la densit´e commune aux variables (y(n), n = 1, . . . , N). L’estimateur `a noyau, not´e fby, de la densit´e fy est d´efini comme suit
fby(y) := 1
de l’estimateur et h est la largeur de la fenˆetre du noyau ou le param`etre de lissage.
Pour que fby(y) soit une densit´e de probabilit´e, le noyau doit satisfaire les deux conditions suivantes :
1. ∀y, K(y)≥0.
2. R+∞
−∞ K(y)dy = 1.
Les cas les plus usuels sont la densit´e gaussienne, celle uniforme sur [−1,1] ou trian-gulaire. La forme du noyau n’est pas tr`es d´eterminante pour la qualit´e de l’estimation contrairement `a la valeur de h. Bien souvent, la fonctionK est choisie comme ´etant la densit´e gaussienne standard (esp´erance nulle et variance unitaire). Notons que le noyau gaussien s’exprime de la fa¸con suivante
K :y∈R7→K(y) := 1
C’est ce noyau que nous allons utiliser pour l’ensemble de nos simulations. Le pa-ram`etre de lissage h d´etermine la r´egularit´e et la pr´ecision de l’estimation de la
densit´e (voir la figure 2.9). Th´eoriquement [97], l’estimateur `a noyau est une estima-tion biais´ee de la densit´e. Le biais de l’estimaestima-tion tend vers z´ero quand h→0, et la variance de l’estimation tend vers z´ero quand Nh → +∞. Ainsi, dans la pratique, quand un nombre limit´e d’observations est disponible, le choix de h est important.
La figure 2.9 montre l’estimation de la densit´e d’une r´ealisation normale centr´ee uni-taire de 4000 ´echantillons avec une valeur “optimale” de h ≈ 1.06N−15 = 0.2, puis h= 2 et enfinh = 0.02. La loi th´eorique est repr´esent´ee par des courbes discontinues et les densit´es estim´ees sont repr´esent´ees en continu. Si h est trop faible on a des irr´egularit´es dans l’estimation de la densit´e ce qui pose des probl`emes lors du calcul des fonctions scores par d´erivation des densit´es estim´ees. Mais un choix de h trop grand conduit `a une mauvaise estimation de la densit´e. Une r`egle de base pour le choix de h, lorsque le noyau utilis´e est gaussien, est [97]
h=bσy
o`u ˆσy d´esigne l’´ecart-type (cette formule est optimale lorsque les densit´es `a estimer sont gaussiennes).
Une fois les fonctions de densit´e estim´ees, nous pouvons facilement calculer l’esti-mateur du gradient dIϕαdθ(y) donn´e par l’´equation (2.36).
Pour donner l’expression du premier termeϕ0α
³b
fy1(y1(n))fby2(y2(n)) fby(y1(n),y2(n))
´
,nous avons besoin de revenir `a la d´efinition des fonctions convexes ´evoqu´ees pr´ec´edemment (2.32). Ainsi
2.3 M´ethodes bas´ees sur la minimisation des α-divergences 69
Fig. 2.9 – Influence de la largeur du noyau gaussien pour une distribution gaus-sienne.
il convient d’´etudier chaque fonction suivant le choix des valeurs de α. Dans ce cas, on a (voir Annexe ; A.3)
Le second terme de la relation (2.36) s’´ecrit d³b
o`u
Nous r´esumons la m´ethode de s´eparation propos´ee par l’algorithme suivant
• Blanchiment des m´elangesz=Wx.
• Centrage et normalisation de z.
• Initialisation deθ, µ.
• It´erer :
1. y=U(θ)z.
2. Calculer dIbϕαdθ(y). 3. θ ←θ−µdIbϕαdθ(y).
• R´ep´eter jusqu’`a convergence.
• Restitution des sources s=U(θ)z.
2.3 M´ethodes bas´ees sur la minimisation des α-divergences 71 R´esultats de simulations
Nous pr´esentons dans ce paragraphe un exemple de simulations pour illustrer la performance de ces m´ethodes. Dans cet exemple, on traite le cas de deux sources et deux m´elanges.
Exemple 2.4. (le cas non bruit´e)
Nous consid´erons deux signaux ind´ependants s1(n) et s2(n), n = 1, . . . , N, i.i.d de loi uniforme sur [0,1] (centr´es et normalis´es). Le nombre d’´echantillons est fix´e `a N = 1000. La matrice de m´elange est
A:=
1 0.85 0.65 1
.
L’angle optimal obtenu pour les crit`eres KLm, H et KL est respectivement θbKLm =
−0.0480rd,θbH =−0.0482rd etθbKL =−0.0484 rd. Toutes ces valeurs sont calcul´ees par utilisation de l’algorithme de descente du gradient avec un pas fixe (µ = 0.02), pour 60 it´erations, en prenant comme point initial θ = 0. Pour mesurer la qualit´e de s´eparation, nous utilisons le crit`ere de performance (1.65) d´efini dans le chapitre 1. Nous illustrons sur la figure 2.10 les courbes de la convergence de l’angle θ vers ses valeurs optimales en utilisant les divergences KLm (α= 0),H (α= 0.5) et KL (α = 1). Nous pr´esentons dans le tableau (2.2), en dB, le rapport signal sur r´esidus (SNR) pour les crit`eres KLm(α= 0), H (α = 0.5) et KL(α= 1), que l’on compare avec les r´esultats de s´eparation obtenus en utilisant les algorithmes de Jade et Sobi ; pour des signaux de taille N = 1000. Notons que (s,x), dans le tableau (2.2), est d´efini par la relation suivante
SNRi := 10 log10 E{sb 2i}
E{(xb i−si)2}, i= 1, . . . , p. (2.40) Les simulations sont r´ep´et´ees 50 fois. Nous constatons que les m´ethodes KLm, H et KL donnent de bien meilleurs r´esultats que les algorithmes de Jade et Sobi. Par
contre, nous ne constatons aucune diff´erence significative entre les m´ethodes utilisant les divergences. Nous pr´esentons ´egalement dans la figure 2.11 les plans d’espace des signaux sources, observations, signaux blanchis et sources estim´ees par la m´ethode bas´ee sur la divergence de Hellinger (H).
0 10 20 30 40 50 60
−0.0487
−0.0486
−0.0485
−0.0484
−0.0483
−0.0482
−0.0481
−0.048
Itérations
θ(rd)
α=0 α=0.5 α=1
Fig. 2.10 – Courbes de l’angle θ suivant le nombre d’iterations pour les crit`eres KLm, H etKL.
(s,x) Sobi(s,y) Jade(s,y) I0(s,y) I0.5(s,y) I1(s,y)
sources1 3.23 16.04 35.48 37.95 37.60 37.25
sources2 4.92 17.25 37.75 39.06 39.03 39.05
Tab.2.2 – SNR en dB pour Sobi, Jade, KLm, H et KL.
Exemple 2.5. (le cas bruit´e)
Dans cet exemple, on contamine les signaux de m´elange As(n) de l’exemple (2.4) avec un bruit gaussien b(n) := (b1(n), b2(n))T. Sur la figure 2.12, nous pr´esentons
2.3 M´ethodes bas´ees sur la minimisation des α-divergences 73 les SNRs moyens (des deux sources) pour les trois crit`eres, KLm, H et KL en fonction du rapport signal sur bruit (RSB). Rappelons que le RSB du signal observ´e xi(n), n= 1, . . . , N, est d´efini par la relation suivante
RSBi :=−10 log10Pxi
Pbi, i= 1,2, (2.41)
o`uPxi :=E(xi(n)2)est la puissance du signal m´elange observ´exi etPbi :=E(bi(n)2) est la puissance du bruit bi.
Le RSB varie entre −60 dB et −20 dB. Nous constatons que KLm est plus robuste pour certaines valeurs du RSB entre −50 et −27 dB, par contre entre −60 et −50 dB, et entre −27 et −20 dB, KLm est moins robuste. On observe le ph´enom`ene contraire pour KL. Le crit`ere bas´e sur Hellinger pr´esente un bon compromis entre les crit`eres KL et KLm et ce quelque soit le degr´e de contamination des donn´ees ; voir figure 2.12. Ceci peut s’expliquer de la fa¸con suivante. Lorsque les donn´ees sont bruit´ees, deux cas peuvent se produire (voir crit`ere 2.34).
cas 1 : fby1fb(y1(n))fby2(y2(n))
y(y1(n),y2(n)) <<1, on l’appelle “outlier”.
cas 2 : fby1fb(y1(n))fby2(y2(n))
y(y1(n),y2(n)) >>1, on l’appelle “inlier”.
D’apr`es la figure 2.8, il est clair que KL est la plus robuste par rapport aux outliers, et la moins robuste par rapport aux inliers. A contrario, KLm est la moins robuste par rapport aux outliers et la plus robuste par rapports aux inliers. Comme la fonction convexe associ´ee `a Hellinger est comprise entre celles associ´ees `a KL et KLm, le crit`ere bas´e sur la divergence de Hellinger pr´esente un bon compromis en terme de robustesse dans le cas des outliers et inliers. Comme dans la pratique, nous ne connaissons pas si le bruit conduit `a un outlier ou `a un inlier, il convient donc d’utiliser le crit`ere bas´e sur la divergence de Hellinger.