• Aucun résultat trouvé

Mesures d’ind´ependance

Dans le document Séparation de sources thermométriques. (Page 101-105)

3.3 L’analyse en composantes ind´ependantes

3.3.4 Mesures d’ind´ependance

L’hypoth`ese fondamentale de l’ICA est l’ind´ependance statistique des sources `a estimer. Il a ´et´e remarqu´e ´egalement qu’une restriction de l’ICA est la non-gaussianit´e des sources, avec au maximum une source gaussienne dans le m´elange. Le calcul strict de l’ind´ependance statistique par sa d´efinition classique repose sur la connaissance des densit´es de probabilit´e des sources `a estimer, qui ne sont pas connues dans notre cas. Il nous faut alors d’autres mesures qui caract´e-risent l’ind´ependance de sources.

D’un point de vue heuristique, le th´eor`eme limite central nous dit qu’une somme des variables al´eatoires ind´ependantes de mˆeme densit´e de probabilit´e tend vers une variable gaussienne lorsque le nombre de variables al´eatoires tend vers l’infini, ce qui a ´et´e consid´er´e comme la base de la plupart des ph´enom`enes physiques. Une interpr´etation de ce th´eor`eme est que la somme des variables al´eatoires est plus proche de la gaussianit´e que chacune des variables. Dans le cas de mod`ele de l’ICA, les sources sont estim´ees par y = Wz, o`u la matrice de s´eparation W doit ˆetre estim´ee. Dans le cas id´eal, si W est l’inverse de A, nous pouvons retrouver les compo-santes ind´ependantes si. Cependant, un tel cas id´eal n’existe pas parce que nous ne connaissons pas la matrice de m´elange A.

En notant X = WA, nous avons y = WAs = Xs. Les composantes de y sont alors obtenues par des combinaisons lin´eaires de si pond´er´ees par les ´el´ements de X. Comme une somme de deux variables est plus gaussienne que chacune des variables, chaque composante de y est plus gaussienne que chaque composante de s. L’estimation de wi, chaque ligne de W, repose alors

3.3. L’ANALYSE EN COMPOSANTES IND´EPENDANTES

sur le principe de la maximisation de la non gaussianit´e du produit wiz.

Diff´erentes mesures d’ind´ependance et de non-gaussianit´e existent dans la litt´erature et les diff´e-rentes m´ethodes d’ICA sont issues de ces mesures [Cardoso 93, Comon 94, Hyv¨arinen 99a]. Les mesures les plus courantes sont, le kurtosis, la n´eguentropie, l’information mutuelle, l’infomax, le maximum de vraisemblance, les m´ethodes `a l’ordre 2, etc. [Gaeta 90, Pham 92, Cardoso 93, Comon 94, Bell 95, Delfosse 95, Pham 96, Hyv¨arinen 01]. Certaines m´ethodes sont plus privil´e-gi´ees que d’autres par leur efficacit´e, leur g´en´eralit´e et leur vitesse de convergence. Nous nous limitons `a pr´esenter quelques unes de ces m´ethodes qui ont ´et´e utilis´ees dans ce travail : JADE et FastICA.

JADE

Une approche pour identifier le mod`ele de l’ICA est bas´ee sur l’utilisation des tenseurs des cumulants d’ordre 4. Le tenseur est une g´en´eralisation des matrices. Les tenseurs de cumulants peuvent donc ˆetre vus comme une g´en´eralisation de la notion de matrice de covariance. Si la matrice de covariance est un tenseur de cumulants d’ordre 2, le tenseur de cumulants d’ordre 4 est d´efini par les cumulants d’ordre 4. Les ´el´ements de la diagonale principale des tenseurs de cumulants d’un vecteur al´eatoire sont les cumulants marginaux du vecteur al´eatoire et les ´el´ements non diagonaux sont des cumulants crois´es. Souvent, nous n´egligeons les cumulants d’ordre 3 car pour toute distribution sym´etrique ils sont ´egaux `a z´ero et nous consid´erons ici uniquement les cumulants d’ordre 4. Les cumulants ont certaines propri´et´es utiles qui deviennent tr`es int´eressantes dans le contexte de l’ICA comme :

1. tous les cumulants d’ordre sup´erieur `a deux sont nuls pour des variables al´eatoires gaus-siennes.

2. pour des variables mutuellement ind´ependantes, les cumulants crois´es `a tous les ordres sont nuls.

3. les cumulants poss`edent la propri´et´e de multilin´earit´e qui permet d’exprimer les cumulants d’un vecteur Y = Wz en fonction des cumulants du vecteur z et de la transformation li-n´eaire W.

L’ICA peut ˆetre donc bas´ee sur la diagonalisation du tenseur des cumulants `a l’aide des propri´et´es 2 et 3 ci-dessus, car si le tenseur est diagonal, les cumulants crois´es sont nuls ce qui est le cas pour les sources ind´ependantes. Tout comme une matrice est un op´erateur lin´eaire de l’espace des vecteurs de dimensions p, le tenseur des cumulants d’ordre 4 est un op´erateur lin´eaire de l’espace des matrices de dimensions p × p. Pour diagonaliser le tenseur de cumulants d’ordre 4, Cardoso [Cardoso 93] a d´efini la notion de matrice cumulante N = Qz(M) associ´e `a une matrice M de dimension p × p : N = Qz(M)⇐⇒ ( Nij = p X k=1 p X l=1 QklijMlk|1 ≤ i, j, k, l ≤ p ) , avec (3.20)

CHAPITRE 3. S´EPARATION DE SOURCES POUR LA D´ETECTION DES FUITES

Qz =n

Qklij = Cum [zi, zj, zk, zl] |1 ≤ i, j ≤ po (3.21) le tenseur de cumulants crois´es d’ordre 4 du vecteur z. Il existe une d´ecomposition en valeurs propres pour le tenseur de cumulants comme pour tout op´erateur lin´eaire sym´etrique. En analogie avec le vecteur propre pour une d´ecomposition matricielle, nous pouvons d´efinir p matrices propres Mq, q = {1, . . . , p} et p valeurs propres λq pour le tenseur Qz selon la d´ecomposition suivante :

Qz(Mq) = λqMq. (3.22)

Il a ´et´e d´emontr´e dans [Cardoso 93] que les matrices propres Mq sont d´efinies par :

Mq = wqwTq, (3.23)

avec wq une ligne de la matrice de s´eparation W. Une connaissance des matrices propres du tenseur de cumulants du vecteur blanchi z nous permettra de retrouver les composantes ind´e-pendantes. L’algorithme FOBI (Fourth Order Blind Identification en anglais) [Cardoso 89] se fonde sur la diagonalisation d’une seule matrice cumulante Qz(M) pour obtenir la matrice de rotation. L’inconv´enient de cette m´ethode est que les sources `a estimer doivent avoir des kurtosis diff´erents.

Au contraire des matrices, il n’existe pas une m´ethode de diagonalisation de tenseurs mais uni-quement des approximations. Cardoso a propos´e l’algorithme JADE (Joint Approximate Dia-gonalization of Eigen-matrices en anglais) pour diagonaliser conjointement plusieurs matrices cumulantes obtenues `a partir du tenseur de cumulants. Un choix simple pour la matrice M est M = Ip. Cependant, il peut arriver que plusieurs sources aient le mˆeme kurtosis et dans un tel cas la diagonalisation n’est pas possible `a cause de la d´eg´en´erescence des valeurs propres. Le plus simple est alors de choisir des tranches parall`eles et donc de construire des matrices en utilisant la relation (3.20) avec Mlk = δ(l, k), o`u δ est le symbole de Kronecker. Nous pou-vons donc construire p × p matrices, o`u p est le nombre de sources `a estimer par JADE. Apr`es l’estimation des matrices Mq, il reste `a estimer la matrice W. Les propri´et´es de multilin´ea-rit´e, d’additivit´e et de r´ejection gaussienne permettent facilement de montrer que la matrice W diagonalise conjointement les p matrices Qz(Mq) [Cardoso 93]. La matrice W peut donc ˆetre estim´ee de mani`ere `a rendre simultan´ement les matrices WQz(Mq)WT aussi diagonales que possible. Ceci peut ˆetre effectu´e en maximisant la fonction objectif suivante :

QJADE(W) = p X q=1 p X k=1 WMqWT2 kk. (3.24)

La diagonalisation peut ˆetre faite en utilisant des rotations successives de type Givens. Nous ne rentrons pas dans le d´etail de ces calculs, le lecteur pourra consulter les ouvrages propos´es par Cardoso [Cardoso 93, Cardoso 99]. Un inconv´enient de l’algorithme JADE est sa complexit´e quand le nombre de sources `a estimer augmente (ce qui est dˆu `a la d´ecomposition en matrices propres). Dans ce cas, il faut soit utiliser une r´eduction de la dimensionnalit´e des donn´ees avant

3.3. L’ANALYSE EN COMPOSANTES IND´EPENDANTES

d’appliquer JADE, soit utiliser d’autres m´ethodes qui offrent une convergence plus rapide, comme la m´ethode dite FastICA. Pour des dimensions r´eduites de donn´ees, JADE offre des solutions robustes, ce qui fait que cet algorithme est populaire et utilis´e dans des nombreuses applications [Hyv¨arinen 01].

FastICA

Comme nous avons discut´e dans les sections pr´ec´edentes, l’ICA est bas´ee sur la maximisation de l’ind´ependance ou de la non-gaussianit´e. FastICA est un algorithme qui permet de maximiser des fonctions de contraste qui sont des mesures de non-gaussianit´e [Hyv¨arinen 99a, Hyv¨arinen 99b]. Une notion assez courante dans la th´eorie de l’information est l’entropie d’un variable al´eatoire. Parmi tous les vecteurs ayant la mˆeme matrice de covariance, le vecteur al´eatoire gaussien offre l’entropie la plus ´elev´ee. Pour une variable al´eatoire s de densit´e de probabilit´e f (s), en supposant qu’elle existe, l’entropie est d´efinie par :

H(s) = − Z

f (s) log f (s)ds. (3.25)

La n´eguentropie est d´efinie comme la diff´erence entre l’entropie d’un vecteur al´eatoire, s, et l’entropie d’un vecteur gaussien u ayant une matrice de covariance identique :

J(s) = H(u) − H(s). (3.26)

Le probl`eme de son utilisation directe dans des algorithmes ICA est qu’elle d´epend de la densit´e de probabilit´e qui n’est pas connue. Plusieurs approximations de n´eguentropie [Hyv¨arinen 00] existent alors, parmi lesquelles la plus g´en´erale est, dans le cas monodimensionnel donn´ee par : J(si) = c [E {G(si)} − E {G(ui)}]2, (3.27) o`u G peut ˆetre toute fonction non-quadratique et c une constante.

L’id´ee de l’approximation des composantes ind´ependantes est toujours reli´ee `a l’estimation d’une matrice de s´eparation, W, qui permet de retrouver les composantes ind´ependantes Wz. La fonction objectif `a maximiser devient alors :

JG(W) = p X j=1  E G(wTjz) − E {G(ν)}2, (3.28)

o`u ν est une variable al´eatoire gaussienne de mˆeme variance que wTjz et wj une colonne de la matrice W.

Le choix de la fonction de contraste G pour l’approximation de n´eguentropie repose sur l’ob´eis-sance de quelques propri´et´es afin qu’il soit plus robuste et qu’il ait une variance asymptotique minimale. En particulier, G ne doit pas augmenter trop vite afin d’obtenir des estimateurs ro-bustes. Dans ce cadre, les fonctions de contrastes suivantes sont les plus utilis´ees :

G1(y) = 1

CHAPITRE 3. S´EPARATION DE SOURCES POUR LA D´ETECTION DES FUITES et G2(y) = −a1 2 exp  −a2y 2 2 

Dans le document Séparation de sources thermométriques. (Page 101-105)