• Aucun résultat trouvé

2.3 Quelques techniques de r´eduction de dimension

2.3.3 L’analyse en composantes ind´ependantes

L’analyse en composantes ind´ependantes (ACI) est souvent illustr´ee par le probl`eme de la “cocktail party” : d personnes tiennent conversation dans un salon dans lequel d microphones d’enregistrement sont install´es. Nous avons d signaux vocaux (sources) que l’on suppose ind´ependants et que l’on veut retrouver `a partir des d enregistrements. La formulation math´ematique du probl`eme est la suivante [36, 70] :

y = At (2.13)

o`u y est le vecteur des observations, A est la matrice de m´elange `a d´efinir et t sont les sources `a d´eterminer, suppos´ees ind´ependantes et non gaussiennes [36, 70]. Il faut noter deux ambigu¨ıt´es associ´ees `a ce mod`ele sur les puissances des sources et leur ordre.

Le th´eor`eme de la limite centrale affirme que la somme de variables al´eatoires ind´ependantes tend, sous certaines conditions, vers la distribution gaussienne. De plus, la somme de deux

variables al´eatoires ind´ependantes est g´en´eralement plus proche de la gaussienne que n’im-porte laquelle des deux variables [72]. Les observations qui sont des combinaisons lin´eaires des sources sont alors davantage gaussiennes que ces derni`eres, et l’estimation de W = A−1

peut ˆetre bas´ee sur la maximisation de la non gaussiannit´e des sources. Une mesure de cette non gaussiannit´e s’impose donc. La plus classique est le Kurtosis qui est le cumulant normalis´e d’ordre 4 [70] :

Kurt(y) = E{y4} − 3E{y2}2 (2.14) Des valeurs strictement n´egatives du Kurtosis sont obtenues avec des distributions sous-gaussiennes (plus aplaties que la gaussienne) tandis que les distributions sur-sous-gaussiennes (plus piqu´ees que la gaussienne) donnent des valeurs strictement positives. Malgr´e sa sim-plicit´e, le Kurtosis a l’inconv´enient d’ˆetre tr`es sensible aux donn´ees aberrantes [67].

La seconde mesure trouve ses bases dans la th´eorie de l’information. Il est ´etabli que pour un ensemble de variables al´eatoire de mˆeme variance, celle qui suit la loi gaussienne maximise l’entropie donn´ee par :

H(y) =− Z

fy(u) log fy(u) du (2.15) o`u fy(y) est la densit´e de y. Cette remarque permet d’introduire une mesure de la non gaussiannit´e appel´ee n´eguentropie [72] d´efinie par :

J(y) = H(yg)− H(y) (2.16) o`u yg est un vecteur al´eatoire gaussien de mˆeme covariance que y. La n´eguentropie est ´egale `a la divergence de Kullback-Leibler entre fy(y) et fyg(yg) [36]. Etant donn´ee la difficult´e d’´evaluer J d’apr`es l’Eq. 2.16, cette quantit´e est en pratique approxim´ee. Une m´ethode classique d’approximation est [76] :

J(y) = 1

12E{y3}21

48Kurt(y)

2 (2.17)

Cet estimateur bas´e sur le kurtosis demeure peu robuste. Hyv¨arinen [71] a propos´e une approximation robuste de la n´eguentropie :

J(y) = [E{G(y)} − E{G(yg)}]2 (2.18) o`u G est une fonction non quadratique1puisqu’alors J serait trivialement nul pour toutes les distributions. La maximisation de J permet de retrouver la matrice de projection

1Les choix suivants pour G sont av´er´es tr`es pertinents [70] : G1(u) = 1

a1

log cosh(a1u) ; 1≤ a1≤ 2 et G2(u) =− exp(−u

2

2 ) Leurs d´eriv´ees respectives sont :

g1(u) = 1 a1

tanh(a1u) ; 1≤ a1≤ 2 et g2(u) = u exp(−u

2

2.3 Quelques techniques de r´eduction de dimension 39

W = A−1.

Comme l’ind´ependance implique la non corr´elation, l’espace de recherche est restreint aux composantes d´ecorr´el´ees. Cela est mis en pratique grˆace `a une proc´edure de blanchi-ment des observations pr´ealable `a l’optimisation de J. Cette op´eration n’est autre qu’une ACP sous la contrainte d’une matrice de covariance identit´e pour les vecteurs transform´es. Elle est donn´ee par :

τ = U Λ12Uty (2.19) o`u τ est le vecteur blanchi, Λ est la matrice des valeurs propres de Σy et U est la matrice des vecteurs propres de Σy.

Hyv¨arinen [69] a propos´e un algorithme robuste (Algo. 2.1, p. 39.), baptis´e fastICA, pour l’optimisation des vecteur colonnes wi de W .

Algo. 2.1 Algorithme FastICA

• Centrage des donn´ees

• Blanchiment (Eq.2.19) pour obtenir τ

• Choix initial de wi unitaire (choix al´eatoire par exemple) R´ep´eter • Mise `a jour de wi : wi ← E{τ g(wt iτ )} − E{g′(wt iτ )}wi o`u g′ est la d´eriv´ee de g. • Normalisation de wi : wiwi kwik Jusqu’`a convergence de wi

Afin d’empˆecher les wi d’ˆetre estim´es d’une fa¸con identique, ces derniers doivent ˆetre d´ecorr´el´es `a chaque it´eration. Cela peut se faire de deux mani`eres : la d´ecorr´elation sym´etrique ou la d´ecorr´elation d´eflationniste. La premi`ere consiste `a faire une it´eration pour tous les wi en ”parall`ele” puis les d´ecorr´eler simultan´ement. La seconde est bas´ee sur la proc´edure d’orthogonalisation de Gram-Schmidt [37]. Les vecteurs wi sont estim´es l’un apr`es l’autre. Pour chaque vecteur wi, i = 2,· · · , d une ´etape suppl´ementaire est ajout´ee dans l’algorithme fastICA qui consiste `a son orthogonalisation par rapport aux vecteurs pr´ec´edemment estim´es. Cela est r´ealis´e par :

wi ← wi

i−1

X

j=1

(wtiwj)wj (2.20)

L’algorithme fastICA avec d´ecorr´elation d´eflationniste est d´ecrit par l’Algo. 2.2, p. 40. Cette mani`ere de faire privil´egie les premiers vecteurs estim´es. Pour des fins de r´eduction, c’est cette m´ethode qui est utilis´ee plutˆot que la premi`ere car on est ainsi assur´e de garder les axes qui maximisent le plus la n´eguentropie. De ce point de vue cet algorithme peut ˆetre class´e comme un algorithme de poursuite de projection tr`es performant, dont l’index de projection est la n´eguentropie.

Algo. 2.2 Algorithme fastICA avec d´ecorr´elation d´eflationniste

• Centrage des donn´ees

• Blanchiment (Eq.2.19) pour obtenir τ Pour tout i = 1,· · · , r Faire

• Choix initial de wi al´eatoirement par exemple R´ep´eter • Mise `a jour de wi : wi ← E{τ g(wt iτ )} − E{g′(wt iτ )}wi o`u g′ est la d´eriv´ee de g.

• Si i > 1, faire l’orthogonalisation suivant l’Eq. 2.20 • Normalisation de wi : wiwi

kwik Jusqu’`a convergence de wi

Fin Pour

N´eanmoins, il est l´egitime de s’interroger sur l’utilit´e de la maximisation de la n´eguentropie. En effet la distribution normale est souvent jug´ee la moins int´eressante, et les axes de projections les plus int´eressants sont ceux qui montrent le moins cette distribution. Un premier argument est que les distributions multimodales montrent des structures de clus-ters. Un autre est que la gaussienne maximise l’entropie qui est une mesure du d´esordre ou du manque de structure des donn´ees analys´ees, chose qu’on cherche `a ´eviter [70].