• Aucun résultat trouvé

1 Principe de l'approche factorielle

CHAPITRE 9. IDENTIFICATION DE MODULES DE GÈNES TRANS-RÉGULÉS

1. PRINCIPE DE L'APPROCHE FACTORIELLE

1.2 Extraction des composantes

Nous détaillons dans cette partie le fonctionnement de l'ACI. Cette méthode étant généralement précédée d'une étape de réduction de la dimension par ACP, nous rappelons brièvement le principe de l'ACP avant d'exposer le principe de l'ACI.

1.2.1 L'analyse en composantes principales

L'analyse en composantes principales (ACP) est sans doute la méthode d'analyse fac-torielle la plus répandue. L'ACP fonctionne en cherchant successivement des composantes de variance maximale non corrélées entre elles, permettant de décrire au mieux les obser-vations. Ainsi, si on visualise les transcrits comme des points dans un espace de dimension n, on peut voir l'ACP comme la recherche d'un petit nombre d'axes orthogonaux entre eux tels que la projection sur ces axes capture une part la plus grande possible de la variance du nuage des transcrits. La recherche de la ke composante principale revient à chercher un vecteur sk unitaire et orthogonal aux k − 1 composantes précédentes, tel que la projection des données sur ce vecteur s0

kX soit de variance maximale. Ce qui revient au programme de maximisation suivant :

CHAPITRE 9. IDENTIFICATION DE MODULES DE GÈNES TRANS-RÉGULÉS

Figure 9.1  Principe schématique de la décomposition obtenue par l'ACI pour K = 2 : On représente les données par une image où les niveaux d'expression sont visibles par un gradient de couleur allant du bleu (minimum) au rouge (maximum). L'ACI décompose les données selon un produit matriciel X = SA. Les composantes extraites sont caractérisées par leurs signatures S indépendantes entre elles (indépendance des colonnes de S) et leurs patterns (matrice A). Les composantes extraites peuvent être vues comme le reet de processus biologiques (P1 et P2). Sur le schéma P1 inuence 3 gènes tandis que P2 inuence 4 gènes. Certains gènes comme le gène G3 peuvent être inuencés par plusieurs processus à la fois. Cela apparaît alors par une forte participation des gènes dans les deux signatures. Ainsi qu'on le voit sur les prols des patterns extraits dans la population qui sont ici corrélés négativement, aucune condition d'indépendance n'est imposée sur la matrice A.

1. PRINCIPE DE L'APPROCHE FACTORIELLE sk = argmax sk s.c. ||sk|| = 1 et s0 ksi= 0 ∀i ∈ [1, k − 1] (s0kXX0sk)

On peut montrer que la solution de ce programme de maximisation revient à prendre pour signature de la kecomposante principale le kevecteur propre de la matrice de corré-lation des expressions. La variance du nuage des transcrits expliquée par cette composante est alors donnée par la kevaleur propre associée à la matrice de corrélation des expressions. On peut également montrer que faire une ACP revient à eectuer la décomposition en valeurs singulières de la matrice de données. Selon cette décomposition, toute matrice X de rang K peut être écrite comme un produit de trois matrices U, D et V

X = U.D.V

où U et V sont des matrices de taille n × K et K × p vériant respectivement U0U = In, V0V = U U0 = IK et V V0 = Ip. Et où D est une matrice diagonale de taille K. On obtient alors directement la décomposition en facteurs principaux en prenant S = U et A = D.V. Dans ce cas, les parts de variance expliquées par chaque composante sont obtenues directement en prenant les carrés des éléments diagonaux de la matrice D. 1.2.2 L'analyse en composantes indépendantes

L'analyse en composantes indépendantes (ACI) peut être vue comme une extension de l'ACP au cas non gaussien. En eet, dans l'ACP, on projette les variables initiales sur des axes orthogonaux, pour obtenir un faible nombre de motifs d'expression décorrélés et de variance maximale. L'ACI en revanche relâche les contraintes de non-corrélation entre les motifs recherchés, en imposant l'indépendance et la non-gaussianité des signatures. Ainsi l'ACI permet d'identier des causes de variabilité qui peuvent être corrélées entre elles. Cette méthode a été utilisée avec succès à plusieurs reprises pour l'analyse des donnés de biopuces [8688].

Nous utilisons ici l'algorithme fastICA pour eectuer l'ACI. Cet algorithme se base sur le lien qui existe entre indépendance et gaussianité. Intuitivement, ce lien peut s'ex-pliquer à l'aide du théorème central limite. Puisqu'une somme de variables aléatoires indépendantes converge en loi vers une gaussienne, on s'attend à ce que la distribution de toute combinaison linéaire des prols d'origine tende à se rapprocher d'un gaussienne. Une stratégie pour retrouver les signatures indépendantes consiste donc à rechercher des combinaisons des prols observés qui soient les moins gaussiennes possibles.

De façon plus formelle, le critère d'indépendance des signatures se distingue du critère de non-corrélation imposé par l'ACP par le fait qu'il permet de tenir également compte

CHAPITRE 9. IDENTIFICATION DE MODULES DE GÈNES TRANS-RÉGULÉS

des moments d'ordre supérieur, en minimisant l'information mutuelle entre les signatures. L'information mutuelle est dénie par :

I(s1, . . . , sK) = H(s1, . . . , sK) −

K

X

k=1

H(sk)

où H désigne l'entropie de Shannon, dénie pour une variable aléatoire4 y de densité f par

H(y) = − Z

f (y) log(f (y))dy

Une caractéristique fondamentale de cette entropie est qu'elle est maximale lorsque la variable aléatoire y est gaussienne [89]. Hyvärinen et Oja ont montré [90] qu'on pouvait mettre en évidence le lien entre l'information mutuelle d'un ensemble de variables aléa-toires y1, . . . , yK et leur écart à la gaussianité en introduisant le concept de néguentropie. La néguentropie J(y) est dénie par

J (y) = H(ygauss) − H(y)

où ygauss est une variable aléatoire gaussienne de même matrice de variance-covariance que y. La néguentropie est donc une valeur positive ou nulle, valant 0 lorsque la variable aléatoire y suit une distribution gaussienne.

On peut montrer que l'information mutuelle d'un ensemble de variables aléatoires y1, . . . , yK peut se décomposer à une constante près en fonction des néguentropies indivi-duelles de chacune des v.a. yk. On a alors en notant C cette constante :

I(s1, . . . , sK) = C −

K

X

k=1

J (sk)

On voit donc comment en maximisant la non-gaussianité des signatures extraites, on mi-nimise l'information mutuelle entre ces mêmes signatures. De plus dans notre cas, comme nous l'évoquons plus loin, la non-gaussianité des signatures extraites est favorable à la recherche de facteurs aectant uniquement un sous-ensemble de transcrits. En revanche l'adoption de ce critère de non-gaussianité pour la dénition des composantes rend in-stable l'estimation des composantes dont la signature ne dière pas signicativement d'une gaussienne. Nous retirons donc dans la suite ces composantes de l'analyse (voir section 1.3).

Il convient de noter que l'ACI n'est pas à proprement parler une méthode de réduc-tion de la dimension des données au même titre que l'ACP. Elle est donc généralement combinée à l'ACP dans une procédure en 4 étapes :

1. PRINCIPE DE L'APPROCHE FACTORIELLE

1. Décomposition des données par l'ACP et choix du nombre de composantes à analyser K en fonction du screeplot.

2. Reconstruction des données à partir des K premières composantes principales. 3. Extraction des K signatures s·k par ACI.

4. Calcul des K patterns a correspondants. 1.2.3 Choix du nombre de composantes

Bien souvent en analyse factorielle, le choix du nombre de composantes est une question cruciale. Si ce choix dépend évidemment de l'objectif recherché, il repose le plus souvent sur l'analyse des valeurs propres renvoyées par l'ACP. Ces valeurs indiquent en eet la part de variance expliquée par chaque composante. L'étude de ces valeurs permet donc d'exclure des analyses les composantes expliquant une part trop faible de la variabilité des données. An de déterminer un seuil à partir duquel les facteurs latents pouvaient être considérés comme non informatifs, Horn a proposé de déterminer les valeurs propres attendues en l'absence de structure de corrélation par des méthodes de permutations [91]. La méthode proposée par Horn se décompose en 3 étapes :

1. On calcule les valeurs propres dk de l'ACP sur les vraies données.

2. On permute chaque variable indépendamment pour éliminer la structure de corré-lation des données et on calcule les valeurs propres sur les données permutées. 3. On répète B fois le processus de permutation et on note rk l'espérance de la ke

valeur propre, que l'on estime à partir des données permutées.

4. On compare les valeurs propres observées aux valeurs obtenues sur les données permutées et on garde un nombre de composantes K le plus grand tel que

dk > rk, ∀k ≤ K

Bien que cette méthode donne d'assez bons résultats sur des données simulées [92], elle peut se montrer trop conservatrice lorsque les premières composantes expliquent une part importante de la variabilité des données. En eet, lorsqu'on permute les données, la varia-bilité totale des données reste constante. L'estimation de la ke valeur propre calculée sur les données permutées ne tient donc pas compte de l'excédent de variabilité déjà expliqué par les (k − 1) premières valeurs propres. Ce phénomène est visible sur la gure 9.2 où on voit une surestimation du niveau attendu des valeurs propres en l'absence de structure.

Ici nous optons donc pour une variante de la méthode de Horn. 1. On calcule les valeurs propres dk de l'ACP sur les vraies données.

2. On permute chaque variable indépendamment pour éliminer la structure de corré-lation et on calcule les valeurs propres sur les données permutées.

CHAPITRE 9. IDENTIFICATION DE MODULES DE GÈNES TRANS-RÉGULÉS

3. On répète B fois le processus de permutation et note rk l'espérance de la ke valeur propre calculée sur les données permutées.

4. On estime l'espérance r0

k de la keplus grande valeur propre corrigée pour la part de variance déjà expliquée par les k − 1 premières valeurs propres :

rk0 = rk1 n − k + 1 k−1 X i=1 di− ri

5. On compare les valeurs propres observées aux valeur obtenues et on garde un nombre de composantes K le plus grand tel que

dk > rk0, ∀k ≤ K

On voit sur la gure 9.2 que ce critère permet de mieux modéliser la distribution des valeurs propres les plus faibles et tend à augmenter le nombre de composantes considérées. Ce choix permet donc de limiter le risque de sous-estimation du nombre de composantes dont nous verrons les conséquences dans la section 2.1.