• Aucun résultat trouvé

Spectral Clustering sur les données génomiques

Cette partie est consacrée à l’application de la méthode clustering spectral sur les données génomiques présentées dans la section précédente. Les diverses espèces A17 et F83 seront étudiées séparément puis la différence entre les deux espèces dans l’expression de chaque gène seront étudiée et comparée par rapport à la méthode à noyaux SOM adaptée aux profils temporels.

Dans toute la suite de l’étude, l’heuristique (3.5) du choix du nombre de clusters, développée dans le chapitre 3, est utilisée pour extraire une partition de ces données. Le paramètre σ de l’affinité gaussienne vérifie l’équation (1.2) développée au chapitre 1, à savoir :

σ = Dmax 2N1p

,

avec Dmax= max1≤i,j≤Nkxi− xjk. Le spectral clustering est testé pour un minimum de la fonction

ratio η le plus proche du nombre de profils possibles. Comme résultat du spectral clustering, il est représenté le vecteur moyen des points associés au même cluster. Un profil temporel moyen de chaque cluster est ainsi représenté.

4.3 Spectral Clustering sur les données génomiques 131

Etude de l’espèce A17

Tout d’abord, le spectral clustering est appliqué sur les données initiales. Pour l’espèce A17, la figure 4.8 regroupe donc :

– (a) : la représentation dans R3 des données de l’espèce A17 ; – (b) : le ratio η = k(k−1)2 Pk

i=1 j=i+1

rij en fonction du nombre de classes k ;

– (c) : le résultat du spectral clustering pour k = 4. Chaque couleur représente un même profil temporel.

(a) Données initiales (b) Ratio η fonction de k

(c) Résultat du spectral clustering pour k = 4

Figure 4.8 – Etude avec les données des profils temporels de l’espèce A17

D’après la figure 4.8 (b), on observe que, pour le deuxième minimum du ratio η (k = 4), le cluster qui rassemble la quasi totalité des points a un profil invariant et de moyenne nulle. Les autres clusters, représentant environ 2% des gènes, présentent des profils aux amplitudes fortes de répression ou bien

132 Extraction de connaissances appliquée à la biologie et l’imagerie médicale

d’inhibition suivi de répression. La distribution des points dans R3 étant compacte, seuls les points extérieurs à ce nuage de points c’est-à-dire les gènes aux amplitudes et sujets à de fortes réactions de répression et/ou d’inhibition sont considérés comme clusters. De plus, étant donné que l’objectif est de distinguer le profil sans faire intervenir l’amplitude des valeurs des log-ratios d’expressions de gènes, une normalisation des données peut être envisagée. Ainsi la distribution des points est plongée dans une sphère unité où les coordonnées représentent la pondération, l’évolution, par rapport au temps du niveau d’expression du gène de l’espèce envisagé. La figure 4.9 regroupe donc le nuage de points, le ratio η fonction de k et le résultat du spectral clustering pour le deuxième minimum local de η c’est-à-dire pour k = 11 clusters.

Pour juger et comparer les résultats de la méthode de spectral clustering, nous comparons les profils des gènes associés à un même cluster à ceux de la méthode SOM. Pour l’espèce A17, le cluster regroupant le plus de gènes correspond à un profil en moyenne constante ce qui est conforme aux résultats avec les SOM et les observations des manipulateurs. Cependant il y a une différence de 418 gènes avec la méthode SOM : les gènes supplémentaires inclus dans ce cluster et les gènes associés au cluster 1 présentent un profil invariant soit sur [t0, t1] ou bien sur [t1, t2] et de faibles

amplitudes sur le complémentaire. Les autres clusters représentent des profils marqués d’inhibition et/ou de répression.

Etude de l’espèce F83

L’étude avec les données brutes de l’espèce F83 aboutit à considérer seulement 4 clusters dont 3 regroupent 5% des gènes. Les données normalisées sont donc, à nouveau, considérées. Et on procède de façon similaire pour déterminer le nombre de clusters puis effectuer l’étude de la qualité du clustering. On observe que le minimum est atteint pour la valeur k = 19 clusters. Pour l’espèce F83, les différences entre la méthode SOM et la méthode de Spectral Clustering sont moins notables. Le cluster associé au profil constant/invariant possède quasiment les mêmes gènes. De plus, de nouveaux profils apparaissent comme ceux des clusters 3, 10, 12, 13 et 16. Plusieurs clusters représentent le même profil mais avec des amplitudes différentes. Pour cette espèce, la méthode de spectral clustering partitionne les données par profil et amplitude. En effet, pour l’espèce mutante, les écarts- type ont augmenté respectivement de 35%, 14.5% et 20% suivant les instants {t0, t1, t2} par rapport

à l’espèce A17 et les moyennes ont augmenté respectivement de 50%, 20% et 43%. On distingue donc des réactions d’inhibition et/ou de répression marquées dans l’amplitude. Ces derniers forment, après normalisation des données, des clusters compacts, déterminés ensuite par le spectral clustering. Donc par rapport aux résultats avec l’espèce A17, les résultats du spectral clustering sont plus satisfaisants.

Etude de la différence entre les espèces A17 et F83

On considère maintenant la différence normalisée, gène à gène, des log-ratios d’expressions entre les espèces A17 et F83. En comparaison avec les résultats de la méthode SOM, le profil inva- riant contient approximativement le même nombre de gènes et 8 profils différents sont recensés. Le nombre de gènes associé à un même profil est du même ordre de grandeur entre les deux méthodes. A nouveau, des clusters ayant le même profils mais d’amplitudes différentes sont dissociés par cette méthode.

4.3 Spectral Clustering sur les données génomiques 133

(a) Données normalisées (b) Ratio η fonction de k

(c) Résultat du spectral clustering k = 11

134 Extraction de connaissances appliquée à la biologie et l’imagerie médicale

(a) Data normalisés (b) Ratio η fonction de k

(c) Résultat du spectral clustering k = 19

4.3 Spectral Clustering sur les données génomiques 135

(a) Données initiales et normalisées (b) Ratio η fonction de k

(c) Résultat du spectral clustering k = 23

Figure 4.11 – Distribution et normalisation des données de la différence entre les profils temporels des espèces A17 et F83

136 Extraction de connaissances appliquée à la biologie et l’imagerie médicale