CHAPITRE IV

(1)

CHAPITRE IV

CLASSIFICATIONS DE PROFILS D’EXPRESSION

1. INTRODUCTION

La première difficulté rencontrée dans la démarche de modélisation de la régulation génique est la dimension du problème. En effet, tout d’abord d’un point de vue mathématique, l’identification paramétrique d’un modèle décrivant les interactions de régulation entre plusieurs milliers de gènes est pratiquement infaisable car elle requerrait une quantité de données dépassant les capacités expérimentales actuelles. En outre, l’indétermination structurelle inhérente aux réseaux de régulation génique contribue au fait que les problèmes de modélisation sont généralement sous-déterminés, en ce sens qu’il existe une infinité d’ensembles de paramètres menant à des résultats similaires (Krishnan et al. 2007). Enfin, le fait que des gènes présentent des profils d’expression identiques ou très similaires rend impossible la différentiation de leurs rôle dans la régulation génique, a fortiori si l’on considère les hauts niveaux de bruits présents dans les données disponibles (Sivachenko et al.

2007). C’est pour résoudre en partie ces problèmes que l’on regroupe généralement les gènes dont les profils d’expression sont similaires (D’haeseleer et al. 2000 ; Do & Choi, 2008).

Il existe de nombreuses méthodes de classification de données utilisées dans l’étude de l’expression des gènes. Chacune se définit par un algorithme de classification et son initialisation ainsi que par une distance quantifiant la similarité entre 2 gènes. Parmi les classifications les plus populaires, on distingue trois grands types d’algorithmes (D'haeseleer et al. 2000) : les classifications exhaustives, les classifications avec recouvrement et les classifications hiérarchiques.

Tout d’abord, dans la classification exhaustive, on considère que chaque gène doit être associé à un et un seul groupe de gènes. Deux méthodes classiques de ce type sont généralement utilisées pour la classification de données d’expression issues de puces à ADN : l’algorithme de partitionnement « k-means » et les « self-organizing maps » ou SOMs (Tamayo et al. 1998, Garrigues et al. 2004). Dans l’algorithme k-means, un nombre k, prédéfini par l’utilisateur, de gènes sont sélectionnés de manière aléatoire pour être les

« centroïdes » des k groupes de gènes à former, c’est-à-dire les gènes centraux de chacune des classes formées. On assigne alors chacun des gènes au centroïde le plus proche. Ensuite, pour chaque classe de gènes, on recalcule le centroïde comme étant la moyenne, sur les gènes, des profils d’expression des gènes du groupe. Ce processus d’assignement de groupes et de calcul

(2)

de centroïdes est répété de manière itérative jusqu’à ce que les changements enregistrés à chaque itération tombent en dessous d’une limite prédéfinie. L’algorithme des SOMs est proche de celui du k-means, mais fonctionne de manière globale. Au départ, les centroïdes sont organisés sur une grille dont la géométrie est définie par l’utilisateur. Ensuite, à chaque itération, un gène est sélectionné de façon aléatoire et le centroïde le plus proche de lui est attiré vers ce gène. Cette procédure est réitérée jusqu’à ce que le déplacement des centroïdes passe en deçà d’un seuil prédéfini.

L’inconvénient principal de ces deux méthodes réside dans leur initialisation. En effet, les classes formées par l’algorithme k-means dépendent fortement de l’initialisation des centroïdes. Il est donc généralement nécessaire de l’exécuter maintes fois avec différentes initialisations pour obtenir des résultats fiables. De plus, cet algorithme nécessite le choix a priori d’un nombre de groupes k, qui est en général totalement inconnu. Dès lors, cet algorithme doit également être exécuté plusieurs fois en variant le nombre de classes désirées, ce qui implique une augmentation considérable du temps de calcul. De la même manière, l’algorithme des SOMs requiert a priori le choix du nombre de classes et la définition de la géométrie de la grille initiale des centroïdes (Heyer 1999), lesquels peuvent s’avérer totalement arbitraires. C’est pourquoi ce type d’algorithme est préféré lorsqu’on souhaite imposer a priori une certaine structure aux classes de gènes (Tamayo 1998).

En opposition à ces méthodes, la classification avec recouvrement autorise l’appartenance d’un gène à plusieurs groupes. On peut alors définir des coefficients d’appartenance aux différents groupes de gènes et opérer de la même manière que dans le k- means. Par ailleurs, on peut également s’orienter vers une définition probabiliste des groupes de gènes, typiquement des distributions gaussiennes autour du barycentre de chaque groupe, et actualiser les paramètres de ces fonctions probabilistes selon un critère de maximum de vraisemblance (McLachlan et al. 2002). Il en résulte alors que les groupes de gènes ne sont plus délimités de manière nette mais continue. D’autres méthodes, telles que l’analyse en composantes indépendantes (ICA) ou principales (PCA), qui permet d’identifier un ensemble réduit de « modes » indépendants dont une combinaison linéaire est capable de reproduire les profils d’expression de tous les gènes étudiés dans différents échantillons, ont également été développées (Lee & Batzoglou 2003, Frigyesi et al. 2006).

Enfin, la classification hiérarchique est également une méthode répandue dans l’analyse de données d’expression des gènes (Spellman et al. 1998, Eisen et al. 1998, Wen et al. 1998, Dopazo et al. 2001). Comme son nom l’indique, elle consiste à ordonner les données de façon hiérarchique, à la manière d’un arbre phylogénétique. Cette classification se fait de façon récurrente, soit par « agglomération », en commençant par associer chaque gène à un groupe et en fusionnant ensuite les paires de groupes les plus proches en groupes plus grands (on parle alors de classification ascendante), soit par « division », en débutant par un unique groupe contenant tous les gènes et en divisant ensuite les groupes en groupes plus petits (on parle alors de classification descendante). Les algorithmes de classification hiérarchique doivent leur popularité à leur simplicité, leur rapidité d’exécution et au fait qu’ils offrent la

(3)

possibilité de couper l’arbre formé à différents niveaux, formant ainsi différents nombres de classes, et ce, sans devoir réexécuter l’algorithme (Heyer 1999). Ils souffrent néanmoins d’une robustesse limitée et du fait que leur nature déterministe regroupe les classes de gènes en les comparant de manière locale et ne permet pas de réévaluer par la suite l’appartenance d’un gène à une classe une fois celui-ci assigné (Tamayo 1998).

Ces méthodes ont été conçues à la base pour la classification de données issues d’expériences statiques. Elles considèrent donc généralement les données à classifier comme totalement indépendantes et par conséquent, si on les applique à des séries temporelles, elles ne tiennent pas compte de la dépendance temporelle entre les instants de mesures (Bar-Joseph 2004a). Pour résoudre ce problème, d’autres méthodes, basées entre autres sur l’interpolation des profils temporels d’expression (James & Sugar 2003, Luan & Li 2003, Storey et al.

2005), sur des modèles autorégressifs (Ramoni et al. 2002), sur des décompositions spectrales par transformées de Fourier (Butte et al. 2002), sur des chaînes de Markov (Sonnhammer et al. 1998, Ji et al. 2003, Schielp et al. 2003) ont été développées. Certaines méthodes utilisées pour la classification de données statiques, telles que les méthodes d’ICA (Kim et al. 2008), les classifications avec recouvrement (Polańska et al. 2007, Chudova et al. 2003, Möller- Levet et al. 2005) ou les méthodes bayésiennes (Heard et al. 2005), ont également été adaptées pour traiter les séries temporelles. Toutefois, ces méthodes s’avèrent généralement très coûteuses en temps de calcul étant donné les grandes dimensions des données d’expression de gènes à traiter.

En 2006, Ma et al. ont proposé une méthode de classification basée sur la représentation continue des données de séries temporelles de puces à ADN : le Smoothing Spline Clustering ou SSC, et l’ont validée en l’appliquant aux profils de niveaux d’expression de la drosophile d’Arbeitman et al. 2002, également étudiés dans le présent travail. Dans ce type de méthode, également adopté par d’autres (Bar-Joseph et al. 2004b), les profils d’expression sont approchés par une courbe lissée qui permet d’atténuer la variabilité des profils due aux erreurs de mesure. Dans un premier temps, nous avons utilisé cette méthode telle quelle sur ces mêmes données. Son fonctionnement est décrit à la section 2.1 et les résultats obtenus par Ma et al. (2006) pour la drosophile sont détaillés à la section 3.1 de ce chapitre.

Dans un second temps, lorsque les limites de la méthode SSC ont été atteintes, nous avons utilisés des méthodes classiques de classification hiérarchique ascendante, avec la distance D proposée au chapitre précédent, tant sur les profils des niveaux d’expression en échelle logarithmique que sur ceux des concentrations relatives en ARNm. Par ailleurs, ces profils ont été classifiés, d’une part, sur la base de la série temporelle complète, laquelle correspond à l’ensemble des stades de développement et, d’autre part, à l’intérieur de chaque stade de développement individuellement. Leur fonctionnement est décrit à la section 2.2 et les résultats obtenus à la section 3.2 de ce chapitre.

(4)

2. METHODES

2.1. Smoothing Spline Clustering (Ma et al. 2006)

Cette classification a été élaborée précisément pour traiter les séries temporelles de données d’expression issues de puces à ADN, exprimées en échelle logarithmique, en tenant compte de la dépendance temporelle entre les points de mesure. Par ailleurs, le programme SSClust ⁽⁴⁾ a été implémenté par ses auteurs en langage statistique R (Ihaka & Gentleman 1996), ce qui a facilité l’utilisation de la méthode SSC dans ce travail.

Nous avons toutefois apporté deux légères modifications à leur méthode.

Premièrement, après examen visuel des profils d’expression moyens de chaque classe, nous avons constaté que ceux-ci présentaient des tendances globales continues avec toutefois un bruit significatif que nous avons assimilé à un bruit de mesure inhérent à la technologie des puces à ADN. Afin de réduire ce bruit de mesure, les h=4005 profils temporels de niveaux d’expression de la drosophile yg (g=1,…,h), définis en (I.8), ont tout d’abord été soumis à un filtrage en moyennes mobiles. On note y^F_g( ) _k (g=1,…,h) les profils d’expression filtrés :

F

F 1 1 1

1 1

2 4 4

( ) ( ) pour 1,

( ) ( ) ( ) ( ) pour 1

g k g k

g k g k g k g k

y y k

y y y y

 

   _  _

  

 l

   k l

 

(IV.1)

Deuxièmement, comme les données d’Arbeitman et al. (2002) présentent une séparation des organismes mâles et femelles au moment du stade adulte, Ma et al. (2006) ont utilisé une technique de branchement pour générer des courbes lissées se séparant, de manière continue, en une courbe mâle et une courbe femelle au niveau du stade adulte de la drosophile. Plutôt que de chercher à reproduire cette démarche, on choisit de diviser les données d’Arbeitman et al. (2002) en deux ensembles différents (pour lesquels les 59 premiers points sont identiques, soit 88% des points de mesure) selon le sexe des drosophiles.

Les résultats exposés dans ce travail sont ceux relatifs aux données des drosophiles mâles.

L’étude des organismes femelles a également été réalisée mais comme elle n’offre que des résultats similaires à celle des organismes mâles, elle n’est pas abordée dans ce travail. Il en résulte que les classes formées par cette méthode modifiée peuvent différer de celles obtenues par Ma et al. (2006). Après examen des résultats, décrits à la section 3.1, on constate que les classes obtenues sont quasiment identiques.

La méthode Smoothing Spline Clustering (SSC) repose sur la représentation continue des profils d’expression des gènes. Cette représentation est réalisée en supposant que les profils d’expression suivent une fonction dépendant du temps additionnée d’une erreur qui suit une distribution gaussienne. Cette fonction est déterminée de manière à obtenir une

(4) http://www.genemerge.bioteam.com/SSClust.html

(5)

courbe lissée passant au plus près des points de mesure. En effet, en se contentant de minimiser les écarts entre cette fonction et les mesures expérimentales, on obtiendrait une courbe passant par tous les points de mesure mais qui serait biologiquement peu plausible étant donné les hauts niveaux de bruit de mesure. On choisit donc d’ajouter à l’objectif de reproduction des mesures une contrainte de lissage de la courbe. Il en résulte une forme polynomiale de la fonction, appelée « spline », qui adapte ses paramètres en chaque point pour respecter la contrainte de lissage.

Une fois cette représentation établie, on cherche à classifier les gènes à partir de leur profil d’expression. Pour cela, en notant τk les instants de mesure de la série temporelle étudiée, on définit pour chaque groupe de gènes c une courbe moyenne xc(τk) et on suppose que le profil d’expression expérimental filtré y^F_g( ) _k de chaque gène g appartenant à ce groupe suit la courbe moyenne xc(τk), en y ajoutant un terme de translation bg spécifique à chaque gène et constant sur toute la série temporelle ainsi qu’une erreur de mesure εij qui suit une distribution gaussienne. En notant Ψ1 le profil d’expression supposé réel du gène 1, on a:

Ψ1(τk) = xc(τk) + bg (IV.2) et

F( )

g k

y  = Ψ1(τk) + εg,k (IV.3) Ce modèle est illustré à la Figure IV.1, en notant y_{g k}^F_, les points de mesure y_g^F( ) _k .

Figure IV.1: Modèle de représentation continue des profils d’expression. Exemple pour le gène 1 dans la méthode Smoothing Spline Clustering (Ma et al. 2006).

Ensuite, l’estimation paramétrique des courbes moyennes et l’assignement de chaque gène au groupe approprié sont réalisés par une méthode de maximum de vraisemblance mise en œuvre à l’aide d’un algorithme itératif d’Expectation-Maximization (EM). Selon cet algorithme, on calcule à chaque itération la probabilité conditionnelle, étant donnés les paramètres du modèle à cette itération, qu’a un gène d’appartenir à chacun des groupes et on

(6)

maximise ensuite la fonction de vraisemblance pour calculer une nouvelle estimation des paramètres. Ces opérations sont répétées jusqu’à atteindre la convergence des solutions.

Comme on le verra au chapitre V lors de la modélisation des réseaux de régulation génique, il convient d’identifier un nombre optimal de classes à former. En effet, si le nombre de classes de gènes est trop faible, les données seront mal reproduites, tandis que s’il est trop élevé, les données seront mieux reproduites mais le nombre de paramètres du modèle augmentera, rendant ce dernier plus complexe voire même surparamétré. Pour déterminer un nombre optimal de groupes de gènes, Ma et al. (2006) ont utilisé dans cette méthode un

« critère d’information bayésien » (CIB) qui exprime un rapport entre un scalaire quantifiant la qualité de reproduction des données et le nombre de paramètres du modèle. En commençant par un ensemble de deux groupes de gènes, la méthode est appliquée aux données et le CIB calculé pour un nombre croissant de groupes de gènes. Au final, on observe que le CIB atteint une valeur minimum pour un certain nombre de groupes de gènes et on conserve les résultats correspondant à ce nombre de groupes optimal.

Le programme SSClust est l’implémentation en langage R de la méthode SSC, décrite ci-avant. Le but de ce programme est donc de traiter des données temporelles sur l’expression de plusieurs milliers de gènes pour effectuer une classification des gènes pour un nombre de groupes donné et générer pour chaque groupe une courbe d’expression moyenne.

Ce programme reçoit en entrée un fichier contenant les données temporelles à classifier, chaque ligne correspondant au profil d’un gène et commençant par son identifiant.

Ensuite, l’utilisateur choisit un nombre de groupe de gènes et exécute SSClust. Celui-ci génère alors deux fichiers images (au format « postscript ») contenant respectivement les courbes moyennes associées à chaque groupe (« données moyennes ») et la superposition des profils de chaque gène au sein de ce groupe (« données brutes »), ainsi que, pour chaque groupe, un fichier contenant l’identifiant de chaque gène au sein de ce groupe. Enfin, le programme calcule le CIB associé à ces résultats. En faisant varier le nombre de classes de gènes à chaque exécution du programme, l’utilisateur peut sélectionnes les résultats associés au CIB minimum.

Finalement, une fois les classes formées, la moyenne et l’écart-type des profils d’expression y^F_{g c}_ ( ) _k de tous les gènes g de chaque classe c sont calculés pour définir, respectivement, le profil moyen x_c( )_k associé à la classe c et la disparité ( ) _c _k des données dans la classe c à chaque instant τk :

 

F

F 2

( ) 1 ( )

[1, ], [1, ],

( ) 1 ( ) ( )

c k g c k

c g c

c k g c k c k

cg c

x y

c n k l h

y x

h

 

   

 

 



   

  





(IV.4)

où hc est le nombre de gènes dans la classe c.

(7)

2.2. Classifications hiérarchiques développées

La méthode SSC, conçue pour classifier les profils d’expression y_{g c}^F_ ( ) _k en échelle logarithmique, s’est avérée incapable de traiter les profils d’expression en concentrations relatives Yg(τκ), filtrées ou non. Le temps de calcul du programme SSClust s’est avéré beaucoup plus important que pour les profils y^F_{g c}_ ( ) _k et les profils des gènes regroupés dans les classes formées ne montraient aucune similarité particulière. Cette incapacité à classifier ces profils provient de leur variabilité beaucoup plus importante que lorsqu’ils sont exprimés en échelle logarithmique. Face à de tels profils, la contrainte de lissage de la méthode SSC rend la reproduction des données très difficile, voire impossible. Nous nous sommes donc tournés vers d’autres méthodes de classification. Pour quantifier la similarité entre les profils d’expression, trois distances, notées Λ, Ω et D, ont été utilisées. Celles-ci sont décrites aux sections 2.2.1 et 2.2.2 en utilisation une notation générique Zg(τκ) pour les profils à classifier, qu’ils soient exprimés en échelle logarithmique ou non. Un algorithme de classification hiérarchique est alors exécuté avec ces distances pour regrouper les gènes en classes. Le choix de cet algorithme de classification repose sur sa simplicité de fonctionnement et sur la possibilité, une fois l’arbre construit, d’effectuer différentes coupures de l’arbre et ainsi de générer différents nombres de classes. En effet, la plupart des algorithmes de classification requièrent a priori un nombre de classes désiré ou réitèrent leur procédure pour différent nombres de classes pour proposer un nombre de classes optimal à l’utilisateur. La classification hiérarchique, en revanche, ne nécessite qu’une exécution unique de l’algorithme, ce qui donne lieu à un gain en temps de calcul. Son fonctionnement est détaillé à la section 2.2.3.

2.2.1. Distances entre les polynômes modélisant les profils d’expression De manière à tenir compte de la dépendance existant entre les instants de mesures des données de séries temporelles, on propose de décrire aussi simplement que possible le comportement des profils d’expression dans chacun des stades de développement de la drosophile et d’utiliser ces comportements simplifiés pour classifier les profils.

Pour ce faire, on modélise, comme dans le chapitre précédent (section 2.2), le profil d’expression Zg(τκ) de chaque gène g, par une succession de polynômes du 3^ème degré

(3) 3

0

I I j

g j

P a tgj





dans chacun des S=4 stades de développement I=1,…,S de l’organisme. Le calcul des coefficients a^I_gj des polynômes est effectué en utilisant la routine polyfit de Matlab après l’uniformisation de la fréquence d’échantillonnage des données. En effet, dans les données d’Arbeitman et al. (2002), l’intervalle séparant deux mesures consécutives varie de 30 minutes à plusieurs jours. Dès lors, une interpolation directe aurait pour effet de reproduire préférentiellement les périodes à fréquence d’échantillonnage élevée au détriment de celles à fréquence plus faible, même si celle-ci concernent la majeur partie de la période totale de mesure. Pour cela, les profils Zg(τκ) sont interpolés à l’aide de « splines cubiques » avec une

(8)

fréquence d’échantillonnage correspondant à la plus grande fréquence de mesure de la série temporelle. Pour les données du développement, cette fréquence est celle du stade embryonnaire et correspond à un point de mesure toutes les 30 minutes. En notant, comme dans le chapitre précédent, κI (I=1,…S-1) les indices des instants définissant les limites des stades de développement, avec κ0=1 et κS=l+1, chaque segment de profil Z_g^I( )_k , défini dans chaque stade de développement [ ₁,

I I

  [

 _  (I=1,S), est ainsi représenté de manière simplifiée par le polynôme Pg^I⁽³⁾

 

_ calculé aux instants [ ₁,

I I

  [

 

 (I=1,S). Deux distances, basées sur ces polynômes, sont alors proposées pour la classification des profils d’expression.

a) Distance Λ entre polynômes dans chaque stade de développement

Tout d’abord, les profils simplifiés Pg^I⁽³⁾

 

_ sont classifiés à l’intérieur de chaque stade. La distance entre les gènes g1 et g2, notée (I=1,…,S), est choisie de manière à être indépendante de la valeur moyenne des profils par rapport au temps, i.e.

. Elle est définie comme l’écart quadratique moyen entre les profils simplifiés

1 2

) (3)

(P_g^I⁽³ ,P_g^I

 )

1 2 2

(3) (3) ( (3)

I I I

g g g

P ,P  ,P

 

1

( )  P_g^I(3) )

 

(3) I

Pg _ des gènes g1 et g2, évalués aux instants [  ₁, [

I I

 _  (I=1,S), après translation verticale superposant un profil (g2) sur l’autre (g1) :

 

1

1 (

1 (3)

1

( )

( ) (

I

I I

I

I I j

I g j

P



 

















( ,

1 2

(3)

( , )

où ( )

I I

g g

I g k

 Z Z 



1 2

2 2

3) (3)

3)

1

) ( ) 1

I I

g g

g k

,P

 





 

2 1

1 2

( 3) (3) 2

1

( (3)

( ( ) ( )

) ( )

I g j I g j

I j I g j

I I

P P P

 

 



 

 

1, 2)

I I

g g

(IV.5)

Cette distance se différentie de celle utilisée au chapitre précédent (équation III.3) en ce qu’elle ne présente pas d’invariance d’échelle, i.e.  Z_gÎ₁ Z_gÎ₂)(Z Z . Notons enfin qu’en l’absence de redimensionnement des profils par un facteur de mise à l’échelle, cette distance est bien symétrique, i.e. ⁽ZgÎ₁^,ZgÎ₂)(Z_gÎ₂,Z_gÎ₁).

Un arbre de classification différent est ainsi généré pour chaque stade de développement. Ces arbres sont alors coupés à certains niveaux pour former des classes de gènes, différentes en nombre et en contenu, dans chaque stade de développement. La procédure de formation des classes à partir de l’arbre est décrite à la section 2.2.3. Finalement, ces quatre ensembles de classes seront combinées afin de définir une classification globale à travers tous les stades de développement.

b) Distance Ω entre les coefficients des polynômes

On propose ensuite d’évaluer la distance euclidienne, notée , entre les coefficients de tous les polynômes Pg^I⁽³⁾

 

_ successifs modélisant les profils Z_g^I(_k) dans chaque stade, à

(9)

l’exception des coefficients correspondant aux termes indépendants des polynômes, de manière à se focaliser sur les formes des polynômes sans tenir compte de leurs valeurs moyennes, par rapport au temps, dans chacun des stades. Cette distance est définie, pour deux profils Z_g₁( )_k et Z_g₂( )_k , comme suit :

 

1 2 2 1

3 2

1 1

( _g , _g ) ^S ^I_{g j} _{g j}^I

I j

Z Z a a

 

 



 ^(IV.6)

On constate que cette distance est bien symétrique par définition. Celle-ci est alors utilisée dans l’algorithme de classification hiérarchique décrit à la section 2.2.3.

2.2.2. Distance D entre les profils d’expression

Par la suite, les profils d’expression sont comparés directement, sans passer par une approximation polynomiale. La distance D Z Z( _g₁, _g₂) séparant deux profils d’expression

1( )

g k

Z  et Z_g₂( )_k est formulée comme en (III.3), c’est-à-dire de manière à être symétrique, i.e.

1 2)

( 2, ( _g ,Z_g  1)

1 2)

g Zg 

Zg Z

1 2

(Z Z_g ,

g

) )

D Z ( , D Z

D D

, et indépendante à la fois de la valeur moyenne des profils par

rapport au temps et d’un facteur l’échelle, i.e. et

, où

1 2 1 2 1 2

( _g , _g ) ( _g , _g _{g g} D Z Z D Z Z 

g g1 2

g .

g g1 2

 et

g g1 2

 sont des paramètres respectivement d’échelle et de translation. La distance D est définie comme en (III.3):



g1 g

    

D Z Z

2 1 2 1 2

1

, 1 ^l _ij _g( ),_k _g ( )_k _ij _g( ),_k _g ( )_k

k

d Z Z d Z Z

l ^   ^  





^(IV.7)

avec

 

1 2 1 1 2 2 1 2

1 1

1 2 2

1 2

( ), ( ) ( )

( ) 2

( ), ( ) ( )

ij g k g k g k g g g g g

g k g g

ij g k g k g k

g g

d Z Z Z Z

    

 

  





  

et



1 2

(IV.8)

Le calcul de _{g g} et _{g g}_{1 2} a dès lors pour objectif de minimiser la distance symétrique Λ entre Zg₂



^_



^etZg₁

 

 . Par ailleurs, on autorise ici les valeurs négatives des facteurs d’échelle

g g1 2

 des profils à superposer. Dans ce cas, deux profils en opposition de phase mèneront ici à une distance aussi faible que s’ils étaient en phase. Le but de cette opération est de regrouper non seulement les gènes corrélés de manière positive mais également de manière négative. En effet, comme dans le cas de profils identiques, deux gènes dont les profils d’expression sont en parfaite opposition ne sont pas distinguables au niveau de leur rôle dans la régulation génique. Ainsi, on ne pourra pas distinguer une interaction d’activation venant d’un de ces gènes d’une répression venant du second, il est donc logique de les regrouper, au même titre que les gènes aux profils d’expression identiques.

(10)

On obtient

g g1 2

 et

g g1 2

 de la même manière qu’au chapitre précédent (équations III.6 et III.7) et on choisit le signe de _{g g}_{1 2} menant à la plus faible valeur de D :



2



2

1 2

1 1

2 2

1 1

2

1 1

1 ( ) 1 ( )

1 1

( ) ( )

l l

g k g k

k k

g g l l

g k g k

k k

Z Z

l l

Z Z

l l





 

 

 



   

 

 

 

 _

 (IV.9)



2



2

1 2 2 1

1 1

2 2

2

1 1

( ) ( )

1 1

et ( ) ( )

1 1

( ) ( )

j j

g k g k

j j

k i k i

g g k i g k k i g k j j

g k g k

k i k i

Z Z

l l

Z Z

l l

Z Z

l l

 

  

 

 

 

 

 

  

 

 

 

 (IV.10)

2.2.3. Algorithme de classification

L’algorithme de classification hiérarchique choisi pour classifier les profils d’expression des gènes de la drosophile selon les trois distances définies ci-avant fonctionne de manière agglomérative, c’est-à-dire qu’il est d’abord initialisé à 4005 classes contenant chacune un gène et qu’il regroupe ensuite, à chaque itération, les deux classes jugées les plus proches. Un gène « représentatif » de la classe, pour lequel la distance de tous les profils de sa classe par rapport au sien est minimum, est alors sélectionné à chaque itération de l’algorithme de classification. Quatre critères, tous basés sur la distance choisie pour la classification, ont été utilisés pour évaluer la proximité entre deux classes de gènes, en considérant la réunion de celles-ci : (1) la distance moyenne entre les éléments de la réunion de ces classes, (2) la distance moyenne entre les éléments de la réunion de ces classes et le nouveau gène représentatif de la classe formée, et (3) et (4) le rapport entre la distance, respectivement (1) et (2), et la distance moyenne entre le profil du nouveau gène représentatif et les profils représentatifs des autres classes. Les tests ont été effectués sur le stade embryonnaire avec la distance D, donnée en (IV.7). En notant Z_c^rep( )_k le profil du gène représentatif de la classe c et Z_{{ , }}^rep_{c d} ( )_k le profil du gène représentatif de l’union des classes c et d, ces critères évaluent la proximité _cd^ (1,..., 4) entre les classes c et d comme suit : (1) ¹_cd  D Z( _{i c d}__{{ , }}( ),_k Z_{j c d}__{{ , }}( )) _k (i j) (IV.11) (2) _cd²  D Z( _{i c d}__{{ , }}( ),_k Z_{{ , }}^rep_{c d} ( )) (_k Z_{i c d}__{{ , }}( )_k Z_{{ , }}^rep_{c d} ( ))_k (IV.12)

(3) ³ ^{{ , }} ^{{ , }}

rep rep

{ , }

( ( ), ( ))

( { , })

( ( ), ( ))

i c d k j c d k

cd

c d k e k

D Z Z

e c d

D Z Z

 

  

 

  (IV.13)

(4)

rep

{ , } { , }

4 rep

{ , } { , }

rep rep

{ , }

( ( ), ( ))

( ( ) ( ) et { , })

( ( ), ( ))

i c d k c d k

cd i c d k c d k

c d k e k

D Z Z

Z Z e c

D Z Z

 

 

 



     d (IV.14)

(11)

Enfin, après itération des regroupements de classes jusqu’à obtenir une classe unique, l’arbre des profils à classifier est étudié pour identifier le niveau optimal de coupure de manière à obtenir le nombre optimal n de classes. Pour cela, plusieurs stratégies peuvent être adoptées. Premièrement, les classes formées peuvent être analysées de manière intrinsèque, c’est-à-dire en étudiant les fonctions et processus biologiques associés aux gènes dans chaque classe ou la fréquence de co-régulation observée parmi un grand nombre d’expériences entre les gènes de la classe (Lopez et al. 2008). Ce faisant, et en maîtrisant ce type d’informations biologiques, il est possible d’identifier un nombre de classes pour lequel la cohérence biologique des classes est optimale. Deuxièmement, les classes peuvent être étudiées de manière extrinsèque, c’est-à-dire en ne considérant que leur composante statistique, à savoir, par exemple, les distances et variances des éléments à l’intérieur des classes et les distances d’une classe à l’autre. Dans cette optique, plusieurs indices adimensionnels aient été proposés pour quantifier la différence entre la « largeur » des classes et la distance qui les sépare (Davies-Bouldin 1979, Dunn 1973, Pal & Bezdek 1998, Pakhira et al. 2004, Ji et al. 2003).

Dans ce travail, la seconde de ces deux approches est suivie et complétée par un examen visuel des classes formées pour différents nombres de classes. On choisit alors un nombre qui présente un bon compromis entre les objectifs visés, qui seront décrit au point 2.4. Dans certains cas, cette valeur seuil est déterminée en examinant l’évolution du critère de proximité entre classes le long de l’arbre, de manière à toujours conserver des classes dont les éléments restent significativement proches entre eux. Notons que selon le critère de sélection choisi, le nombre optimal de classes peut être différent. Dans d’autres cas, comme les critères de détermination d’un nombre optimal de classes se sont avérés inefficaces, ce nombre a été choisi de manière plus subjective, à savoir par un simple examen visuel des profils des gènes dans les classes formées.

Pour la distance Λ, les profils moyens X_c^I( )_k associés aux classes formées sont définis par les profils P_c^I^(3)rep( )_k représentatifs de ces classes, dans chaque stade de développement :

(3)rep

[1, ], [1, ], ( )_c^I _k _c^I ( )_k

c n k l X  P 

    (IV.15)

Pour les distances Ω et D, les profils moyens X_c( )_k sont définis par la moyenne, à chaque instant, des profils Z^_{i c}_ ( )_k des gènes de chaque classe de gènes c, translatés et, pour la distance D, multipliés par un facteur d’échelle, pour être superposés sur le représentatif

rep( )

c k

Z  de la classe :

[1, ], [1, ], ( )_c _k _{i c}( )_k c n k l X  Z_ i

      (IV.16)

(12)

2.4 Critères d’évaluation

Les objectifs poursuivis dans la classification des profils d’expression de gènes sont au nombre de quatre. Premièrement, on souhaite obtenir une différence significative entre la distance moyenne entre éléments à l’intérieur des classes de gènes et la distance moyenne entre les profils appartenant à des classes de gènes différentes, toutes deux définies comme la distance utilisée pour la classification et toujours indépendamment de la translation verticale des profils d’expression. Pour une classification basée sur une distance générique notée Ξ, ces distances moyennes sont définies comme :



1 2



1 2

intra

1

1 ⁿ _{g c}( ),_k _{g c}( )_k

c g g

Z Z

n _  _ 

 

 



 ^(IV.17)



1 2



inter _{g c}( ),_k _g _d( )_k

Z _  Z _  c d

    (IV.18)

L’utilisation des indices adimensionnels cités au point précédent (Davies-Bouldin 1979, Dunn 1973, Pal & Bezdek 1998, Pakhira et al. 2004, Ji et al. 2003) a révélé que chacune de ces formulations mathématiques mène généralement à des résultats optimaux différents. C’est pourquoi, dans ce travail, un examen visuel des profils d’expression et une simple comparaison entre les distances moyennes à l’intérieur et entre les classes sont effectués.

Deuxièmement, ces mesures étant moyennées sur toutes les classes de gènes, on ajoute un test visuel pour s’assurer de la différence entre les comportements des profils moyens associés aux différentes classes de gènes.

Troisièmement, on souhaite obtenir une certaine homogénéité dans la population des classes. En effet, une classe ne contenant que 1 ou 2 gènes est peu plausible et difficilement exploitable, de même qu’une classe contenant plus de 1000 gènes.

Enfin, quatrièmement, les classifications réalisées sur les données d’expression de la drosophile d’Arbeitman et al. 2002 sont validées à l’aide de données biologiques. Celles-ci portent généralement sur les ontologies (GO) ou sur les voies réactionnelles (WEGG) des gènes étudiés. Dans les deux cas, les données relatives aux gènes à l’intérieur de chaque classe sont étudiées afin d’établir la cohérence des classes formées. Dans ce travail, par souci de simplicité, la validation biologique sera effectuée en utilisant des données biologiques sur les opérons, i.e. des ensembles de deux ou plusieurs gènes dont l’expression est toujours simultanée par partage de leur promoteur de transcription, obtenues par une recherche dans des bases de données publiques. Le principe de cette validation est ici d’examiner si, après une certaine classification, un opéron est bien conservé dans une même classe. Les opérons, très fréquents chez les organismes procaryotes, tels que les bactéries, sont assez rares chez les organismes eucaryotes, mais leur existence a été établie à travers plusieurs études

(13)

(Blumenthal 2004). Les gènes voisins concernés sont transcrits en un unique ARNm qui est ensuite scindé en plusieurs « cistrons », donnant chacun une protéine distincte. On parle alors de « transcription polycistronique ». L’examen de la littérature et une recherche dans la base de données FlyBase (www.flybase.org) révèle l’existence de 43 ensembles de gènes à transcription polycistronique chez la drosophile (Pauli et al. 1988, Schulz et al. 1990, Samuels et al. 1991, Bouhidel et al. 1994, Andrews et al. 1996, Brogna et al. 1997, Wolfner et al.

1997, Ibnsouda et al. 1998, Reiss et al. 1998, Reiss et al. 1999, Niimi et al. 1999, Liu et al.

2000, Gray et al. 2000, Walker et al. 2000, Krauss et Reuter 2000, Werner et al. 2000, Misra et al. 2002, Robertson et al. 2003, Huang et al. 2004, Wall et al. 2005, Graham et al. 2005, Savard et al. 2006, Pavlik et al. 2006, Ben-Shahar et al. 2006, Slone et al. 2007, Ray et al.

2007, Lin et al. 2007, Sokol et al. 2008, Pueyo et al. 2008, Michalak et al. 2008, Raffa et al.

2009, Komonyi et al. 2009, Pankotai et al. 2009). Sur ces 43 « opérons », 8 se retrouvent dans les données étudiées dans ce travail. Parmi ces 8 paires de gènes, 6 dont les profils sont similaires 2 à 2 sont conservées pour valider les méthodes de classification. Pour les deux autres opérons, on observe que les profils d’expression des deux gènes au départ co-exprimés présentent des différences dues probablement à des processus post-transcriptionnels. Les identifiants des gènes concernés se trouvent en annexe A.1. Ainsi, pour chaque classification, le nombre d’opérons encore intègres après classification est évalué pour comparaison des méthodes de classification.

3. RESULTATS

Dans cette partie, les résultats de chaque méthode de classification sont tout d’abord étudiés individuellement, en examinant, pour chacune, le choix du nombre de classes et le comportement des profils moyens et/ou représentatifs associés à chaque classe. Ensuite, aux points 3.2.3 et 3.3, les méthodes de classification sont comparées entre elles sur la base des critères définis au point 2.4 : les distances entre les éléments à l’intérieur des classes et entre les différentes classes, la population de gènes dans chacune des classes et l’intégrité des

« opérons » identifiés dans les données. Notons que, lors de ces comparaisons, les profils et distances définis ne sont comparables que pour les mêmes profils classifiés.

3.1. Méthode SSC

Après avoir examiné les résultats de la classification des données d’Arbeitman et al.

(2002) par leur programme SSClust pour un nombre de groupes allant de 2 à 28, Ma et al.

(2006) ont observé un minimum de leur critère d’information bayésien (CIB) pour une classification en 17 groupes. Pour ce nombre de classes, la classification des profils filtrés relatifs aux organismes mâles par le programme SSClust mène à des classes peuplées de 33 à 545 gènes. Les profils filtrés y^F_{g c}_{ }₁₂( )_k des gènes de la classe 12 ainsi que le profil moyen

(14)

12( )_k

x  de cette classe sont représentés à la Figure IV.2. Signalons que pour des raisons de clarté, ces profils sont représentés en fonction des instants τk plutôt que du temps t réel continu. Les profils relatifs aux autres classes formées se trouvent en annexe A.2.

Figure IV.2 : Profils d’expression de la classe de gènes 12. Courbes noires : profils

F 12( )

g c k

y _{ }  filtrés de la classe de gènes 12 : courbe verte : profil moyen x₁₂( )_k .

La distance moyenne ^intra entre les profils y_g^F( ) _k de niveaux d’expression à l’intérieur des classes est, en moyenne pour toutes les classes, de 0.98 et la distance moyenne

entre les profils moyens xc(τk) (c=1,…,n) de chacune des n classes est de 1.14. Ces résultats sont repris dans le Tableau IV.4. Comme dans la méthode SSC, ces distances sont calculées entres les profils d’expression après translation verticale d’un des profils sur l’autre, mais sans multiplication par un facteur d’échelle (voir équation IV.5). On constate que les profils à l’intérieur des classes montrent effectivement une similarité supérieure à celle entre les profils moyens des différentes classes.

inter



Les auteurs ont alors évalué la validité biologique des groupes de gènes générés en utilisant GeneMerge, un outil d’étude génomique développé par un des auteurs de SSClust (Castillo-Davis 2003), pour identifier les fonctions et associées aux gènes de chaque groupe de gènes ainsi que les processus biologiques dans lesquels ils sont impliqués et déterminer si certaines d’entre elles sont surreprésentées dans leur groupe. Ils ont observé, d’une part, que 12 groupes parmi les 17 présentaient une cohérence biologique significative, c’est-à-dire que dans les listes d’ontologies associées aux gènes de chacune de ces 12 classes, certaines fonctions et certains processus biologiques apparaissaient de manière récurrente, et, d’autre part, que les courbes moyennes associées à ces groupes de gènes présentaient bien des pics d’expression aux stades de développement durant lesquels ces processus biologiques se déroulent normalement. Grâce à cette étude fonctionnelle des groupes de gènes générés par cette classification, on peut raisonnablement supposer que les résultats du programme SSClust sont fiables. Notons que nous n’avons pas fait cette analyse sur les autres classifications décrites ci-après car il ne nous a pas semblé évident qu’il doive y avoir systématiquement une surreprésentation importante d’une même fonction au sein de chaque classe. Certes, des gènes directement impliqués dans un même processus seront généralement co-exprimés mais des

(15)

gènes présentant les mêmes profils temporels d’expression peuvent correspondre à des processus biologiques distincts (Kim et al. 2007).

3.2. Méthodes hiérarchiques

3.2.1. Distance Λ entre les polynômes modélisant les profils d’expression Les profils temporels des niveaux d’expression filtrés y_g^F( ) _k de chaque gène g sont modélisés par une succession de polynômes P_g^I⁽³⁾(τκ) du 3^ème degré dans chacun des S=4 stades de développement I=1,…,S de la drosophile, définis par les instants compris dans l’intervalle [__i_₁,__i[. Ces quatre polynômes sont représentés à la Figure IV.3 pour le gène CG561.

Figure IV.3 : Modélisation du profil d’expression du gène CG561 par des polynômes du 3ème degré. Points : profil d’expression filtré y_g^F( ) _k du gène CG561;

ligne continue : polynômes P_g^I⁽³⁾(τκ) du gène CG561 dans chacun des S=4 stades de développement I=1,…,S de la drosophile.

Ces polynômes P_gÎ⁽³⁾(τκ) sont alors classifiés à l’intérieur de chaque stade de développement par un algorithme de classification hiérarchique défini à la section 2.2.3 avec la distance définie en (IV.5). Chaque arbre est alors coupé à différents niveaux, conduisant à différents nombres de classes. On détermine alors le nombre de classes pour lequel la distance moyenne Dînter entre profils représentatifs P_cÎ^(3)rep( )_k des différentes classes est jugée optimale, voir section 2.2.1. La Figure IV.4a représente l’évolution de cette distance en fonction du nombre de classes pour le stade embryonnaire.

(16)

a b Figure IV.4 : Résultats de la classification pour le stade embryonnaire. (a) Evolution de D^inter en fonction du nombre n de classes formées. (b) Profils moyens

I( )

c k

X  translatés de manière à annuler leur moyenne, pour n=4.

On observe que cette distance atteint rapidement sa valeur maximum pour un nombre de classes n=4. Les profils X_c^I( )_k moyens, définis en (IV.15), associés à ces quatre classes c sont représentés à la Figure IV.4b pour le stade embryonnaire, après translation verticale annulant leurs moyennes. La Figure IV.5a représente l’évolution de D^inter en fonction du nombre de classes pour le stade larvaire.

a b

Figure IV.5 : Résultats de la classification pour le stade larvaire. (a) Evolution de D^inter en fonction du nombre n de classes formées. (b) Profils moyens X_c^I( )_k translatés de manière à annuler leur moyenne, pour n=3.

On constate que cette distance croît de manière quasiment monotone jusque n=7. Après examen des profils moyens X_c^I( )_k des classes pour les valeurs de n inférieures à 7, on constate que 3 comportements principaux apparaissent pour n=3. Le comportement des profils moyens pour les valeurs de n>3 étant assez proches de ceux pour n=3, cette dernière valeur est choisie et ce, malgré la présence d’un minimum de D^interpour cette valeur de n. Les profils

I( )

c k

X  moyens, définis en (IV.15), associés à ces trois classes c sont représentés à la Figure IV.5b pour le stade larvaire, après translation verticale annulant leurs moyennes. La Figure IV.6a représente l’évolution de D^inter pour le stade de pupe.

(17)

a b Figure IV.6 : Résultats de la classification pour le stade de pupe. (a) Evolution de D^inter en fonction du nombre n de classes formées. (b) Profils moyens X_c^I( )_k translatés de manière à annuler leur moyenne, pour n=3.

On observe que cette distance atteint rapidement sa valeur maximum pour un nombre de classes n=3. Les profils X_c^I( )_k moyens, définis en (IV.15) et translatés de manière à annuler leur moyenne, associés à ces trois classes c sont représentés à la Figure IV.6b pour le stade de pupe, après translation verticale annulant leurs moyennes. La Figure IV.7a représente l’évolution de D^inter en fonction du nombre de classes pour le stade adulte.

a b

inter



Figure IV.7 : Résultats de la classification pour le stade adulte. (a) Evolution de D^inter en fonction du nombre n de classes formées. (b) Profils moyens X_c^I( )_k translatés de manière à annuler leur moyenne, pour n=3.

On observe que cette distance atteint rapidement un premier maximum pour un nombre de classes n=3. Les profils X_c^I( )_k moyens, définis en (IV.15) et translatés de manière à annuler leur moyenne, associés à ces trois classes c sont représentés à la Figure IV.7b pour le stade adulte, après translation verticale annulant leurs moyennes.

Finalement, ces quatre ensembles de classes sont combinés en une classification globale à travers tous les stades de développement. Les profils X_c^I( )_k moyens associés aux classes ainsi formées, translatées de manière à annuler leur moyenne, sont représentés à la Figure IV.8.