• Aucun résultat trouvé

2.2 Évolution de l’expression des gènes à l’ère génomique

2.2.1 Les données transcriptomiques à large échelle

FIGURE2.1 – Données transcriptomiques à large échelle.

La figure 2.1 représente de façon schématique un jeu de données large échelle qui est consti-tué du niveau d’expression de 10000 à 20000 gènes orthologues dans différents tissus et dans plusieurs espèces [Khaitovich et al. , 2005; Brawand et al. , 2011]. Dans le cas de l’étude du développement ces données sont multipliées par le nombre de stades de développement étudiés [Levin et al. , 2016]. Ce type de jeu de données est très différent des autres jeux de données comparatifs, par exemple le jeux de données (type cancer, comparant tissus sains vs. tissus 22

malades) car ces données proviennent pour la plupart d’espèces non-modèles, il est donc très difficile de contrôler pour l’âge des échantillons, le sexe, les conditions environnementales, etc. De plus, l’échantillonnage est limité, de ce fait ces études n’ont pas toujours accès à toutes les données nécessaires pour une analyse statistiquement rigoureuse. Enfin, le fait que ces données proviennent de différents tissus et de différentes espèces rend la normalisation de ces données difficiles.

L’assemblage de grands jeu de données comparant l’expression entre de nombreuses espèces est encore aujourd’hui une prouesse technique qui a permis de commencer à répondre à des questions sur le mode d’évolution de l’expression des gènes.

2.2.1.1 Quels sont les modes d’évolution de l’expression ?

FIGURE2.2 – Patrons d’expression attendus en fonction des forces évolutives en jeux.

(a.) Fortes variations du niveau d’expression intra-spécifique et inter-spécifique. Ces variations

peuvent être dues à des différences environnementales, ou encore à des différences de stades. (b.) Contraintes pour maintenir un niveau d’expression constant. Sélection purifiante/négative. (c.) Contraintes pour maintenir un niveau d’expression constant chez les autres espèces, alors que le chimpanzé s’écarte de cette valeur. Un scénario de sélection adaptative est plus probable qu’une relaxation de la sélection purifiante car il n’y a pas de variabilité intra-spécifique. (d.) Niveau variable dans les espèces, les différences du niveau d’expression entre espèces sont d’autant plus grandes que les espèces sont éloignées phylogénétiquement, sans tendance général dans la phylogénie (changements d’expressions aléatoires). Neutralité. (D’après Romero et al. [2012]) Déterminer le mode d’évolution de l’expression des gènes est un travail actuellement en cours qui suscite de nombreux débats, comme présenté plus bas dans la partie 2.2.1.2). La figure 2.2 représente les patrons d’expressions attendus en fonction des différentes forces évolutives en jeu. Comme représentée sur la figure 2.2d, l’expression varie entre individus et elle varie aussi entre espèces proportionnellement à la distance phylogénétique entre espèces. Cependant, des variations du niveau d’expression entre espèces peuvent aussi être dues à de la sélection adaptative. Théoriquement, une façon de tester la neutralité de l’évolution de l’expression d’un gène serait de déterminer si son niveau d’expression entre espèces varie plus qu’attendu sous le modèle neutre. Si de plus les variations entre individus sont faibles, on pourra conclure si une différence de niveau d’expression entre espèce due à une sélection adaptative (illustré figure 2.2c). Cependant, pour tester l’attendu sous le modèle neutre il faudrait disposer de deux

Chapitre 2. L’outil transcriptomique :

comprendre l’évolution de l’expression et l’évolution du développement

effective de la population (Ne) [Lemos et al. , 2005]. Dans la cas ou le niveau d’expression ne varie pas, ni entre individus, ni entres espèces, comme illustré figure 2.2b, alors la force évolutive en jeu est probablement la sélection purifiante et tous les changements ont été éliminés par la sélection naturelle.

2.2.1.2 Le niveau d’expression est-il sous sélection ? Les différents approches pour répondre à cette question

Il existe deux niveaux de lecture de la variation du niveau d’expression, un niveau populationnel, qui interroge la variabilité entre individus (exemple Enard et al. [2002]) ou un niveau pluri-spécifiques, qui interroge la variabilité entre espèces.

2.2.1.2.1 Données intraspécifiques. Une première approche consiste à interroger la

variabi-lité du niveau d’expression entre individus d’une même espèce. Lynch & Hill [1986] proposent un modèle de variation mutationelle attendue sous un modèle d’évolution neutre. Deux forces entrent en jeux dans ce modèle : la taille effective de la population (Ne) et la variance muta-tionelle (Vm) entre chaque génération. Par exemple, Rifkin et al. [2005] déterminent de façon expérimentale le taux de mutation variationnel (Vm) entre plusieurs lignées isogéniques de Dro-sophila melanogaster. Ils trouvent que le contexte développemental de l’expression d’un gène va affecter son patron d’évolution, ainsi les gènes fortement exprimés durant le développement ont une expression plus contrainte entre individus, alors que des gènes faiblement exprimés sont plus variables.

2.2.1.2.2 Données pluri-spécifiques. Une deuxième approche consiste à interroger la variabi-lité de l’expression entre espèces. Je vais séparer ce paragraphe en quatre parties, correspondant aux différentes méthodologies pour déterminer le patron d’évolution de l’expression entre espèces.

La première méthode se base sur la comparaison de la conservation entre paires de gènes orthologues et paires de gènes choisies aléatoirement. L’analyse comparée de Chan et al. [2009] de trois vertébrés non-mammifères (la grenouille, le poulet, le poisson-globe), de la souris et de l’homme dans une dizaine de tissus montre que plus d’un tiers des orthologues ont un niveau d’expression conservé. Les auteurs concluent alors que le niveau d’expression est contraint et donc soumis à la sélection purifiante. Cependant, le seuil de conservation, qui doit être plus qu’attendu sous le modèle neutre n’est pas connu pour des petites distances phylogénétique. Donc, il est donc difficile de conclure sur la force évolutive en jeu lorsqu’on étudie des espèces phylogénétiquement (trop) proche.

La seconde méthode consiste à comparer le taux de divergence entre espèces en fonction de leur distance phylogénétique. Sous l’hypothèse du modèle neutre, une augmentation linéaire de la divergence est attendue, un peu comme une horloge moléculaire. Khaitovich et al. [2004] montrent une augmentation linéaire du la divergence du niveau d’expression en fonction du

temps chez l’homme et le chimpanzé.

La troisième méthode est une approche phylogénétique. Elle consiste à calculer la vraisem-blance des données sous un modèle neutre d’évolution de l’expression, souvent un mouvement Brownien. Cette vraisemblance est alors comparée à la vraisemblance obtenue sous modèle d’évolution positive, souvent un modèle OU (Ornstein-Uhlenbeck) qui permet d’introduire un optimum du niveau d’expression. Cependant, ce type d’approche ne peut pas encore être utilisée à son plein potentiel du fait du petit nombre d’espèces comparativement au grand nombre de gènes traités, il n’y a pas assez de puissance statistique pour détecter un effet.

La dernière et quatrième approche consiste à utiliser des approches multivariées type analyse en composante principale (voir box PCA) et clustering. Cette approche permet d’identifier des groupes de transcriptomes qui varient de la même façon. Je développerai cette approche plus bas dans la partie 2.2.2.1, où les grandes signatures transcriptomiques entre espèces et entre tissus sont recherchées.

Chapitre 2. L’outil transcriptomique :

comprendre l’évolution de l’expression et l’évolution du développement

BOX | PCA : Analyse en Composante Principale. Le principe

Le transcriptome peut être vu comme un objet à n × p dimensions, où n est le nombre de gènes exprimés et p est le nombre d’échantillons (voir figure 2.1). Cependant notre cerveau n’est pas capable de visualiser n × p dimensions. La PCA, ou ACP pour Analyse en Composante Principale, va réduire le nombre de dimensions tout en conservant la variabilité associée au jeu de données. La réduction du nombre de dimensions s’effec-tue par l’identification de directions le long desquelles la variation est maximale. Ces directions sont appelées composantes principales (PCs), et elles sont définies de telle sorte qu’elles soient orthogonales entre elles. (Adapté de Ringnér [2008]; Breschi et al. [2016]).

FIGURE2.3 –Principe de la PCA

Exemple illustratif

Si on prend l’exemple d’un nuage de point formant un poisson, le premier axe qui maxi-mise la variation (PC1) suivra la direction la plus allongée, ici de la queue à la tête du pois-son. Le second axe (PC2), qui est orthogonal au premier, suivra la seconde direction la plus allongée, ici du ventre vers le dos, et ainsi de suite. Ainsi, la PCA détermine les axes qui ex-pliquent le mieux la variation associée à l’ob-jet (exemple inspiré de [Delafontaine, 2015]. De plus, le pourcentage de variation associé

à chaque axe est déterminé. Comme les axes sont définis de façon à maximiser la variation, PC1 est associé au plus fort pourcentage de variation et la variation diminue au cours des axes suivants. La PCA cherche à maximiser la variance, elle va donc donner beaucoup de poids aux points extrêmes, si l’on reprend notre exemple du poisson les points de la têtes et de la queue seront bien identifiés.

Autres méthodes multivariées

Il exite d’autres méthodes d’analyses multivariées telles que le multidimensional sca-ling (MDS), tSNE [Maaten & Hinton, 2008], les «diffusion map» [Coifman et al. , 2005; Angerer et al. , 2015] (voir chapitre 4 p. 68). Les méthodes telles que tSNE et diffusion map sont plus appropriées pour identifier des groupes de données qui partagent un certain nombre de variations continues, par exemple sur de données des cellules en différenciation.