• Aucun résultat trouvé

R´egulation g´en´etique et facteurs de transcriptions

Un autre m´ecanisme que nous nous devons de mentionner ici est celui de la r´egulation g´en´etique. Celui-ci fait en e↵et intervenir tout un ensemble d’entit´es di↵´erentes et pour-tant li´ees par leurs fonctions pour modifier l’expression des g`enes. Chez les eucaryotes, typi-quement, cela se fait par l’interm´ediaire de s´equences ADN, dites s´equences cis ou par des prot´eines (facteurs de transcription), initiant ou r´egulant la transcription de ces s´equences cis, appel´ees facteurs trans. Plus g´en´eralement, de tr`es nombreuses prot´eines appel´ees facteurs de transcription sont connues (Ravasi et al., 2010). Elles initient et r´egulent l’expression des g`enes, et ont ainsi un rˆole clef `a tous les niveaux de la biologie de la cellule.

Il est donc l´egitime de s’int´eresser aux ph´enom`enes de co´evolution qui peuvent exister entre ces di↵´erents ´el´ements r´egulant l’expression des g`enes. Fraser et al. (2004) ont par exemple montr´e que la co´evolution pouvait ˆetre observ´ee non seulement au niveau des prot´eines, comme nous l’avons ´evoqu´e pr´ec´edemment, mais aussi au niveau de leur degr´e d’expression. En sus de l’´etude les corr´elations entre mutations le long d’une s´equence d’acides amin´es, les auteurs ont analys´e les changements coordonn´es d’expression de g`enes et ont d´emontr´e qu’ils portent un signal de co´evolution.

Comment rep´erer et ´etudier la

co´evolution ?

Nombreuses sont les m´ethodes qui s’attachent `a d´etecter et expliquer la co´evolution. Chaque m´ethode a ses avantages et ses inconv´enients, mais une tendance g´en´erale se d´egage : il existe un important compromis entre efficacit´e des m´ethodes et pr´ecision des r´esultats. Cer-taines m´ethodes d´etectent tr`es efficacement la co´evolution entre les sites d’une s´equence de nucl´eotides ou d’acides amin´es, par exemple. Elles permettent ainsi l’´etude de grands jeux de donn´ees, tandis que d’autres sont capables de d´ecrire des sc´enarios de co´evolution probables, mais au prix de temps de calcul parfois tr`es ´elev´es.

Nous distinguons ici deux grandes classes de m´ethodes : celles ind´ependantes des phylog´enies, et celles qui n´ecessitent de prendre en compte cette information.

3.1 M´ethodes ind´ependantes de la reconstruction

phy-log´en´etique

Les m´ethodes qui ne font pas usage de la phylog´enie se basent uniquement sur l’´etude d’ali-gnements multiples (MSA, pour Multiple Sequence Alignment), dans le but de d´eterminer quelles colonnes de l’alignement concern´e sont associ´ees statistiquement. Un alignement mul-tiple correspond aux ´etats actuels observ´es, organis´es sous forme de matrice : les lignes correspondent aux s´equences utilis´ees, les colonnes aux positions. On notera donc ici un des principaux avantages de ce type de m´ethodes : elles ne d´ependent nullement d’´eventuelles re-constructions (phylog´enie, ´etats ancestraux, historiques mutationnels) que nous verrons plus

loin.

3.1.1 Tests statistiques

Une premi`ere m´ethode consiste `a appliquer de simples tests statistiques sur les alignements, dans le but de tester s’il existe une corr´elation entre les composantes de deux colonnes de l’alignement (acides nucl´eiques ou acides amin´es, la principale di↵´erence - en termes d’impl´ementation - ´etant la taille de l’alphabet utilis´e). Typiquement, on consid`ere une co-lonne d’un alignement comme un ensemble de r´ealisations d’une variable al´eatoire, ce qui ouvre la porte `a di↵´erents tests applicables, l’hypoth`ese nulle ´etant l’ind´ependance de ces colonnes. Par exemple, il est possible d’appliquer un test du 2 de Pearson, qui permet de tester si un ensemble d’observations sur deux colonnes d’un alignement (i.e. deux variables al´eatoires) sont ind´ependants l’un de l’autre, par l’interm´ediaire d’une table de contingence (voir Brouillet et al. (2010) pour un exemple d’utilisation d’un tel test pour rep´erer les co-lonnes d’un alignement ayant tendance `a ne pas muter ensemble).

Ce test tr`es simple permet donc de v´erifier tr`es rapidement la corr´elation entre deux co-lonnes du MSA, mais implique un e↵ectif minimum (ici, un nombre minimum de lignes dans l’alignement), et une repr´esentation minimum de chaque classe (ici, les nucl´eotides ou acides amin´es). En l’occurrence, la r`egle la plus utilis´ee, ´etablie par Cochran (1954), stipule dans notre cas que chaque classe doit ˆetre repr´esent´ee au moins 5 fois, ce qui peut constituer une contrainte importante lors de l’´etablissement du jeu de donn´ees ´etudi´e.

3.1.2 Th´eorie de l’information et entropie

Une autre mani`ere d’envisager et ´etudier les MSA est de se placer dans le cadre de la th´eorie de l’information mutuelle. D’un point de vue conceptuel, cela revient `a consid´erer chaque colonne de l’alignement comme une source d’information, et d’estimer la quantit´e d’informa-tion qu’elle ´emet. Par ailleurs, il est aussi possible de calculer l’informad’informa-tion partag´ee entre deux colonnes. `A partir de ces grandeurs, il est possible d’´etablir la valeur de ce que l’on appelle information mutuelle, qui est une mesure de la d´ependance statistique entre ces deux colonnes.

La plupart des techniques faisant appel `a l’information mutuelle sont bas´ees sur la notion d’entropie. La plus couramment utilis´ee est l’entropie de Shannon, qui est une mesure de l’incertitude pour une variable al´eatoire. Consid´erons une variable al´eatoire discr`ete X tir´ee dans un alphabet {x1, x2, ..., xN}, o`u N 2 N, avec la distribution de probabilit´es associ´ee

{p(x1), p(x2), ..., p(xn)}. On d´efinit l’entropie H(X) pour cette variable al´eatoire par la for-mule suivante :

H(X) = PN

i=1p(xi) logbp(xi) `

A noter que b repr´esente ici la base du logarithme choisi, et sert `a normaliser l’entropie. En particulier, on choisira g´en´eralement b = N pour garantir que 0  H(X)  1 et par convention, on admettra que 0 log(0) = 0 (en e↵et, lim

x!0x log(x) = 0).

Prenons une deuxi`eme variable al´eatoire Y , tir´ee dans un alphabet {y1, y2, ..., yM}, avec M 2 N. Nous avons alors une distribution de probabilit´e jointe pour les variables X et Y cor-respondant `a chaque paire possible. Nous pouvons ainsi d´efinir de mani`ere analogue l’entropie conditionnelle H(X|Y ), qui repr´esente la quantit´e d’information n´ecessaire pour d´efinir X, connaissant Y . Nous pouvons aussi d´efinir l’entropie jointe H(X, Y ), qui elle repr´esente l’in-certitude pour notre couple de variables (X, Y ). Elles sont donn´ees respectivement, pour ces deux variables al´eatoires, par :

H(X|Y ) = PNi=1 PM j=1p(xi, yj) logbp(xi,yj) p(xi) H(X, Y ) = PN i=1 PM j=1p(xi, yj) logbp(xi, yj)

On d´efinira alors l’information mutuelle, qui est une mesure de la r´eduction de l’incerti-tude (elle mˆeme mesur´ee par l’entropie) d’une variable al´eatoire, ´etant donn´ee l’information concernant une autre variable al´eatoire. En d’autres termes, elle estime l’incertitude partag´ee par les variables X et Y et s’exprime de la fa¸con suivante :

M I(X, Y ) = H(X) H(X|Y ) = H(Y ) H(Y|X) = H(X) + H(Y ) H(X, Y ) L’information mutuelle est ainsi comprise entre 0 et 1, et est d’autant plus grande que les variables al´eatoires sont corr´el´ees (Cover et Thomas, 2012).

En pratique, concernant les MSAs, nos variables al´eatoires sont repr´esent´ees par des colonnes de l’alignement, l’alphabet ´etant l’ensemble des acides amin´es ou des acides nucl´eiques, et la distribution de probabilit´e associ´ee ´etant calcul´ee `a partir des fr´equences observ´ees dans la colonne. Ainsi, une entropie nulle correspondra `a une colonne compl`etement conserv´ee, et une entropie de 1, `a une colonne o`u tous les ´el´ements de l’alphabet sont ´egalement repr´esent´es dans la colonne. De mˆeme l’entropie jointe est calcul´ee `a partir de paires de colonnes et des fr´equences observ´ees pour toutes les paires possibles.

Ainsi, l’information mutuelle entre deux colonnes de l’alignement estime dans quelle mesure les motifs observ´es dans chaque colonne sont corr´el´es. Elle est comprise entre 0 et 1, les plus grandes valeurs correspondant `a des degr´es d’interd´ependance plus ´elev´es entre les positions

concern´ees.

Il est important de noter que plusieurs auteurs soulignent que l’information mutuelle, en tant que mesure directe de la d´ependance d’une position `a une autre, est malgr´e une mesure de la co´evolution limit´ee, pour di↵´erentes raisons (Carbone et Dib, 2009) :

— L’entropie est d’autant plus importante pour des colonnes tr`es variables, mˆeme si la d´ependance ne l’est pas n´ecessairement. Ainsi, pour de telles colonnes, l’information mutuelle peut surestimer la corr´elation. On peut corriger, dans une certaine mesure, cet e↵et en normalisant l’information mutuelle par l’entropie jointe H(X, Y ) (Martin et al., 2005).

— La taille de l’´echantillon doit ˆetre assez importante pour assurer la fiabilit´e des fr´equences observ´ees, ainsi que pour limiter le bruit statistique.

— L’information partag´ee provient aussi de l’histoire phylog´en´etique, qui n’est pas prise en compte ici. Il est possible de retirer certaines s´equences trop peu divergentes de l’alignement pour limiter cet e↵et, qu’il est n´eanmoins impossible de supprimer compl`etement.

De mani`ere g´en´erale, une des approches qui semble parmi les plus pertinentes serait de me-surer les e↵ets d’´echantillonnage et ceux correspondant `a l’histoire partag´ee sur des donn´ees obtenues par simulation, ce qui permet dans une certaine mesure d’´evaluer le bruit statistique dˆu `a ces deux ph´enom`enes (Martin et al., 2005).