a partir du moment o`u le ratio de ses niveaux d’expression d´epasse 2. Cette m´ethode apparaˆıt
aujourd’hui discutable sur le plan statistique dans la mesure o`u elle ne tient aucun compte de la
variabilit´e des donn´ees, de la taille de l’´echantillon et n’associe aucun niveau de confiance aux
conclusions tir´ees [BSSS03]. Par exemple, pour un petit nombre de r´eplicats (typiquement de
l’ordre de 5), il suffit d’un seul cas pr´esentant une forte disparit´e avec les autres mesures pour
tirer la valeur moyenne du ratio observ´e au-del`a du seuil pr´ealablement fix´e. Du reste, le fait que
la mesure de l’expression d’un g`ene varie d’une condition `a l’autre (test et contrˆole) peut certes
s’expliquer par le facteur ´etudi´e, mais aussi par d’autres facteurs ext´erieurs tels que l’´etat des
cellules lors de l’extraction des ARN ou bien la fa¸con dont l’exp´erience a ´et´e men´ee. Surtout,
le simple fait de fixer arbitrairement un seuil au-del`a duquel on estime qu’un ratio d’expression
traduit un ph´enom`ene de r´egulation n’a pas v´eritablement de sens sur le plan biologique et ne
constitue pas une approche statistiquement fond´ee.
Pour s’affranchir de ces probl`emes, il est courant de recourir `a des statistiques prenant en
consid´eration `a la fois les ratios d’expression et la variabilit´e des donn´ees afin d’attribuer une
valeur de significativit´e ou un intervalle de confiance `a un r´esultat. On peut citer la statistique
t (Student), la statistique z ou la statistique de Fisher (souvent d´enomm´ee analyse de la
va-riance ou ANOVA) par exemple. La plupart du temps, ces statistiques prennent en compte les
variations entre les r´eplicats correspondant aux variations que nous ne souhaitons pas mesurer,
car ind´ependantes des facteurs ´etudi´es. La mesure de significativit´e (p-valeur) permet
d’esti-mer la probabilit´e pour que les effets observ´es dans les donn´ees (par exemple, une expression
diff´erentielle) soient le fruit du hasard. L’exp´erimentateur fixe donc une borne sup´erieur `a la
p-valeur afin de contrˆoler le nombre d’erreurs de type I. Plus cette borne est faible (ses
va-leurs variant g´en´eralement entre 0,05 et 0,001), plus grande est la confiance dans le r´esultat.
Les techniques cit´ees ici font r´ef´erences `a des statistiques param´etriques. Elles reposent sur des
conjectures quant `a la distribution des variables ´etudi´ees et d´erivent des propri´et´es des
dis-tributions th´eoriques pour faire de l’inf´erence. Il est aussi classique de mettre en œuvre des
statistiques non param´etriques comme les statistiques de rang [TTC01]. Ces approches non
param´etriques ne reposent pas sur un mod`ele statistique et pr´esentent l’avantage d’ˆetre
suffi-samment robustes et flexibles pour traiter une nouvelle statistique sans qu’il soit n´ecessaire de
d´eriver math´ematiquement la distribution de cette derni`ere.
Les outils d’´etude de la g´enomique fonctionnelle Chapitre 2
Le r´e-´echantillonnage des donn´ees est une alternative pour estimer la significativit´e des tests
statistiques. Il sert `a la fois pour les approches de tests param´etriques et non param´etriques.
Une m´ethode classiquement utilis´ee est le bootstrap. Il consiste `a construire des pseudo-jeux de
donn´ees par ´echantillonnage des donn´ees r´eelles avec remplacement. On peut ainsi ´etudier la
variabilit´e d’une m´ethode statistique appliqu´ee `a ces diff´erents jeux de donn´ees artificiels.
L’in-conv´enient majeur de cette approche est son coˆut de calcul important.
2.3.2.2 Le probl`eme des comparaisons multiples
Compte tenu du grand nombre de g`enes pr´esents sur une simple puce, la mise en œuvre
d’approches de tests d’hypoth`eses n´ecessite de prendre en compte un probl`eme de comparaisons
multiples. Le test multiple, c’est-`a-dire le fait de tester de multiples hypoth`eses (une par g`ene
sur la puce) au sein d’une mˆeme ´etude, pr´esente des probl`emes important : mˆeme si la p-valeur
affect´ee `a un g`ene donn´e indique qu’il est tr`es peu probable que le diff´erentiel d’expression de ce
g`ene soit dˆu au hasard plutˆot qu’`a l’effet du traitement ´etudi´e, le nombre tr`es ´elev´e de g`enes sur
la puce rend vraisemblable que l’expression diff´erentielle de certains g`enes soit des faux positifs.
Prenons un exemple simple.
Exemple 2.1
Une p-valeur de 0,05 est interpr´et´ee comme une mesure de significativit´e qui estime `a 5% la
pro-babilit´e d’observer le diff´erentiel d’expression d’un g`ene par hasard. Avec une puce permettant
de mesurer l’expression de 10 000 g`enes et en utilisant une mesure de significativit´e p < 5%,
nous pouvons identifier jusqu’`a 500 g`enes significativement modul´es, mˆeme en l’absence de toute
d´er´egulation effective.
Pour limiter cet effet ind´esirable il est possible d’utiliser un crit`ere de s´election plus s´ev`ere, en
l’occurrence une p-valeur plus faible. Il existe ´egalement des m´ethodes plus ´elabor´ees telles que la
correction de Bonferroni qui adapte le niveau de la borne sup´erieure impos´ee `a la p-valeur pour
chaque test. Elle vise `a contrˆoler un indice appel´e family-wise error rate ou FWER
correspon-dant `a la probabilit´e de faire au moins une erreur de type I parmi lesN tests effectu´es (N ´etant le
nombre total de g`enes pr´esents sur la puce). L’inconv´enient majeur de cette technique est qu’elle
est trop conservatrice. En restreignant le taux de faux positifs, elle augmente consid´erablement
le taux de faux n´egatifs : de nombreux g`enes diff´erentiellement exprim´es ne sont pas reconnus
comme tels. Les biologistes sont pourtant prˆets `a tol´erer l’existence de telles erreurs dans la
mesure o`u cela permet de r´ealiser des d´ecouvertes. Par exemple, un chercheur peut juger
accep-table qu’une proportion (raisonnable) de ses d´ecouvertes soit erron´ees (de l’ordre de 10%). Cette
diff´erence entre les attentes des biologistes et les outils fournis par les m´ethodologistes a donn´e
naissance `a de nouvelles approches pour l’inf´erence. Benjamini et Hochberg [BH95] ont d´efini le
taux de faux positifs (False Discovery Rate
6), not´e FDR, et propos´e des proc´edures permettant
de le contrˆoler. Il s’agit d’une m´ethode de comparaison moins conservatrice, garantissant une
plus grande puissance statistique que le contrˆole du FWER d´ecrit pr´ec´edemment.
Les statistiques actuellement utilis´ees visent donc `a trouver un ´equilibre entre la significativit´e
(limiter le nombre de g`enes s´electionn´es `a tort) et la puissance (limiter le nombre de g`enes rejet´es
alors qu’ils sont bel et bien diff´erentiellement exprim´es) des tests pratiqu´es.
6
Le FDR est l’esp´erance de la proportion de faux positifs parmi tous les tests significatifs
Premi`ere partie Introduction `a l’´etude syst´emique des fonctions cellulaires
2.3.2.3 Approches param´etriques et non param´etriques
D’une mani`ere g´en´erale, les diff´erentes strat´egies de test ´evoqu´ees jusqu’ici g´en`erent des listes
de g`enes distinctes. Cela s’explique ais´ement par le fait que chacune d’entre elles fait un certain
nombre d’hypoth`eses quant `a la distribution des donn´ees et met l’accent sur diff´erents aspects
de ces derni`eres. Typiquement, de nombreux tests font l’hypoth`ese que les niveaux d’expression
des g`enes sont distribu´es selon une loi normale et ont une variance identique. Le plus souvent,
on suppose ´egalement qu’ils sont ind´ependants (ce qui est en totale contradiction avec une
conception syst´emique du fonctionnement cellulaire). Quelle que soit l’approche utilis´ee, il ne
faut pas perdre de vue le fait que la liste de g`enes obtenue `a l’issue d’une exp´erience de puces `a
ADN ne constitue qu’une hypoth`ese. L’interpr´etation ou l’utilisation de cette liste est fortement
d´ependante des m´ethodes employ´ees pour la g´en´erer.
2.3.2.4 Les listes de g`enes diff´erentiellement exprim´es en discussion
En r`egle g´en´eral seule une fraction des g`enes pr´esente des diff´erences d’expression
statisti-quement significatives entre deux conditions exp´erimentales. Cela peut s’expliquer de diff´erentes
mani`eres :
– dans des cellules ou des tissus distincts, un sous-ensemble de g`enes sont exprim´es
essentiel-lement du fait de la diff´erentiation cellulaire. Par cons´equent, de tels g`enes ne pr´esentent
th´eoriquement pas de diff´erence d`es lors que l’on compare les transcriptomes de cellules
appartenant au mˆeme type ou au mˆeme tissu. Plus globalement, on s’attend `a ce que seule
une portion des g`enes impliqu´es dans la diff´erentiation cellulaire diff`ere entre deux types
cellulaires ;
– un nombre cons´equent de g`enes codent pour des prot´eines qui sont n´ecessaires `a la vie
cellulaire. Toute alt´eration s´erieuse de leur expression serait donc l´etale ;
– comme nous l’avons expliqu´e dans la section pr´ec´edente, la cellule dispose de nombreux
moyens, autres que la r´egulation de la transcription, pour moduler la production des
prot´eines : r´egulations traductionnelle ou post-traductionnelle notamment. Ceux-ci n’´etant
pas observables par la m´ethode des puces `a ADN, le transcriptome des g`enes concern´es ne
montrera aucune variation.
Il est difficile d’´etablir la fonction biologique de tous les g`enes qui apparaissent diff´erentiellement
exprim´es (et donc impliqu´es) dans un contexte physiologique ou pathologique donn´e. Cela
re-quiert g´en´eralement une recherche bibliographique importante ainsi qu’un nombre non n´egligeable
d’exp´eriences compl´ementaires. Il est donc tentant de consid´erer des listes de taille restreinte afin
de ne porter son attention que sur l’´etude des g`enes dont le diff´erentiel d’expression est le plus
tranch´e. Nous allons voir qu’il existe des m´ethodes d’analyse de donn´ees de puces `a ADN
per-mettant d’attribuer un rˆole biologique `a une liste de g`enes diff´erentiellement exprim´es de mani`ere
automatique.
2.3.2.5 Sur-repr´esentation de cat´egories fonctionnelles
Apr`es avoir ´etabli une liste de g`enes dont l’expression montre une variation significative d’une
condition exp´erimentale `a une autre, il peut ˆetre int´eressant d’´etudier les cat´egories
fonction-nelles auxquelles ces g`enes appartiennent : c’est l’´etape d’annotation fonctionnelle
7.
Afin de r´epondre aux besoins contradictoires d’augmenter la puissance de d´etection des
expres-sions diff´erentielles et de r´esoudre le probl`eme pos´e par l’interpr´etation d’une longue liste de g`enes
7
L’annotation est le processus visant `a identifier la prot´eine cod´ee par un g`ene ainsi que la fonction remplie par celle-ci au sein du tissu ´etudi´e.