• Aucun résultat trouvé

Test d’hypoth`eses multiples

1.3 Choix d’une m´ ethode de normalisation 69

2.1.2 Test d’hypoth`eses multiples

2.1.2.1 Les taux d’erreur classiques

Notons R le nombre d’hypoth`eses rejet´ees et V le nombre d’hypoth`eses rejet´ees `a tort. R est une variable observable alors que V est non observable. On r´esume classiquement (cf Benjamini et Hochberg [8]) la situation dans le tableau ci-dessous (2.1). h hh hh hh hh hh hh hh hh h R´ealit´e Conclusion du test

Pas de rejet de H0 Rejet de H0

H0 vraie U V p0

H0 fausse T S p1

p− R R p

Table 2.1 – La situation dans un test d’hypoth`eses multiples.

On a donc p hypoth`eses, une pour chaque g`ene, avec p connu, et on note res-pectivement p0 et p1 = p− p0 les nombres d’hypoth`eses nulles respectivement vraies et fausses. Ces nombres sont des param`etres inconnus. De mˆeme que V , S, T et U sont des variables al´eatoires non observables. En g´en´eral, on cherche `a minimiser le nombre V de faux positifs ou erreurs de type I et le nombre T de faux n´egatifs ou erreurs de type II. L’approche standard dans le cas univari´e consiste `a se fixer un seuil de taux d’erreur de type I acceptable, α (par exemple, α = 5%) et de chercher des tests qui minimisent le taux d’erreur de type II c’est-`a-dire aussi qui maximisent la puissance (puissance = 1 - taux d’erreur de type II), au sein de la classe de tests avec un taux d’erreur de type I de α.

Consid´erons les diff´erents taux d’erreur de type I. Quand on teste une seule hypoth`ese, disons H0, la probabilit´e d’erreur de type I, c’est-`a-dire de rejeter l’hy-poth`ese nulle alors qu’elle est vraie est g´en´eralement contrˆol´ee `a un seuil α. Si on note Z la statistique de test correspondante, cela peut ˆetre r´ealis´e en choisissant une valeur critique cα telle que IP(|Z1| ≥ cα|H0)≤ α et en rejettant H0 quand|Z1| ≥ cα. Plusieurs g´en´eralisations au cas des tests mutiples sont possibles, Hochber et Tam-hane en proposent plusieurs dans leur livre [25] sur les “Proc´edures de Comparaison

Section 2.1. Les tests d’hypoth`eses multiples et les diff´erents types d’erreurs 83

Multiples”. D´ecrivons maintenant les diff´erents taux d’erreur que l’ont peut envisa-ger dans le cadre de test d’hypoth`eses multiples, ces taux d’erreur sont notamment d´ecrits par Shaffer dans [41] et Dudoit et al. dans [16].

Le PCER (Per Comparison Error Rate)

Le PCER est d´efini comme le rapport de l’esp´erance du nombre d’erreurs de type I sur le nombre total d’hypoth`eses, c’est-`a-dire :

P CER = E(V p) 6 α

Pour contrˆoler le PCER au taux α, il suffit par exemple de faire pour chaque hypoth`ese (ie chaque g`ene) un test au seuil α. Cette fa¸con de proc´eder ne tient pas compte de la multiplicit´e des donn´ees ; en effet, les taux d’erreur de l’ensemble peuvent ˆetre importants. Ainsi si on fait pour chaque g`ene un test au seuil α (classi-quement α = 5%), on risque d’avoir une erreur d’ensemble trop importante. C’est-`a-dire que si on a p = 6000 et α = 5%, on peut tr`es bien avoir 300 faux-positifs. Un tel taux d’erreur n’est pas acceptable.

le FWER (Family-Wise Error Rate)

Pour rendre le test plus conservatif, une id´ee consiste `a faire pour chaque g`ene un test au seuil αp. Dans cette optique, on contrˆole alors un taux appel´e FWER (Family Wise Error Rate) au seuil α :

F W ER = P (V > 1) 6 α

Cela veut dire en fait qu’on garantit qu’en moyenne la probabilit´e d’avoir au moins un faux positif est inf´erieure `a α. Le probl`eme, c’est qu’avec p = 6000 et α = 5%, on doit donc faire pour chaque g`ene un test au seuil αp ≈ 0.0008% ! Avec un tel seuil, on ne d´etectera probablement la sur-expression (sous-expression) d’aucun g`ene ! Alors, on aura certes peu de chances de se tromper mais si on ne d´etecte aucun g`ene, cela n’a pas grand int´erˆet, la puissance du test sera tr`es mauvaise.

Le PFER (Per-Family Error Rate)

C’est l’esp´erance du nombre d’erreurs de type I P F ER = E(V )

Le FDR (False Discovery Rate)

Le FDR a ´et´e propos´e par Yoav Benjamini et Yosef Hochberg [8]. Au lieu de consid´erer le nombre d’hypoth`eses nulles rejet´ees `a tort dans l’absolu ou par rapport

au nombre total d’hypoth`eses test´ees p, on consid`ere le nombre d’hypoth`eses nulles rejet´ees `a tort V par rapport `a R, le nombre total d’hypoth`eses nulles rejet´ees. On s’int´eresse ainsi `a la variable Q = VR.

Q =  V

R si R6= 0

0 si R = 0

Q repr´esente en fait le taux de faux-positifs, c’est-`a-dire dans notre probl`eme la proportion de g`enes d´etect´es `a tort. L’id´eal serait de pouvoir contrˆoler cette variable Q mais c’est impossible. En effet, si toutes les hypoth`eses nulles sont vraies (p g`enes non diff´erentiellement exprim´es), alors toutes les hypoth`eses rejet´ees le seront `a tort et q = v

r = 1 ne peut pas ˆetre contrˆol´e. On d´efinit alors le FDR par l’esp´erance de Q :

F DR = E(Q) = E(V R)

Il reste maintenant `a d´eterminer quel taux d’erreur sera le plus int´eressant dans le contexte qui nous int´eresse.

2.1.2.2 Contrˆoles et comparaison des taux d’erreur

Contrˆole de l’erreur

On distingue g´en´eralement deux types de contrˆole d’un taux d’erreur : le contrˆole

hhfortii et le contrˆole hhfaibleii. On parle de contrˆole fort si l’erreur de type I est contrˆol´ee quelle que soit la combinaison des hypoth`eses vraies et des hypoth`eses fausses c’est-`a-dire quelle que soit la valeur de p0. En revanche, on parle de contrˆole faible si on se contente de contrˆoler l’erreur de type I quand toutes les hypoth`eses nulles sont vraies, c’est-`a-dire quand p0 = p. De fa¸con g´en´erale, si on n’a pas d’autres garanties, un contrˆole faible n’est pas satisfaisant. Dans le cadre des biopuces, o`u il y a peu de chances de n’avoir aucun g`ene diff´erentiellement exprim´e (on ne cherche pas `a tester des groupes similaires), un contrˆole hhfortii semble tr`es important, c’est le seul type de contrˆole auquel nous nous int´eresserons.

Il semble aussi important d’ajouter que l’hypoth`ese usuelle qui est faite dans le cadre de test multiples est de dire que les tests sont ind´ependants ce qui n’est pas le cas en pratique pour les donn´ees de biopuces. Cependant, nous aurons du mal `a nous affranchir de cette hypoth`ese dans la mesure o`u le probl`eme n’est pas encore r´esolu dans le cas de tests d´ependants.

Comparaison des taux d’erreur de type I

De mani`ere g´en´erale, pour une proc´edure de test multiple, on a :

P CER 6 F W ER 6 P F ER

Ainsi, pour un seuil α donn´e, l’ordre s’inverse pour le nombre de rejet R : les proc´edures qui contrˆolent le PFER sont g´en´eralement plus conservatives que celles

Section 2.1. Les tests d’hypoth`eses multiples et les diff´erents types d’erreurs 85

qui contrˆolent le FWER ou le PCER, et les proc´edures qui contrˆolent le FWER sont plus conservatives que celles qui contrˆolent le PCER.

On a vu dans la d´efinition de ces taux que le FWER (et par transitivit´e le PFER) conduisait `a des tests trop conservatifs dans le contexte des biopuces alors que le PCER ne semblait pas un taux d’erreur suffisant `a contrˆoler. Int´eressons-nous main-tenant au FDR.

Tout d’abord, il y a deux petites propri´et´es int´eressantes concernant le FDR :

(a) si toutes les hypoth`eses nulles sont vraies, le F DR est ´equivalent au F W ER

(b) sinon F DR 6 F W ER

Ainsi toute proc´edure qui contrˆole le F W ER contrˆolera donc aussi le F DR. Donc si on cherche juste `a contrˆoler le F DR, on pourra obtenir des proc´edures moins contraignantes (c’est-`a-dire plus puissantes).

La propri´et´e d´ecisive est la suivante :

P CER 6 F DR 6 F W ER

Le FDR permettra donc de trouver un bon compromis entre le PCER, qui peut conduire `a un trop grand nombre de faux positifs et le FWER, qui minimise le nombre d’erreurs mais qui conduira `a une puissance trop faible. C’est ce taux d’er-reur, le FDR, qu’on cherchera `a contrˆoler par la suite.