• Aucun résultat trouvé

4.4 Analyse statistique

4.4.5 Test exact de Fisher

equivalente : R`egle de d´ecision :

Si p ≤ α, on rejette H0 au seuil α ; sinon, on ne rejette pas H0.

Test unilat´eral `a gauche

On appelle p-value du test (4.23) la probabilit´e :

p = P (T ≤ t sous H0). (4.27)

La r`egle de d´ecision du test (4.23) peut alors s’´ecrire : R`egle de d´ecision :

Si p ≤ α, on rejette H0 au seuil α ; sinon, on ne rejette pas H0.

Nous venons de d´efinir les statistiques utilis´ees pour r´ealiser les tests (4.10), (4.20) et (4.23). Toutefois, les tests pr´ec´edents sont tous asymptotiques et leur mise en place n´ecessite que certaines conditions soient v´erifi´ees (4.15). Or on observe que ce n’est pas toujours le cas. En effet, si les g`enes ´etudi´es ont en g´en´eral suffisamment d’EST align´es et v´erifient par cons´equent la condition n > 70, la contrainte sur les effectifs th´eoriques n’est pas toujours respect´ee pour certaines positions. De ce fait, les trois tests pr´ec´edents deviennent inutilisables. Dans ce cas, une alternative est propos´ee en utilisant le test exact de Fisher, qui ne souffre d’aucune contrainte de validit´e et qui est pr´esent´e dans la section suivante.

4.4.5 Test exact de Fisher

On rappelle ci-dessous le principe du test exact de Fisher, qui sera utilis´e dans la suite. Une approche num´erique est propos´ee en fin de section, permettant de faciliter le calcul des p−values.

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

Pr´eliminaire : tableaux 2×2 de marges fix´ees.

Soit k, n1 et n trois nombres entiers fix´es tels que :

0 ≤ k ≤ n , 0 ≤ n1 ≤ n. (4.28)

Consid´erons l’ensemble des tableaux `a coefficients entiers

A = a b c d  (4.29) tels que a + b + c + d = n b + d = k (4.30) a + b = n1. k, n1 et n sont des marges du tableau A.

D’apr`es les relations pr´ec´edentes, on a

b = n1− a c = n − k − a d = k − n1+ a.

Puisque k, n1 et n sont fix´es, les coefficients du tableau A ne d´ependent que de a. Par ailleurs,

comme b et c sont positifs ou nuls, on a a ≤ min(n − k, n1) ; de mˆeme puisque a et d sont

positifs, on a a ≥ max(0, n1− k).

Pour k et n1 compris entre 0 et n, on note alors M(n1, k, n) l’ensemble des tableaux A pour

lesquels le coefficient a v´erifie l’in´egalit´e :

max(0, n1− k) ≤ a ≤ min(n − k, n1). (4.31)

Reprenons maintenant les notations du paragraphe 4.4.3 et consid´erons le tableau de

contin-gence : B B Somme Canc´ereux n1 − k1 k1 n1 Sains n2 − k2 k2 n2 Somme n1+ n2− (k1+ k2) k n o`u k = k1+ k2 et n = n1+ n2.

On note comme pr´ec´edemment q1 ¯B (resp. q2 ¯B) la probabilit´e que la base lue ne soit pas la base de la s´equence de r´ef´erence chez un canc´ereux (resp. sain).

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

Test bilat´eral

On se propose de r´ealiser le test exact de Fisher bilat´eral suivant [24] :  H0 : q1 ¯B= q2 ¯B

H1 : q1 ¯B6= q2 ¯B. (4.32)

Loi du tableau sous l’hypoth`ese H0

Remarquons que n1 et n2 sont des nombres fixes ; en revanche, k1 et k2 sont les r´ealisations respectives des variables al´eatoires ind´ependantes K1 et K2.

On a :

– K1 ∼ B(n1, q1 ¯B), – K2 ∼ B(n2, q2 ¯B),

– n1 − K1 ∼ B(n1, 1 − q1 ¯B) = B(n1, q1B), – n2 − K2 ∼ B(n2, 1 − q2 ¯B) = B(n2, q2B).

Soit l1 et l2 deux entiers v´erifiant 0 ≤ l1 ≤ n1, 0 ≤ l2 ≤ n2 et k = l1 + l2. On a d’apr`es l’ind´ependance de K1 et K2 : P (K1 = l1, K2 = l2) = P (K1 = l1)P (K2 = l2) = Cl1 n1ql1 1 ¯B(1 − q1 ¯B)n1−l1 Cl2 n2ql2 2 ¯B(1 − q2 ¯B)n2−l2 (4.33) Sous H0, q1 ¯B = q2 ¯B = q. Dans ce cas, K = (K1+ K2) ∼ B(n, q) et P (K = k) = Cnkqk(1 − q)n−k. On a alors : P (K1 = l1, K2 = l2 | K = k) = C l1 n1ql1(1 − q)n1−l1Cl2 n2ql2(1 − q)n2−l2 Ck nqk(1 − q)n−k = C l1 n1Cl2 n2qk(1 − q)n−k Ck nqk(1 − q)n−k = C l1 n1Cl2 n2 Ck n = n1! l1! (n1−l1)! n2! l2! (n2−l2)! n! k! (n−k)! = n1! n2! k! (n − k)! l1! l2! (n1− l1)! (n2− l2)! n!. (4.34) On note alors πl1,l2,k = n1! n2! k! (n − k)! l1! l2! (n1− l1)! (n2− l2)! n!. (4.35) En conclusion, sous H0 : P (K1 = l1, K2 = l2 | K = k) = πl1,l2,k. (4.36)

Pour k fix´e, πl1,l2,k ne d´epend que de l1. On montre que la suite l1 7→ πl1,l2,k croˆıt au sens large pour l1(k+1)(n1+1)

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

R`egle de d´ecision

Notons π0 la probabilit´e πk1,k2,k correspondant au tableau de contingence observ´e, o`u k1, k2 et k sont les r´ealisations de K1, K2 et K.

Pour chaque tableau de M(n1, k, n), on calcule la probabilit´e πl1,l2,kcorrespondante ; on consid`ere ensuite la somme p des probabilit´es πl1,l2,k qui sont inf´erieures ou ´egales `a π0.

R`egle de d´ecision :

Si p ≤ α, on rejette H0; sinon on ne rejette pas H0.

Tests unilat´eraux

Soit le test unilat´eral :

 H0 : q1 ¯B≤ q2 ¯B

H1 : q1 ¯B> q2 ¯B. (4.37)

On consid`ere la restriction de M(n1, k, n) aux tableaux dont le coefficient b est sup´erieur ou ´

egal `a k1. On calcule la probabilit´e πk1,k2,k pour chacun de ces tableaux ; on appelle p la somme de ces probabilit´es.

R`egle de d´ecision :

Si p ≤ α, on rejette H0; sinon on ne rejette pas H0. De mˆeme soit le test unilat´eral :

 H0 : q1 ¯B≥ q2 ¯B

H1 : q1 ¯B< q2 ¯B. (4.38)

On consid`ere la restriction de M(n1, k, n) aux tableaux dont le coefficient b est inf´erieur ou ´

egal `a k1. On calcule la probabilit´e πk1,k2,k pour chacun de ces tableaux ; on appelle p la somme de ces probabilit´es.

R`egle de d´ecision :

Si p ≤ α, on rejette H0; sinon on ne rejette pas H0.

Calculs num´eriques

Dans la pratique, les factorielles intervenant dans l’expression de πl1,l2,k peuvent devenir tr`es

grandes `a mesure que les effectifs augmentent, ce qui pose des probl`emes informatiques. La

formule (4.35) ne peut donc pas ˆetre utilis´ee directement. Il faut trouver une mani`ere d’arranger les facteurs de l’expression pour calculer ce nombre.

Remarquons que le num´erateur et le d´enominateur de πl1,l2,k sont chacun constitu´es de 2n facteurs. L’id´ee est de construire un algorithme it´eratif qui `a chaque pas divise le plus grand

facteur du num´erateur par le plus grand facteur du d´enominateur. On multiplie ensuite le

r´esultat obtenu par le r´esultat du pas pr´ec´edent et on passe au pas suivant en d´ecr´ementant les deux maxima trouv´es. L’algorithme s’arrˆete quand tous les facteurs ont ´et´e introduits. Le code peut ˆetre ´ecrit de la mani`ere suivante :

function res=proba_fisher(l1,n1,l2,n2) r´eel res=1;

k=l1+l2; n=n1+n2;

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

tableau t1=[n1,n2,k,n-k];

tableau t2=[l1,l2,n1-l1,n2-l2,n];

pour i=1 `a 2n faire

ind1= indice du max de t1; ind2= indice du max de t2; res=res*t1(ind1)/t2(ind2); t1(ind1)=t1(ind1)-1;

t2(ind2)=t2(ind2)-1; fin;

fin;

Ainsi, grˆace au test exact de Fisher, il est possible de r´ealiser les tests (4.10), (4.20) et (4.23) `a toutes les positions du g`ene, y compris celles o`u les conditions (4.15) ne sont pas v´erifi´ees. Nous allons estimer le nombre moyen de tests ayant conduit `a rejeter H0 alors que H0 est vraie (faux positifs), i.e de tests ayant conclu par erreur `a une diff´erence significative entre les fr´equences de substitution dans les EST sains et dans les EST canc´ereux, en utilisant le LBE pr´esent´e dans le chapitre pr´ec´edent.