4.4 Analyse statistique
4.4.5 Test exact de Fisher
equivalente : R`egle de d´ecision :
Si p ≤ α, on rejette H0 au seuil α ; sinon, on ne rejette pas H0.
Test unilat´eral `a gauche
On appelle p-value du test (4.23) la probabilit´e :
p = P (T ≤ t sous H0). (4.27)
La r`egle de d´ecision du test (4.23) peut alors s’´ecrire : R`egle de d´ecision :
Si p ≤ α, on rejette H0 au seuil α ; sinon, on ne rejette pas H0.
Nous venons de d´efinir les statistiques utilis´ees pour r´ealiser les tests (4.10), (4.20) et (4.23). Toutefois, les tests pr´ec´edents sont tous asymptotiques et leur mise en place n´ecessite que certaines conditions soient v´erifi´ees (4.15). Or on observe que ce n’est pas toujours le cas. En effet, si les g`enes ´etudi´es ont en g´en´eral suffisamment d’EST align´es et v´erifient par cons´equent la condition n > 70, la contrainte sur les effectifs th´eoriques n’est pas toujours respect´ee pour certaines positions. De ce fait, les trois tests pr´ec´edents deviennent inutilisables. Dans ce cas, une alternative est propos´ee en utilisant le test exact de Fisher, qui ne souffre d’aucune contrainte de validit´e et qui est pr´esent´e dans la section suivante.
4.4.5 Test exact de Fisher
On rappelle ci-dessous le principe du test exact de Fisher, qui sera utilis´e dans la suite. Une approche num´erique est propos´ee en fin de section, permettant de faciliter le calcul des p−values.
CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX
Pr´eliminaire : tableaux 2×2 de marges fix´ees.
Soit k, n1 et n trois nombres entiers fix´es tels que :
0 ≤ k ≤ n , 0 ≤ n1 ≤ n. (4.28)
Consid´erons l’ensemble des tableaux `a coefficients entiers
A = a b c d (4.29) tels que a + b + c + d = n b + d = k (4.30) a + b = n1. k, n1 et n sont des marges du tableau A.
D’apr`es les relations pr´ec´edentes, on a
b = n1− a c = n − k − a d = k − n1+ a.
Puisque k, n1 et n sont fix´es, les coefficients du tableau A ne d´ependent que de a. Par ailleurs,
comme b et c sont positifs ou nuls, on a a ≤ min(n − k, n1) ; de mˆeme puisque a et d sont
positifs, on a a ≥ max(0, n1− k).
Pour k et n1 compris entre 0 et n, on note alors M(n1, k, n) l’ensemble des tableaux A pour
lesquels le coefficient a v´erifie l’in´egalit´e :
max(0, n1− k) ≤ a ≤ min(n − k, n1). (4.31)
Reprenons maintenant les notations du paragraphe 4.4.3 et consid´erons le tableau de
contin-gence : B B Somme Canc´ereux n1 − k1 k1 n1 Sains n2 − k2 k2 n2 Somme n1+ n2− (k1+ k2) k n o`u k = k1+ k2 et n = n1+ n2.
On note comme pr´ec´edemment q1 ¯B (resp. q2 ¯B) la probabilit´e que la base lue ne soit pas la base de la s´equence de r´ef´erence chez un canc´ereux (resp. sain).
CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX
Test bilat´eral
On se propose de r´ealiser le test exact de Fisher bilat´eral suivant [24] : H0 : q1 ¯B= q2 ¯B
H1 : q1 ¯B6= q2 ¯B. (4.32)
Loi du tableau sous l’hypoth`ese H0
Remarquons que n1 et n2 sont des nombres fixes ; en revanche, k1 et k2 sont les r´ealisations respectives des variables al´eatoires ind´ependantes K1 et K2.
On a :
– K1 ∼ B(n1, q1 ¯B), – K2 ∼ B(n2, q2 ¯B),
– n1 − K1 ∼ B(n1, 1 − q1 ¯B) = B(n1, q1B), – n2 − K2 ∼ B(n2, 1 − q2 ¯B) = B(n2, q2B).
Soit l1 et l2 deux entiers v´erifiant 0 ≤ l1 ≤ n1, 0 ≤ l2 ≤ n2 et k = l1 + l2. On a d’apr`es l’ind´ependance de K1 et K2 : P (K1 = l1, K2 = l2) = P (K1 = l1)P (K2 = l2) = Cl1 n1ql1 1 ¯B(1 − q1 ¯B)n1−l1 Cl2 n2ql2 2 ¯B(1 − q2 ¯B)n2−l2 (4.33) Sous H0, q1 ¯B = q2 ¯B = q. Dans ce cas, K = (K1+ K2) ∼ B(n, q) et P (K = k) = Cnkqk(1 − q)n−k. On a alors : P (K1 = l1, K2 = l2 | K = k) = C l1 n1ql1(1 − q)n1−l1Cl2 n2ql2(1 − q)n2−l2 Ck nqk(1 − q)n−k = C l1 n1Cl2 n2qk(1 − q)n−k Ck nqk(1 − q)n−k = C l1 n1Cl2 n2 Ck n = n1! l1! (n1−l1)! n2! l2! (n2−l2)! n! k! (n−k)! = n1! n2! k! (n − k)! l1! l2! (n1− l1)! (n2− l2)! n!. (4.34) On note alors πl1,l2,k = n1! n2! k! (n − k)! l1! l2! (n1− l1)! (n2− l2)! n!. (4.35) En conclusion, sous H0 : P (K1 = l1, K2 = l2 | K = k) = πl1,l2,k. (4.36)
Pour k fix´e, πl1,l2,k ne d´epend que de l1. On montre que la suite l1 7→ πl1,l2,k croˆıt au sens large pour l1 ≤ (k+1)(n1+1)
CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX
R`egle de d´ecision
Notons π0 la probabilit´e πk1,k2,k correspondant au tableau de contingence observ´e, o`u k1, k2 et k sont les r´ealisations de K1, K2 et K.
Pour chaque tableau de M(n1, k, n), on calcule la probabilit´e πl1,l2,kcorrespondante ; on consid`ere ensuite la somme p des probabilit´es πl1,l2,k qui sont inf´erieures ou ´egales `a π0.
R`egle de d´ecision :
Si p ≤ α, on rejette H0; sinon on ne rejette pas H0.
Tests unilat´eraux
Soit le test unilat´eral :
H0 : q1 ¯B≤ q2 ¯B
H1 : q1 ¯B> q2 ¯B. (4.37)
On consid`ere la restriction de M(n1, k, n) aux tableaux dont le coefficient b est sup´erieur ou ´
egal `a k1. On calcule la probabilit´e πk1,k2,k pour chacun de ces tableaux ; on appelle p la somme de ces probabilit´es.
R`egle de d´ecision :
Si p ≤ α, on rejette H0; sinon on ne rejette pas H0. De mˆeme soit le test unilat´eral :
H0 : q1 ¯B≥ q2 ¯B
H1 : q1 ¯B< q2 ¯B. (4.38)
On consid`ere la restriction de M(n1, k, n) aux tableaux dont le coefficient b est inf´erieur ou ´
egal `a k1. On calcule la probabilit´e πk1,k2,k pour chacun de ces tableaux ; on appelle p la somme de ces probabilit´es.
R`egle de d´ecision :
Si p ≤ α, on rejette H0; sinon on ne rejette pas H0.
Calculs num´eriques
Dans la pratique, les factorielles intervenant dans l’expression de πl1,l2,k peuvent devenir tr`es
grandes `a mesure que les effectifs augmentent, ce qui pose des probl`emes informatiques. La
formule (4.35) ne peut donc pas ˆetre utilis´ee directement. Il faut trouver une mani`ere d’arranger les facteurs de l’expression pour calculer ce nombre.
Remarquons que le num´erateur et le d´enominateur de πl1,l2,k sont chacun constitu´es de 2n facteurs. L’id´ee est de construire un algorithme it´eratif qui `a chaque pas divise le plus grand
facteur du num´erateur par le plus grand facteur du d´enominateur. On multiplie ensuite le
r´esultat obtenu par le r´esultat du pas pr´ec´edent et on passe au pas suivant en d´ecr´ementant les deux maxima trouv´es. L’algorithme s’arrˆete quand tous les facteurs ont ´et´e introduits. Le code peut ˆetre ´ecrit de la mani`ere suivante :
function res=proba_fisher(l1,n1,l2,n2) r´eel res=1;
k=l1+l2; n=n1+n2;
CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX
tableau t1=[n1,n2,k,n-k];
tableau t2=[l1,l2,n1-l1,n2-l2,n];
pour i=1 `a 2n faire
ind1= indice du max de t1; ind2= indice du max de t2; res=res*t1(ind1)/t2(ind2); t1(ind1)=t1(ind1)-1;
t2(ind2)=t2(ind2)-1; fin;
fin;
Ainsi, grˆace au test exact de Fisher, il est possible de r´ealiser les tests (4.10), (4.20) et (4.23) `a toutes les positions du g`ene, y compris celles o`u les conditions (4.15) ne sont pas v´erifi´ees. Nous allons estimer le nombre moyen de tests ayant conduit `a rejeter H0 alors que H0 est vraie (faux positifs), i.e de tests ayant conclu par erreur `a une diff´erence significative entre les fr´equences de substitution dans les EST sains et dans les EST canc´ereux, en utilisant le LBE pr´esent´e dans le chapitre pr´ec´edent.