Test exact de Fisher - Analyse statistique

4.4 Analyse statistique

4.4.5 Test exact de Fisher

equivalente : R`egle de d´ecision :

Si p ≤ α, on rejette H₀ au seuil α ; sinon, on ne rejette pas H₀.

Test unilat´eral `a gauche

On appelle p-value du test (4.23) la probabilit´e :

p = P (T ≤ t sous H₀). (4.27)

La règle de décision du test (4.23) peut alors s’écrire : Règle de décision :

Si p ≤ α, on rejette H0 au seuil α ; sinon, on ne rejette pas H0.

Nous venons de définir les statistiques utilisées pour réaliser les tests (4.10), (4.20) et (4.23). Toutefois, les tests précédents sont tous asymptotiques et leur mise en place nécessite que certaines conditions soient vérifiées (4.15). Or on observe que ce n’est pas toujours le cas. En effet, si les gènes étudiés ont en général suffisamment d’EST alignés et vérifient par conséquent la condition n > 70, la contrainte sur les effectifs théoriques n’est pas toujours respectée pour certaines positions. De ce fait, les trois tests précédents deviennent inutilisables. Dans ce cas, une alternative est proposée en utilisant le test exact de Fisher, qui ne souffre d’aucune contrainte de validité et qui est présenté dans la section suivante.

4.4.5 Test exact de Fisher

On rappelle ci-dessous le principe du test exact de Fisher, qui sera utilisé dans la suite. Une approche numérique est proposée en fin de section, permettant de faciliter le calcul des p−values.

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

Pr´eliminaire : tableaux 2×2 de marges fix´ees.

Soit k, n₁ et n trois nombres entiers fix´es tels que :

0 ≤ k ≤ n , 0 ≤ n₁ ≤ n. (4.28)

Consid´erons l’ensemble des tableaux `a coefficients entiers

A = a b c d (4.29) tels que a + b + c + d = n b + d = k (4.30) a + b = n₁. k, n₁ et n sont des marges du tableau A.

D’après les relations précédentes, on a

b = n₁− a c = n − k − a d = k − n₁+ a.

Puisque k, n₁ et n sont fix´es, les coefficients du tableau A ne d´ependent que de a. Par ailleurs,

comme b et c sont positifs ou nuls, on a a ≤ min(n − k, n1) ; de mˆeme puisque a et d sont

positifs, on a a ≥ max(0, n₁− k).

Pour k et n₁ compris entre 0 et n, on note alors M(n₁, k, n) l’ensemble des tableaux A pour

lesquels le coefficient a vérifie l’inégalité :

max(0, n₁− k) ≤ a ≤ min(n − k, n₁). (4.31)

Reprenons maintenant les notations du paragraphe 4.4.3 et consid´erons le tableau de

contin-gence : B B Somme Canc´ereux n₁ − k₁ k₁ n₁ Sains n₂ − k₂ k₂ n₂ Somme n1+ n2− (k1+ k2) k n o`u k = k1+ k2 et n = n1+ n2.

On note comme précédemment q_{1 ¯}_B (resp. q_{2 ¯}_B) la probabilité que la base lue ne soit pas la base de la séquence de référence chez un cancéreux (resp. sain).

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

Test bilat´eral

On se propose de r´ealiser le test exact de Fisher bilat´eral suivant [24] : H₀ : q_{1 ¯}_B= q_{2 ¯}_B

H₁ : q_{1 ¯}_B6= q_{2 ¯}_B. ^(4.32)

Loi du tableau sous l’hypoth`ese H₀

Remarquons que n₁ et n₂ sont des nombres fixes ; en revanche, k₁ et k₂ sont les réalisations respectives des variables aléatoires indépendantes K₁ et K₂.

On a :

– K₁ ∼ B(n₁, q_{1 ¯}_B), – K₂ ∼ B(n₂, q_{2 ¯}_B),

– n₁ − K₁ ∼ B(n₁, 1 − q_{1 ¯}_B) = B(n₁, q_1B), – n₂ − K₂ ∼ B(n₂, 1 − q_{2 ¯}_B) = B(n₂, q_2B).

Soit l1 et l2 deux entiers vérifiant 0 ≤ l1 ≤ n1, 0 ≤ l2 ≤ n2 et k = l1 + l2. On a d’après l’indépendance de K₁ et K₂ : P (K₁ = l₁, K₂ = l₂) = P (K₁ = l₁)P (K₂ = l₂) = C^l1 n1q^l1 1 ¯B(1 − q_{1 ¯}_B)ⁿ1−l₁ C^l2 n2q^l2 2 ¯B(1 − q_{2 ¯}_B)ⁿ2−l₂ (4.33) Sous H₀, q_{1 ¯}_B = q_{2 ¯}_B = q. Dans ce cas, K = (K₁+ K₂) ∼ B(n, q) et P (K = k) = C_n^kq^k(1 − q)^n−k. On a alors : P (K₁ = l₁, K₂ = l₂ | K = k) = ^C l1 n1ql1(1 − q)n1−l1Cl2 n2ql2(1 − q)n2−l2 Ck nqk(1 − q)n−k = ^C l1 n1C^l2 n2q^k(1 − q)^n−k Ck nqk(1 − q)n−k = ^C l1 n1Cl2 n2 Ck n = n1! l1! (n1−l₁)! n2! l2! (n2−l₂)! n! k! (n−k)! = ⁿ¹^{! n}²^{! k! (n − k)!} l₁! l₂! (n₁− l₁)! (n₂− l₂)! n!^. ^(4.34) On note alors π_l₁_,l₂_,k = ⁿ¹^{! n}²^{! k! (n − k)!} l₁! l₂! (n₁− l₁)! (n₂− l₂)! n!^. ^(4.35) En conclusion, sous H₀ : P (K1 = l1, K2 = l2 | K = k) = πl1,l2,k. (4.36)

Pour k fix´e, π_l₁_,l₂_,k ne d´epend que de l₁. On montre que la suite l₁ 7→ π_l₁_,l₂_,k croˆıt au sens large pour l₁ ≤ ^(k+1)(n1+1)

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

R`egle de d´ecision

Notons π⁰ la probabilité π_k₁_,k₂_,k correspondant au tableau de contingence observé, où k₁, k₂ et k sont les réalisations de K₁, K₂ et K.

Pour chaque tableau de M(n1, k, n), on calcule la probabilité πl1,l2,kcorrespondante ; on considère ensuite la somme p des probabilités π_l₁_,l₂_,k qui sont inférieures ou égales à π0.

R`egle de d´ecision :

Si p ≤ α, on rejette H₀; sinon on ne rejette pas H₀.

Tests unilat´eraux

Soit le test unilat´eral :

H₀ : q_{1 ¯}_B≤ q_{2 ¯}_B

H₁ : q_{1 ¯}_B> q_{2 ¯}_B. ^(4.37)

On consid`ere la restriction de M(n₁, k, n) aux tableaux dont le coefficient b est sup´erieur ou ´

egal à k₁. On calcule la probabilité π_k₁_,k₂_,k pour chacun de ces tableaux ; on appelle p la somme de ces probabilités.

R`egle de d´ecision :

Si p ≤ α, on rejette H₀; sinon on ne rejette pas H₀. De mˆeme soit le test unilat´eral :

H₀ : q_{1 ¯}_B≥ q_{2 ¯}_B

H₁ : q_{1 ¯}_B< q_{2 ¯}_B. ^(4.38)

On consid`ere la restriction de M(n₁, k, n) aux tableaux dont le coefficient b est inf´erieur ou ´

egal à k₁. On calcule la probabilité π_k₁_,k₂_,k pour chacun de ces tableaux ; on appelle p la somme de ces probabilités.

R`egle de d´ecision :

Si p ≤ α, on rejette H₀; sinon on ne rejette pas H₀.

Calculs num´eriques

Dans la pratique, les factorielles intervenant dans l’expression de π_l₁_,l₂_,k peuvent devenir tr`es

grandes `a mesure que les effectifs augmentent, ce qui pose des probl`emes informatiques. La

formule (4.35) ne peut donc pas être utilisée directement. Il faut trouver une manière d’arranger les facteurs de l’expression pour calculer ce nombre.

Remarquons que le numérateur et le dénominateur de πl1,l2,k sont chacun constitués de 2n facteurs. L’idée est de construire un algorithme itératif qui à chaque pas divise le plus grand

facteur du num´erateur par le plus grand facteur du d´enominateur. On multiplie ensuite le

résultat obtenu par le résultat du pas précédent et on passe au pas suivant en décrémentant les deux maxima trouvés. L’algorithme s’arrête quand tous les facteurs ont été introduits. Le code peut être écrit de la manière suivante :

function res=proba_fisher(l1,n1,l2,n2) r´eel res=1;

k=l1+l2; n=n1+n2;

CHAPITRE 4. COMPARAISON DE LA PROBABILIT ´E DE SURVENUE D’UNE SUBSTITUTION SUR UN ARNM SAIN ET SUR UN ARNM CANC ´EREUX

tableau t1=[n1,n2,k,n-k];

tableau t2=[l1,l2,n1-l1,n2-l2,n];

pour i=1 `a 2n faire

ind1= indice du max de t1; ind2= indice du max de t2; res=res*t1(ind1)/t2(ind2); t1(ind1)=t1(ind1)-1;

t2(ind2)=t2(ind2)-1; fin;

fin;

Ainsi, grâce au test exact de Fisher, il est possible de réaliser les tests (4.10), (4.20) et (4.23) à toutes les positions du gène, y compris celles où les conditions (4.15) ne sont pas vérifiées. Nous allons estimer le nombre moyen de tests ayant conduit à rejeter H₀ alors que H₀ est vraie (faux positifs), i.e de tests ayant conclu par erreur à une différence significative entre les fréquences de substitution dans les EST sains et dans les EST cancéreux, en utilisant le LBE présenté dans le chapitre précédent.

Dans le document Recherche statistique de biomarqueurs du cancer et de l'allergie à l'arachide (Page 50-54)