• Aucun résultat trouvé

Test d’ad´ equation ` a une loi

Dans le document Probabilit´es et statistique pour le CAPES (Page 141-145)

6.6 Tests

6.6.6 Test d’ad´ equation ` a une loi

Prenons un exemple. On consid`ere un caract`ere g´en´etique pour lequel on suppose une trans-mission mend´elienne (transmission due `a la mutation d’un seul g`ene) gouvern´ee par un g`ene

prenant les deux formes A et B. Supposons que l’on sache identifier les individus AA, AB et BB.

Si le mod`ele mend´elien est adapt´e `a la situation, les fr´equences th´eoriques des trois possibilit´es sont respectivement 14, 12 et 14. C’est cette hypoth`ese que l’on souhaite tester par un test dit du χ2 (test du chi-deux).

Soit une variable al´eatoireY `a valeurs dans l’ensemble fini{y1, . . . , yN}. On notep= (pk)1≤k≤N

o`u pk est la probabilit´e de l’´ev´enement {Y = yk}. On souhaite comparer ce vecteur p `a une valeur particuli`ere p0 (dans l’exemple ci-dessus, N = 3 et p0 est le vecteur de composantes (14,12,14)). On d´esire donc tester l’hypoth`ese H0 “p=p0” contre l’hypoth`eseH1 “p6=p0”.

i=1{ni variables prennent la valeur yi}

sont deux vecteurs de composantes strictement positives dont la somme est ´egale `a 1, alors : χ2(p, q) =

En fait, il ne s’agit pas d’une vraie distance car, par exemple, elle n’est pas sym´etrique. Cepen-dant, on a bien l’´equivalence : χ2(p, q) = 0⇐⇒p=q. th´eorique valantyk; on compare donc les effectifs observ´es aux effectifs th´eoriques).

Th´eor`eme 6.1. (admis). On suppose que : ∀k∈ {1, . . . , N}, p0k6= 0.

On en d´eduit un test asymptotique pour ngrand, appel´e test du χ2. Proposition 6.11. On supposen “grand”. Soit α∈]0,1[ .

SoitβαN le fractile d’ordre1−αde la loi duχ2 `aN−1degr´es de libert´e,i.e.P[χ2N−1≤βαN] = 1−α.

— Si l’observation v´erifie n χ2(cpn, p0)> βNα alors on rejette l’hypoth`ese H0 “p=p0”, et la probabilit´e de rejeter `a tort l’hypoth`ese est de l’ordre de α.

— Si l’observation v´erifie n χ2(cpn, p0) ≤ βαN, alors on ne peut pas rejeter l’hypoth`ese H0

“p=p0”.

Remarque. D’apr`es le th´eor`eme pr´ec´edent, la probabilit´e de rejeter `a tort l’hypoth`ese H0 tend vers α quand ntend vers l’infini. On parle de test de niveau asymptotique α. Le probl`eme est de savoir `a partir de quelles valeurs de nl’approximation est justifi´ee. Il n’y a pas de r´esultats th´eoriques pr´ecis. `A partir de consid´erations heuristiques reposant sur des simulations (et donc sur l’exp´erience et non sur la th´eorie), on consid`ere g´en´eralement que l’approximation asymp-totique est justifi´ee d`es que : ∀k∈ {1, . . . , N}, npk>5.

Exercice 6.7. D’apr`es Dunod ex. 10.1, p. 127

On a effectu´e le croisement de balsamines blanches avec des balsamines pourpres. `A la premi`ere g´en´eration, toutes les fleurs sont pourpres, mais `a la deuxi`eme, on obtient la r´epartition suivante :

pourpre rose blanc lavande blanc

1790 547 548 213

On souhaite savoir si la r´epartition se fait selon les lois de Mendel, c’est-`a-dire selon les probabi-lit´es 169 ;163;163 ;161

. Au risqueα= 0,05, peut-on rejeter l’hypoth`ese de r´epartition mend´elienne ? Solution 6.7. Il s’agit de faire un test du χ2 avec N = 4,n= 1790 + 547 + 548 + 213 = 3098 (donc n est grand !), p0 = 169 ;163;163;161

. On note p = (pk)1≤k≤4 le vecteur th´eorique de r´epartition des fleurs `a la deuxi`eme g´en´eration (ainsi,p1 repr´esente la probabilit´e d’obtenir une fleur pourpre, p2 celle d’obtenir une fleur rose,p3 celle d’obtenir une fleur blanc lavande, et p4 celle d’obtenir une fleur blanche). L’hypoth`ese H0 que nous consid´erons est “p=p0”. On teste

“p =p0” contre “p 6=p0”. On cherche β tel que P[χ23 ≥β] =α = 0,05, o`u χ23 suit une loi du χ2 `aN −1 = 3 degr´es de libert´e. La lecture dans une table (voir `a la fin de ce chapitre) donne β '7,81.

y1 = pourpre y2= rose y3= blanc lavande y4= blanc effectif observ´e N1n= 1790 N2n= 547 N3n= 548 N4n= 213 effectif th´eorique np01= 3098169 np02= 3098163 np03 = 3098163 np04= 3098161 Il s’ensuit que :

2(cpn, p0) =

4

X

k=1

(Nkn−n p0k)2 n p0k

= (1790−139418 )2

13941 8

+(547−46478 )2

4647 8

+(548−46478 )2

4647 8

+(213−15498 )2

1549 8

i.e.n χ2(cpn, p0)'7,06, d’o`u n χ2(cpn, p0)< β : on ne peut donc pas rejeter l’hypoth`ese H0 de r´epartition mend´elienne.

Exemple. Les tests d’ad´equation `a une loi ´equir´epartie sont au programme de la classe de Terminale ES, mˆeme si le vocabulaire des tests est hors programme. Mais on trouve parfois quelques formulations bien curieuses... Voici l’´enonc´e d’un exercice donn´e au Baccalaur´eat ES en juin 2003. Faites-en une analyse critique...

Les guichets d’une agence bancaire d’une petite ville sont ouverts au public cinq jours par se-maine : les mardi, mercredi, jeudi, vendredi et samedi. Le tableau ci-dessous donne la r´epartition journali`ere des 250 retraits d’argent liquide effectu´es aux guichets une certaine semaine.

Jour de la semaine mardi mercredi jeudi vendredi samedi

Rang idu jour 1 2 3 4 5

Nombre de retraits 37 55 45 53 60

On veut tester l’hypoth`ese “ le nombre de retraits est ind´ependant du jour de la semaine ”. On suppose donc que le nombre des retraits journaliers est ´egal `a 15 du nombre des retraits de la semaine. On pose d2obs=

5

P

i=1

fi152

o`u fi est la fr´equence des retraits dui-i`eme jour.

1. Calculer les fr´equences des retraits pour chacun des cinq jours de la semaine.

2. Calculer alors la valeur de 1000d2obs (la multiplication par 1000 permet d’obtenir un r´esultat plus lisible).

3. En supposant qu’il y a ´equiprobabilit´e des retraits journaliers, on a simul´e 2000 s´eries de 250 retraits hebdomadaires. Pour chaque s´erie, on a calcul´e la valeur du 1000d2obs correspondant. On a obtenu ainsi 2000 valeurs de 1000d2obs. Ces valeurs ont permis de construire le diagramme en boˆıte ci-dessous o`u les extr´emit´es des “pattes” correspondent respectivement au premier d´ecile et au neuvi`eme d´ecile.

Lire sur le diagramme une valeur approch´ee du neuvi`eme d´ecile.

4. En argumentant soigneusement la r´eponse, dire si pour la s´erie observ´ee au d´ebut, on peut affirmer, avec un risque d’erreur inf´erieur `a 10%, que “le nombre de retraits est ind´ependant du jour de la semaine” ?

Reprenons cet exercice avec les notations du cours pour mieux comprendre ce qui se passe.

Il s’agit de r´ealiser un test d’ad´equation `a une loi dans le cas o`u n= 250 (n est grand, on pourra appliquer la r`egle),N = 5,p0= (15,15,15,15,15) (l’hypoth`eseH0 est “le nombre de retraits est ind´ependant du jour de la semaine”, d’o`u la valeur dep0). Le vecteurpcn=

cpnk

1≤k≤5 des fr´equences empiriques est not´e (fk)1≤k≤5 dans l’´enonc´e et vaut 25037,25055,25045,25053,25060

. Alors n χ2(cpn, p0) =n

N

P

k=1

(pk−p0k)2

p0k s’´ecrit, avec les notations de l’´enonc´e n χ2(cpn, p0) = 250

5

X

k=1

(fk15)2

1 5

= 1250d2obs = 328 62500.

On veut construire un test au risque α = 0,1. La th´eorie nous dit de chercher β tel que P[χ24> β] =α= 0,1, o`u χ24 suit une loi du χ2 `a N −1 = 4 degr´es de libert´e. La lecture dans une table donneβ '7,78.

La r`egle s’´enonce alors ainsi :

— si 1250d2obs > β, on refuse l’hypoth`ese “le nombre de retraits est ind´ependant du jour de la semaine” ; la probabilit´e de se tromper est de l’ordre de 0,1 ;

— si 1250d2obs ≤β, on ne peut pas refuser l’hypoth`ese d’ind´ependance du nombre de retraits par rapport au jour de la semaine.

Comme 1250d2obs = 6,56, on ne peut pas conclure !

Remarquons que l’on ne peut jamais accepter l’hypoth`ese car on ne sait pas estimer la proba-bilit´e de se tromper dans ce cas. L’erreur de 10% correspond `a la probabilit´e de rejeter `a tort l’hypoth`ese, pas celle de l’accepter `a tort. Il est donc ridicule de demander si ”on peut affirmer, avec un risque d’erreur inf´erieur `a 10%, que le nombre de retraits est ind´ependant du jour de la semaine”, cela n’a aucun sens.

On remarque par ailleurs que l’on a P[χ24 ≤β] = 0,9, c’est-`a-dire que β est le neuvi`eme d´ecile de χ24. Mais les lois du χ2 ne sont pas au programme de la Terminale ES, et il n’est donc pas question de proc´eder en appliquant la th´eorie !... C’est pourquoi l’´enonc´e donne une simulation de ce qui serait en fait, `a quelque chose pr`es, une loi du χ2. Par miracle, le neuvi`eme d´ecileD9

sur la boˆıte `a moustache vaut 6, ce qui n’est pas loin de 10001250β (il s’agit d’une simulation de 1000d2obs et non de 1250d2obs comme la th´eorie le sugg`ere d’o`u le facteur multiplicatif). Mais ces simulations, ne sont que des simulations : elles sont obtenues avec des g´en´erateurs pseudo-al´eatoires. Cela pose donc un probl`eme sur la validit´e de ce type de m´ethode et on peut alors s’interroger sur l’int´erˆet de pr´esenter ce type de probl`eme...

Dans le document Probabilit´es et statistique pour le CAPES (Page 141-145)