Test d’ad´ equation ` a une loi ´ equir´ epartie
TaleSExempleOn lance un d´e `a six faces 1000 fois et on obtient les r´esultats suivants :
Chiffres obtenus 1 2 3 4 5 6
Effectifs 202 211 190 165 140 92
fr´equences 0,202 0,211 0,19 0,165 0,140 0,092 Pour un d´e ´equilibr´e, on s’attend `a une loi ´equir´epartie des fr´equences :
Chiffres obtenus 1 2 3 4 5 6 fr´equences 1
6 1 6
1 6
1 6
1 6
1 6
1
6 ≃0,1666. . .
Le lancer d’un d´e est une exp´erience al´eatoire. On doit donc s’attendre `a voir fluctuer la distribution des fr´equences obtenues par rapport aux probabilit´es (distribution th´eorique).
N´eanmoins, au vu des ´ecarts observ´es ici, peut-on penser raisonnablement que le d´e n’est pas correctement ´equilibr´e ?
Plus pr´ecis´ement, peut-on quantifier cet ´ecart, et par la suite d´ecider si celui-ci est raisonnable ou non ?
Position g´en´erale du probl`eme :Dans une population on pr´el`eve un ´echantillon dont les effectifs des diff´erentes modalit´esx1, x2, . . .,xk sont :n1, n2, . . ., nk.
Peut-on consid´erer que la distribution statistique observ´ee dans cet ´echantillon est en ad´equation avec une distribution th´eorique ´equir´epartie ?
En d’autres termes, il s’agit de savoir si les ´ecarts entre la distribution observ´ee sur l’´echantillon et une distribution th´eorique sont imputables aux fluctuations d’´echantillonnage ou si ces ´ecarts sont trop importants pour que l’on puisse accepter l’hypoth`ese :
H : ”L’´echantillon est tir´e d’une population caract´eris´ee par une distribution ´equir´epartie”.
Soit n l’effectif total de l’´echantillon, dans le cas d’une ad´equation `a une loi ´equiprobable la pro- babilit´e de chacune des k modalit´es est p= 1
k, et les effectifs th´eoriques associ´es `a chaque modalit´e sont n
k.
Si les valeursnides effectifs observ´es lors de l’exp´erimentation sont ”proches” des valeurs th´eoriques, il y a de ”fortes chances” pour que la r´eponse au probl`eme pos´e soit oui.
Comment quantifier cette proximit´e ? Distribution observ´ee
Valeur x1 x2 . . . xi . . . xk
Effectif n1 n2 . . . ni . . . nk
fr´equence f1 f2 . . . fi = ni
n . . . fk
Distribution suivant une loi ´equir´epartie Valeur x1 x2 . . . xi . . . xk
Effectif n k
n
k . . . n
k . . . n k fr´equence 1
k 1
k . . . 1
k . . . 1 k
Valeurs fr´equences
x1 x2 . . . xi . . . xk
1
k • • • • • • • •
∗
f1
∗
f2
∗
∗
• fr´equences selon la loi ´equir´epartie
∗ fr´equences observ´ees
La notion de proximit´e entre les observations et la loi ´equir´epartie peut se quantifier par le calcul de la distance :
d2obs =
f1− 1 k
2 +
f2− 1
k 2
+· · ·+
fi − 1 k
2
+· · ·+
fk− 1 k
2
ou ausi, d2obs =
k
X
i=1
fi − 1
k 2
Dans l’exemple du d´e :
Chiffres obtenus 1 2 3 4 5 6
Effectifs 202 211 190 165 140 92
fr´equences 0,202 0,211 0,19 0,165 0,140 0,092 on trouve
d2obs =
k
X
i=1
fi− 1
6 2
=
0,212− 1 6
2 +
0,211−1 6
2
+· · ·+
0,092−1 6
2
≃0,010
Interpr´etation de d2
obs : La loi des grands nombres nous dit que plus n est grand (le nombre de r´ep´etitions de l’exp´erience, ici le nombre de lancers du d´e), plus les fr´equences observ´ees se rap- prochent de 1
k, c’est-`a-dire que, sous l’hypoth`ese H,d2
obs tend vers 0 losrque n tend vers l’infini.
Si l’hypoth`ese H est fausse, alors les fr´equences fi vont tendre vers des valeurs dont au moins une est diff´erente de 1
k, et donc d2
obs va tendre vers une valeur non nulle.
La question qui se pose alors est : Est-ce que d2
obs est assez proche de 0 pour consid´erer l’hypoth`ese H vraie ? On prend cette d´ecision en comparant la valeur de d2
obs obtenue avec celles de N simulations al´eatoires d’une loi ´equir´epartie.
Proc´edure du test : 1. On calculed2
obs, qui mesure la distance entre la distribution des fr´equences de notre ´echantillon avec la loi ´equir´epartie.
2. On r´ealise N simulations d’´echantillons de taille n de la loi ´equir´epartie `ak issues en calculant pour chacune la valeur de d2 correspondante.
On obtient ainsi une s´erie de N valeurs d21, d22,. . .,d2n dont on d´etermine le 9e d´ecile D9 (valeur qui s´epare les 90% de donn´ees les plus petites de la s´erie des 10% les plus grandes).
3. En prenant le risque de rejeter `a tort l’hypoth`ese d’´equiprobabilit´e dans 10% des cas on convient alors, que :
• Si d2
obs > D9, alors on peut rejeter, avec un risque d’erreur inf´erieur `a 10%, l’hypoth`ese H, c’est-`a-dire l’ad´equation des donn´ees observ´ees `a une loi ´equir´epartie.
• Sid2
obs 6D9, on ne peut pas, avec un risque d’erreur `a 10%, rejeter l’ad´equation des donn´ees
`a une s´erie ´equir´epartie.
A la suite d’un tel test, il y a donc quatre possibilit´es (avec un risque d’erreur de 10%) :
• L’hypoth`ese d’un mod`ele ´equir´eparti est vraie et on opte pour l’ad´equation `a la fin du test.
• L’hypoth`ese d’un mod`ele ´equir´eparti est fausse et on rejette le mod`ele ´equir´eparti `a la fin du test.
• L’hypoth`ese d’un mod`ele ´equir´eparti est vraie et on la rejette `a la fin du test.
• L’hypoth`ese d’un mod`ele ´equir´eparti est fausse et on opte pour le mod`ele ´equir´eparti `a la fin du test.
Remarque : Si les simulations sont r´ealis´es sur des ´echantillons de taille n′ 6=n, on compare alors nd2
obs au 9
e d´ecile D9 de la s´erie des N valeurs n′d2.
Exercice 1 Les pics d’ozone
Dans le but de r´eduire les accidents mortels dus `a l’alcool, la police d’une r´egion a analys´e les rapports de 175 accidents mortels dans lesquels le taux d’alcool´emie du conducteur ´etait sup´erieur `a la limite autoris´ee.
Le tableau suivant donne le r´epartition du nombre d’accidents en fonction du jour de la semaine :
Jour Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche
Nombre
d’accidents 36 20 17 22 21 26 33
Il semble `a premi`ere vue que la proportion d’accident mortels impliquant l’alcool soit plus importante le week-end.
On r´ep`ete 1 000 simulation de 200 exp´eriences mod´elisables par la loi ´equir´epartie sur l’ensemble {1,2,3,4?5,6,7} et on obtient une s´erie de 1 000 valeurs de 200d2 repr´esent´ee par le diagramme en boˆıte suivant :
0 0,6 1,2 1,8
a) Peut-on, avec un risque d’erreur inf´erieur `a 10%, rejeter l’ad´equation `a une loi ´equir´epartie ? b) Peut-onj conclure, au vu des r´esultats obtenus, qu’il y a plus d’accidents mortels dus `a l’alcool le
week-end ?
Exercice 2 Bac : histograme
Un pisciculteur poss`ede un bassin qui contient trois vari´et´es de truites : communes, saumon´ees et arc-en-ciel. Il voudrait savoir s’il peut consid´erer que son bassin contient autant de truites de chaque vari´et´e. Pour cela il effectue, au hasard, 400 pr´el`evements d’une truite avec remise et obtient les r´esultats suivants :
Vari´et´e Commune Saumon´ee Arc-en-ciel
Effectifs 146 118 136
1. (a) Calculer les fr´equences de pr´el`evement fc d’une truite commune, fs d’une truite saumon´ee etfa d’une truite arc-en-ciel. On donnera les valeurs d´ecimales exactes.
(b) On pose d2 = fc− 1 3
!2
+ fs−1 3
!2
+ fa− 1 3
!2 . Calculer 400d2 arrondi `a 10−2; on note 400d2obs cette valeur.
A l’aide d’un ordinateur, le pisciculteur simule le pr´el`evement au hasard de 400 truites` suivant la loi ´equir´epartie. Il r´ep`ete 1 000 fois cette op´eration et calcule `a chaque fois la valeur de 400d2.
Le diagramme `a bandes ci-dessous repr´esente la s´erie des 1 000 valeurs de 400d2, obtenues par simulation.
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
0 100 200 300 400 500
539
235 122
51 41
12
400d2 Effectifs
2. D´eterminer une valeur approch´ee `a 0,5 pr`es par d´efaut, du neuvi`eme d´ecile D9 de cette s´erie.
3. En argumentant soigneusement la r´eponse dire si on peut affirmer avec un risque d’erreur inf´erieur `a 10 % que « le bassin contient autant de truites de chaque vari´et´e».
4. On consid`ere d´esormais que le bassin contient autant de truites de chaque vari´et´e. Quand un client se pr´esente, il pr´el`eve au hasard une truite du bassin.
Trois clients pr´el`event chacun une truite. Le grand nombre de truites du bassin permet d’assi- miler ces pr´el`evements `a des tirages successifs avec remise.
Calculer la probabilit´e qu’un seul des trois clients pr´el`eve une truite commune.
Exercice 3 (D’apr`es Bac 2004)
1. On consid`ere une planche `a clous de ce type : On lance une boule B du haut de la planche, elle tombe alors dans l’un des quatre r´ecipients not´es R1, R2,R3 ouR4.
A chaque ´etape, la bille a une probabilit´e de 0,3 d’aller vers la gauche et 0,7 d’aller vers la droite (gauche et droite relatives `a l’observa- teur).
0,3 0,7
R1 R2 R3 R4
On notep1 la probabilit´e que la bille tombe dans le bacR1 ou dans le bacR3 etp2 la probabilit´e qu’elle tombe dans le bac R2 ou ou dans le bac R4.
Que valent p1 etp2?
a) p1 =p2 = 0,5 b) p1 = 0,216 et p2 = 0,784
c) p1 = 0,468 et p2 = 0,532
d) p1 = 0,468 et p2 = 0,432 2. On a obtenu `a l’aide d’un ordinateur les 1 000 premi`eres d´ecimales de π et on a compt´e le
nombre d’occurences de chaque chiffre.
Chiffre 0 1 2 3 4 5 6 7 8 9
Nombre d’occurences 93 116 102 102 94 97 94 95 101 106
Avec un tableur, on a simul´e 1 000 exp´eriences de 1000 tirages d’un chiffre compris entre 0 et 9.
Pour chaque exp´erience, on a calcul´e d2 =
9
X
k=0
(fk−0,1)2, o`ufk repr´esente, pour l’exp´erience, la fr´equence observ´ee du chiffre k.
On a alors obtenu une s´erie statistique pour laquelle on a calcul´e le premier et le neuvi`eme d´ecile (d1 et d9), le premier et le troisi`eme quartile (Q1 etQ3) et la m´ediane (Me) :
d1= 0,000 422 Q1 = 0,000 582 M2 = 0,000 822 Q3 = 0,001 136 d9 = 0,001 45 A. En effectuant le calcul de d2 sur la s´erie des 1 000 premi`eres d´ecimales de π, on obtient. . .
a) 0,000 456 b) 0,004 56 c) 0,000 314
B. Un statisticien, d´ecouvrant le tableau et ignorant qu’il s’agit des d´ecimales de π fait l’hy- poth`ese que la s´erie est issue de tirages al´eatoires ind´ependants suivant une loi ´equir´epartie.
Peut-il avec un risque d’erreur inf´erieur `a 10% rejeter cette hypoth`ese ?
a) Oui a) Non c) Il ne peut rien dire