ov 1 / 3
Intervalles de fluctuation et intervalles de confiance (TSTI2D)
(1) Intervalles de fluctuation
Propriété
Soient p
0;1 et Y une variable aléatoire suivant la loi normale centrée réduite N(0,1).Pour n entier naturel non nul, Xn désigne une variable aléatoire suivant la loi binomiale B(n, p) D’après le théorème de De Moivre-Laplace, lim
1,96 1,96
0,95
I P Y
n P Xn n
n
où In désigne l’intervalle
n
p p p
n p
p p 1
96 , 1 1 ;
96 ,
1 , appelé intervalle de fluctuation
asymptotique au seuil de confiance 95%
Données connues :
On considère une population de taille N (très grande ou infinie)
Dans cette population, la fréquence théorique p
0;1 des individus qui possède le caractère C qu’on souhaite étudier est supposée connue.Par exemple : la fréquence théorique à laquelle on obtient un « cinq » en lançant un dé à 6 faces est
% 6 17 1
p (parmi les N lancers possibles)
Expérience :
On prélève un échantillon de taille n dans la population, avec n grand mais suffisamment petit par rapport à N pour qu’on puisse assimiler la constitution de cet échantillon à une succession de n tirages indépendants avec remise.
Par exemple : on lance 100 fois un dé rouge et on obtient 26 fois « cinq » et on lance 100 fois un dé bleu et on obtient 11 fois « cinq »
Objectif :
On souhaite déterminer une fourchette de valeurs probables (avec un risque d’erreur de 5%) pour la fréquence observée Fn du caractère C dans l’échantillon.
D’après le principe de la loi des grands nombres, on sait que la fréquence observée Fn devrait être proche de la fréquence théorique p. Mais on sait également que, du fait du phénomène de fluctuation d’échantillonnage, il y aura une variation aléatoire entre la fréquence observée Fn et la fréquence théorique p.
Par exemple : On souhaite prédire un intervalle de « fluctuation normale » pour la fréquence des « cinq » en lançant un dé à 6 faces.
Principe :
Si Xn désigne le nombre d’individus possédant le caractère C dans l’échantillon de taille n, alors Xn suit approximativement une loi binomiale B(n, p) et
n Fn Xn
En s’autorisant une probabilité d’erreur 5%, c'est-à-dire un niveau de confiance 95%, on sait que si n est assez grand pour vérifier les conditions n30, np5 et n
1 p
5, alorsn
Fn Xn appartiendra à l’intervalle de fluctuation asymptotique
n
p p p
n p
p p 1
96 , 1 1 ;
96 ,
1 avec
une probabilité d’environ 95%
ov 2 / 3
Dans l’exemple, n10030, 5 6 100
np et
56 1 p 500
n , donc dans environ 95% des séries de 100 lancers d’un dé à 6 faces équilibré, la fréquence observée pour les « cinq » devrait être dans l’intervalle
0,09;0,24
100 6 5 6 1 96 , 6 1
;1 100
6 5 6 1 96 , 6 1
1
Application à la prise de décision
A partir de l’expérience réalisée, on souhaite vérifier si la valeur de p supposée connue est correcte.
1er cas :
Si la fréquence observée Fn est en dehors de l’intervalle de fluctuation alors :
soit on est dans les 5% de cas qui sortent de cet intervalle
soit la valeur de p avec laquelle on a effectué les calculs est incorrecte
En prenant le risque de faire une erreur dans 5% des cas, on décidera donc de rejeter cette valeur de p Dans l’exemple, on obtient 26% de « cinq » avec le dé rouge, c’est en dehors de l’intervalle de fluctuation donc le comportement de ce dé est anormalement suspect. On peut donc rejeter l’hypothèse que le dé est bien
équilibré et considérer qu’il est truqué (avec un risque d’erreur de 5%) 2ème cas :
Si la fréquence observée Fn est dans l’intervalle de fluctuation alors le modèle est cohérent ce qui conduit à accepter cette valeur de p.
Il y a cependant un risque d’erreur qu’on ne contrôle pas, car d’autres modèles (avec d’autres valeurs de p) pourraient aussi être acceptés puisque Fn peut appartenir à plusieurs intervalles de fluctuation.
Dans l’exemple, on obtient 11% de « cinq » avec le dé bleu, c’est dans l’intervalle des fluctuations normales donc il n’y a pas de raison de considérer que le dé n’est pas équilibré, on peut donc accepter l’hypothèse que le dé est équilibré.
Cependant, cette observation est aussi compatible avec l’affirmation de quelqu’un qui considérerait que le dé a été truqué pour obtenir « cinq » dans 10% des cas. En effet, on a bien n10030, np105 et
1p
905n , et dans cette hypothèse on obtiendrait l’intervalle de fluctuation asymptotique
0,04;0,16
100 10 10 10
1 96 , 10 1
; 1 100
10 10 10
1 96 , 10 1
1
qui contient lui aussi la fréquence 11%, cette hypothèse
est donc elle aussi acceptable.
(2) Intervalles de confiance
La manipulation des intervalles de confiance est l’art de dire n’importe quoi en se trompant moins souvent que les autres …
Problème :
On considère une population de taille N (très grande ou infinie)
Dans cette population, la fréquence théorique p
0;1 des individus qui possède le caractère C qu’on souhaite étudier est inconnue et on souhaite en obtenir une estimation.Par exemple : on souhaite estimer les intentions de vote pA, pB et pC pour trois candidats A, B et C avant une élection.
ov 3 / 3
Méthode :
On prélève un échantillon de taille n dans la population, avec n30 « assez grand » mais suffisamment petit par rapport à N pour qu’on puisse assimiler la constitution de cet échantillon à une succession de n tirages indépendants avec remise.
On fait l’hypothèse que np5 et n
1 p
5, toute la suite du raisonnement sera donc basée sur unehypothèse invérifiable puisque la proportion p est inconnue. Cette démarche n’a donc pas la fiabilité habituelle obtenue en mathématiques.
Si Xn désigne le nombre d’individus possédant le caractère C dans l’échantillon de taille n, alors Xn suit approximativement une loi binomiale B(n, p) et la fréquence observée du caractère C dans l’échantillon est
n Fn Xn
On admet qu’alors la fréquence théorique p appartient à l’intervalle de confiance
n
F F F
n F
Fn Fn n n n 1 n
96 , 1 1 ;
96 ,
1 avec une probabilité supérieure à un nombre environ égal à 0,95.
Cette affirmation comporte 4 degrés d’incertitude : [1] Elle repose sur une hypothèse non vérifiée
[2] Elle donne un intervalle et non pas une valeur pour p
[3] p n’appartient à cet intervalle qu’avec une certaine probabilité
[4] cette probabilité est une valeur approchée (obtenue comme une limite)
A partir de l’encadrement obtenu pour p, on peut toutefois vérifier a posteriori la cohérence des hypothèses
5
np et n
1 p
5 en s’assurant que
1 5 96 ,
1
n
F F F
n n n n et
1 5 96 , 1
1
n
F F F
n n n n
Cela reste cependant une simple vérification de cohérence, car il est normal de pouvoir déduire np5 et
1 p
5n si on l’a supposé au départ !
Par contre, si cette vérification aboutit à une incohérence, l’intervalle ne peut pas être considéré comme fiable.
Exemple :
Sur un sondage de 1000 personnes, 27% des personnes disent vouloir voter pour le candidat A, 31% pour le candidat B et 42% pour le candidat C.
Peut-on on affirmer que les deux candidats qui arriveront en tête sont B et C ? La proportion de votants pour le candidat A vérifie
0,24;0,30
1000 73 , 0 27 , 96 0 , 1 27 , 0 1000 ;
73 , 0 27 , 96 0 , 1 27 ,
0
A p
La proportion de votants pour le candidat B vérifie
0,28;0,34
1000 69 , 0 31 , 96 0 , 1 31 , 0 1000 ;
69 , 0 31 , 96 0 , 1 31 ,
0
B p
La proportion de votants pour le candidat C vérifie
0,39;0,45
1000 58 , 0 42 , 96 0 , 1 42 , 0 1000 ;
58 , 0 42 , 96 0 , 1 42 ,
0
c p
Puisque l’intervalle de confiance pour le candidat C est disjoint des deux autres, il est donc très probable qu’il arrivera en tête du scrutin.
Par contre, les intervalles de confiance pour les candidats A et B n’étant pas disjoints, l’écart entre leurs scores dans l’échantillon n’est pas suffisamment significatif pour conclure : il y a une probabilité non négligeable que le candidat A obtienne finalement un meilleur résultat que le candidat B lors de l’élection.