Echantillonnage - Estimation
TaleSI - Fluctuation d’´ echantillons
L’´echantillonnage est l’´etude des liens existants entre les param`etres, moyenne ou fr´equence, des
´echantillons pr´elev´es dans une population et ceux de la population elle-mˆeme.
1) Position du probl` eme
Dans une population donn´ee, on connaˆıt la fr´equence f d’un caract`ere.
On r´ep`etenfois, de fa¸con ind´ependante, le choix d’un individu dans cette population de fa¸con `a constituer un ´echantillon de taillen.
On aimerait alors connaˆıtre, ou du moins estimer, sur cet ´echantillon, la fr´equence f′ du caract`ere.
Population fr´equencef
Echantillon fr´equencef′
taille n Echantillonnage
(d´eduction)
SiXn est la variable al´eatoire ´egale au nombre de personnes poss´edant le caract`ere ´etudi´e dans notre
´echantillon, Xn suit alors une loi binomiale B(n;f).
On cherche donc `a estimer la fr´equence f′ = Xn
n .
2) Intervalle de fluctuation
D´efinition Lorsqu’on r´ep`ete n fois la mˆeme exp´erience al´eatoire, on obtient une s´erie de n succ`es ou
´echecs que l’on appelle ´echantillon de taille n.
Si on r´ealise plusieurs ´echantillons de mˆeme taille, les fr´equences de succ`es ou d’´echecs calcul´ees pour chaque ´echantillon varient d’un ´echantillon `a l’autre.
Ce ph´enom`ene s’appelle la fluctuation d’´echantillonnage.
Exemple : On lance une pi`ece bien ´equilibr´ee (donc, la probabilit´e d’obtention des ´ev´enements ”Pile” et
”Face” sont ´egales `a p= 0,5) 100 fois successivement :
– pour une 1`ere s´erie de 100 lancers, on obtient 54 fois ”Pile”, soit une fr´equence f′ = 54
100 = 0,54 ; – pour une 2`eme s´erie de 100 lancers, on obtient 41 fois ”Pile”, soit une fr´equencef′ = 41
100 = 0,41 ; – pour une 3`eeme s´erie . . .
Bien que ce ph´enom`ene soit al´eatoire, on sait que, d’apr`es la loi des grands nombres, plus la taille des ´echantillons augmente, plus les fr´equences observ´ees se rapprochent, ou se stabilisent autour, d’une valeur limite f′ =p= 0,5.
Dans l’exemple pr´ec´edent, on sait que mˆeme si le nombre de succ`es varie d’une exp´erience `a l’autre, il sera rare (c’est-`a-dire la probabilit´e sera faible) d’avoir une fr´equence de ”Pile” tr`es faible ou tr`es grande (disons, par exemple, inf´erieure `a 0,1 ou sup´erieure `a 0,9).
La notion d’intervalle de fluctuation permet de quantifier ce ph´enom`ene : la fr´equence de succ`es calcul´ee sur un ´echantillon de taillendonn´e est comprise, avec une certaine probabilit´e, dans un intervalle de valeurs, ou intervalle de fluctuation.
D´efinition Soit X une variable al´eatoire qui suit la loi binomialeB(n;p) et 0< α <1.
Dire que [a;b] est un intervalle de fluctuation au seuil 1−α signifie que P(a6X 6b) = 1−α
Propri´et´e Soit Xn une variable al´eatoire suivant la loi binomialeB(n;p), alors pour tout α∈]0; 1[, on a
n→lim+∞P Xn
n ∈In
= 1−α
o`u In d´esigne l’intervalle
"
p−uα
pp(1−p)
√n ; p+uα
pp(1−p)
√n
#
avec uα le nombre tel que, si X suit la loi normale N(0; 1), P(−uα 6X 6uα) = 1−α
L’intervalle In s’appelle l’intervalle de fluctuation asymptotique au seuil 1−α.
D´emonstration: Si Xn suit la loi binomiale B(n;p), alors d’apr`es le th´eor`eme de Moivre-Laplace, pour n assez grand,Xnsuit approximativement la loi normaleN(np;p
np(1−p)), et donc, Xn
n suit approxi- mativement la loi normale N np
n ;
pnp(1−p) n
!
, soit la loi normale N(p;σ), avec σ =
rp(1−p) n . On cherche alors δ tel que P
p−δ 6 Xn
n 6p+δ
= 1−α.
En ramenant Xn
n `a une variable suivant la loi normale r´eduiteN(0; 1) :P
−δ σ 6
Xn
n −p σ 6 δ
σ
= 1−α
La variable al´eatoire X = Xn
n −p
σ suit une loi normale centr´ee r´eduite N(0; 1), et on sait donc qu’il existe un unique nombreuα tel que P(−uα 6X 6uα) = 1−α .
Le th´eor`eme est donc v´erifi´e pour δ
σ =uα⇐⇒δ =uασ =uα
rp(1−p)
n et on a donc, pournassez grand, P
Xn
n ∈In
= 1−α
En pratique, la variable al´eatoire Xn d´esigne le nombre succ`es, c’est-`a-dire le nombre d’individus poss´edant le caract`ere ´etudi´e, dans l’´echantillon de taille n form´e, et alorsf′ = Xn
n est la fr´equence de ce caract`ere dans l’´echantillon.
Cette propri´et´e fournit donc un intervalle In de fluctuation au seuil α.
3) Calcul pratique de l’intervalle de fluctuation
Avec les valeurs approch´ees, u0,05 ≃1,96 et u0,01 ≃2,58, on peut pr´eciser les intervalles de fluctuation les plus utilis´es, au seuil de 95 % et au seuil de 99 % :
Corollaire Si n >30, np>5 et n(1−p)>5, alors,
• l’intervalle de fluctuation au seuil de 95% est environ :
"
p−1,96
pp(1−p)
√n ; p+ 1,96
pp(1−p)
√n
#
• l’intervalle de fluctuation au seuil de 99% est environ :
"
p−2,58
pp(1−p)
√n ; p+ 2,58
pp(1−p)
√n
#
Exemple : On lance une pi`ece de monnaie bien ´equilibr´ee 100 fois successivement, et on compte le nombre de tirages ”Pile”.
Ce ph´enom`ene ´etant al´eatoire, on peut s’attendre `a obtenir un nombre quelconque de tirages ”Pile”
compris entre 0 et 100.
N´eanmoins, on imagine bien que, la pi`ece ´etant ´equilibr´ee, obtenir un faible nombre (par exemple, inf´erieur `a 10) ou un fort nombre (par exemple, sup´erieur `a 90) de ”Pile” sera rare.
L’intervalle de fluctuation permet de pr´eciser cela.
La probabilit´e d’obtenir ”Pile” sur un lanc´e est p= 0,5, et donc de ne pas l’obtenir : q = 1−p= 0,5.
Les lanc´es successifs de la pi`ece ´etant identiques et ind´ependants entre eux, la variable al´eatoire X100, qui au n= 100 lancers associe le nombre d’obtention de ”Pile”, suit la loi B(100; 0,5).
On a ici,n = 100>30 etnp=n(1−p) = 50>5, et donc, d’apr`es la propri´et´e pr´ec´edente, l’intervalle de fluctuation au seuil de 95 % de la variable al´eatoire X100
100 (le nombre moyen de ”Pile” obtenus, ou encore la fr´equence de ”Pile” sur les 100 lancers) est :
p−1,96
pp(1−p)
√n ; p+ 1,96
pp(1−p)
√n
=
0,5−1,96
√0,5×0,5
√100 ; 0,5 + 1,96
√0,5×0,5
√100
≃[ 0,5−0,098 ; 0,5 + 0,098 ] = [ 0,402 ; 0,598 ] Dans 95% des cas, la fr´equence f′ de ”Pile” obtenue sera dans l’intervalle [0,402 ; 0,598].
De la mˆeme fa¸con, l’intervalle de fluctuation au seuil de 99% est :
"
p−2,58
pp(1−p)
√n ;p+ 2,58
pp(1−p)
√n
#
≃[0,5−0,129 ; 0,5 + 0,129]
= [0,371 ; 0,629]
Dans 99% des cas, la fr´equencef′ de ”Pile” obtenue sur ces 100 lanc´es sera comprise entre 0,371 et 0,629.
Corollaire Si n > 30, np > 5 et n(1−p) > 5, l’intervalle de fluctuation au seuil de 95% peut-ˆetre approxim´e par l’intervalle
p− 1
√n ; p+ 1
√n
D´emonstration: L’intervalle de fluctuation au seuil de 95%, d’apr`es le th´eor`eme pr´ec´edent est, avec α= 5% = 0,05,
"
p−u0,05
pp(1−p)
√n ;p+u0,05
pp(1−p)
√n
#
o`uu0,05 est le nombre tel que si X suit la loi normale centr´ee r´eduite N(0; 1), P(−u0,056X 6u0,05) = 1−0,05 = 0,95 = 95%
On sait que u0,05≃1,96, et donc que l’intervalle de fluctuation au seuil de 95% est :
"
p−1,96
pp(1−p)
√n ; p+ 1,96
pp(1−p)
√n .
#
De plus, soit f :p7→p(1−p), pour p∈[0; 1], alorsf est une fonction trinˆome du second degr´e dont le sens de variation est :
p 0 12 1
f(p)
1 4
0 0
d’o`u, la fonction racine carr´ee ´etant croissante :
p 0 12 1
pp(1−p)
1 2
0 0
et donc, pour tout p∈[0; 1],
1,96p
p(1−p)61,96× 1 2 <1 On a donc, pour tout p∈[0; 1],
"
p−1,96
pp(1−p)
√n ;p+ 1,96
pp(1−p)
√n
#
⊂
p− 1
√n ; p+ 1
√n
L’intervalle
p± 1
√n
est plus large, donc un peu moins pr´ecis.
Exemple : Avec les donn´ees de l’exemple pr´ec´edent, l’intervalle de fluctuation approch´e au seuil de 95%
est alors :
p− 1
√n ; p+ 1
√n
=
0,5− 1
√100; 0,5 + 1
√100
≃[0,4 ; 0,6]
En comparant avec les r´esultats obtenus pr´ec´edemment pour l’intervalle de fluctuation au seuil de 95%, on commet une erreur relative de seulement 0,2%=0,002 en utilisant cette formule approch´ee.
4) Exemple
Selon l’Institut national des ´etudes d´emographiques (INED), il naˆıt normalement 105 gar¸cons pour 100 filles, soit une proportion de gar¸cons p= 105
205 ≃0,51.
Aux abords d’une ville est venue s’implanter, il y a cinq ans, une usine chimique. La toxicit´e des substances manipul´ees et produites par cette usine est depuis grandement source de pol´emique.
Dans la maternit´e de cette ville, sont n´es depuis ces cinq derni`eres ann´ees 693 enfants, dont ”seule- ment” 332 gar¸cons. Les opposants `a cette usine citent cette ”faible” quantit´e de naissances de gar¸cons comme une cons´equence n´efaste de l’exploitation de cette usine.
Ont-ils raison ?
Le sexe d’un enfant `a sa naissance est al´eatoire. Ainsi, il est envisageable, en th´eorie, de n’avoir aucun gar¸con n´e parmi les 693 naissances, tout comme il serait envisageable d’avoir vu naˆıtre 693 gar¸cons. Ces cas extrˆemes sont n´eanmoins peu probables.
L’intervalle de fluctuation permet de pr´eciser, et quantifier, cette id´ee de ”peu probable”. En effet, dans 95% des cas de 693 naissances, la proportion de gar¸cons n´es sera comprise dans l’intervalle :
I =
Ici, la proportion d’enfants de gar¸cons n´es depuis les cinq derni`eres ann´ees est : f′ =. . .
Comme f′ ∈ I, ce ”faible” nombre de naissance de gar¸cons s’explique, au seuil de 95%, par les fluctuations al´eatoires des naissances de gar¸cons/filles.
L’usine ne peut ˆetre incrimin´ee dans ces observations.
Remarque : Dans le cas o`u on aurait eu f′ ∈/ I, il faut toutefois rester prudent : au seuil de confiance de 95%, les fluctuations al´eatoires des naissances ne permettraient pas d’expliquer ce faible nombre de naissances de gar¸cons ; n´eanmoins, cela ne signifierait pas directement que l’usine est en cause, pas plus que probablement un certain nombre d’autres param`etres.
Une ´etude statistique (ici ´epid´emiologique) plus pouss´ee serait n´ecessaire pour aboutir `a une telle conclusion.
Exercice 1
D’apr`es les lois g´en´etiques de Mendel, certains croisement de diff´erentes vari´et´es de pois devraient donner des pois jaunes et verts dans une proportion ´egale `a 3 pour 1.Lors d’une exp´erience, on a obtenu un ´echantillon, que l’on peut consid´erer comme al´eatoire, pr´esentant 176 pois jaunes et 48 pois verts.
Ces r´esultats sont-ils coh´erents avec la th´eorie de Mendel ?
Exercice 2
Deux entreprises A et B recrutent leur personnel dans un bassin d’emploi o`u il y a autant d’hommes que de femmes.
L’entreprise A emploie 60 personnes dont 26 femmes, tandis que l’entreprise B emploie 1050 personnes dont 480 femmes.
1. Calculer les proportions de femmes employ´ees dans chaque entreprise.
Laquelle de ces deux entreprises semble au mieux respecter la parit´e homme-femme ?
2. D´eterminer pour chaque entreprise l’intervalle de fluctuation au seuil de 95 % de la proportion de femmes employ´ees.
Les deux entreprises respectent-elles la parit´e au seuil d’erreur de 5 % ?
II - Estimation
L’estimation, ou inf´erence, statistique consiste `a essayer de d´eterminer les caract´eristiques d’une population en ne connaissant des informations que sur un ´echantillon la composant.
Un des exemples les plus m´ediatis´es de nos jours est celui de sondage : en interrogeant un faible nombre de personnes sur leur intention de vote, on souhaite obtenir une information sur les intentions de vote de la population constitu´ee par tous les ´electeurs.
Le journaliste et statisticien am´ericain Georges Gallup a r´eussi `a pr´edire en 1936 l’´election de Franklin Roosevelt contre Alfred Landon : les instituts de sondage ´etaient n´es.
1) Position du probl` eme
Dans une population donn´ee, on connaˆıt la fr´equence f′ d’un caract`ere d’un ´echantillon al´eatoire de la po- pulation compl`ete.
A partir de la connaissance de cette fr´equence em- pirique f′, on souhaite estimer la fr´equence f de ce caract`ere dans toute la population.
Population
fr´equencef
Echantillon taille n
fr´equence empiriquef′
Inf´erence (induction)
On constitue un ´echantillon en pr´elevant al´eatoirement et successivement n individus dans la popu- lation globale.
Chacun de ces n individus a la probabilit´ef de poss´eder le caract`ere ´etudi´e.
Si l’effectif de cette population est assez important, ces tirages successifs peuvent ˆetre consid´er´es comme ´etant avec remise et donc ind´ependants entre eux. La constitution d’un tel ´echantillon de taille n correspond donc `a un sch´ema de Bernoulli.
Si on note alors X la variable al´eatoire ´egale au nombre d’individus dans l’´echantillon qui ont le caract`ere ´etudi´e, alors X suit une loi binomiale B(n;f) de param`etres n etf.
C’est justement la connaissance et l’utilisation de cette loi binomiale, et de son approximation par une loi normale, qui permet de donner un intervalle dans lequel on peut s’attendre `a trouver la fr´equence f connaissant celle, f′, dans l’´echantillon.
2) Intervalle de confiance
Propri´et´e On consid`ere la variable al´eatoire X qui `a tout ´echantillon de taille n associe le nombre d’individus poss´edant le caract`ere ´etudi´e. On suppose que X suit une loi binomiale B(n, f), et on note f′ = X
n la fr´equence du caract`ere dans l’´echantillon.
Alors, pour n assez grand, l’intervalle
In =
f′− 1
√n; f′+ 1
√n
.
contient la fr´equence f du caract`ere dans la population avec une probabilit´e sup´erieure ou
´egale `a 0,95.
L’intervalle In s’appelle l’intervalle au niveau de confiance de 95 %.
D´emonstration: La fr´equence f′ du caract`ere dans l’´echantillon est une valeur prise par la variable al´eatoire X
n. Elle est ou n’est pas dans l’intervalle
f− 1
√n; f+ 1
√n
, mais on sait que 95 % des fr´equences des ´echantillons sont dans cet intervalle.
De plus, f ∈
f′− 1
√n; f′+ 1
√n
⇐⇒ f′− 1
√n 6f 6f′+ 1
√n
⇐⇒
f′ >f− 1
√n f′ 6f+ 1
√n
⇐⇒
f′+ 1
√n >f f′− 1
√n 6f
Et on a donc, f′ ∈
f − 1
√n; f+ 1
√n
⇐⇒ f ∈
f′− 1
√n; f′ + 1
√n
. Ainsi, f sera dans 95 % des intervalles du type In =
f′− 1
√n; f′+ 1
√n
.
Exemple : Dans un village, lors d’un sondage effectu´e un mois avant le scrutin aupr`es de 200 personnes choisies de fa¸con al´eatoire, 109 personnes se d´eclarent favorables au candidat A.
La proportion d’´electeurs favorables dans l’´echantillon sond´e est : p′ =. . .
L’intervalle de confiance au niveau de 95 % de la proportionpd’´electeurs qui vont voter pour le candidat A est :
I =
On peut donc estimer, avec un niveau de confiance de 95 %, `a partir du sondage effectu´e sur 200 personnes, que le score du candidat A aux prochaines ´elections sera dans la fourchette h
; i
En particulier, `a partir de ce sondage, le candidat A ne peut pas en conclure qu’il sera ´elu car, au niveau de confiance de 95 %, il n’est pas exclu que la proportion de ses ´electeurs soit dans l’intervalle [47,4 % ; 50 %[, et donc inf´erieure `a 50 %.
Exercice 3
Avant le premier tour de l’´election pr´esidentielle de 2002 un sondage IPSOS, r´ealis´e aupr`es de 989 personnes constituant un ´echantillon national repr´esentatif de la population fran¸caise inscrite sur les listes ´electorales, annon¸cait les intentions de vote suivantes :20 % pour J. Chirac, 18 % pour L. Jospin et 14 % pour J.M. Le Pen.
Les m´edias se pr´eparaient donc pour un second tour entre J. Chirac et L. Jospin.
Le r´esultat r´eel des votes `a ce premier tour a alors surpris bien des personnes . . .
1. D´eterminer, pour chaque candidat, l’intervalle de confiance au niveau de confiance de 0,95 de la proportion d’´electeurs ayant eu l’intention de voter pour lui.
2. Les r´esultats `a l’issue du premier tour ont ´et´e les suivants :
19,88 % pour J. Chirac, 16,18 % pour L. Jospin et 16,86 % pour J.M. Le Pen.
Ces pourcentages sont-ils en accord avec les calculs pr´ec´edents ?
3. Pouvait-on au vu de ce sondage ´ecarter avec un niveau de confiance de 0,95 l’un de ces trois candidats ?
3) Dimensionnement des ´ echantillons
Le paragraphe pr´ec´edent donne un intervalle au niveau de confiance de 95 %. Dans l’exemple pr´ec´edent, cet intervalle se trouve ˆetre au final trop ”large” pour pouvoir en tirer une conclusion.
En sondant un ´echantillon nettement plus important (plus de 200 personnes), cet intervalle aurait pu ˆetre restreint.
Quand on cherche la taille de l’´echantillon `a sonder, deux ´el´ements sont en concurrence :
– si la taille de l’´echantillon est trop faible, la fourchette obtenue est large, et l’information peut donc manquer de pertinence ;
– on souhaite ne pas avoir `a sonder des ´echantillons de taille trop importante, afin de diminuer le coˆut de l’´etude.
On cherche donc la taille minimale de l’´echantillon `a ´etudier pour pouvoir aboutir `a une conclusion.
Exemple : On reprend les donn´ees de l’exemple pr´ec´edent. L’intervalle de confiance au seuil de 95 % est :
p′ − 1
√n ;p′+ 1
√n
=
0,545− 1
√n ; 0,545 + 1
√n
On souhaite, avec un niveau de confiance de 95 %, r´eduire cette fourchette `a un intervalle ne contenant pas 50 %.
Il faut pour cela que : 0,545− 1
√n >0,5 ⇐⇒ 0,545−0,5 = 0,045> 1
√n
⇐⇒ 1
0,045 6√
n ⇐⇒
1 0,045
2
6n ⇐⇒ n>494 Il faudrait donc choisir un ´echantillon al´eatoire constitu´e d’au moins 494 personnes.
Exercice 4
Un laboratoire pharmaceutique met en place un test pour estimer l’efficacit´e d’un nou- veau m´edicament contre les migraines.Deux groupes de 125 patients souffrant de migraines, consid´er´es comme des ´echantillons al´eatoires, participent `a ce test.
On administre aux patients du groupe A le nouveau m´edicament, tandis que les patients du groupe B re¸coivent un placebo.
Au bout de 4 jours de traitement, 73 patients du groupe A et 64 patients du groupe B d´eclarent ressentir une diminution de l’intensit´e de leurs migraines.
a) D´eterminer les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients d´eclarant ressentir une diminution de l’intensit´e de leurs migraines, dans chaque ´echantillon.
b) Les intervalles de confiance permettent-ils, au niveau de confiance 0,95, de consid´erer que le m´edicament est plus efficace que le placebo ?
c) Quelle devrait-ˆetre la taille minimale de chaque ´echantillon pour que, avec des proportions indentiques
`a celles observ´ees pr´ec´edemment, les r´esultats confirment l’efficacit´e du m´edicament, au niveau de confiance 0,95.
Exercice 5
Un magasin s’apprˆete `a commercialiser deux mod`eles d’un mˆeme produit : le mod`ele A et le mod`ele B.Une enquˆete pr´ealable `a la commande des produits par le magasin a montr´e que dans une ville 63 % des 400 personnes interrog´ees pr´ef`erent le mod`ele A, et que dans une seconde ville, 69 % des 500 personnes interrog´ees pr´ef`erent le mod`ele A.
Peut-on consid´erer, au niveau de confiance de 95 % qu’il y a une diff´erence de pr´ef´erence entre les personnes des deux villes ?
Quelle proportion de mod`ele A commanderiez-vous ?
Exercice 6
Dans une exp´erience de perception extra-sensorielle on demande `a un sujet d’indiquer la couleur d’un jeton tir´e al´eatoirement dans un sac par un exp´erimentateur plac´e dans une autre pi`ece.Ni le sujet, ni l’exp´erimentateur ne connaissent la proportion de jetons de chaque couleur dans le sac.
On choisit la r`egle de d´ecision suivante : si le pourcentage de couleurs devin´ees correctement appar- tient `a l’intervalle de fluctuation autour de 50 % `a un certain seuil fix´e `a l’avance, on consid`ere que le sujet n’a pas de don de perception extra-sensorielle, sinon on consid`ere qu’il a un don.
Un sujet fait le test, et identifie correctement la couleur de 32 jetons sur 50 essais.
Appliquer la r`egle de d´ecision aux seuils de 95 %, puis de 99 %.