• Aucun résultat trouvé

Echantillonnage - Estimation

N/A
N/A
Protected

Academic year: 2022

Partager "Echantillonnage - Estimation"

Copied!
8
0
0

Texte intégral

(1)

Echantillonnage - Estimation

TaleS

I - Fluctuation d’´ echantillons

L’´echantillonnage est l’´etude des liens existants entre les param`etres, moyenne ou fr´equence, des

´echantillons pr´elev´es dans une population et ceux de la population elle-mˆeme.

1) Position du probl` eme

Dans une population donn´ee, on connaˆıt la fr´equence f d’un caract`ere.

On r´ep`etenfois, de fa¸con ind´ependante, le choix d’un individu dans cette population de fa¸con `a constituer un ´echantillon de taillen.

On aimerait alors connaˆıtre, ou du moins estimer, sur cet ´echantillon, la fr´equence f du caract`ere.

Population fr´equencef

Echantillon fr´equencef

taille n Echantillonnage

(d´eduction)

SiXn est la variable al´eatoire ´egale au nombre de personnes poss´edant le caract`ere ´etudi´e dans notre

´echantillon, Xn suit alors une loi binomiale B(n;f).

On cherche donc `a estimer la fr´equence f = Xn

n .

2) Intervalle de fluctuation

D´efinition Lorsqu’on r´ep`ete n fois la mˆeme exp´erience al´eatoire, on obtient une s´erie de n succ`es ou

´echecs que l’on appelle ´echantillon de taille n.

Si on r´ealise plusieurs ´echantillons de mˆeme taille, les fr´equences de succ`es ou d’´echecs calcul´ees pour chaque ´echantillon varient d’un ´echantillon `a l’autre.

Ce ph´enom`ene s’appelle la fluctuation d’´echantillonnage.

Exemple : On lance une pi`ece bien ´equilibr´ee (donc, la probabilit´e d’obtention des ´ev´enements ”Pile” et

”Face” sont ´egales `a p= 0,5) 100 fois successivement :

– pour une 1`ere s´erie de 100 lancers, on obtient 54 fois ”Pile”, soit une fr´equence f = 54

100 = 0,54 ; – pour une 2`eme s´erie de 100 lancers, on obtient 41 fois ”Pile”, soit une fr´equencef = 41

100 = 0,41 ; – pour une 3`eeme s´erie . . .

Bien que ce ph´enom`ene soit al´eatoire, on sait que, d’apr`es la loi des grands nombres, plus la taille des ´echantillons augmente, plus les fr´equences observ´ees se rapprochent, ou se stabilisent autour, d’une valeur limite f =p= 0,5.

Dans l’exemple pr´ec´edent, on sait que mˆeme si le nombre de succ`es varie d’une exp´erience `a l’autre, il sera rare (c’est-`a-dire la probabilit´e sera faible) d’avoir une fr´equence de ”Pile” tr`es faible ou tr`es grande (disons, par exemple, inf´erieure `a 0,1 ou sup´erieure `a 0,9).

La notion d’intervalle de fluctuation permet de quantifier ce ph´enom`ene : la fr´equence de succ`es calcul´ee sur un ´echantillon de taillendonn´e est comprise, avec une certaine probabilit´e, dans un intervalle de valeurs, ou intervalle de fluctuation.

(2)

D´efinition Soit X une variable al´eatoire qui suit la loi binomialeB(n;p) et 0< α <1.

Dire que [a;b] est un intervalle de fluctuation au seuil 1−α signifie que P(a6X 6b) = 1−α

Propri´et´e Soit Xn une variable al´eatoire suivant la loi binomialeB(n;p), alors pour tout α∈]0; 1[, on a

nlim+P Xn

n ∈In

= 1−α

o`u In d´esigne l’intervalle

"

p−uα

pp(1−p)

√n ; p+uα

pp(1−p)

√n

#

avec uα le nombre tel que, si X suit la loi normale N(0; 1), P(−uα 6X 6uα) = 1−α

L’intervalle In s’appelle l’intervalle de fluctuation asymptotique au seuil 1−α.

D´emonstration: Si Xn suit la loi binomiale B(n;p), alors d’apr`es le th´eor`eme de Moivre-Laplace, pour n assez grand,Xnsuit approximativement la loi normaleN(np;p

np(1−p)), et donc, Xn

n suit approxi- mativement la loi normale N np

n ;

pnp(1−p) n

!

, soit la loi normale N(p;σ), avec σ =

rp(1−p) n . On cherche alors δ tel que P

p−δ 6 Xn

n 6p+δ

= 1−α.

En ramenant Xn

n `a une variable suivant la loi normale r´eduiteN(0; 1) :P

−δ σ 6

Xn

n −p σ 6 δ

σ

= 1−α

La variable al´eatoire X = Xn

n −p

σ suit une loi normale centr´ee r´eduite N(0; 1), et on sait donc qu’il existe un unique nombreuα tel que P(−uα 6X 6uα) = 1−α .

Le th´eor`eme est donc v´erifi´e pour δ

σ =uα⇐⇒δ =uασ =uα

rp(1−p)

n et on a donc, pournassez grand, P

Xn

n ∈In

= 1−α

En pratique, la variable al´eatoire Xn d´esigne le nombre succ`es, c’est-`a-dire le nombre d’individus poss´edant le caract`ere ´etudi´e, dans l’´echantillon de taille n form´e, et alorsf = Xn

n est la fr´equence de ce caract`ere dans l’´echantillon.

Cette propri´et´e fournit donc un intervalle In de fluctuation au seuil α.

3) Calcul pratique de l’intervalle de fluctuation

Avec les valeurs approch´ees, u0,05 ≃1,96 et u0,01 ≃2,58, on peut pr´eciser les intervalles de fluctuation les plus utilis´es, au seuil de 95 % et au seuil de 99 % :

(3)

Corollaire Si n >30, np>5 et n(1−p)>5, alors,

l’intervalle de fluctuation au seuil de 95% est environ :

"

p−1,96

pp(1−p)

√n ; p+ 1,96

pp(1−p)

√n

#

l’intervalle de fluctuation au seuil de 99% est environ :

"

p−2,58

pp(1−p)

√n ; p+ 2,58

pp(1−p)

√n

#

Exemple : On lance une pi`ece de monnaie bien ´equilibr´ee 100 fois successivement, et on compte le nombre de tirages ”Pile”.

Ce ph´enom`ene ´etant al´eatoire, on peut s’attendre `a obtenir un nombre quelconque de tirages ”Pile”

compris entre 0 et 100.

N´eanmoins, on imagine bien que, la pi`ece ´etant ´equilibr´ee, obtenir un faible nombre (par exemple, inf´erieur `a 10) ou un fort nombre (par exemple, sup´erieur `a 90) de ”Pile” sera rare.

L’intervalle de fluctuation permet de pr´eciser cela.

La probabilit´e d’obtenir ”Pile” sur un lanc´e est p= 0,5, et donc de ne pas l’obtenir : q = 1−p= 0,5.

Les lanc´es successifs de la pi`ece ´etant identiques et ind´ependants entre eux, la variable al´eatoire X100, qui au n= 100 lancers associe le nombre d’obtention de ”Pile”, suit la loi B(100; 0,5).

On a ici,n = 100>30 etnp=n(1−p) = 50>5, et donc, d’apr`es la propri´et´e pr´ec´edente, l’intervalle de fluctuation au seuil de 95 % de la variable al´eatoire X100

100 (le nombre moyen de ”Pile” obtenus, ou encore la fr´equence de ”Pile” sur les 100 lancers) est :

p−1,96

pp(1−p)

√n ; p+ 1,96

pp(1−p)

√n

=

0,5−1,96

√0,5×0,5

√100 ; 0,5 + 1,96

√0,5×0,5

√100

≃[ 0,5−0,098 ; 0,5 + 0,098 ] = [ 0,402 ; 0,598 ] Dans 95% des cas, la fr´equence f de ”Pile” obtenue sera dans l’intervalle [0,402 ; 0,598].

De la mˆeme fa¸con, l’intervalle de fluctuation au seuil de 99% est :

"

p−2,58

pp(1−p)

√n ;p+ 2,58

pp(1−p)

√n

#

≃[0,5−0,129 ; 0,5 + 0,129]

= [0,371 ; 0,629]

Dans 99% des cas, la fr´equencef de ”Pile” obtenue sur ces 100 lanc´es sera comprise entre 0,371 et 0,629.

Corollaire Si n > 30, np > 5 et n(1−p) > 5, l’intervalle de fluctuation au seuil de 95% peut-ˆetre approxim´e par l’intervalle

p− 1

√n ; p+ 1

√n

D´emonstration: L’intervalle de fluctuation au seuil de 95%, d’apr`es le th´eor`eme pr´ec´edent est, avec α= 5% = 0,05,

"

p−u0,05

pp(1−p)

√n ;p+u0,05

pp(1−p)

√n

#

(4)

o`uu0,05 est le nombre tel que si X suit la loi normale centr´ee r´eduite N(0; 1), P(−u0,056X 6u0,05) = 1−0,05 = 0,95 = 95%

On sait que u0,05≃1,96, et donc que l’intervalle de fluctuation au seuil de 95% est :

"

p−1,96

pp(1−p)

√n ; p+ 1,96

pp(1−p)

√n .

#

De plus, soit f :p7→p(1−p), pour p∈[0; 1], alorsf est une fonction trinˆome du second degr´e dont le sens de variation est :

p 0 12 1

f(p)

1 4

0 0

d’o`u, la fonction racine carr´ee ´etant croissante :

p 0 12 1

pp(1−p)

1 2

0 0

et donc, pour tout p∈[0; 1],

1,96p

p(1−p)61,96× 1 2 <1 On a donc, pour tout p∈[0; 1],

"

p−1,96

pp(1−p)

√n ;p+ 1,96

pp(1−p)

√n

#

p− 1

√n ; p+ 1

√n

L’intervalle

p± 1

√n

est plus large, donc un peu moins pr´ecis.

Exemple : Avec les donn´ees de l’exemple pr´ec´edent, l’intervalle de fluctuation approch´e au seuil de 95%

est alors :

p− 1

√n ; p+ 1

√n

=

0,5− 1

√100; 0,5 + 1

√100

≃[0,4 ; 0,6]

En comparant avec les r´esultats obtenus pr´ec´edemment pour l’intervalle de fluctuation au seuil de 95%, on commet une erreur relative de seulement 0,2%=0,002 en utilisant cette formule approch´ee.

4) Exemple

Selon l’Institut national des ´etudes d´emographiques (INED), il naˆıt normalement 105 gar¸cons pour 100 filles, soit une proportion de gar¸cons p= 105

205 ≃0,51.

Aux abords d’une ville est venue s’implanter, il y a cinq ans, une usine chimique. La toxicit´e des substances manipul´ees et produites par cette usine est depuis grandement source de pol´emique.

Dans la maternit´e de cette ville, sont n´es depuis ces cinq derni`eres ann´ees 693 enfants, dont ”seule- ment” 332 gar¸cons. Les opposants `a cette usine citent cette ”faible” quantit´e de naissances de gar¸cons comme une cons´equence n´efaste de l’exploitation de cette usine.

Ont-ils raison ?

(5)

Le sexe d’un enfant `a sa naissance est al´eatoire. Ainsi, il est envisageable, en th´eorie, de n’avoir aucun gar¸con n´e parmi les 693 naissances, tout comme il serait envisageable d’avoir vu naˆıtre 693 gar¸cons. Ces cas extrˆemes sont n´eanmoins peu probables.

L’intervalle de fluctuation permet de pr´eciser, et quantifier, cette id´ee de ”peu probable”. En effet, dans 95% des cas de 693 naissances, la proportion de gar¸cons n´es sera comprise dans l’intervalle :

I =

Ici, la proportion d’enfants de gar¸cons n´es depuis les cinq derni`eres ann´ees est : f =. . .

Comme f ∈ I, ce ”faible” nombre de naissance de gar¸cons s’explique, au seuil de 95%, par les fluctuations al´eatoires des naissances de gar¸cons/filles.

L’usine ne peut ˆetre incrimin´ee dans ces observations.

Remarque : Dans le cas o`u on aurait eu f ∈/ I, il faut toutefois rester prudent : au seuil de confiance de 95%, les fluctuations al´eatoires des naissances ne permettraient pas d’expliquer ce faible nombre de naissances de gar¸cons ; n´eanmoins, cela ne signifierait pas directement que l’usine est en cause, pas plus que probablement un certain nombre d’autres param`etres.

Une ´etude statistique (ici ´epid´emiologique) plus pouss´ee serait n´ecessaire pour aboutir `a une telle conclusion.

Exercice 1

D’apr`es les lois g´en´etiques de Mendel, certains croisement de diff´erentes vari´et´es de pois devraient donner des pois jaunes et verts dans une proportion ´egale `a 3 pour 1.

Lors d’une exp´erience, on a obtenu un ´echantillon, que l’on peut consid´erer comme al´eatoire, pr´esentant 176 pois jaunes et 48 pois verts.

Ces r´esultats sont-ils coh´erents avec la th´eorie de Mendel ?

Exercice 2

Deux entreprises A et B recrutent leur personnel dans un bassin d’emploi o`u il y a autant d’hommes que de femmes.

L’entreprise A emploie 60 personnes dont 26 femmes, tandis que l’entreprise B emploie 1050 personnes dont 480 femmes.

1. Calculer les proportions de femmes employ´ees dans chaque entreprise.

Laquelle de ces deux entreprises semble au mieux respecter la parit´e homme-femme ?

2. D´eterminer pour chaque entreprise l’intervalle de fluctuation au seuil de 95 % de la proportion de femmes employ´ees.

Les deux entreprises respectent-elles la parit´e au seuil d’erreur de 5 % ?

II - Estimation

L’estimation, ou inf´erence, statistique consiste `a essayer de d´eterminer les caract´eristiques d’une population en ne connaissant des informations que sur un ´echantillon la composant.

Un des exemples les plus m´ediatis´es de nos jours est celui de sondage : en interrogeant un faible nombre de personnes sur leur intention de vote, on souhaite obtenir une information sur les intentions de vote de la population constitu´ee par tous les ´electeurs.

Le journaliste et statisticien am´ericain Georges Gallup a r´eussi `a pr´edire en 1936 l’´election de Franklin Roosevelt contre Alfred Landon : les instituts de sondage ´etaient n´es.

(6)

1) Position du probl` eme

Dans une population donn´ee, on connaˆıt la fr´equence f d’un caract`ere d’un ´echantillon al´eatoire de la po- pulation compl`ete.

A partir de la connaissance de cette fr´equence em- pirique f, on souhaite estimer la fr´equence f de ce caract`ere dans toute la population.

Population

fr´equencef

Echantillon taille n

fr´equence empiriquef

Inf´erence (induction)

On constitue un ´echantillon en pr´elevant al´eatoirement et successivement n individus dans la popu- lation globale.

Chacun de ces n individus a la probabilit´ef de poss´eder le caract`ere ´etudi´e.

Si l’effectif de cette population est assez important, ces tirages successifs peuvent ˆetre consid´er´es comme ´etant avec remise et donc ind´ependants entre eux. La constitution d’un tel ´echantillon de taille n correspond donc `a un sch´ema de Bernoulli.

Si on note alors X la variable al´eatoire ´egale au nombre d’individus dans l’´echantillon qui ont le caract`ere ´etudi´e, alors X suit une loi binomiale B(n;f) de param`etres n etf.

C’est justement la connaissance et l’utilisation de cette loi binomiale, et de son approximation par une loi normale, qui permet de donner un intervalle dans lequel on peut s’attendre `a trouver la fr´equence f connaissant celle, f, dans l’´echantillon.

2) Intervalle de confiance

Propri´et´e On consid`ere la variable al´eatoire X qui `a tout ´echantillon de taille n associe le nombre d’individus poss´edant le caract`ere ´etudi´e. On suppose que X suit une loi binomiale B(n, f), et on note f = X

n la fr´equence du caract`ere dans l’´echantillon.

Alors, pour n assez grand, l’intervalle

In =

f− 1

√n; f+ 1

√n

.

contient la fr´equence f du caract`ere dans la population avec une probabilit´e sup´erieure ou

´egale `a 0,95.

L’intervalle In s’appelle l’intervalle au niveau de confiance de 95 %.

D´emonstration: La fr´equence f du caract`ere dans l’´echantillon est une valeur prise par la variable al´eatoire X

n. Elle est ou n’est pas dans l’intervalle

f− 1

√n; f+ 1

√n

, mais on sait que 95 % des fr´equences des ´echantillons sont dans cet intervalle.

De plus, f ∈

f− 1

√n; f+ 1

√n

⇐⇒ f− 1

√n 6f 6f+ 1

√n

⇐⇒





f >f− 1

√n f 6f+ 1

√n

⇐⇒





f+ 1

√n >f f− 1

√n 6f

(7)

Et on a donc, f

f − 1

√n; f+ 1

√n

⇐⇒ f ∈

f− 1

√n; f + 1

√n

. Ainsi, f sera dans 95 % des intervalles du type In =

f− 1

√n; f+ 1

√n

.

Exemple : Dans un village, lors d’un sondage effectu´e un mois avant le scrutin aupr`es de 200 personnes choisies de fa¸con al´eatoire, 109 personnes se d´eclarent favorables au candidat A.

La proportion d’´electeurs favorables dans l’´echantillon sond´e est : p =. . .

L’intervalle de confiance au niveau de 95 % de la proportionpd’´electeurs qui vont voter pour le candidat A est :

I =

On peut donc estimer, avec un niveau de confiance de 95 %, `a partir du sondage effectu´e sur 200 personnes, que le score du candidat A aux prochaines ´elections sera dans la fourchette h

; i

En particulier, `a partir de ce sondage, le candidat A ne peut pas en conclure qu’il sera ´elu car, au niveau de confiance de 95 %, il n’est pas exclu que la proportion de ses ´electeurs soit dans l’intervalle [47,4 % ; 50 %[, et donc inf´erieure `a 50 %.

Exercice 3

Avant le premier tour de l’´election pr´esidentielle de 2002 un sondage IPSOS, r´ealis´e aupr`es de 989 personnes constituant un ´echantillon national repr´esentatif de la population fran¸caise inscrite sur les listes ´electorales, annon¸cait les intentions de vote suivantes :

20 % pour J. Chirac, 18 % pour L. Jospin et 14 % pour J.M. Le Pen.

Les m´edias se pr´eparaient donc pour un second tour entre J. Chirac et L. Jospin.

Le r´esultat r´eel des votes `a ce premier tour a alors surpris bien des personnes . . .

1. D´eterminer, pour chaque candidat, l’intervalle de confiance au niveau de confiance de 0,95 de la proportion d’´electeurs ayant eu l’intention de voter pour lui.

2. Les r´esultats `a l’issue du premier tour ont ´et´e les suivants :

19,88 % pour J. Chirac, 16,18 % pour L. Jospin et 16,86 % pour J.M. Le Pen.

Ces pourcentages sont-ils en accord avec les calculs pr´ec´edents ?

3. Pouvait-on au vu de ce sondage ´ecarter avec un niveau de confiance de 0,95 l’un de ces trois candidats ?

3) Dimensionnement des ´ echantillons

Le paragraphe pr´ec´edent donne un intervalle au niveau de confiance de 95 %. Dans l’exemple pr´ec´edent, cet intervalle se trouve ˆetre au final trop ”large” pour pouvoir en tirer une conclusion.

En sondant un ´echantillon nettement plus important (plus de 200 personnes), cet intervalle aurait pu ˆetre restreint.

Quand on cherche la taille de l’´echantillon `a sonder, deux ´el´ements sont en concurrence :

– si la taille de l’´echantillon est trop faible, la fourchette obtenue est large, et l’information peut donc manquer de pertinence ;

– on souhaite ne pas avoir `a sonder des ´echantillons de taille trop importante, afin de diminuer le coˆut de l’´etude.

On cherche donc la taille minimale de l’´echantillon `a ´etudier pour pouvoir aboutir `a une conclusion.

Exemple : On reprend les donn´ees de l’exemple pr´ec´edent. L’intervalle de confiance au seuil de 95 % est :

p − 1

√n ;p+ 1

√n

=

0,545− 1

√n ; 0,545 + 1

√n

(8)

On souhaite, avec un niveau de confiance de 95 %, r´eduire cette fourchette `a un intervalle ne contenant pas 50 %.

Il faut pour cela que : 0,545− 1

√n >0,5 ⇐⇒ 0,545−0,5 = 0,045> 1

√n

⇐⇒ 1

0,045 6√

n ⇐⇒

1 0,045

2

6n ⇐⇒ n>494 Il faudrait donc choisir un ´echantillon al´eatoire constitu´e d’au moins 494 personnes.

Exercice 4

Un laboratoire pharmaceutique met en place un test pour estimer l’efficacit´e d’un nou- veau m´edicament contre les migraines.

Deux groupes de 125 patients souffrant de migraines, consid´er´es comme des ´echantillons al´eatoires, participent `a ce test.

On administre aux patients du groupe A le nouveau m´edicament, tandis que les patients du groupe B re¸coivent un placebo.

Au bout de 4 jours de traitement, 73 patients du groupe A et 64 patients du groupe B d´eclarent ressentir une diminution de l’intensit´e de leurs migraines.

a) D´eterminer les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients d´eclarant ressentir une diminution de l’intensit´e de leurs migraines, dans chaque ´echantillon.

b) Les intervalles de confiance permettent-ils, au niveau de confiance 0,95, de consid´erer que le m´edicament est plus efficace que le placebo ?

c) Quelle devrait-ˆetre la taille minimale de chaque ´echantillon pour que, avec des proportions indentiques

`a celles observ´ees pr´ec´edemment, les r´esultats confirment l’efficacit´e du m´edicament, au niveau de confiance 0,95.

Exercice 5

Un magasin s’apprˆete `a commercialiser deux mod`eles d’un mˆeme produit : le mod`ele A et le mod`ele B.

Une enquˆete pr´ealable `a la commande des produits par le magasin a montr´e que dans une ville 63 % des 400 personnes interrog´ees pr´ef`erent le mod`ele A, et que dans une seconde ville, 69 % des 500 personnes interrog´ees pr´ef`erent le mod`ele A.

Peut-on consid´erer, au niveau de confiance de 95 % qu’il y a une diff´erence de pr´ef´erence entre les personnes des deux villes ?

Quelle proportion de mod`ele A commanderiez-vous ?

Exercice 6

Dans une exp´erience de perception extra-sensorielle on demande `a un sujet d’indiquer la couleur d’un jeton tir´e al´eatoirement dans un sac par un exp´erimentateur plac´e dans une autre pi`ece.

Ni le sujet, ni l’exp´erimentateur ne connaissent la proportion de jetons de chaque couleur dans le sac.

On choisit la r`egle de d´ecision suivante : si le pourcentage de couleurs devin´ees correctement appar- tient `a l’intervalle de fluctuation autour de 50 % `a un certain seuil fix´e `a l’avance, on consid`ere que le sujet n’a pas de don de perception extra-sensorielle, sinon on consid`ere qu’il a un don.

Un sujet fait le test, et identifie correctement la couleur de 32 jetons sur 50 essais.

Appliquer la r`egle de d´ecision aux seuils de 95 %, puis de 99 %.

Références

Documents relatifs

[r]

Donner en utilisant avec pr´ ecision l’algorithme de triangulation du cours un syst` eme triangul´ e ayant les mˆ emes solutions que E. Trianguler ce syst` eme d’´ equations`.

[r]

Soit X la variable al´ eatoire qui, ` a chaque tirage, associe le gain alg´ ebrique de Mael (il est compt´ e n´ egativement si c’est une perte).. (1) Repr´ esenter cette exp´

Le nombre de repas servis par un restaurant scolaire un jour donn´ e est une variable al´ eatoire X d’esp´ erance math´ ematique 500... Exprimer la distance AM en fonction

On prend simultan´ ement dans la main trois fruits de

[r]

On note T la variable al´ eatoire prenant pour valeur le nombre de tirages n´ ecessaires jusqu’` a l’obtention d’au moins une boule noire et d’au moins une boule blanche.. On note