Echantillonnage - Estimation

(1)

Echantillonnage - Estimation

^T^ale^S

I - Fluctuation d’´ echantillons

L’échantillonnage est l’étude des liens existants entre les paramètres, moyenne ou fréquence, des

échantillons prélevés dans une population et ceux de la population elle-même.

1) Position du probl` eme

Dans une population donnée, on connaˆıt la fréquence f d’un caractère.

On répètenfois, de fa¸con indépendante, le choix d’un individu dans cette population de fa¸con à constituer un échantillon de taillen.

On aimerait alors connaˆıtre, ou du moins estimer, sur cet échantillon, la fréquence f^′ du caractère.

Population fr´equencef

Echantillon fr´equencef^′

taille n Echantillonnage

(d´eduction)

SiXn est la variable aléatoire égale au nombre de personnes possédant le caractère étudié dans notre

´echantillon, Xn suit alors une loi binomiale B(n;f).

On cherche donc `a estimer la fr´equence f^′ = Xn

n .

2) Intervalle de fluctuation

Définition Lorsqu’on répète n fois la même expérience aléatoire, on obtient une série de n succès ou

´echecs que l’on appelle ´echantillon de taille n.

Si on réalise plusieurs échantillons de même taille, les fréquences de succès ou d’échecs calculées pour chaque échantillon varient d’un échantillon à l’autre.

Ce phénomène s’appelle la fluctuation d’échantillonnage.

Exemple : On lance une pièce bien équilibrée (donc, la probabilité d’obtention des événements ”Pile” et

”Face” sont ´egales `a p= 0,5) 100 fois successivement :

– pour une 1^`êre série de 100 lancers, on obtient 54 fois ”Pile”, soit une fréquence f^′ = 54

100 = 0,54 ; – pour une 2^`ême série de 100 lancers, on obtient 41 fois ”Pile”, soit une fréquencef^′ = 41

100 = 0,41 ; – pour une 3^`^eeme s´erie . . .

Bien que ce phénomène soit aléatoire, on sait que, d’après la loi des grands nombres, plus la taille des échantillons augmente, plus les fréquences observées se rapprochent, ou se stabilisent autour, d’une valeur limite f^′ =p= 0,5.

Dans l’exemple précédent, on sait que même si le nombre de succès varie d’une expérience à l’autre, il sera rare (c’est-à-dire la probabilité sera faible) d’avoir une fréquence de ”Pile” très faible ou très grande (disons, par exemple, inférieure à 0,1 ou supérieure à 0,9).

La notion d’intervalle de fluctuation permet de quantifier ce phénomène : la fréquence de succès calculée sur un échantillon de taillendonné est comprise, avec une certaine probabilité, dans un intervalle de valeurs, ou intervalle de fluctuation.

(2)

D´efinition Soit X une variable al´eatoire qui suit la loi binomialeB(n;p) et 0< α <1.

Dire que [a;b] est un intervalle de fluctuation au seuil 1−α signifie que P(a6X 6b) = 1−α

Propriété Soit Xn une variable aléatoire suivant la loi binomialeB(n;p), alors pour tout α∈]0; 1[, on a

n→lim+∞P Xn

n ∈In

= 1−α

o`u In d´esigne l’intervalle

"

p−uα

pp(1−p)

√n ; p+uα

pp(1−p)

√n

#

avec uα le nombre tel que, si X suit la loi normale N(0; 1), P(−uα 6X 6uα) = 1−α

L’intervalle In s’appelle l’intervalle de fluctuation asymptotique au seuil 1−α.

Démonstration: Si Xn suit la loi binomiale B(n;p), alors d’après le théorème de Moivre-Laplace, pour n assez grand,Xnsuit approximativement la loi normaleN(np;p

np(1−p)), et donc, Xn

n suit approximativement la loi normale N np

n ;

pnp(1−p) n

!

, soit la loi normale N(p;σ), avec σ =

rp(1−p) n . On cherche alors δ tel que P

p−δ 6 Xn

n 6p+δ

= 1−α.

En ramenant Xn

n `a une variable suivant la loi normale r´eduiteN(0; 1) :P





−δ σ 6

Xn

n −p σ 6 δ

σ





= 1−α

La variable al´eatoire X = Xn

n −p

σ suit une loi normale centr´ee r´eduite N(0; 1), et on sait donc qu’il existe un unique nombreuα tel que P(−uα 6X 6uα) = 1−α .

Le théorème est donc vérifié pour δ

σ =uα⇐⇒δ =uασ =uα

rp(1−p)

n et on a donc, pournassez grand, P

Xn

n ∈In

= 1−α

En pratique, la variable aléatoire Xn désigne le nombre succès, c’est-à-dire le nombre d’individus possédant le caractère étudié, dans l’échantillon de taille n formé, et alorsf^′ = Xn

n est la fréquence de ce caractère dans l’échantillon.

Cette propri´et´e fournit donc un intervalle In de fluctuation au seuil α.

3) Calcul pratique de l’intervalle de fluctuation

Avec les valeurs approchées, u0,05 ≃1,96 et u0,01 ≃2,58, on peut préciser les intervalles de fluctuation les plus utilisés, au seuil de 95 % et au seuil de 99 % :

(3)

Corollaire Si n >30, np>5 et n(1−p)>5, alors,

• l’intervalle de fluctuation au seuil de 95% est environ :

"

p−1,96

pp(1−p)

√n ; p+ 1,96

pp(1−p)

√n

#

• l’intervalle de fluctuation au seuil de 99% est environ :

"

p−2,58

pp(1−p)

√n ; p+ 2,58

pp(1−p)

√n

#

Exemple : On lance une pièce de monnaie bien équilibrée 100 fois successivement, et on compte le nombre de tirages ”Pile”.

Ce phénomène étant aléatoire, on peut s’attendre à obtenir un nombre quelconque de tirages ”Pile”

compris entre 0 et 100.

Néanmoins, on imagine bien que, la pièce étant équilibrée, obtenir un faible nombre (par exemple, inférieur à 10) ou un fort nombre (par exemple, supérieur à 90) de ”Pile” sera rare.

L’intervalle de fluctuation permet de pr´eciser cela.

La probabilit´e d’obtenir ”Pile” sur un lanc´e est p= 0,5, et donc de ne pas l’obtenir : q = 1−p= 0,5.

Les lancés successifs de la pièce étant identiques et indépendants entre eux, la variable aléatoire X100, qui au n= 100 lancers associe le nombre d’obtention de ”Pile”, suit la loi B(100; 0,5).

On a ici,n = 100>30 etnp=n(1−p) = 50>5, et donc, d’après la propriété précédente, l’intervalle de fluctuation au seuil de 95 % de la variable aléatoire X100

100 (le nombre moyen de ”Pile” obtenus, ou encore la fr´equence de ”Pile” sur les 100 lancers) est :

p−1,96

pp(1−p)

√n ; p+ 1,96

pp(1−p)

√n

=

0,5−1,96

√0,5×0,5

√100 ; 0,5 + 1,96

√0,5×0,5

√100

≃[ 0,5−0,098 ; 0,5 + 0,098 ] = [ 0,402 ; 0,598 ] Dans 95% des cas, la fr´equence f^′ de ”Pile” obtenue sera dans l’intervalle [0,402 ; 0,598].

De la mˆeme fa¸con, l’intervalle de fluctuation au seuil de 99% est :

"

p−2,58

pp(1−p)

√n ;p+ 2,58

pp(1−p)

√n

#

≃[0,5−0,129 ; 0,5 + 0,129]

= [0,371 ; 0,629]

Dans 99% des cas, la fr´equencef^′ de ”Pile” obtenue sur ces 100 lanc´es sera comprise entre 0,371 et 0,629.

Corollaire Si n > 30, np > 5 et n(1−p) > 5, l’intervalle de fluctuation au seuil de 95% peut-ˆetre approxim´e par l’intervalle

p− 1

√n ; p+ 1

√n

Démonstration: L’intervalle de fluctuation au seuil de 95%, d’après le théorème précédent est, avec α= 5% = 0,05,

"

p−u0,05

pp(1−p)

√n ;p+u0,05

pp(1−p)

√n

#

(4)

oùu0,05 est le nombre tel que si X suit la loi normale centrée réduite N(0; 1), P(−u0,056X 6u0,05) = 1−0,05 = 0,95 = 95%

On sait que u0,05≃1,96, et donc que l’intervalle de fluctuation au seuil de 95% est :

"

p−1,96

pp(1−p)

√n ; p+ 1,96

pp(1−p)

√n .

#

De plus, soit f :p7→p(1−p), pour p∈[0; 1], alorsf est une fonction trinˆome du second degr´e dont le sens de variation est :

p 0 ¹₂ 1

f(p)

1 4

0 0

d’où, la fonction racine carrée étant croissante :

p 0 ¹₂ 1

pp(1−p)

1 2

0 0

et donc, pour tout p∈[0; 1],

1,96p

p(1−p)61,96× 1 2 <1 On a donc, pour tout p∈[0; 1],

"

p−1,96

pp(1−p)

√n ;p+ 1,96

pp(1−p)

√n

#

⊂

p− 1

√n ; p+ 1

√n

L’intervalle

p± 1

√n

est plus large, donc un peu moins pr´ecis.

Exemple : Avec les données de l’exemple précédent, l’intervalle de fluctuation approché au seuil de 95%

est alors :

p− 1

√n ; p+ 1

√n

=

0,5− 1

√100; 0,5 + 1

√100

≃[0,4 ; 0,6]

En comparant avec les résultats obtenus précédemment pour l’intervalle de fluctuation au seuil de 95%, on commet une erreur relative de seulement 0,2%=0,002 en utilisant cette formule approchée.

4) Exemple

Selon l’Institut national des ´etudes d´emographiques (INED), il naˆıt normalement 105 gar¸cons pour 100 filles, soit une proportion de gar¸cons p= 105

205 ≃0,51.

Aux abords d’une ville est venue s’implanter, il y a cinq ans, une usine chimique. La toxicité des substances manipulées et produites par cette usine est depuis grandement source de polémique.

Dans la maternité de cette ville, sont nés depuis ces cinq dernières années 693 enfants, dont ”seulement” 332 gar¸cons. Les opposants à cette usine citent cette ”faible” quantité de naissances de gar¸cons comme une conséquence néfaste de l’exploitation de cette usine.

Ont-ils raison ?

(5)

Le sexe d’un enfant à sa naissance est aléatoire. Ainsi, il est envisageable, en théorie, de n’avoir aucun gar¸con né parmi les 693 naissances, tout comme il serait envisageable d’avoir vu naˆıtre 693 gar¸cons. Ces cas extrêmes sont néanmoins peu probables.

L’intervalle de fluctuation permet de préciser, et quantifier, cette idée de ”peu probable”. En effet, dans 95% des cas de 693 naissances, la proportion de gar¸cons nés sera comprise dans l’intervalle :

I =

Ici, la proportion d’enfants de gar¸cons nés depuis les cinq dernières années est : f^′ =. . .

Comme f^′ ∈ I, ce ”faible” nombre de naissance de gar¸cons s’explique, au seuil de 95%, par les fluctuations al´eatoires des naissances de gar¸cons/filles.

L’usine ne peut ˆetre incrimin´ee dans ces observations.

Remarque : Dans le cas où on aurait eu f^′ ∈/ I, il faut toutefois rester prudent : au seuil de confiance de 95%, les fluctuations aléatoires des naissances ne permettraient pas d’expliquer ce faible nombre de naissances de gar¸cons ; néanmoins, cela ne signifierait pas directement que l’usine est en cause, pas plus que probablement un certain nombre d’autres paramètres.

Une étude statistique (ici épidémiologique) plus poussée serait nécessaire pour aboutir à une telle conclusion.

Exercice 1

D’après les lois génétiques de Mendel, certains croisement de différentes variétés de pois devraient donner des pois jaunes et verts dans une proportion égale à 3 pour 1.

Lors d’une expérience, on a obtenu un échantillon, que l’on peut considérer comme aléatoire, présentant 176 pois jaunes et 48 pois verts.

Ces résultats sont-ils cohérents avec la théorie de Mendel ?

Exercice 2

Deux entreprises A et B recrutent leur personnel dans un bassin d’emploi o`u il y a autant d’hommes que de femmes.

L’entreprise A emploie 60 personnes dont 26 femmes, tandis que l’entreprise B emploie 1050 personnes dont 480 femmes.

1. Calculer les proportions de femmes employ´ees dans chaque entreprise.

Laquelle de ces deux entreprises semble au mieux respecter la parit´e homme-femme ?

2. D´eterminer pour chaque entreprise l’intervalle de fluctuation au seuil de 95 % de la proportion de femmes employ´ees.

Les deux entreprises respectent-elles la parit´e au seuil d’erreur de 5 % ?

II - Estimation

L’estimation, ou inférence, statistique consiste à essayer de déterminer les caractéristiques d’une population en ne connaissant des informations que sur un échantillon la composant.

Un des exemples les plus médiatisés de nos jours est celui de sondage : en interrogeant un faible nombre de personnes sur leur intention de vote, on souhaite obtenir une information sur les intentions de vote de la population constituée par tous les électeurs.

Le journaliste et statisticien américain Georges Gallup a réussi à prédire en 1936 l’élection de Franklin Roosevelt contre Alfred Landon : les instituts de sondage étaient nés.

(6)

1) Position du probl` eme

Dans une population donnée, on connaˆıt la fréquence f^′ d’un caractère d’un échantillon aléatoire de la population complète.

A partir de la connaissance de cette fréquence em- pirique f^′, on souhaite estimer la fréquence f de ce caractère dans toute la population.

Population

fr´equencef

Echantillon taille n

fr´equence empiriquef^′

Inf´erence (induction)

On constitue un échantillon en prélevant aléatoirement et successivement n individus dans la population globale.

Chacun de ces n individus a la probabilitéf de posséder le caractère étudié.

Si l’effectif de cette population est assez important, ces tirages successifs peuvent être considérés comme étant avec remise et donc indépendants entre eux. La constitution d’un tel échantillon de taille n correspond donc à un schéma de Bernoulli.

Si on note alors X la variable aléatoire égale au nombre d’individus dans l’échantillon qui ont le caractère étudié, alors X suit une loi binomiale B(n;f) de paramètres n etf.

C’est justement la connaissance et l’utilisation de cette loi binomiale, et de son approximation par une loi normale, qui permet de donner un intervalle dans lequel on peut s’attendre à trouver la fréquence f connaissant celle, f^′, dans l’échantillon.

2) Intervalle de confiance

Propriété On considère la variable aléatoire X qui à tout échantillon de taille n associe le nombre d’individus possédant le caractère étudié. On suppose que X suit une loi binomiale B(n, f), et on note f^′ = X

n la fréquence du caractère dans l’échantillon.

Alors, pour n assez grand, l’intervalle

In =

f^′− 1

√n; f^′+ 1

√n

.

contient la fréquence f du caractère dans la population avec une probabilité supérieure ou

´egale `a 0,95.

L’intervalle In s’appelle l’intervalle au niveau de confiance de 95 %.

Démonstration: La fréquence f^′ du caractère dans l’échantillon est une valeur prise par la variable aléatoire X

n. Elle est ou n’est pas dans l’intervalle

f− 1

√n; f+ 1

√n

, mais on sait que 95 % des fr´equences des ´echantillons sont dans cet intervalle.

De plus, f ∈

f^′− 1

√n; f^′+ 1

√n

⇐⇒ f^′− 1

√n 6f 6f^′+ 1

√n

⇐⇒







f^′ >f− 1

√n f^′ 6f+ 1

√n

⇐⇒







f^′+ 1

√n >f f^′− 1

√n 6f

(7)

Et on a donc, f^′ ∈

f − 1

√n; f+ 1

√n

⇐⇒ f ∈

f^′− 1

√n; f^′ + 1

√n

. Ainsi, f sera dans 95 % des intervalles du type In =

f^′− 1

√n; f^′+ 1

√n

.

Exemple : Dans un village, lors d’un sondage effectué un mois avant le scrutin auprès de 200 personnes choisies de fa¸con aléatoire, 109 personnes se déclarent favorables au candidat A.

La proportion d’électeurs favorables dans l’échantillon sondé est : p^′ =. . .

L’intervalle de confiance au niveau de 95 % de la proportionpd’´electeurs qui vont voter pour le candidat A est :

I =

On peut donc estimer, avec un niveau de confiance de 95 %, à partir du sondage effectué sur 200 personnes, que le score du candidat A aux prochaines élections sera dans la fourchette h

; i

En particulier, à partir de ce sondage, le candidat A ne peut pas en conclure qu’il sera élu car, au niveau de confiance de 95 %, il n’est pas exclu que la proportion de ses électeurs soit dans l’intervalle [47,4 % ; 50 %[, et donc inférieure à 50 %.

Exercice 3

Avant le premier tour de l’élection présidentielle de 2002 un sondage IPSOS, réalisé auprès de 989 personnes constituant un échantillon national représentatif de la population fran¸caise inscrite sur les listes électorales, annon¸cait les intentions de vote suivantes :

20 % pour J. Chirac, 18 % pour L. Jospin et 14 % pour J.M. Le Pen.

Les m´edias se pr´eparaient donc pour un second tour entre J. Chirac et L. Jospin.

Le résultat réel des votes à ce premier tour a alors surpris bien des personnes . . .

1. D´eterminer, pour chaque candidat, l’intervalle de confiance au niveau de confiance de 0,95 de la proportion d’´electeurs ayant eu l’intention de voter pour lui.

2. Les résultats à l’issue du premier tour ont été les suivants :

19,88 % pour J. Chirac, 16,18 % pour L. Jospin et 16,86 % pour J.M. Le Pen.

Ces pourcentages sont-ils en accord avec les calculs pr´ec´edents ?

3. Pouvait-on au vu de ce sondage ´ecarter avec un niveau de confiance de 0,95 l’un de ces trois candidats ?

3) Dimensionnement des ´ echantillons

Le paragraphe précédent donne un intervalle au niveau de confiance de 95 %. Dans l’exemple précédent, cet intervalle se trouve être au final trop ”large” pour pouvoir en tirer une conclusion.

En sondant un ´echantillon nettement plus important (plus de 200 personnes), cet intervalle aurait pu ˆetre restreint.

Quand on cherche la taille de l’échantillon à sonder, deux éléments sont en concurrence :

– si la taille de l’´echantillon est trop faible, la fourchette obtenue est large, et l’information peut donc manquer de pertinence ;

– on souhaite ne pas avoir à sonder des échantillons de taille trop importante, afin de diminuer le coût de l’étude.

On cherche donc la taille minimale de l’échantillon à étudier pour pouvoir aboutir à une conclusion.

Exemple : On reprend les données de l’exemple précédent. L’intervalle de confiance au seuil de 95 % est :

p^′ − 1

√n ;p^′+ 1

√n

=

0,545− 1

√n ; 0,545 + 1

√n

(8)

On souhaite, avec un niveau de confiance de 95 %, r´eduire cette fourchette `a un intervalle ne contenant pas 50 %.

Il faut pour cela que : 0,545− 1

√n >0,5 ⇐⇒ 0,545−0,5 = 0,045> 1

√n

⇐⇒ 1

0,045 6√

n ⇐⇒

1 0,045

2

6n ⇐⇒ n>494 Il faudrait donc choisir un échantillon aléatoire constitué d’au moins 494 personnes.

Exercice 4

Un laboratoire pharmaceutique met en place un test pour estimer l’efficacit´e d’un nouveau m´edicament contre les migraines.

Deux groupes de 125 patients souffrant de migraines, considérés comme des échantillons aléatoires, participent à ce test.

On administre aux patients du groupe A le nouveau m´edicament, tandis que les patients du groupe B re¸coivent un placebo.

Au bout de 4 jours de traitement, 73 patients du groupe A et 64 patients du groupe B d´eclarent ressentir une diminution de l’intensit´e de leurs migraines.

a) Déterminer les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients déclarant ressentir une diminution de l’intensité de leurs migraines, dans chaque échantillon.

b) Les intervalles de confiance permettent-ils, au niveau de confiance 0,95, de consid´erer que le m´edicament est plus efficace que le placebo ?

c) Quelle devrait-ˆetre la taille minimale de chaque ´echantillon pour que, avec des proportions indentiques

à celles observées précédemment, les résultats confirment l’efficacité du médicament, au niveau de confiance 0,95.

Exercice 5

Un magasin s’apprête à commercialiser deux modèles d’un même produit : le modèle A et le modèle B.

Une enquête préalable à la commande des produits par le magasin a montré que dans une ville 63 % des 400 personnes interrogées préfèrent le modèle A, et que dans une seconde ville, 69 % des 500 personnes interrogées préfèrent le modèle A.

Peut-on considérer, au niveau de confiance de 95 % qu’il y a une différence de préférence entre les personnes des deux villes ?

Quelle proportion de mod`ele A commanderiez-vous ?

Exercice 6

Dans une expérience de perception extra-sensorielle on demande à un sujet d’indiquer la couleur d’un jeton tiré aléatoirement dans un sac par un expérimentateur placé dans une autre pièce.

Ni le sujet, ni l’exp´erimentateur ne connaissent la proportion de jetons de chaque couleur dans le sac.

On choisit la règle de décision suivante : si le pourcentage de couleurs devinées correctement appar- tient à l’intervalle de fluctuation autour de 50 % à un certain seuil fixé à l’avance, on considère que le sujet n’a pas de don de perception extra-sensorielle, sinon on considère qu’il a un don.

Un sujet fait le test, et identifie correctement la couleur de 32 jetons sur 50 essais.

Appliquer la r`egle de d´ecision aux seuils de 95 %, puis de 99 %.