• Aucun résultat trouvé

E E STIMATION STIMATION É É CHANTILLONNAGE CHANTILLONNAGE 1616

N/A
N/A
Protected

Academic year: 2022

Partager "E E STIMATION STIMATION É É CHANTILLONNAGE CHANTILLONNAGE 1616"

Copied!
11
0
0

Texte intégral

(1)

16 16

É CHANTILLONNAGE

E STIMATION

É CHANTILLONNAGE

E STIMATION

Vous vous ferez estimer en supportant les injustices.

Cicéron

1 É

CHANTILLONNAGE 1.1 Introduction

On considère une population (par exemple la population française) et un certain caractère étudié sur les individus de cette population (exemple : le caractère être de groupe sanguin A+ ).

On connaît la proportion p d'individus possédant le caractère dans l'ensemble de la population (ici, 38 % de A+ en France).

Quand on prélève au hasard un échantillon de la population, la proportion f d'individus possé- dant le caractère étudié (appelée fréquence observée) n'est bien sûr pas nécessairement la même que pour un autre échantillon : c'est la uctuation d'échantillonnage.

Néanmoins, lorsque les échantillons sont de grande taille, les diérentes valeurs de f ne sont pas trop éloignées de la proportion réelle p. Il y a une tendance à la stabilisation autour de cette valeur. On dénit alors la notion d'intervalle de uctuation.

Et inversement, si on dispose d'un échantillon dont la fréquence nous paraît trop éloignée de p, ne pouvant remettre en cause l'honnêteté du hasard , ne peut-on pas alors être en droit de suspecter cet échantillon , de se demander s'il est vraiment le fruit du hasard ?...

Nous allons développer toutes ces idées dans cette section.

Il y a, dans ce qui précède, beaucoup trop d'expressions entre guillemets ! Il est temps de préciser les choses, de quantier proprement les phrases : que signient pas trop éloignées ? grande taille ? l'honnêteté du hasard ? etc.

LYCÉEBLAISEPASCAL

1

S.DELOBEL M.LUITAUD

(2)

Population Échantillon

On prend un échantillon de taillende la population par

tirage au sort pest connu.

On détermine unintervalle de uctuation.

Dans une population, on connait la proportionpd'individus possédant

le caractère étudié.

On sait évaluer la probabilité que f (la proportion d'individus ayant

le caractère étudié dans cet échantillon) soit dans l'intervalle

de uctuation.

D'abord quelques (brefs) rappels des classes antérieures, ou nous avons déjà rencontré la notion d'intervalle de uctuation.

1.2 En classe de Seconde

Soitpla proportion des individus possédant le caractère étudié dans l'ensemble de la population.

En Seconde, lorsqu'on prélève au hasard de multiples échantillons de taille n>30 d'une popu- lation, on remarque que si 0,26p60,8, alors dans environ 95 % des cas la fréquence observée f se situe entre p−1n etp+1n.

On dénit ainsi, en Seconde, l'intervalle de uctuation au seuil de 95 % autour de p : c'est In=

h

p−1n;p+1n i.

Exercice 1

1. En France, la proportion de personnes de groupe sanguin A+ est 38 %.

Déterminer un intervalle de uctuation au seuil de 95 % de la fréquence des personnes de groupe A+ dans les échantillons de taille 100.

2. Dans le monde, la proportion de gauchers est 12 %.

Pouvez-vous donner un intervalle de uctuation au seuil de 95 % de la fréquence des gauchers dans les échantillons de taille 100 ?

(3)

1.3 En classe de Première

Soitpla proportion des individus possédant le caractère étudié dans l'ensemble de la population.

Prendre au hasard un échantillon de taille nrevient à prendre au hasardnindividus de manière indépendante ; chaque individu peut posséder le caractère étudié (succès, de probabilité p) ou non.

La variable aléatoireXnqui donne le nombre d'individus possédant le caractère dans l'échantillon suit donc une loi binomialeB(n;p).

Ainsi la fréquence d'apparition du caractère dans l'échantillon est Xn

n . On la noteFn. On considère les entiers aetbsuivants1 :

aest le plus petit entier tel queP(Xn6a)>0,025; best le plus petit entier tel que P(Xn6b)>0,975. Alors, P(a6Xn6b)>0,95, c'est-à-direP Fna

n; nb

>0,95. Ainsi, en Première, l'intervalle de uctuation à 95 % autour de p esta

n; nb

. Il n'y a pas cette fois de condition particulière sur p.

Exercice 2

Dans le monde, la proportion de gauchers est 12 %.

Pouvez-vous cette fois-ci donner un intervalle de uctuation au seuil de 95 % de la fréquence des gauchers dans les échantillons de taille 100 ?

1.4 En classe de Terminale : un intervalle de fluctuation asymptotique.

L'intervalle de uctuation vu en Première n'est pas très pratique à obtenir. Or on a vu précé- demment qu'une loi binomiale peut-être approximée par une loi normale.

Nous allons donc, dans ce paragraphe, utiliser la loi normale pour établir un nouvel intervalle de uctuation. Nous énoncerons, et démontrerons, un théorème plus général que le théorème de Seconde (qui avait été admis...)

Commençons par un exercice.

Exercice 3

Soit Xn une variable aléatoire suivant la loi binomiale B(n;p) etFn= Xn

n . Soit u un nombre positif etp un nombre dans

0 ; 1 . Montrer que :

−u6 Xn−np

pnp(1−p) 6u ⇐⇒ c6Fn6d où cetdsont deux nombres à déterminer.

Dans le théorème qui suit, on reprend les notations du chapitre Lois normales : ainsiuα

désigne l'unique réel tel queP(−uα6Z 6uα) = 1−α, oùZsuit la loi normaleN (0 ; 1). Notation

1. obtenus à l'aide d'un tableur, de GeoGebra ou de la calculatrice...

(4)

Soit pun nombre réel xé de l'intervalle 0 ; 1

etnun entier non nul.

Soit Xn une variable aléatoire suivant la loi B(n;p) etFn= Xn

n la variable aléatoire fréquence du nombre de succès .

Soit α∈ 0 ; 1 Alors : .

n→+∞lim P(Fn∈In) = 1−α.

où l'on a notéIn l'intervalle In=

"

p−uα

pp(1−p)

√n ;p+uα

pp(1−p)

√n

# . Théorème 1.

Utiliser le résultat de l'exercice3et le théorème de Moivre-Laplace.

Preuve

L'intervalle In est un intervalle de uctuation asymptotique de la variable fréquence Fn= Xn

n au seuil 1−α. Dénition 2.

Le théorème1exprime que, pour nassez grand, la variable fréquenceFn prend ses valeurs dans l'intervalleIn avec une probabilité proche de 1−α.

On admet que, dans la pratique, pourn>30,np>5, etn(1−p)>5, on peut approcher P(Fn∈In) par1−α .

On a vu dans le chapitre sur les lois normales que u0,05≈1,96 etu0,01≈2,58, donc :

Pour une variable aléatoireXn suivant une loi binomialeB(n;p), l'intervalle de uc- tuation asymptotique :

au seuil de 95 % estIn=

"

p−1,96

pp(1−p)

√n ;p+ 1,96

pp(1−p)

√n

# . au seuil de 99 % estIn=

"

p−2,58

pp(1−p)

√n ;p+ 2,58

pp(1−p)

√n

# . Corollaire 3.

Exercice 4

Déterminer un intervalle de uctuation asymptotique au seuil de 95 % lorsquen= 100etp= 0,5. Même question au seuil de 99 %. Donner aussi l'intervalle de uctuation vu en Seconde.

Exercice 5 Un algorithme

Écrire, en langage naturel, un algorithme qui donne l'intervalle de uctuation asymptotique (obtenu à l'aide du corollaire précédent), au seuil choisi par l'utilisateur.

Programmer ensuite cet algorithme sur calculatrice ou ordinateur.

(5)

1.5 Application : prise de décision

On suppose que dans une population la proportion d'un certain caractère est p. On observe la fréquencef de ce caractère sur un échantillon de taillen, sous les condi- tions n>30,np>5, etn(1−p)>5.

On détermine l'intervalle de uctuation asymptotiqueInau seuil de 95 % (ou de 99 %) de la situation en question.

si f /∈ In, alors on rejette l'hypothèse que la proportion est p (au risque d'erreur (rejet à tort) de 5 % (ou de 1 %)).

sif ∈In, alors on n'a pas de raisons de rejeter cette hypothèse.

Méthode 4 (Règle de prise de décision).

Dans les situations concrètes, très souvent, les tirages sont eectués sans remise. La taille des échantillons considérés étant souvent faible par rapport à la taille de la population totale, on peut assimiler les tirages réalisés à des tirages avec remise, et la méthode ci-dessus peut alors s'appliquer.

Exercice 6 Au casino

Dans un casino de Las Vegas, il a été décidé que les machines à sous doivent être réglées sur une fréquence de gain du joueur de g = 0,06. Une fréquence inférieure est supposée faire fuir le client , et une fréquence supérieure est susceptible de ruiner le casino.

Trois contrôleurs diérents vérient une même machine.

Le premier a joué 50 fois et gagné 2 fois, le second a joué 120 fois et gagné 14 fois, le troisième a joué 400 fois, et gagné 30 fois.

En utilisant des intervalles de uctuation asymptotiques au seuil de 95 %, examiner dans chaque cas la décision à prendre par le contrôleur, à savoir rejeter ou non l'hypothèseg= 0,06.

Exercice 7 Inquiétudes à Woburn

Woburn est une petite ville industrielle du Massachusetts, au Nord-Est des États-Unis. Dans les années 70, la communauté locale s'émeut du grand nombre d'enfants atteints de leucémie dans certains quartiers de la ville : entre 1969 et 1979, on a observé douze cas de leucémie sur un échantillon de 11 748 enfants de moins de 14 ans.

À cette même époque, aux États-Unis, la proportion pde leucémies chez les enfants de moins de 14 ans est 0,000 45. On fait l'hypothèse qu'à Woburn, la proportion théorique de leucémies chez les enfants de moins de 14 ans est la même que celle des États-Unis.

1. a. Vérier que les trois conditions d'application de la règle de prise de décision sont remplies.

b. Déterminer les intervalles de uctuation (centrés enp) à 95 % et à 99 % de la fréquence de leucémies sur un échantillon aléatoire de 11 748 enfants de moins de 14 ans.

2. Quelle conclusion peut-on tirer ?

Voir note de bas de page2 pour davantage d'informations.

2. Une enquête conduite par le Département de la Santé Publique du Massachusetts en 1981 conrmera que les sols de Woburn ont été contaminés par des résidus de tannerie et de produits chimiques. Les industriels concernés seront condamnés et la dépollution des sites sera engagée. Du point de vue étiologique (étude des causes et des facteurs d'une maladie), c'est l'exposition des enfants in utero à cette eau contaminée qui serait à l'origine des cas de leucémies observés.

(6)

Exercice 8 Publicité mensongère ou non ?

Une publicité arme qu'on a une chance sur dix de gagner à un certain jeu.

Au cours d'une étude portant sur un échantillon aléatoire de 400 joueurs, on a compté 28 ga- gnants.

1. Vérier que les trois conditions d'application de la règle de prise de décision sont remplies.

2. Commenter l'annonce faite en eectuant une prise de décision au seuil de risque de 5 %.

3. Même question au seuil de risque de 1 %.

4. Cherchons le seuil où la décision bascule :

a. Démontrer que les résultats de cette étude sont en accord avec l'annonce publicitaire lors d'une prise de décision au seuil de risque α si et seulement siuα >2.

b. En déduire la plus grande valeur3 de α (à 0,1 % près) pour laquelle les résultats de cette étude sont en accord avec l'annonce publicitaire lors d'une prise de décision au seuilα.

De façon générale, intuitivement, on pourrait penser que l'on a intérêt à abaisser le seuil de rejet d'une hypothèse, de façon à n'avancer que des hypothèses très ables. Mais lorsqu'on fait cela, on augmente les chances de commettre une autre erreur : celle de ne pas rejeter l'hypothèse alors qu'elle est fausse...

Ainsi, la décision que l'on doit prendre est un compromis adapté à la situation.

On peut schématiser cette remarque ainsi :

erreur de type I : rejeter l'hypothèse alors qu'elle est vraie (ex : condamner un innocent)

intervalle des présumés innocents

innocent

erreur de type II : accepter l'hypothèse alors qu'elle est fausse (ex : laisser un coupable en liberté)

intervalle des présumés innocents

coupable

Exercice 9

Écrire puis programmer un algorithme qui met en ÷uvre la méthode4lorsque l'utilisateur entre les valeurs den,p,f et le seuil.

3. Cette valeur est appelée degré de signication lors d'une prise de décision.

(7)

1.6 Lien entre l’intervalle vu en Terminale et celui vu en Seconde

L'intervalle asymptotique au seuil de 95 % est contenu dans l'intervalle de uctuation au seuil de 95 % introduit en seconde, c'est-à-dire :

"

p−1,96

pp(1−p)

√n ;p+ 1,96

pp(1−p)

√n

#

p− 1

√n;p+ 1

√n

. Proposition 5.

1. En étudiant la fonctionp7→p(1p)surh 0 ; 1

i, majorerp

p(1p), puis1,96p

p(1p).

2. En déduire queIn

p 1

n;p+ 1

n

. Preuve

1.7 Comparatif de l’utilisation des intervalles de fluctuation vus en Seconde, en Première, et en Terminale

Avantages Inconvénients

En Seconde

l'intervalle de uctuation au seuil de 95 % est simple à dé- terminer

on ne peut pas déterminer un intervalle de uctuation à un autre seuil que 95 %

les conditionsn>30et 0,26 p60,8 peuvent parfois être contraignantes...

l'intervalle obtenu est une ap- proximation de celui de Ter- minale, il s'agit d'un intervalle simplié mais donc moins n

En Première

il n'y a aucune condition d'ap- plication

on peut déterminer un inter- valle de uctuation à un seuil quelconque

la détermination de l'intervalle nécessite calculatrice ou ordi- nateur, il n'y a pas de for- mule

En Terminale

on peut déterminer un inter- valle de uctuation à un seuil quelconque

les conditions d'application n>30,np>5etn(1−p)>5 sont moins contraignantes que celles de Seconde

l'intervalle est plus n que celui obtenu en Seconde

la formule donnant l'intervalle de uctuation est plus compli- quée que celle de Seconde

(8)

Exercice 10

Dans les exercices 6 et 7, pourquoi ne pouvait-on pas utiliser l'intervalle de uctuation vu en classe de Seconde ?

Exercice 11 Contrôle qualité

Dans une usine automobile, on contrôle les défauts de peinture de type grains ponctuels sur le capot . Lorsque le processus est sous contrôle, on a 20 % de ce type de défauts. Lors du contrôle aléatoire de 400 véhicules, on observe 98 véhicules présentant des défauts de peinture.

A-t-on des raisons de s'inquiéter ? Répondre à l'aide :

de l'intervalle de uctuation au seuil de 95 % vu en Seconde ;

de l'intervalle de uctuation asymptotique au seuil de 95 % de Terminale.

Commenter.

2 E

STIMATION 2.1 Introduction

On souhaite connaître la proportion p des individus d'une population possédant un certain ca- ractère (par exemple : proportion des pièces défectueuses dans une production, intentions de vote pour un référendum, ...).

Pour des raisons nancières, matérielles, etc. il n'est pas toujours facile, ni même possible, de tester tous les individus (par exemple on ne peut pas tester le bon fonctionnement de toute la production d'une usine de fusées de feux d'artice !).

On prélève alors au hasard un échantillon de cette population (on fait un sondage), et on estimep à partir de la fréquence f du caractère observée sur l'échantillon.

Bien sûr cette fréquence varie d'un échantillon à l'autre... Nous ne pourrons donc pas donner une valeur précise de pmais une fourchette , un intervalle de conance.

Nous allons voir dans ce paragraphe comment obtenir un tel intervalle.

Population Échantillon

À partir des données d'un échantillon de taillensélectionné aléatoirement, on estimepà l'aide

d'un intervalle de conance pest inconnu.

On détermine unintervalle de conance.

On ne connaît pas la proportionp d'individus possédant le caractère

étudié

On calcule la fréquencef d'individus possédant le caractère

étudié sur un échantillon

2.2 Intervalle de confiance

SoitXnune variable aléatoire suivant une loi binomialeB(n;p)oùpest la proportion inconnue d'apparition d'un caractère (p∈

0 ; 1 ).

Soit Fn= Xn

n la variable aléatoire donnant la fréquence du nombre de succès.

Alors, pournassez grand, p appartient à l'intervalle

Fn− 1

√n;Fn+ 1

√n

avec une probabilité supérieure ou égale à 0,95.

Théorème 6.

(9)

SoitXnB(n;p)etZn= Xnnp

pnp(1p) la variable centrée réduite associée àXn. 1. On notean=P(−26Zn62). Justier que lim

n→+∞an>0,9544. 2. En déduire qu'il existe un entierN à partir duquelan>0,95. 3. Prouver quean=P p2

pp(1p)

n 6Fn6p+ 2

pp(1p)

n

! . 4. Montrer que

"

p2

pp(1p)

n ;p+ 2

pp(1p)

n

#

p 1

n;p+ 1

n

. 5. En déduire que pourn>N,P

p 1

n 6Fn6p+ 1

n

>0,95.

6. Montrer quep 1

n 6Fn6p+ 1

n équivaut àFn 1

n 6p6Fn+ 1

n et conclure.

Preuve

Soit f la fréquence du caractère sur un échantillon de taille n. L'intervalle

f− 1

√n;f + 1

√n

est un intervalle de conance au niveau de conance 0,95 de la proportion p(inconnue) du caractère dans la population.

Dénition 7.

On se place dans le cas où l'échantillon contient au moins 30 individus. Si la fréquence observéef est telle que nf >5 etn(1−f)>5, alors pour estimerp (proportion inconnue de la population totale), on utilise l'encadrement fourni par un intervalle de conance au niveau de 95 %.

Cet intervalle est parfois aussi fourchette de sondage.

Exercice 12 Les élections de 2002

Voici les résultats d'un sondage IPSOS réalisé avant l'élection présidentielle de 2002 pour Le Figaro et Europe 1, les 17 et 18 avril 2002 auprès de 989 personnes, constituant un échantillon national représentatif de la population française âgée de 18 ans et plus et inscrite sur les listes électorales.

On suppose cet échantillon constitué de manière aléatoire (même si en pratique, cela n'est pas réellement le cas).

Les intentions de vote au premier tour pour les principaux candidats sont les suivantes : 20% pour J.Chirac, 18% pour L.Jospin et 14% pour J.-M. Le Pen.

Les médias se préparent pour un second tour entre J.Chirac et L.Jospin.

1. Déterminer pour chaque candidat l'intervalle de conance au niveau de 0,95 de la proportion inconnue d'électeurs ayant l'intention de voter pour lui.

2. Le 21 avril, les résultats du premier tour des élections sont les suivantes : 19,88% pour J.Chirac, 16,18% pour L.Jospin et 16,86% pour J.-M. Le Pen.

Les pourcentages de voix recueillies par chaque candidat sont-ils bien dans les intervalles de conance précédents ?

3. Pouvait-on, au vu de ce sondage, écarter comme l'ont fait les médias avec un niveau de conance de 0,95, l'un de ces trois candidats pour le second tour ?

Voir la vidéo :http ://www.ina.fr/video/1992957001001/best-of-de-la-soiree-electorale-du-premier- tour-des-presidentielles-2002-video.html

(10)

2.3 Précision d’une estimation, taille de l’échantillon Exercice 13

Dans une grande ville, un nouveau cinéma va être construit. La municipalité propose un terrain à proximité du centre ancien.

1. Un premier sondage est eectué auprès de 100 personnes choisies de façon aléatoire et indique 53 avis favorables. Peut-on dire que la majorité de la population est favorable à cet emplacement ?

2. Un deuxième sondage eectué auprès de 500 personnes indique la même proportion d'avis favorables. La conclusion est-elle diérente ?

3. Si un sondage eectué auprès denpersonnes indique la même proportion d'avis favorables, à partir de quelle valeur de n peut-on estimer, au niveau de conance de 95 %, que la majorité de la population est favorable à cet emplacement ?

L'amplitude d'un intervalle de conance au niveau de 95 % est 2

√n.

Plus la taille de l'échantillon est grande, plus les intervalles de conance obtenus sont précis.

Proposition 8.

Très facile... (rappelons que l'amplitude d'un intervalle est la diérence entre la plus grande borne et la plus petite...)

Preuve

Remarquons que cette amplitude dépend de la taille de l'échantillon bien sûr, mais ne dépend pas de la taille de la population totale4!

Exercice 14

Lors d'une épreuve de Mathématiques, on corrige un échantillon de copies an de décider du barème nal pour qu'au moins 80 % des notes soient supérieures à 10.

On note ple pourcentage de copies ayant plus de 10.

1. Sur un échantillon de 45 copies, 25 ont plus de 10.

Donner l'intervalle de conance dep avec un niveau de conance de 0,95.

Pourquoi le jury décide-t-il de modier le barème ?

2. Avec le nouveau barème, sur un échantillon de 36 copies, 25 ont plus de 10.

Pourquoi le jury accepte-t-il ce barème ?

3. Quelle aurait dû être la taille de l'échantillon pour que l'intervalle de conance au niveau de conance de 0,95 ait une longueur d'au plus 0,2 ?

4. Ce qui peut étonner... Mais comme le disait Jean-Louis Boursin dans son livre Les structures du hasard , pour goûter un plat, il sut d'en goûter une petite quantité ; cette quantité ne dépend pas de la taille du récipient (mais il faut néanmoins avoir bien mélangé) !

(11)

Exercice 15

On souhaite situer p dans un intervalle de conance au niveau 0,95 d'amplitude donnéea. Quelle doit être la taille de l'échantillon ?

Exercice 16

Peu avant une élection nationale qu'on prévoit serrée entre plusieurs candidats, un institut de sondage est chargé de déterminer, pour chaque candidat, des fourchettes à 95 % de conance ayant une amplitude maximale de 1 %.

Déterminer une taille d'échantillon susante pour obtenir une estimation aussi précise des in- tentions de vote.

Une remarque importante pour terminer :

Comme pour les intervalles de uctuation, il existe d'autres intervalles de conance utilisés dans de nombreux domaines ; par exemple l'intervalle de conance non simplié au niveau de conance de 0,95 :

"

f−1,96

pf(1−f)

√n ;f+ 1,96

pf(1−f)

√n

# .

Références

Documents relatifs

Barnabé a trop mangé, chez son ami André. Il a mangé du beurre salé, du pain grillé, un gros pâté, une crème glacée, puis il s’est couché !. 4) Barre les

3°/ En utilisant l’ajustement par la méthode de Mayer, estimer pour Ouologuem le nombre de mois au bout duquel le déficit est

Pour voter, nous vous demandons de "lever la main" en cas d'opposition ou

Mobilité dans le sol Il n'existe pas d'information disponible pour le produit lui même. Résultats des évaluations PBT

Mobilité dans le sol Il n'existe pas d'information disponible pour le produit lui même. Résultats des évaluations PBT

4 mg/m3 STEL [KZGW] (inhalable fraction, 8 X 5 min) Austria - Occupational Exposure.. Limits - TWAs

EU - Occupational Exposure (2000/39/EC) - First List of Indicative Occupational Exposure Limit Values - Skin Notations.. Possibility of significant uptake through

Toxicité pour la reproduction Donnée non disponible. Toxicité spécifique pour certains organes cibles - exposition