Pourquoi prendre un échantillon

(1)

L’échantillonnage

Les caractéristiques de la population sont

obtenues en analysant un échantillon, c’est-à- dire une partie, souvent très petite, de la

population.

Comment obtenir un « bon » échantillon?

Quelle est la fiabilité des résultats obtenus?

Comment interpréter les résultats obtenus?

(2)

Pourquoi prendre un échantillon

• 1) le coût: analyser toute la population

coûte trop cher. Le recensement suisse de 2000 a coûté plus de 10 millions. Analyser le contenu en alcool de toutes les

bouteilles de vin coûte trop cher.

• 2) le temps: écouter tous les CD pour

connaître leur qualité ne peut pas se faire rapidement mais on doit prendre une

décision d’achat dans un bref délai.

(3)

Types d’échantillons

• 1) Echantillon aléatoire simple

• 2) Echantillon systématique

• 3) Echantillon stratifié

• 4) Echantillon par grappe

• 5) Echantillon à plusieurs degrés

• 6) Echantillon selon la méthode des quota

(4)

Echantillon aléatoire simple

• Tous les éléments de la population ont la même probabilité de faire partie de

l’échantillon.

• Si les éléments de la population sont N et ceux de l’échantillon n, la probabilité qu’un élément soit dans l’échantillon est n/N.

(5)

Exemple

• On désire connaître les dépenses moyennes des étudiants lausannois en prenant un

échantillon aléatoire simple de 1000 personnes.

• En utilisant MINITAB, on met les numéros des étudiants dans C1. La commande

Sample 1000 C1 C2 permet d’obtenir l’échantillon désiré.

• On peut aussi utiliser une table de nombres aléatoires.

(6)

Nombres aléatoires

(7)

Commande MINITAB

• Introduire les valeurs dans C1

• Choisir dans le menu: Calc / Données aléatoires / Echantillon des colonnes

• Dans Prélever, mettre la grandeur de l’échantillon

• Dans Mémoriser les échantillons, mettre par exemple C2

• Cocher Echantillon avec remplacement si l’on veut un échantillon non exhaustif.

(8)

Estimations de la moyenne

• 1) Méthode des moments: prendre le même moment de l’échantillon la moyenne de l’échantillon (x) est

l’estimateur de la moyenne de la population (µ).

• 2) Prendre le premier élément de l’échantillon

• 3) Choisir la valeur la plus probable:

méthode du maximum de vraisemblance

(9)

Population et échantillons

• Population, âge de 3 étudiants: 19 20 24

• N=3 ; µ=21 ; σ²=4²/3 ; σ = 2.1602

• Echantillons non exhaustifs de grandeur 2 19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24

• Estimateur de la moyenne de la population:

moyenne de l’échantillon

• 19 19.5 19.5 20 21.5 21.5 22 22 24

• Moyenne: 21=µ, Variance=2¹/3=σ²/2

(10)

Population et échantillons

• Population: 19 20 24

• N=3 ; µ=21 ; σ²=4²/3 ; σ = 2.1602

• Echantillons non exhaustifs de grandeur 2

• 19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24

première valeur de l’échantillon

• 19 19 20 20 19 24 20 24 24

• Moyenne: 21=µ, Variance=4²/3=σ²

(11)

Population et échantillons

• N=3 ; µ=21 ; σ²=4²/3 ; σ = 2.1602

• Echantillons exhaustifs de grandeur 2

• 19 20, 20 19, 19 24, 24 19, 20 24, 24 20

moyenne de l’échantillon

• 19.5 19.5 21.5 21.5 22 22

• Moyenne: 21=µ, Variance=1¹/6=σ²/4

(12)

(13)

µ=21

x N=10 ; n=4

(14)

Conclusions

• 1) L’estimation n’est pas précise mais les

valeurs obtenues sont centrées autour de la moyenne de la population

• 2) La variance des moyennes des échantillons est plus petite que celle des valeurs de la

population.

• 3) La variance du premier élément de l’échantillon est égale à la variance des valeurs de la population. Estimateur peu précis.

(15)

(16)

(17)

Ne pas confondre

• 1) : variance (corrigée) des éléments de l’échantillon.

• 2) : variance de la

moyenne de l’échantillon. Elle indique comment la moyenne peut varier d’un échantillon à l’autre

∑

⁻

= − ²

2 ( )

1

1 x x

s n _i

x n

Var

_x

2

)

2

( = σ = σ

(18)

Petite population

• Lorsque l’échantillon est exhaustif, il faut corriger la formule de la variance de la moyenne:

• Exemple: voir les échantillons exhaustifs ci-dessus.

La correction est ½.

• Règle pratique: appliquer cette correction lorsque n > 0.1 N.

) 1 (

2

−

= −

N

n N

x n

Var σ

(19)

Inégalité de Chebyshev

• En utilisant la définition de la variance, on peut calculer une limite inférieure de la probabilité que la différence entre un élément et la moyenne de la population soit inférieure à une certaine valeur:

2

1 1 )

( x h h

P − µ ≤ σ ≥ −

(20)

(21)

Applications

• L’inégalité de Chebyshev s’applique à toute distribution ayant une variance. Elle ne peut pas donner un résultat très précis.

• Exemples: σ² = 1 ; h =2 P(Ix-µI≤2) ≥ 0.75

• Distribution normale: normalcdf(-2,2)= 0.95

• Dans les échantillons exhaustifs ci-dessus on a, avec h=2, P(11²/3≤x≤30¹/3) ≥ 0.75

• En réalité, toutes les valeurs sont dans cet intervalle (P=1).

(22)

(23)

Loi des grands nombres

• La moyenne de l’échantillon a une distribution avec moyenne µ et écart-type σ/√n . En utilisant l’inégalité de Chebyshev on a:

• Soit δ=1/h² ; ε=hσ/√n (n=σ²/δε²). Si n>σ²/δε², ε>0 et 0 < δ < 1 on obtient:

• P(-ε < x_n – µ < ε) > 1-δ

• La probabilité que x_n dévie de µ de moins que ε peut être aussi près de 1 qu’on veut. Il suffit de choisir

une valeur de n suffisamment grande.

/

2

1 1

) /

/

( h n x h n h

P − σ ≤ − µ ≤ σ ≥ −

(24)

Théorème limite central

• Soit une distribution quelconque avec moyenne µ et écart-type σ. On tire un

échantillon de grandeur n. La distribution de la moyenne de l’échantillon approchera une distribution normale avec moyenne µ et

écart-type σ/√n lorsque n tend vers l’infini.

• On a déjà une bonne approximation lorsque n > 30.

(25)

•

2’500’000 tirages [binompdf(10,0.1,x)], 50’000 échantillons de grandeur 50

(26)

2’500’000 tirages, 50000 échantillons de grandeur 50

(27)

2’500’000 tirages (entiers 0-10), 50000 échantillons de grandeur 50

(28)

•

(29)

(30)

•

(31)

(32)

•

(33)

•

2’500’000 tirages, 50’000 échantillons de grandeur 50

(34)

Estimation

• Un estimateur du paramètre θ est une fonction des éléments de l’échantillon:

• θ = f(x₁,x₂,…,x_n)

• Propriétés désirables:

• 1) centré ou sans biais: E( θ )=θ

• 2) variance minimale: E[θ* -Eθ*]²≤ E[θ-Eθ]²

• 3) convergent: P lim (I θ_n-θ I < ε) = 1

n ∞∞∞∞

(35)

Population et échantillons

• N=3 ; µ=21 ; σ² =4²/3 ; σ = 2.1602

19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24

• Estimateur de la variance de la population: variance de l’échantillon:

• 0 0.25 0.25 0 6.25 6.25 4 4 0

• Moyenne: 2¹/3=σ²/2 , Variance=6.8055

n

x s_n₂ ₌

∑

⁽xⁱ ⁻ ⁾²

(36)

Population et échantillons

• N=3 ; µ=21 ; σ² =4²/3 ; σ = 2.1602

19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24

• Estimateur de la variance de la population: variance corrigée de l’échantillon:

• 0 0.5 0.5 0 12.5 12.5 8 8 0

• Moyenne: 4²/3=σ² , Variance=27.222

1 )

( ²

2

−

=

∑

− n

x

s xⁱ

(37)

Population et échantillons

• N=3 ; µ=21 ; σ²=4²/3 ; σ = 2.1602

19 19, 19 20, 20 19, 20 20, 19 24, 24 19, 20 24, 24 20, 24 24

• Estimateur de l’écart-type de la population: s

• 0 0.7071 0.7071 0 3.5355 3.5355 2.82843 2.82843 0

• Moyenne: 1.571 ≠ 2.1602 Estimateur biaisé mais le biais n’est pas très grand si n > 30.

(38)

(39)

(40)

(41)

(42)

(43)

(44)

centré

(45)

(46)

µ

n

(47)

(48)

(49)

(50)

(51)

(52)

(53)

0 1 2 3 0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14

lambda

L

Maximum de vraisemblance

= ∑

= e

⁻ ^x

e

⁻ ^x

e

⁻ ^xⁱ

V ⁽ λ

^λ ¹

⁾⁽ λ

^λ ²

⁾ λ

² ^λ

n=2 ; : x₁ = 0.5 , x₂=1.5 , x= 1 ; : x₁ = 1 , x₂ = 3 , x=2

0.5

V

(54)

Estimation ponctuelle

• Les estimateurs donnés ci-dessus sont des estimations ponctuelles. On donne une valeur comme estimateur du

paramètre de la population.

• Il faut toujours donner la précision de

l’estimation. Dans le cas de la moyenne, le théorème limite central nous dit qu’on peut utiliser la loi normale pour calculer la

précision de l’estimation.

(55)

0.95=1-α

(56)

Intervalle de confiance

• Un intervalle permet de saisir facilement la notion de précision d’un estimateur.

• Intervalle de confiance pour la moyenne:

• P(µ - z_α/2 σ_x < x < µ+z_α/2 σ_x)=1-α

• P(x - z_α/2 σ_x < µ < x+z_α/2 σ_x)=1-α

• Ne jamais écrire:

• P(30 < µ < 50)=0.95 car P= 1 ou 0 !

• Ecrire: I.C. 95% (30,50)

• I.C. (1-α) pour µ: x ± z_α/2 σ/√n

(57)

Signification de P=0.95

• Si l’on prend plusieurs échantillons et dans chaque cas on calcule l’intervalle de

confiance, alors dans 95% des cas l’intervalle contient la moyenne.

• Si l’échantillon est grand (n≥30), on peut utiliser l’estimateur de σ (s):

• σ_x = σ/√n ≈ s/√n

(58)

(59)

Valeurs usuelles de α

• α 1-α α/2 z_α/2

• 0.01 0.99 0.005 2.576

• 0.02 0.98 0.01 2.326

• 0.05 0.95 0.025 1.96

• 0.10 0.90 0.05 1.645

[invNorm(0.005)=-2.576]

(60)

Commande TI-83/84

Introduire les données dans L1 avec Stat/Edit (si données brutes)

• Aller dans STAT/TESTS et choisir 7:ZInterval

• Pour Inpt choisir Data si données brutes ou Stats si données déjà élaborées

• Mettre la valeur de σ (estimateur s si σ inconnu)

• Mettre L1 pour List et 1 pour Freq

• Si données élaborées, mettre x et n

• Mettre le niveau de confiance (1-α)

• En pressant CALCULATE vous obtenez l’intervalle de confiance de la moyenne

(61)

Commandes MINITAB et EXCEL

• Pour MINITAB, introduire les données dans C1

• Aller dans Stat / Statistiques élémentaires/ Test Z à 1 échantillon

• Sélectionner C1, introduire la valeur de Sigma.

• Aller dans Options et introduire le niveau de confiance

• Pour EXCEL, chercher Intervalle.Confiance

dans les fonctions statistiques. Introduire α, σ et n (grandeur de l’échantillon). Pour avoir

l’intervalle, ajouter et soustraire à x cette valeur.

(62)

(63)

(64)

(65)

Intervalle pour p

• En utilisant l’approximation de la loi binomiale par la loi normale, on peut écrire:

• P(p-z_α/2 √pq/n < p < p+ z_α/2 √pq/n)=1-α

• Si p est inconnu, on le remplace par son estimateur p=x/n.

• I.C. (1-α) pour p: p ± z_α/2 √p(1-p)/n

(66)

Commande TI-83/84

• Aller dans STAT/TESTS et choisir A:1-PropZInterval

• Introduire x (nombre de succès) et n (grandeur de l’échantillon)

• En pressant CALCULATE vous obtenez l’intervalle de confiance d’une proportion

(67)

Commandes MINITAB

• Introduire les données dans C1 (ex. OUI=1, NON=0)

• Aller dans Stat / Statistiques élémentaires/ 1 proportion

• Sélectionner C1.

• Cocher Données récapitulées, introduire le nombre d’essais et le nombre de succès si vous avez des données élaborées.

• Aller dans Options et introduire le niveau de confiance. Cocher Utiliser le test et l’intervalle basés sur la loi normale.

(68)

(69)

(70)

(71)

Résultats d’un sondage 1.96 √0.25/1003 = 0.03

.

Indication imprécise (24 Heures):

Ce sondage a été réalisé du 12 au 19 mars 2001 par l’Institut MIS Trend à Lausanne, auprès de 1002

citoyens vaudois, âgés de 18 à 74 ans, représentatifs de la population. Marge d’erreur: plus ou moins 3%.

• Indications correcte (Gallop Poll). Survey Methods The most recent results are based on telephone

interviews with 1003 national adults, aged 18+,

conducted February 1-4, 2001. For results based on the total sample of national adults, one can say with 95% confidence that the margin of sampling error is +/- 3 percentage points. In addition to sampling

errror, question wording and practical difficulties in

conducting surveys can introduce error or bias into the findings of public opinion polls.

(72)

Autre exemple d’indication imprécise

• « Ce sondage a été réalisé par l'institut

gfs.bern pour le compte de SRG SSR idée suisse. Au total, 1220 personnes

représentatives ont été interrogées dans toute la Suisse. La marge d'erreur est

d'environ 2%. »

• Il faudrait dire: La marge d’erreur est

d’environ ± 2 points de pourcentage avec une probabilité de 95%.

(73)

Grandeur de l’échantillon

• Soit e l’erreur de l’estimation et z_o la valeur correspondante à la probabilité désirée. On a:

2 2 2

e n z

n e

z

_o

σ ₌ _⇒ ₌

^o

σ

2 2

e z pq n

n e

z

_o

pq = ⇒ =

_o

(74)

(75)

Différence de deux moyennes

• 2 variables indép.: X ~ N(µ_x,σ²_x) ; Y ~N(µ_y,σ²_y)

• X-Y ~ N(µ_x- µ_y;σ²_x + σ²_y)

) ,

( ) ;

, (

2 2

y y y

x x

x

y N n

N n

x σ

σ µ

µ ^≈

≈

) ,

(

2 2

y y x

x y

x

n n

N y

x − ≈ µ − µ σ + σ

(76)

Commande TI-83/84

Introduire les données dans L1 et L2 avec Stat/Edit (si données brutes)

• Aller dans STAT/TESTS et choisir 9:2-SampZInt

• Mettre les valeurs de σ₁ et σ₂

• Mettre L1 et L2, Freq1 et Freq2. Si données élaborées, mettre x₁ , n₁ , x₂ , n₂

• En pressant CALCULATE vous obtenez l’intervalle de confiance de la différence de deux moyennes

(77)

(78)

(79)

Différence de deux proportions

• p₁ – p₂ ~ N(p₁-p₂,√p₁q₁/n₁+p₂q₂/n₂)

• I.C. (1-α):

2

2 2

1

1 1

2 / 2

1

) 1

( )

1 ) (

( n

p p

n

p z p

p p

) )

) ) )

) − ±

_α

− + −

(80)

Commande TI-83/84

• Aller dans STAT/TESTS et choisir B:2-PropZInterval

• Introduire x₁, n₁, x₂, n₂ (nombres de succès et grandeurs des échantillons)

• En pressant CALCULATE vous obtenez

l’intervalle de confiance de la différence de deux proportions

(81)

Commandes MINITAB

• Introduire les données dans C1 et C2 (ex.

OUI=1, NON=0)

• Aller dans Stat / Statistiques élémentaires/ 2 proportions

• Cocher Echantillons dans deux colonnes.

Sélectionner C1 et C2.

• Cocher Données récapitulées, introduire les nombres d’essais et les nombres de succès si vous avez des données élaborées.

• Aller dans Options et introduire le niveau de confiance.

(82)

(83)

Loi de Student

• Si n < 30 , la variable suit une loi normale et σ est inconnu il faut utiliser la distribution de Student (t_α/2) et non pas la loi normale (z_α/2).

• Nombre de degrés de liberté: ν=n-1

• t = √n (x-µ)/s

• P(x-t_v,α/2 s/√n < µ < x + t_v,α/2 s/√n)=1-α

• I.C. (1-α): x ± t_v,α/2 s /√n

(84)

-4 -3 -2 -1 0 1 2 3 4 0.0

0.1 0.2 0.3 0.4

C1

C2

Student normale

(85)

Commande TI-83/84

Introduire les données dans L1 avec Stat/Edit (si données brutes)

• Aller dans STAT/TESTS et choisir 8:TInterval

• Mettre L1 pour List et 1 pour Freq

• Si données élaborées, mettre x, s et n

• En pressant CALCULATE vous obtenez l’intervalle de confiance de la moyenne

(86)

Commande MINITAB

• Introduire les données dans C1

• Aller dans Stat / Statistiques élémentaires/ Test t à 1 échantillon

• Sélectionner C1

(87)

Valeurs t de Student: P(t>t_α)=α

(88)

(89)

(90)

(91)

Différence de deux moyennes avec Student

• I.C. (1-α): (x₁ – x₂)±t_v,α/2 σ_x1-x2

2 2 2 1

2 1

2

1

n

s n

s

x

x ₋

= +

σ

1

₂

2

2 2 2

1

2

1 2 1

2

2 2 2 1

2 1

−

 



 



− +

 



 



 



 

 +

=

n n s n

n s

n s n

s

υ

(92)

Commande TI-83/84

Introduire les données dans L1 et L2 avec Stat/Edit (si données brutes)

• Aller dans STAT/TESTS et choisir 0:2-SampTInt

• Mettre L1 et L2 pour List1 et List2 et 1 pour Freq

• Si données élaborées, mettre x₁, s₁, n₁, x₂, s₂, n₂

• Pour Pooled choisir No si σ₁≠ σ₂

• En pressant CALCULATE vous obtenez l’intervalle de confiance de la différence de deux moyennes

(93)

Commande MINITAB

• Introduire les données dans C1 et C2

• Aller dans Stat / Statistiques élémentaires/ Test t à 2 échantillons

• Choisir Echantillons dans plusieurs colonnes

• Sélectionner C1 pour Premier et C2 pour Deuxième

• Cocher Assumer variances égales si σ₁=σ₂

(94)

(95)

(96)

(97)

Echantillon

• 1) aléatoire simple

• 2) systématique

• 3) stratifié

• 4) par grappe

• 5) méthode des quota

(98)

(99)

x_i=3+(i-1)5 (i=1,2,..,n)

(100)

(101)

(102)

(103)

(104)

(105)

Commande TI-83/84

• Calcul de l’intervalle de confiance pour µ ou p avec un échantillon stratifié

• Introduire les proportions des strates dans L1, les grandeurs des échantillons dans L2, les moyennes ou les pourcentages de oui dans L3 en utilisant la commande STAT / EDIT.

• Aller dans PRGM et choisir STRATM pour µ ou STRATP pour p

• Introduire les écarts-types des strates si STRATM

• Introduire le niveau de confiance (C-LEVEL)

• En pressant ENTER vous obtenez les intervalles

• Ce programme ne fait pas partie des programmes standard de la TI. Vous devez le télécharger (voir page web du cours)

(106)

(107)

(108)

(109)

(110)

(111)

(112)

(113)

(114)

(115)

(116)

(117)

(118)

(119)

(120)

en dehors

en dehors si 95%

R. Perrot 19%: en dehors

(121)

(122)

(123)

4

(124)

(125)

(126)

(127)

(128)

Coût d’un sondage

• CATI (computer assisted telephone interview): 43 Fr par interview

• Face-to-face: 59 Fr

• Questionnaire: 16 Fr

• Personne interviewée en 2005: 2’763’442

(129)

(130)

(131)

(132)

(133)

Commande TI-83/84

• Calcul des probabilités a posteriori avec une probabilité conditionnelle binomiale

• Introduire les proportions dans L1 et les probabilités a priori dans L2 en utilisant la commande STAT /

EDIT.

• Aller dans PRGM et choisir BAPOBI

• Introduire nombre épreuves et nombre de succès

• En pressant ENTER vous obtenez les probabilités a posteriori dans L5 que vous pouvez utiliser pour le programme DECISION

• Ce programme ne fait pas partie des programmes standard de la TI. Vous devez le télécharger (voir page web du cours)

Pourquoi prendre un échantillon

L’échantillonnage

Pourquoi prendre un échantillon

Types d’échantillons

Echantillon aléatoire simple

Exemple

Commande MINITAB

Estimations de la moyenne

Population et échantillons

Population et échantillons

Population et échantillons

Conclusions

Ne pas confondre

∑

x n

Var

)

( = σ = σ

Petite population

) 1 (

−

= −

N

n N

x n

Var σ

Inégalité de Chebyshev

1 1 )

( x h h

P − µ ≤ σ ≥ −

Applications

Loi des grands nombres

/

1 1

) /

/

( h n x h n h

P − σ ≤ − µ ≤ σ ≥ −

Théorème limite central

Estimation

Population et échantillons

∑

Population et échantillons

∑

Population et échantillons

= ∑

= e

e

e

V ( λ

)( λ

) λ

Estimation ponctuelle

Intervalle de confiance

Signification de P=0.95

Valeurs usuelles de α

Commande TI-83/84

Commandes MINITAB et EXCEL

Intervalle pour p

Commande TI-83/84

Commandes MINITAB

Résultats d’un sondage 1.96 √0.25/1003 = 0.03

.

Autre exemple d’indication imprécise

Grandeur de l’échantillon

e n z

n e

z

σ = ⇒ =

σ

e z pq n

n e

z

pq = ⇒ =

Différence de deux moyennes

) ,

( ) ;

, (

y N n

N n

V ⁽ λ

⁾⁽ λ

⁾ λ

σ ₌ _⇒ ₌

µ ^≈