Philippe Carrère, UAG 2013 Échantillonnage

(1)

Échantillonnage

Philippe Carrère, UAG 2013

(2)

• Procédé qui consiste à n’observer qu’une partie de la population étudiée (échantillon) et à tirer de cette

observation des informations sur la population entière

• Échantillon :

Individus sélectionnés de manière à ce que leurs caractéristiques soient semblables à celles du groupe dont il sont issus

• Population :

Groupe plus large à partir duquel les individus sont sélectionnés pour participer à l’étude

Définitions

(3)

Représentativité

POPULATION (N)

ECHANTILLON (n)

INFERENCE L’inférence est-elle

généralisable ?

L’échantillon est-il représentatif ?

F = n / N

SONDAGE

(4)

Validité

Validité interne

Echantillon Population cible

¹

Population

d’échantillonnage

²

Inférence statistique

1 : que l’on veut observer 2: que l’on peut observer

(5)

Validité

Population externe

- À laquelle on veut généraliser les résultats - Le plus souvent implicite

Population cible

- Individus auxquels l’inférence devrait s’appliquer - Dont on pense avoir tiré l’échantillon

Population effective ou d’échantillonnage

- Ensemble des individus qui respecteraient les critères d’inclusion

Échantillon

- Groupe d’individus dont on a tiré les données

Inférence statistique

Validité interne

Validité externe

(6)

• Une méthode de sondage est bonne si elle fournit des estimations en moyenne égales aux valeurs existant réellement dans la population cible

• Distinguer erreur et biais d’échantillonnage :

– Erreur = variation aléatoire => nuit à la précision de l’estimation Dépend notamment de la taille d’échantillon

– Biais = variation non aléatoire => nuit à la représentativité de l’échantillon, donc à la validité

Dépend notamment de la méthode d’échantillonnage

Biais d’échantillonnage

(7)

• Doit assurer une correcte représentativité

• Échantillonnage probabiliste

– Sélection aléatoire : chaque unité a une chance d’être sélectionnée – Contrôle des biais d’échantillonnage

– Échantillonnage aléatoire simple, stratifié, à plusieurs degrés, en grappe(, systématique)

• Échantillonnage non probabiliste

– Sélection non aléatoire

– Pas de contrôle correct des biais d’échantillonnage – Empirique, à choix raisonné, quota

Méthode d’échantillonnage

(8)

• Le nombre de sujets à inclure dépend :

– De la faisabilité (coût, temps…)

– Du calcul du nombre de sujets nécessaires (précision)

• Faisabilité : problème complexe

• Nombre de sujets nécessaires = calcul biostatistique : problème plus « simple » (si avis biostat…)

Taille d’échantillon

(9)

• Exemple d’une étude transversale descriptive, variable qualitative

– Formule exacte : 𝑛 = _{𝑁−1 𝜀}^{𝑁 𝜋 1−𝜋}₂_{+ 𝜋 1−𝜋}^(𝜑⁻¹_(𝜑⁽¹⁻₋₁^𝛼²₍₁₋⁾⁾²^𝛼

2))²

– Formule approchée : 𝑛 = ^{𝜋 1−𝜋} ^(𝜑_𝜀²⁻¹⁽¹⁻^𝛼²⁾⁾²

⁽⁼ 𝜋 1−𝜋 ∗3,84

�𝜀²)

où

π = prévalence attendue de l’événement étudié dans la population cible α = risque de première espèce, 𝜑⁻¹(1 − ^𝛼₂) ≈ 1,96 si α = 5%

ε = précision de l’estimation ou erreur consentie N = taille de la population cible

Nombre de sujets nécessaires

(10)

• n dépend donc principalement :

– De la prévalence (π) attendue de l’événement étudié dans la population cible

– Du risque de première espèce (α) choisi

– De la précision de l’estimation (ε) souhaitée ou erreur consentie

• En pratique :

– π est fixé à 50% si l’on ignore sa valeur

– α est en général fixé à 5% (=>intervalle de confiance à 95%) – Reste à convenir de ε…

Nombre de sujets nécessaires

(11)

• Exemple d’une une étude transversale descriptive, variable qualitative (risque α fixé à 5%, prévalence attendue 50%, N = 400 000) :

Une précision de 3% nécessitera d’échantillonner 1 064 sujets

Si vous observez une prévalence à 50% dans cet échantillon, la prévalence réelle dans la population cible est alors entre 47 et 53%

Nombre de sujets nécessaires

(12)

• Effet de la précision souhaitée sur le nombre de sujets nécessaires (sondage aléatoire simple)

Nombre de sujets nécessaires

e 1.0%

P 50%

N 400000

alpha 5%

n exact 9378

n approché 9604

e 3.0%

P 50%

N 400000

alpha 5%

n exact 1064

n approché 1067

e 5.0%

P 50%

N 400000

alpha 5%

n exact 384

n approché 384

e 7.0%

P 50%

N 400000

alpha 5%

n exact 196

n approché 196

e 10.0%

P 50%

N 400000

alpha 5%

n exact 96

n approché 96

(13)

• À taille d’échantillon fixée, effet de la taille de la population cible sur la précision de l’estimation ?

Nombre de sujets nécessaires

N 2000

P 50%

alpha 5%

n 1064

e 2.06%

N 5000

P 50%

alpha 5%

n 1064

e 2.67%

N 20000

P 50%

alpha 5%

n 1064

e 2.92%

N 400000

P 50%

alpha 5%

n 1064

e 3.00%

N 1000000

P 50%

alpha 5%

n 1064

e 3.00%

N 50000000

P 50%

alpha 5%

n 1064

e 3.00%

(14)

Dr Catherine Arnaud

Département d’épidémiologie, faculté de médecine, université de Toulouse

Pr Mathieu Nacher

Département d’épidémiologie, faculté de médecine, université des Antilles et de la Guyane

Philippe Carrère, UAG 2013 Échantillonnage

Échantillonnage

• Procédé qui consiste à n’observer qu’une partie de la population étudiée (échantillon) et à tirer de cette

observation des informations sur la population entière

• Échantillon :

• Population :

Définitions

Représentativité

POPULATION (N)

ECHANTILLON (n)

INFERENCE L’inférence est-elle

généralisable ?

L’échantillon est-il représentatif ?

SONDAGE

Validité

Echantillon Population cible

Population

d’échantillonnage

Validité

• Une méthode de sondage est bonne si elle fournit des estimations en moyenne égales aux valeurs existant réellement dans la population cible

• Distinguer erreur et biais d’échantillonnage :

Biais d’échantillonnage

• Doit assurer une correcte représentativité

• Échantillonnage probabiliste

• Échantillonnage non probabiliste

Méthode d’échantillonnage

• Le nombre de sujets à inclure dépend :

• Faisabilité : problème complexe

• Nombre de sujets nécessaires = calcul biostatistique : problème plus « simple » (si avis biostat…)

Taille d’échantillon

• Exemple d’une étude transversale descriptive, variable qualitative

Nombre de sujets nécessaires

• n dépend donc principalement :

• En pratique :

Nombre de sujets nécessaires

• Exemple d’une une étude transversale descriptive, variable qualitative (risque α fixé à 5%, prévalence attendue 50%, N = 400 000) :

Une précision de 3% nécessitera d’échantillonner 1 064 sujets

Si vous observez une prévalence à 50% dans cet échantillon, la prévalence réelle dans la population cible est alors entre 47 et 53%

Nombre de sujets nécessaires

• Effet de la précision souhaitée sur le nombre de sujets nécessaires (sondage aléatoire simple)

Nombre de sujets nécessaires

• À taille d’échantillon fixée, effet de la taille de la population cible sur la précision de l’estimation ?

Nombre de sujets nécessaires

Dr Catherine Arnaud

Pr Mathieu Nacher

Remerciements