Échantillonnage
Philippe Carrère, UAG 2013
• Procédé qui consiste à n’observer qu’une partie de la population étudiée (échantillon) et à tirer de cette
observation des informations sur la population entière
• Échantillon :
Individus sélectionnés de manière à ce que leurs caractéristiques soient semblables à celles du groupe dont il sont issus
• Population :
Groupe plus large à partir duquel les individus sont sélectionnés pour participer à l’étude
Définitions
Représentativité
POPULATION (N)
ECHANTILLON (n)
INFERENCE L’inférence est-elle
généralisable ?
L’échantillon est-il représentatif ?
F = n / N
SONDAGE
Validité
Validité interne
Echantillon Population cible
1Population
d’échantillonnage
2Inférence statistique
1 : que l’on veut observer 2: que l’on peut observer
Validité
Population externe
- À laquelle on veut généraliser les résultats - Le plus souvent implicite
Population cible
- Individus auxquels l’inférence devrait s’appliquer - Dont on pense avoir tiré l’échantillon
Population effective ou d’échantillonnage
- Ensemble des individus qui respecteraient les critères d’inclusion
Échantillon
- Groupe d’individus dont on a tiré les données
Inférence statistique
Validité interne
Validité externe
• Une méthode de sondage est bonne si elle fournit des estimations en moyenne égales aux valeurs existant réellement dans la population cible
• Distinguer erreur et biais d’échantillonnage :
– Erreur = variation aléatoire => nuit à la précision de l’estimation Dépend notamment de la taille d’échantillon
– Biais = variation non aléatoire => nuit à la représentativité de l’échantillon, donc à la validité
Dépend notamment de la méthode d’échantillonnage
Biais d’échantillonnage
• Doit assurer une correcte représentativité
• Échantillonnage probabiliste
– Sélection aléatoire : chaque unité a une chance d’être sélectionnée – Contrôle des biais d’échantillonnage
– Échantillonnage aléatoire simple, stratifié, à plusieurs degrés, en grappe(, systématique)
• Échantillonnage non probabiliste
– Sélection non aléatoire
– Pas de contrôle correct des biais d’échantillonnage – Empirique, à choix raisonné, quota
Méthode d’échantillonnage
• Le nombre de sujets à inclure dépend :
– De la faisabilité (coût, temps…)
– Du calcul du nombre de sujets nécessaires (précision)
• Faisabilité : problème complexe
• Nombre de sujets nécessaires = calcul biostatistique : problème plus « simple » (si avis biostat…)
Taille d’échantillon
• Exemple d’une étude transversale descriptive, variable qualitative
– Formule exacte : 𝑛 = 𝑁−1 𝜀𝑁 𝜋 1−𝜋2+ 𝜋 1−𝜋(𝜑−1(𝜑(1−−1𝛼2(1−))2𝛼
2))2
– Formule approchée : 𝑛 = 𝜋 1−𝜋 (𝜑𝜀²−1(1−𝛼2))2
(= 𝜋 1−𝜋 ∗3,84
�𝜀²)
où
π = prévalence attendue de l’événement étudié dans la population cible α = risque de première espèce, 𝜑−1(1 − 𝛼2) ≈ 1,96 si α = 5%
ε = précision de l’estimation ou erreur consentie N = taille de la population cible
Nombre de sujets nécessaires
• n dépend donc principalement :
– De la prévalence (π) attendue de l’événement étudié dans la population cible
– Du risque de première espèce (α) choisi
– De la précision de l’estimation (ε) souhaitée ou erreur consentie
• En pratique :
– π est fixé à 50% si l’on ignore sa valeur
– α est en général fixé à 5% (=>intervalle de confiance à 95%) – Reste à convenir de ε…
Nombre de sujets nécessaires
• Exemple d’une une étude transversale descriptive, variable qualitative (risque α fixé à 5%, prévalence attendue 50%, N = 400 000) :
Une précision de 3% nécessitera d’échantillonner 1 064 sujets
Si vous observez une prévalence à 50% dans cet échantillon, la prévalence réelle dans la population cible est alors entre 47 et 53%
Nombre de sujets nécessaires
• Effet de la précision souhaitée sur le nombre de sujets nécessaires (sondage aléatoire simple)
Nombre de sujets nécessaires
e 1.0%
P 50%
N 400000
alpha 5%
n exact 9378
n approché 9604
e 3.0%
P 50%
N 400000
alpha 5%
n exact 1064
n approché 1067
e 5.0%
P 50%
N 400000
alpha 5%
n exact 384
n approché 384
e 7.0%
P 50%
N 400000
alpha 5%
n exact 196
n approché 196
e 10.0%
P 50%
N 400000
alpha 5%
n exact 96
n approché 96
• À taille d’échantillon fixée, effet de la taille de la population cible sur la précision de l’estimation ?
Nombre de sujets nécessaires
N 2000
P 50%
alpha 5%
n 1064
e 2.06%
N 5000
P 50%
alpha 5%
n 1064
e 2.67%
N 20000
P 50%
alpha 5%
n 1064
e 2.92%
N 400000
P 50%
alpha 5%
n 1064
e 3.00%
N 1000000
P 50%
alpha 5%
n 1064
e 3.00%
N 50000000
P 50%
alpha 5%
n 1064
e 3.00%
Dr Catherine Arnaud
Département d’épidémiologie, faculté de médecine, université de Toulouse
Pr Mathieu Nacher
Département d’épidémiologie, faculté de médecine, université des Antilles et de la Guyane