L'Échantillonnage
Christian Visticot - Novembre 2002
Envoyer un message
Introduction
Les méthodes non-probabilistes Les méthodes probabilistes
Utilisation pédagogique
L'objet de cette page est de donner quelques éléments de réponse à ceux qui, comme moi, se posent des questions sur l'échantillonnage. Je ne prétends pas détenir la vérité. C'est le fruit d'une recherche et d'échanges avec des collègues.
Attention : ce n'est pas un cours à destination des élèves.
Le problème de l'échantillonnage est complexe ! Même si certains examinateurs, le jour de l'Epreuve Pratique se permettent de titiller les élèves sur la taille de l'échantillon, cette question est hors programme !
On verra plus loin quelle démarche on peut adopter pour les élèves.
Quand on fait une enquête, avec des élèves, en particulier en Terminale ACC (je ne connais pas le référentiel de BTS à ce sujet), on est amené à se poser deux questions :
• Quelle taille donner à l'échantillon ?
• Les réponses obtenues sont-elles significatives par rapport à la population observée ?
Les réponses à ces questions ne sont pas simples. Même après recherche dans de vieux livres de statistiques, il n'est pas facile de trouver des explications théoriques satisfaisantes. Bien des réponses sont empiriques.
Pour simplifier, on peut ramener le champ de notre réflexion à deux situations :
• Les méthodes probabilistes : l'échantillon est constitué au hasard.
• Les méthodes non-probabilistes : l'échantillon est structuré d'avance : la méthode la plus utilisée est celle des quotas.
1. Les méthodes non-probabilistes. La méthode des quotas.
Prenons un exemple : La ville d'Arcachon a réalisé une enquête concernant l'implantation d'un réseau de mini-bus électriques. Le critère le plus important dans cette enquête était que tous les quartiers soient concernés.
La réalisation d'un échantillon devait être telle que celui-ci soit le reflet le plus exact possible de la population.
La démarche est la suivante : 1. Analyse de la population.
La population résidente (hors saison touristique) est de 11 000 habitants. Elle se répartit de la façon suivante entre les quartiers : (regroupements simplifiés ; chiffres approximatifs)
Quartier Population Pourcentage Centre-Ville - Ville
d'Automne 4 500 41%
Port-Aiguillon-St Ferdinand 2 500 23%
Ville d'Hiver 1 500 13%
Abatilles-Péreire-Moulleau 2 500 23%
Total 11 000 100%
1
2 2. Principe de la méthode des quotas.
Cette méthode consiste à appliquer à l'échantillon les mêmes caractéristiques que la population. On appelle quotas les pourcentages représentatifs de la structure de la population selon un critère donné. Dans notre exemple, le critère est celui du lieu de résidence, du quartier.
Pour constituer l'échantillon, il faut choisir une taille d'échantillon et multiplier ce nombre par les quotas.
Par exemple, prenons un nombre de questionnaire égal à 140.
Quartier Quotas Nombre de
questionnaires Centre-Ville - Ville
d'Automne 41% 140 * 41% = 57
Port-Aiguillon-St Ferdinand 23% 140 * 23% = 32
Ville d'Hiver 13% 140 * 13% = 19
Abatilles-Péreire-Moulleau 23% 140 * 23% = 32
Total 100% 140
3. Validité du nombre de questionnaires : pourquoi 140 ?
Une réponse possible est : je peux mettre un groupe de 14 élèves sur cette enquête ; 10 questionnaires est un nombre maximum qu'ils ont le temps d'administrer.
La méthode des quotas repose sur la validité des quotas. Si les quotas sont calculés correctement, l'échantillon est représentatif de la population.
Cependant on peut se demander quand même s'il n'y a pas une taille minimum à respecter ?
Dans notre exemple, est-ce que le quartier Ville d'Hiver est bien représenté avec ses 19 questionnaires ?
Une réponse (qui m'a été envoyée par Pierre Caumont - merci Pierre) est donnée en probabilités par le Théorème Central Limite :
Si on fait la somme d'au moins 30 variables indépendantes, cette somme suit une loi normale : on peut donc appliquer les lois de la statistique.
Cela signifie que si l'on veut qu'une partie de l'échantillon soit statistiquement significative, il faut que sa taille au minimum soit de l'ordre de 30. C'est une condition nécessaire ; pas suffisante.
Cela nous donne donc une solution pour la taille de l'échantillon. Il faut le calculer de manière telle qu'aucun sous- échantillon n’ait une taille inférieure à 30.
Dans notre exemple, il faudrait donc que l'échantillon global ait une taille de 30 / 13% = 230.
On verra dans les applications pédagogiques ce que l'on peut faire.
3
2. Méthode probabiliste : échantillon constitué au hasard.
On va prendre le même nombre de questionnaires : 140. Pour les mêmes raisons que précédemment.
Les élèves vont se poster en un (ou plusieurs) lieu(x) fréquenté(s) et vont interroger une personne sur 10.
Quelle est la valeur des réponses obtenues ?
On dispose dans ce cas d'un élément théorique : dans Statistique et Calcul des Probabilités de W. Massièri, publié chez Sirey (il y a un certain temps). (pages 324 et s. et 342) : estimation d'une proportion.
Exemple : dans l'enquête que nous avons faite sur un échantillon tiré parfaitement au hasard, on a eu les réponses suivantes :
Question : Etes-vous intéressé par un mini-bus s'arrétant à la demande sur un trajet déterminé ? Réponses : OUI : 78 % - NON : 22%
Que valent ces réponses ? Sont-elles représentatives de ce que pense la population ? L'estimation d'une proportion (p) repose sur trois éléments à prendre en compte :
- un intervalle de confiance, c'est à dire une fourchette entre les extrémités de laquelle se situe la proportion ; - un degré de confiance, c'est-à-dire le pourcentage qu'on a de ne pas se tromper ;
-
une formule : p - 2*RACINE(p * q / n) < p < p + 2*RACINE(p * q / n) q = 1 - p ;n = nombre de questionnaires Dans notre exemple :
p = 78% = 0.78
q = 1 - p = 1 - 0.78 = 0.22 n = 140
2 est donné par les tables de la loi normale centrée réduite pour un degré de confiance de 95%.
Ce qui veut dire qu'on a 95% de chances d'avoir raison (ou 5% de se tromper)
Le calcul nous donne 0.71 < p < 0.85. Ce qui signifie que les 75% de réponse à la question donnés par l'échantillon correspondent à un pourcentage compris entre 71% et 85% dans la population.
Ce résultat est tributaire :
- du nombre de questionnaires ; avec n = 400, la fourchette devient : 0.74 < p < 0.82 ;
-
de p et q ; avec p = 55% q = 45 %, et n = 140, la fourchette devient : 0.47 < p < 0.63 ;-
du degré de confiance : si on se donne une marge d'erreur plus grande 32% au lieu de 5%, le coefficient est 1 au lieu de 2 ; avec n = 140, p = 78% q = 22%, la fourchette devient : 0.74 < p < 0.82On obtient autant de précision avec 140 questionnaires qu'avec 400, mais les résultats sont moins fiables ... Il faut choisir Voir (plus bas) la feuille de calcul (Excel) disponible.
Ces résultats sont calculés pour la réponse à UNE question ! Ce qui n'implique rien pour la fiabilité du questionnaire.
Il faudrait effectuer ces calculs pour toutes les questions.
4
3. Utilisation pédagogique
Ces considérations statistiques semblent un peu compliquées pour des élèves de Terminale ACC, bien souvent assez fâchés avec "les maths".
En revanche, on peut leur expliquer assez facilement la différence entre : - Méthode probabiliste et tirage au hasard (ce qu'ils feraient spontanément) ;
-
Méthode des quotas.Et comme ils aiment bien se rendre compte par eux-mêmes, on peut utiliser le concept de "boite noire", c'est-à-dire un logiciel qui simule des situations et affiche des résultats pour des valeurs entrées.
Je vous propose une application echantillon avec Excel (fonctionne avec OpenOffice), constitué de deux feuilles : - hasard : permet de calculer la fourchette dans le cas d'une méthode probabiliste ;
-
quotas : permet de simuler les sous-échantillons en fonction des quotas et du nombre de questionnaires.Pour télécharger ce logiciel Excel Zippé : cliquer ici
Ce qu'il importe que les élèves comprennent et retiennent, ce sont les deux méthodes ;
- Dans la méthode des quotas, selon les quotas, il y a une taille minimale de l'échantillon pour que les résultats soient statistiquement représentatifs ;
-
Dans la méthode probabiliste, les pourcentages obtenus s'inscrivent à l'intérieur d'une fourchette dont la largeur et la fiabilité dépendent de quelques paramètres.On ne peut guère leur en demander plus !