• Aucun résultat trouvé

1. Les méthodes non-probabilistes. La méthode des quotas. Envoyer un message L' É chantillonnage

N/A
N/A
Protected

Academic year: 2022

Partager "1. Les méthodes non-probabilistes. La méthode des quotas. Envoyer un message L' É chantillonnage"

Copied!
4
0
0

Texte intégral

(1)

L'Échantillonnage

Christian Visticot - Novembre 2002

Envoyer un message

Introduction

Les méthodes non-probabilistes Les méthodes probabilistes

Utilisation pédagogique

L'objet de cette page est de donner quelques éléments de réponse à ceux qui, comme moi, se posent des questions sur l'échantillonnage. Je ne prétends pas détenir la vérité. C'est le fruit d'une recherche et d'échanges avec des collègues.

Attention : ce n'est pas un cours à destination des élèves.

Le problème de l'échantillonnage est complexe ! Même si certains examinateurs, le jour de l'Epreuve Pratique se permettent de titiller les élèves sur la taille de l'échantillon, cette question est hors programme !

On verra plus loin quelle démarche on peut adopter pour les élèves.

Quand on fait une enquête, avec des élèves, en particulier en Terminale ACC (je ne connais pas le référentiel de BTS à ce sujet), on est amené à se poser deux questions :

• Quelle taille donner à l'échantillon ?

• Les réponses obtenues sont-elles significatives par rapport à la population observée ?

Les réponses à ces questions ne sont pas simples. Même après recherche dans de vieux livres de statistiques, il n'est pas facile de trouver des explications théoriques satisfaisantes. Bien des réponses sont empiriques.

Pour simplifier, on peut ramener le champ de notre réflexion à deux situations :

Les méthodes probabilistes : l'échantillon est constitué au hasard.

Les méthodes non-probabilistes : l'échantillon est structuré d'avance : la méthode la plus utilisée est celle des quotas.

1. Les méthodes non-probabilistes. La méthode des quotas.

Prenons un exemple : La ville d'Arcachon a réalisé une enquête concernant l'implantation d'un réseau de mini-bus électriques. Le critère le plus important dans cette enquête était que tous les quartiers soient concernés.

La réalisation d'un échantillon devait être telle que celui-ci soit le reflet le plus exact possible de la population.

La démarche est la suivante : 1. Analyse de la population.

La population résidente (hors saison touristique) est de 11 000 habitants. Elle se répartit de la façon suivante entre les quartiers : (regroupements simplifiés ; chiffres approximatifs)

Quartier Population Pourcentage Centre-Ville - Ville

d'Automne 4 500 41%

Port-Aiguillon-St Ferdinand 2 500 23%

Ville d'Hiver 1 500 13%

Abatilles-Péreire-Moulleau 2 500 23%

Total 11 000 100%

1

(2)

2 2. Principe de la méthode des quotas.

Cette méthode consiste à appliquer à l'échantillon les mêmes caractéristiques que la population. On appelle quotas les pourcentages représentatifs de la structure de la population selon un critère donné. Dans notre exemple, le critère est celui du lieu de résidence, du quartier.

Pour constituer l'échantillon, il faut choisir une taille d'échantillon et multiplier ce nombre par les quotas.

Par exemple, prenons un nombre de questionnaire égal à 140.

Quartier Quotas Nombre de

questionnaires Centre-Ville - Ville

d'Automne 41% 140 * 41% = 57

Port-Aiguillon-St Ferdinand 23% 140 * 23% = 32

Ville d'Hiver 13% 140 * 13% = 19

Abatilles-Péreire-Moulleau 23% 140 * 23% = 32

Total 100% 140

3. Validité du nombre de questionnaires : pourquoi 140 ?

Une réponse possible est : je peux mettre un groupe de 14 élèves sur cette enquête ; 10 questionnaires est un nombre maximum qu'ils ont le temps d'administrer.

La méthode des quotas repose sur la validité des quotas. Si les quotas sont calculés correctement, l'échantillon est représentatif de la population.

Cependant on peut se demander quand même s'il n'y a pas une taille minimum à respecter ?

Dans notre exemple, est-ce que le quartier Ville d'Hiver est bien représenté avec ses 19 questionnaires ?

Une réponse (qui m'a été envoyée par Pierre Caumont - merci Pierre) est donnée en probabilités par le Théorème Central Limite :

Si on fait la somme d'au moins 30 variables indépendantes, cette somme suit une loi normale : on peut donc appliquer les lois de la statistique.

Cela signifie que si l'on veut qu'une partie de l'échantillon soit statistiquement significative, il faut que sa taille au minimum soit de l'ordre de 30. C'est une condition nécessaire ; pas suffisante.

Cela nous donne donc une solution pour la taille de l'échantillon. Il faut le calculer de manière telle qu'aucun sous- échantillon n’ait une taille inférieure à 30.

Dans notre exemple, il faudrait donc que l'échantillon global ait une taille de 30 / 13% = 230.

On verra dans les applications pédagogiques ce que l'on peut faire.

(3)

3

2. Méthode probabiliste : échantillon constitué au hasard.

On va prendre le même nombre de questionnaires : 140. Pour les mêmes raisons que précédemment.

Les élèves vont se poster en un (ou plusieurs) lieu(x) fréquenté(s) et vont interroger une personne sur 10.

Quelle est la valeur des réponses obtenues ?

On dispose dans ce cas d'un élément théorique : dans Statistique et Calcul des Probabilités de W. Massièri, publié chez Sirey (il y a un certain temps). (pages 324 et s. et 342) : estimation d'une proportion.

Exemple : dans l'enquête que nous avons faite sur un échantillon tiré parfaitement au hasard, on a eu les réponses suivantes :

Question : Etes-vous intéressé par un mini-bus s'arrétant à la demande sur un trajet déterminé ? Réponses : OUI : 78 % - NON : 22%

Que valent ces réponses ? Sont-elles représentatives de ce que pense la population ? L'estimation d'une proportion (p) repose sur trois éléments à prendre en compte :

- un intervalle de confiance, c'est à dire une fourchette entre les extrémités de laquelle se situe la proportion ; - un degré de confiance, c'est-à-dire le pourcentage qu'on a de ne pas se tromper ;

-

une formule : p - 2*RACINE(p * q / n) < p < p + 2*RACINE(p * q / n) q = 1 - p ;

n = nombre de questionnaires Dans notre exemple :

p = 78% = 0.78

q = 1 - p = 1 - 0.78 = 0.22 n = 140

2 est donné par les tables de la loi normale centrée réduite pour un degré de confiance de 95%.

Ce qui veut dire qu'on a 95% de chances d'avoir raison (ou 5% de se tromper)

Le calcul nous donne 0.71 < p < 0.85. Ce qui signifie que les 75% de réponse à la question donnés par l'échantillon correspondent à un pourcentage compris entre 71% et 85% dans la population.

Ce résultat est tributaire :

- du nombre de questionnaires ; avec n = 400, la fourchette devient : 0.74 < p < 0.82 ;

-

de p et q ; avec p = 55% q = 45 %, et n = 140, la fourchette devient : 0.47 < p < 0.63 ;

-

du degré de confiance : si on se donne une marge d'erreur plus grande 32% au lieu de 5%, le coefficient est 1 au lieu de 2 ; avec n = 140, p = 78% q = 22%, la fourchette devient : 0.74 < p < 0.82

On obtient autant de précision avec 140 questionnaires qu'avec 400, mais les résultats sont moins fiables ... Il faut choisir Voir (plus bas) la feuille de calcul (Excel) disponible.

Ces résultats sont calculés pour la réponse à UNE question ! Ce qui n'implique rien pour la fiabilité du questionnaire.

Il faudrait effectuer ces calculs pour toutes les questions.

(4)

4

3. Utilisation pédagogique

Ces considérations statistiques semblent un peu compliquées pour des élèves de Terminale ACC, bien souvent assez fâchés avec "les maths".

En revanche, on peut leur expliquer assez facilement la différence entre : - Méthode probabiliste et tirage au hasard (ce qu'ils feraient spontanément) ;

-

Méthode des quotas.

Et comme ils aiment bien se rendre compte par eux-mêmes, on peut utiliser le concept de "boite noire", c'est-à-dire un logiciel qui simule des situations et affiche des résultats pour des valeurs entrées.

Je vous propose une application echantillon avec Excel (fonctionne avec OpenOffice), constitué de deux feuilles : - hasard : permet de calculer la fourchette dans le cas d'une méthode probabiliste ;

-

quotas : permet de simuler les sous-échantillons en fonction des quotas et du nombre de questionnaires.

Pour télécharger ce logiciel Excel Zippé : cliquer ici

Ce qu'il importe que les élèves comprennent et retiennent, ce sont les deux méthodes ;

- Dans la méthode des quotas, selon les quotas, il y a une taille minimale de l'échantillon pour que les résultats soient statistiquement représentatifs ;

-

Dans la méthode probabiliste, les pourcentages obtenus s'inscrivent à l'intérieur d'une fourchette dont la largeur et la fiabilité dépendent de quelques paramètres.

On ne peut guère leur en demander plus !

Références

Documents relatifs

On souhaite remplir la boîte ci-dessous en forme de parallélépipède rectangle avec des cubes d'un centimètre d'arête.. Combien de cubes faut-il pour remplir le fond de

Si le nombre de garçons dans la réserve indienne est dans la zone rouge, on peut le considérer comme anormal , sinon, il est dans la zone verte et on n'a pas de raison de le

Quand on prélève au hasard un échantillon de la population, la proportion f d'individus possé- dant le caractère étudié (appelée fréquence observée) n'est bien sûr

on détermine un intervalle de uctuation (attention aux condi- tions d'application), et on regarde si la fréquence observée f appartient (dans ce cas on ne rejette pas l'hypothèse)

» Or, pour trouver le logarithme d'un nombre au- dessus de 10, il faut tant de fois extraire la racine carrée que la dernière extraite soit moindre que la racine sixième extraite de

Le résultat obtenu à l'aide de la formule et des con- stantes de Huyghens peut être exact à quinze chiffre», il le sera toujours à une unité du onzième chiffre au moins. En

Enfin Me Keague (1986), sous le nom d'&#34;estimateur sieves&#34;, propose aussi de projeter un estimateur empirique sur une famille de fonctions orthogonales. Ces convergences

Notons que Banfield and Raftery (1992), qui modélisent les contours de morceaux de banquise sur images satellite par des courbes principales fermées, développent une méthode