• Aucun résultat trouvé

Échantillonnage par quotas

Dans le document Les statistiques : le pouvoir des données! (Page 30-33)

L'échantillonnage par quotas est l'une des formes les plus courantes d'échantillonnage non probabiliste. Il s'effectue jusqu'à ce qu'un nombre précis d'unités (de quotas) pour diverses sous-populations ait été sélectionné. Puisqu'il n'existe aucune règle qui régirait la façon dont il faudrait s'y prendre pour remplir ces quotas, l'échantillonnage par quotas est réellement un moyen de satisfaire aux objectifs en matière de taille d'échantillon pour certaines sous-populations.

Les quotas peuvent être fondés sur des proportions de la population. Si une population, par exemple, compte 100 hommes et 100 femmes et s'il faut en prélever un échantillon de 20 personnes pour qu'elles participent à un concours de dégustation de colas, il se peut que vous vouliez diviser l'échantillon en proportions égales entre les sexes, ce qui donnerait 10 hommes et 10 femmes. On peut penser que l'échantillonnage par quotas est préférable à d'autres formes d'échantillonnage non probabiliste (comme l'échantillonnage au jugé), parce qu'il impose l'inclusion dans l'échantillon de membres de différentes sous- populations.

L'échantillonnage par quotas est un peu similaire à l'échantillonnage stratifié parce que dans son cas également les unités semblables sont regroupées.

Toutefois, il en diffère, cependant, sur le plan du mode de sélection. Dans le cas d'un échantillonnage probabiliste, on sélectionne les unités au hasard, tandis que dans celui d'un échantillonnage par quotas, on laisse habituellement à l'intervieweur le soin de déterminer qui sera échantillonné. Cela peut donner lieu à des biais de sélection. Les responsables d'études de marché utilisent donc souvent l'échantillonnage par quotas (pour des enquêtes ou des sondages

téléphoniques, en particulier), plutôt que l'échantillonnage stratifié, parce qu'il est relativement peu coûteux et facile à administrer et a la propriété souhaitable de respecter les proportions de la population. L'échantillonnage par quotas camoufle toutefois des biais pouvant être significatifs.

Comme dans le cas de toutes les autres méthodes d'échantillonnage non probabiliste, il faut supposer pour l'échantillonnage par quotas que les personnes sélectionnées sont semblables à celles qu'on ne sélectionne pas, afin de formuler des inférences au sujet de la population. Des hypothèses aussi audacieuses sont rarement valables.

Exemple n° 1 : Le conseil des élèves de l'école publique de la vallée de la rivière Rouge veut jauger l'opinion de ces derniers au sujet de la qualité de leurs activités parascolaires. Il décide d'interroger 100 des 1 000 élèves de l'école en utilisant comme sous-population les années d'études (c'est-à-dire les 7, 8, 9, 10, 11 et 12e années).

Le tableau ci-dessous fournit le nombre d'élèves.

Tableau 1. Nombre d'élèves inscrits à l'école publique de la vallée de la rivière Rouge, par année d'études

Année d'études Nombre d'élèves Pourcentage des élèves (%) Quota d'élèves à l'intérieur de l'échantillon de 100

7 150 15 15

Le conseil des élèves veut s'assurer que l'échantillon reflète le pourcentage d'élèves de chacune des années d'études. La formule est la suivante : Pourcentage d'élèves en 10e année

= (nombre d'élèves de 10e année ÷ nombre total d'élèves) x 100 %

= (150 ÷ 1 000) x 100

= 15 %

Puisque 15 % des membres de la population de l'école sont en 10e année, l'échantillon devrait être constitué dans une proportion de 15 % d'élèves de 10e année. Utilisez, par conséquent, la formule suivante pour calculer le nombre d'élèves de 10e année qui devrait être inclus dans l'échantillon :

Échantillon d'élèves de 10e année

= (15 % de 100) x 100

= 0,15 x 100

= 15 élèves

ou qui s'assoient dans le fond de la classe peuvent avoir des opinions différentes de celles des élèves qui arrivent plus tôt à l'école ou qui s'assoient en avant lorsqu'ils entrent dans la classe.

Le fait que l'échantillonnage par quotas ne respecte pas l'exigence fondamentale du hasard est le principal argument militant contre son utilisation. Certaines unités peuvent n'avoir aucune chance d'être sélectionnées ou on risque de ne pas connaître leur chance de l'être. L'échantillon peut donc être biaisé.

Il est courant, mais il n'est pas nécessaire, que l'échantillonnage par quotas fasse appel à des procédures de sélection au hasard aux stades de départ, en grande partie de la même façon que le fait l'échantillonnage probabiliste. La première étape de l'échantillonnage à plusieurs degrés, par exemple, consisterait à sélectionner au hasard les régions géographiques. La différence se situe au niveau de la sélection des unités aux stades finals du processus.

Dans le cas de l'échantillonnage à plusieurs degrés, les unités reposent sur des listes à jour pour ce qui est des régions sélectionnées et on sélectionne un échantillon suivant un processus aléatoire. Dans le cas de l'échantillonnage par quotas, on indique à chaque intervieweur combien de répondants devraient être des hommes et combien d'entre eux, des femmes, de même que combien de gens devraient représenter les divers groupes d'âge. On calcule donc les quotas à partir des données dont on dispose pour la population; par conséquent, le sexe, les groupes d'âge ou d'autres variables démographiques sont représentés dans les bonnes proportions à l'intérieur des échantillons. Les intervieweurs peuvent, cependant, ne pas obtenir un échantillon représentatif de répondants dans le cas de chacun des quotas. Supposez, par exemple, qu'une organisation veut trouver de l'information sur les professions des hommes de 20 à 25 ans. Une intervieweuse se rend sur un campus d'université et sélectionne les 50 premiers hommes de 20 à 25 ans qu'elle rencontre par hasard et qui acceptent de participer à l'enquête de son organisation. Toutefois, cet échantillon ne signifie pas que ces 50 hommes sont représentatifs de tous les hommes de 20 à 25 ans.

L'échantillonnage par quotas est généralement moins coûteux que l'échantillonnage aléatoire. Il est également facile à administrer, compte tenu notamment du fait qu'on peut omettre de la procédure les tâches consistant à dresser la liste de la population entière, à sélectionner au hasard l'échantillon et à exercer un suivi auprès des non-répondants. L'échantillonnage par quotas, qui est une méthode d'échantillonnage efficace lorsqu'on a instamment besoin d'information, peut être effectué indépendamment des bases de sondage qui existent. Il peut être la seule méthode d'échantillonnage appropriée dans bien des cas où il n'existe pas de base de sondage convenable pour la population étudiée.

Estimation

Comme nous le savons maintenant, une enquête a pour but d'obtenir de l'information sur une population donnée. Lorsque l'échantillon a été sélectionné et que les données ont été recueillies (voir le chapitre Collecte de données) et traitées (voir le chapitre Traitement des données), il reste à s'acquitter de la tâche consistant à apparier les données rassemblées à partir de l'échantillon à l'ensemble de la population.

L'estimation est le processus consistant à déterminer une valeur vraisemblable pour une variable de la population observée, en se fondant sur des données recueillies à partir de l'échantillon. Les chercheurs sont habituellement intéressés à examiner pour différentes variables des estimations d'un grand nombre de statistiques—des totaux, des moyennes et des proportions le plus souvent. On pourrait, par exemple, utiliser une enquête-échantillon pour produire les statistiques suivantes : des estimations de la proportion de fumeurs chez les 15 à 24 ans, les gains moyens des hommes et des femmes titulaires d'un grade universitaire et le nombre total de voitures que possède l'ensemble de la population observée.

Ce qui sous-tend le processus d'estimation, c'est le poids d'échantillonnage d'une unité, qui indique le nombre d'unités incluses dans la population (y compris le poids d'échantillonnage lui-même) et qui sont représentées par cette unité échantillonnée. Le poids d'échantillonnage est l'inverse de la probabilité de sélection de l'unité.

Exemple n° 1 : Supposez que la Ville de Québec a décidé d'octroyer des cartes d'abonnement d'autobus à des usagers de ces derniers pour faire la promotion de ses services de transport en commun. Elle sélectionne à cette fin un échantillon aléatoire simple de 10 personnes parmi les 30 passagers d'un autobus. Puisque l'échantillonnage aléatoire simple donne à chaque membre de la population (tous les passagers de l'autobus dans ce cas) une chance égale d'être sélectionné, chacun des passagers avait une chance sur trois de l'être. Cela se traduit en un poids d'échantillonnage de trois pour chaque unité sélectionnée, ce qui signifie que chaque personne incluse dans l'échantillon représente trois personnes faisant partie de la population : elle- même, plus deux autres personnes.

Afin d'estimer ce poids d'échantillonnage, on pourrait prendre les données d'enquête pour les 10 passagers sélectionnés et les copier trois fois afin de créer une population artificielle de 30 passagers. On pourrait ensuite estimer des totaux, des moyennes ou des proportions pour la population réelle à l'aide des statistiques correspondantes calculées au moyen de la population artificielle. Cependant, les statisticiens d'enquête attribuent plutôt un poids d'échantillonnage à chaque unité incluse dans l'échantillon et tiennent compte de ce poids lorsqu'ils établissent des estimations.

Si une personne incluse dans un échantillon (d'un poids d'échantillonnage de 18) avait les yeux bleus et les cheveux bruns, ce serait alors comme si 18 personnes au total faisant partie de la population avaient les yeux bleus et les cheveux bruns.

Exemple n° 2 : Vous êtes en train de mener une enquête pour déterminer le nombre total de gens qui habitent votre rue et le nombre moyen de voitures que possède chaque ménage qui y vit. Vous décidez de sélectionner un échantillon systématique de 5 ménages à partir des 20 que compte votre rue et entendez utiliser cet échantillon pour estimer les totaux que vous cherchez à calculer. Le tableau qui suit résume l'information que vous avez rassemblée durant vos interviews auprès des ménages échantillonnés :

Tableau 1. Échantillon de ménages de la rue des Érables

Numéro de ménage Nombre de personnes Nombre de voitures Probabilité de sélection Poids d'échantillonnage

1 1 0 1/4 4

2 4 2 1/4 4

3 2 1 1/4 4

4 2 1 1/4 4

5 3 2 1/4 4

La probabilité de sélection de 1 sur 4 découle du fait que l'échantillonnage systématique accorde une chance égale d'être sélectionné à chaque ménage de votre rue. Le poids d'échantillonnage de 4 est simplement l'inverse de cette probabilité. Lorsque vous établissez des estimations, vous devez examiner les caractéristiques de chaque ménage échantillonné. Dans ce cas, vous déterminez que 4 ménages sur la population des 20 que compte votre rue ont les mêmes caractéristiques.

Pour estimer le nombre total de personnes habitant votre rue, vous devez multiplier le nombre de personnes membres d'un ménage par le nombre de ménages inclus dans ce poids d'échantillonnage, puis additionner tous les chiffres finals. Par exemple, il y a 4 ménages d'une personne (représentés par le numéro de ménage 1), 4 ménages de quatre personnes, 8 ménages de deux personnes (4 ménages représentés par le numéro de ménage 3 et 4 ménages représentés par le numéro de ménage 4) et 4 ménages de trois personnes. Votre estimation du nombre total de personnes serait alors la suivante :

Nombre estimatif de personnes habitant votre rue

= (4 x 1) + (4 x 4) + (8 x 2) + (4 x 3)

= 48 personnes

Vous devez procéder de la même façon pour estimer le nombre moyen de voitures par ménage. Établissez une estimation du nombre total de voitures que possèdent les ménages domiciliés dans votre rue, puis divisez cette estimation par le nombre réel de ménages que compte votre rue. Il y a, par exemple, 4 ménages qui ne possèdent pas de voiture (représentés par le numéro de ménage 1), 8 ménages qui en possèdent deux (représentés par le numéro de ménage 2 et le numéro de ménage 5) et 8 ménages en possédant chacun un (représentés par le numéro de ménage 3 et le numéro de ménage 4).

Toutes les unités échantillonnées n'ont pas toujours le même poids d'échantillonnage. Certains plans donnent aux unités une probabilité inégale d'être sélectionnées, ce qui fait que des unités incluses dans le même échantillon ont des poids d'échantillonnage différents. Les réponses d'un ménage ou d'une entreprise à un questionnaire pourraient représenter celles de 200 unités de la population, tandis que les réponses d'un autre ménage ou d'une autre entreprise au même questionnaire pourraient ne représenter que 50 unités faisant partie de la population.

Lorsque chaque unité incluse dans l'échantillon a le même poids d'échantillonnage, on dit que le plan d'échantillonnage est autopondéré. Ce genre de plan épargne du temps et est pratique sur le plan opérationnel, pour des échantillons de grande taille en particulier. Parce que chaque unité a le même poids, on peut ne pas tenir compte de tels poids lorsqu'on estime des moyennes et des proportions. La moyenne établie pour l'échantillon donne une estimation appropriée de la moyenne pour l'ensemble de la population.

Les plans d'échantillonnage aléatoire simple et d'échantillonnage systématique sont des exemples de plans autopondérés. Ils auraient pu, pour cette raison, faciliter les calculs dans le cas de l'exemple n° 2. Pour estimer le nombre moyen de voitures par ménage inclus dans la population, par exemple, nous aurions pu utiliser la même moyenne que celle employée à l'intérieur de l'échantillon. Les 5 ménages échantillonnés possèdent au total 6 voitures, ce qui donne une moyenne de 1,2 voiture par ménage. C'est le même résultat que celui obtenu à l'aide de la procédure de calcul d'un poids d'échantillonnage.

Ajustement des poids

On ajuste parfois les poids d'échantillonnage avant une estimation, et ce, pour deux raisons fondamentalement :

Pour tenir compte des non-réponses à un questionnaire : L'utilisation de poids d'échantillonnage pour établir une estimation donne de bons résultats lorsque vous avez pu interviewer toutes les unités sélectionnées. Dans l'exemple n° 2, si deux des cinq ménages échantillonnés avaient refusé de répondre à votre questionnaire ou n'étaient pas disponibles au moment de l'enquête, vous n'auriez des réponses que pour trois ménages, ce qui ne représenterait que 12 des 20 ménages que compte votre rue. Les deux unités qui n'auraient pas répondu à votre questionnaire représenteraient quatre ménages chacune, ce qui signifie que nous n'aurions aucune information sur le nombre de personnes ou de voitures pour huit ménages domiciliés dans votre rue. Afin d'apporter un ajustement pour en tenir compte, les statisticiens d'enquête accroissent habituellement les poids des unités ayant répondu au questionnaire d'enquête de manière à prendre en considération la perte de représentativité causée par les non-réponses à ce dernier. L'objectif consisterait à n'utiliser que les trois unités pour lesquelles nous disposerions d'information, mais qui représenteraient quand même les 20 ménages que compte votre rue.

Pour tenir compte de données externes : Nous connaissons parfois le total réel pour une ou plusieurs variables mesurées à l'intérieur d'un échantillon.

Dans l'exemple n° 3 de la section portant sur échantillonnage probabiliste on a divisé en proportions égales la population des 1 000 meilleurs films d'horreur, c'est-à-dire en 500 films classiques et en 500 films modernes. Même si vous connaissiez ce total avant l'échantillonnage, vous avez décidé de sélectionner un échantillon aléatoire simple de 100 films, ce qui vous a donné finalement 77 films classiques et 23 films modernes. Chacun de ces films avait un poids de 10 (parce que vous avez sélectionné 1 titre de film sur 10). Si vous utilisiez les réponses découlant de l'enquête et le poids

d'échantillonnage, votre échantillon représenterait une population de 770 films classiques et de 230 films modernes. Cela pourrait entraîner des estimations inexactes. L'une des solutions à ce problème consisterait à réduire le poids de chaque film classique échantillonné et à accroître celui de chacun des films modernes échantillonnés également pour que votre échantillon donne une estimation de 500 films classiques et de 500 films modernes, ce qui réduirait la distorsion entraînée par un « mauvais » échantillon.

Évidemment, la stratification par date de parution sur les écrans avant l'échantillonnage aurait réglé le problème. Dans bien des cas, cependant, nous avons des totaux au niveau de la population, mais nous ignorons l'attribut de chaque unité incluse dans la base de sondage. Nous savons, par exemple, à partir du Recensement de la population, combien d'hommes et de femmes il y a dans une localité donnée, mais tout ce dont nous disposons pour un échantillonnage, c'est d'une liste de ménages. Il serait donc impossible de stratifier notre population selon le sexe. On utilise souvent des projections démographiques suivant l'âge et le sexe pour chaque province dans le cadre d'enquêtes sociales afin d'ajuster les poids d'échantillonnage.

On emploie les poids ajustés pour tenir compte des non-réponses à un questionnaire d'enquête et/ou de dénombrements externes à des fins d'estimation de la même façon qu'on a employé le poids d'échantillonnage dans l'exemple n° 1.

Autres méthodes d'estimation

L'utilisation des poids pour extrapoler les résultats de l'échantillonnage n'est pas l'unique méthode d'estimation qui existe, mais c'est la plus simple et la seule dont nous traiterons. Il est, néanmoins, important de savoir qu'il existe d'autres méthodes pouvant mener à des estimations plus précises (comme l'utilisation de données auxiliaires). Le processus d'estimation doit tenir compte du plan d'échantillonnage qui a été utilisé. Les estimations qui en résulteraient pourraient, autrement, être sérieusement biaisées.

Dans le document Les statistiques : le pouvoir des données! (Page 30-33)