Étude des algorithmes de stratification et illustration utilisant la réalisation de l'enquête sur le recrutement, l'emploi et les besoins de formation au Québec en 2015, l'EREFEQ 2015

(1)

Étude des algorithmes de stratification et illustration

utilisant la réalisation de l'Enquête sur le Recrutement,

l'Emploi et les besoins de Formation au Québec en

2015, l'EREFEQ 2015

Mémoire

Oussama Houimli

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

Québec, Canada

(2)

Étude des algorithmes de stratification et illustration

utilisant la réalisation de l’Enquête sur le

Recrutement, l’Emploi et les besoins de Formation au

Québec en 2015, l’EREFEQ 2015.

Mémoire

Houimli Oussama Maîtrise en statitique

Sous la direction de:

(3)

Résumé

Dans un plan stratifié, le calcul des bornes de strates peut se faire de plusieurs façons. On peut se fier à un jugement personnel et séparer les unités de la population en se basant sur la distribution de la variable de stratification. D’autres méthodes scientifiques et rigoureuses donnent un meilleur résultat, dont les algorithmes de cum √f , Sethi et Kosak. Pour les populations asymétriques, telles que retrouvées dans les enquêtes entreprises, l’utilisation d’une strate recensement permet de diminuer la taille d’échantillon et donner des estimations plus fiables. Parfois, la variable de stratification utilisée dans l’élaboration du plan de sondage ne garantit pas l’obtention de la précision cible pour toutes les variables d’intérêt de l’enquête. Utiliser la variable d’intérêt la plus difficile à estimer, comme variable de stratification, permet de garantir un CV cible minimal pour toutes les autres variables, mais engendre des grandes tailles d’échantillon.

(4)

Abstract

In a stratified sampling design, the calculation of the stratum boundaries can be done in several ways. We can rely on personal judgment and separate the units of the population based on the distribution of the stratification variable. Other scientific and rigorous methods give a better result, including the algorithms of cum√f , Sethi and Kosak. For asymmetric populations, as found in the business surveys, the use of a census stratum reduces the sample size and gives more reliable estimates. Univariate methods, those that use a single stratification variable in calculating the boundaries, do not guarantee that the target precision will be obtained for all the variables of interest in the survey. Using the variable of interest that is the most difficult to estimate, as a stratification variable, makes it possible to guarantee a minimum target CV for all the other variables, but generates large sample sizes.

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux vi

Liste des figures vii

Remerciements viii

Introduction 1

1 Algorithmes de stratification 2

1.1 Introduction. . . 2

1.2 Allocation . . . 5

1.3 Solutions existantes au problème de calcul des bornes de strates pour la stratification univariée. . . 8

1.4 Les fonctions du package stratification . . . 15

1.5 Stratification uniforme. . . 18

2 Illustration : L’Enquête sur le Recrutement, l’Emploi et la Formation au Québec, l’EREFQ 21 2.1 Introduction. . . 21

2.2 Planification de l’EREFQ 2015. . . 22

2.3 Résultats de l’EREFQ 2015 . . . 23

2.4 Description de la base de données EREFQ 2015 . . . 24

3 Comparaison des algorithmes de stratification à l’aide de la base de données EREFQ 2015 28 3.1 Introduction. . . 28

3.2 Calcul des bornes de strates de taille pour la région de Montréal . . . 28

3.3 Calcul des bornes de strates de taille pour la région de la Côte-Nord . . . . 35

3.4 Conclusion. . . 36

4 Quelques problèmes pratiques dans la construction d’un plan stratifié 38 4.1 Introduction. . . 38

(6)

4.3 Plusieurs plans de sondage . . . 41

4.4 Bornes simultanées . . . 46

4.5 Conclusion. . . 47

Conclusion 49

A 50

A.1 Un cas problématique lors de l’utilisation de la commande strata.bh où les

bornes calculées engendrent une strate vide . . . 50

A.2 Les 33 secteurs économiques utilisés dans la planification de l’EREFQ 2015 52

A.3 Code SAS pour le calcul des paramètres du modéle linéaire en tenant compte

de l’hétéroscédasticité . . . 53

A.4 Code R pour le calcul des bornes uniformes . . . 53

(7)

Liste des tableaux

2.1 Nombre d’établissements dans la base de données EREFQ 2015 pour les 17

régions administratives et les 12 secteurs économiques . . . 24

2.2 Taux de présence pour les 7 variables d’intérêt de la base de données EREFQ

2015. . . 25

3.1 Paramètres des plans présentés dans le tableau 3.2 . . . 31

3.2 Comparaison entre les plans stratifiés obtenus en utilisant le modèle linéaire et

le log-linéaire pour la région de Montréal tous secteurs confondus, N=4 311. . 31

3.3 Paramètres des plans présentés dans le tableau 3.4 . . . 32

3.4 Comparaison entre la méthode approximative et la méthode exacte pour la

région de Montréal, tous secteurs confondus, N=4 311. . . 32

3.5 Bornes de strate optimales pour la région de la Côte-Nord tous secteurs confondus 36

4.1 Paramètres des modèles log-linéaires qui décrivent la relation entre les variables d’intérêt et la variable de stratification, pour le secteur du commerce de gros et

détail et pour toutes régions confondues. . . 40

4.2 Calcul des CV, en %, pour les estimateurs des moyennes des 7 variables d’in-térêt, en utilisant l’allocation proportionnelle et optimale, pour le secteur du commerce de gros et de détail, toutes les régions confondues. La taille du

sec-teur est N = 5046. . . 42

4.3 Calcul des CV, en %, pour les estimateurs des moyennes des 7 variables d’in-térêt, en utilisant l’allocation proportionnelle et optimale, pour le secteur du commerce de gros et de détail, toutes les régions confondues. La taille du

sec-teur est N = 5046 et le taux de mortalité est nul. . . 44

4.4 Relation entre les variables d’intérêt et la variable de stratification, à l’échelle logarithmique pour le secteur de l’enseignement, santé, assistance sociale et

administration publique, toutes régions confondues. . . 45

4.5 Calcul des CV, en %, pour les estimateurs des moyennes des 7 variables d’in-térêt, en utilisant les 7 × 2 différents plans de sondage, pour le secteur de l’enseignement, santé, assistance sociale et administration publique, toutes les

régions confondues. La taille de la population du secteur est N = 5732. . . 45

4.6 Effet des bornes uniformes sur la taille de l’échantillon, pour la région de Montréal. 47

4.7 Différents plans de sondage pour la base de données EREFQ 2015. Le taux de réponse est égal à 80 %, le taux de mortalité est égal à 10 % et le CV cible est

(8)

Liste des figures

1.1 Plan stratifié calculé par la fonction strata.LH . . . 15

1.2 Plan stratifié calculé par la fonction strata.bh . . . 16

1.3 Sortie de la commande var.strata . . . 17

1.4 Sortie de la commande var.strata en utilisant un modèle . . . 17

1.5 sortie de la commande strata.cumrootf. . . 18

2.1 Taux de présence pour les 7 variables de la base de données EREFQ 2015 par région administrative . . . 26

2.2 Taux de présence pour les 7 variables de la base de données EREFQ 2015 par secteur économique. . . 27

3.1 Modèle linéaire tenant compte de l’hétéroscédasticité. La zone grise donne l’in-tervalle de prédiction±1.96√σˆ2_Xγˆ_._{. . . .} ₃₀

3.2 Modèle log-linéaire. La zone grise donne l’intervalle de prédiction ±1.96 ˆσ. . . . 30

3.3 Distribution du logarithme de la variable de stratification à l’intérieur des 12 secteurs économiques de la région de Montréal. . . 33

3.4 Taille d’échantillon en utilisant les bornes optimales pour les 12 secteurs écono-miques de la région de Montréal, avec et sans une strate recensement. . . 34

3.5 CV de l’estimateur de la moyenne de V 1 pour les plans sans et avec la strate recensement pour les 12 secteurs de la région de Montréal. . . 35

3.6 Comparaison des distributions du logarithme de la variable de stratification X, nombre d’employés dans la base de sondage, entre les régions de Montréal et de la Côte-Nord, pour les 12 secteurs économiques. . . 36

4.1 Distribution du logarithme des variables d’intérêt pour le secteur du commerce de gros et de détail, toutes provinces confondues.. . . 39

4.2 Bornes optimales, uniformes et celles utilisées dans l’EREFQ 2015 pour les 12 secteurs économiques de la région de Montréal. . . 46

(9)

Remerciements

Je remercie fortement mon professeur, monsieur Louis Paul Rivest, pour tous ces encoura-gements et tous ses efforts pour m’aider à réaliser ce projet. Je le remercie aussi pour sa disponibilité, son bureau était toujours ouvert pour m’accueillir. C’était une expérience très enrichissante dans laquelle j’ai beaucoup appris sur un sujet qui m’intéresse, l’échantillonnage.

(10)

Introduction

L’échantillonnage aléatoire simple est un des modes d’échantillonnage probabiliste les plus simples à utiliser. Il repose sur le fait que chaque unité dans la population a la même probabilité d’être incluse dans l’échantillon. Cette méthode donne un bon résultat dans le cas où les unités de la population sont semblables. En revanche, si on veut s’assurer d’inclure des unités spécifiques ou des unités qu’on pense plus importantes que d’autres, l’échantillonnage aléatoire simple n’est pas la bonne méthode à employer.

Afin de s’assurer d’avoir de l’information sur certaines unités de la population, on peut utiliser l’échantillonnage stratifié simple. Ceci consiste à diviser la population en strates et tirer un échantillon aléatoire simple à l’intérieur de chacune des strates. Cette méthode est plus com-plexe que l’échantillonnage aléatoire simple mais garantit d’avoir de l’information sur chacune des strates, chose que l’échantillonnage aléatoire simple ne garantit pas.

Généralement, l’échantillonnage stratifié permet d’avoir des estimations plus précises que celles obtenues en utilisant l’échantillonnage aléatoire simple. Par exemple, dans le cas des enquêtes entreprises, inclure les établissements de grande taille dans l’échantillon est primordial afin d’avoir des estimations fiables. En utilisant l’échantillonnage stratifié, on peut regrouper ces établissements dans une strate afin de les sonder, ce qui permet de diminuer la variance des estimateurs. En revanche, utiliser l’échantillonnage aléatoire simple dans ce cas d’enquêtes entreprises engendre des estimations très variables, vu que les établissements de grande taille ne sont pas nécessairement inclus dans l’échantillon.

Dans certains cas, les unités de la population forment des strates d’une façon naturelle, c’est le cas des enquêtes stratifiées par région géographique, par exemple. Cependant, dans d’autres cas, les bornes de strates ne sont pas définies et il faut les calculer. Plusieurs méthodes exis-tantes permettent d’obtenir des bornes de strates optimales, celles qui donnent des estimations fiables et une taille d’échantillon minimale. Dans ce mémoire, on présente les méthodes les plus connues du calcul des bornes de strates et on prend comme exemple l’EREFQ, l’Enquête sur le Recrutement, l’Emploi et la Formation au Québec, une enquête entreprise québécoise, pour illustrer leur implantation.

(11)

Chapitre 1

Algorithmes de stratification

1.1 Introduction

L’utilisation de l’information auxiliaire peut s’avérer bénéfique afin d’améliorer les résultats d’enquêtes. Généralement, on l’utilise de deux façons, soit à l’étape de la planification ou lors de la compilation des estimateurs. En effet, l’information auxiliaire peut être exploitée, a priori, dans la conception du plan de sondage pour définir les probabilités de sélection ou calculer les bornes de strates. On peut l’exploiter, a posteriori, pour calibrer les estimations, c’est le cas de l’estimateur par le quotient. Dans ce mémoire, on s’intéresse à l’utilisation de l’information auxiliaire lors de la planification des enquêtes, en particulier, dans le calcul des bornes pour un plan stratifié.

Dans le calcul des bornes de strates, une ou plusieurs variables auxiliaires peuvent être uti-lisées. Ces variables sont disponibles dans la base de sondage pour toutes les unités de la population. Par exemple, pour les enquêtes agricoles, les unités sont souvent des fermes et les variables auxiliaires peuvent être la taille de la ferme en acres, le secteur économique au-quel elle appartient ou le nombre de têtes de bétails présents. Afin d’exploiter de multiples variables auxiliaires dans le choix des bornes de strates, plusieurs méthodes peuvent être em-ployées, comme les méthodes de regroupement (clustering en anglais). Ceci consiste à former des strates d’unités semblables selon un ensemble de critères. Divers articles discutent de ces méthodes, dont celui de Fabrizi et Trivisano (2007). Ces approches multivariées, qui utilisent plusieurs variables auxiliaires, ne font pas l’objet de ce mémoire. Plutôt, on s’intéresse aux méthodes univariées, où une seule variable auxiliaire est exploitée dans le calcul des bornes de strates.

Utiliser une variable auxiliaire pour former des strates peut se faire de différentes manières. Par exemple, on peut utiliser la distribution de la variable auxiliaire et identifier des regrou-pements à partir d’un jugement personnel, en rassemblant les unités qui nous semblent les plus similaires ensemble. Ceci est simple à employer, mais n’est pas idéal, car plusieurs

(12)

utili-sateurs peuvent aboutir à des stratifications différentes. D’autres méthodes plus rigoureuses et scientifiques donnent un meilleur résultat. Ces méthodes permettent de trouver des bornes de strates menant à des estimations précises pour une taille d’échantillon minimale.

Un exemple où des méthodes univariées sont utilisées lors du calcul des bornes de strates est le cas des enquêtes entreprises. En effet, le défi de ces enquêtes consiste à inclure les établissements de grande taille dans l’échantillon. Ces établissements sont importants, car ils représentent une grande proportion des totaux à estimer. Pour ce faire, on peut les assigner à une strate dans laquelle on recense toutes les unités, une strate recensement, et s’assurer, dans la mesure du possible, qu’ils répondent au questionnaire de l’enquête. Dans ce cas, l’utilisation d’une mesure de taille comme variable auxiliaire permet de diviser la population en plusieurs strates, incluant une strate recensement, afin d’obtenir des estimations plus fiables.

La taille d’un établissement peut être mesurée de plusieurs façons. Le nombre d’employés, la superficie de l’établissement, le total des dépenses annuelles ou le total des actifs commerciaux sont des mesures possibles. Par exemple, dans l’enquête entreprise sur l’activité économique, les dépenses et les produits, réalisée par Statistique Canada, des données fiscales sur le revenu annuel sont utilisées comme mesure de taille1.

Une raison pour laquelle la taille est utilisée lors de la planification des enquêtes entreprises, en plus du fait qu’elle soit, généralement, disponible pour l’ensemble des unités, est qu’elle est souvent reliée aux variables d’intérêt de l’enquête. Par exemple, si un des objectifs de l’enquête est d’estimer le nombre de postes vacants dans un secteur économique donné, il est vraisemblable que plus la taille de l’établissement est grande, plus le nombre de postes vacants est élevé. Dans ce cas, utiliser la taille comme variable de stratification améliore la fiabilité des résultats.

L’objectif essentiel d’une stratification selon la taille est de bonifier la précision des estimations de l’enquête. Ainsi, les strates de taille sont utiles uniquement à des fins statistiques. C’est le cas pour les enquêtes entreprises. Par exemple, supposons que former une strate qui contient les établissements dont la taille est entre 30 et 200 employés améliore la précision des estimations, pour un secteur économique donné. Cette strate ne représente pas un intérêt particulier en elle-même. C’est plutôt le secteur économique qui constitue l’intérêt principal.

Les strates sont parfois formées d’une façon naturelle, comme le cas de l’enquête sur la po-pulation active, l’EPA, réalisée par Statistique Canada2. Dans cette enquête, il est important d’avoir de l’information sur chacune des provinces du Canada. Ainsi, chaque province forme une strate. Ce genre de stratification, à des fins administratives, facilite généralement le dérou-lement de l’enquête. Une stratification par province permet, par exemple, de faire la collecte des données indépendamment d’une province à une autre, ce qui rend la collecte plus facile à

1. http://www23.statcan.gc.ca/imdb/p2SV_f.pl?Function=getSurvey&SDDS=8009

(13)

administrer.

Après avoir identifié la variable de stratification à utiliser dans le calcul des bornes de strates, on s’intéresse à la meilleure façon de stratifier la population. Les bornes de strates optimales sont celles qui donnent une taille d’échantillon minimale pour une précision recherchée. Ceci représente un problème d’optimisation, qui est discuté dans la section 1.3. En effet, la taille de l’échantillon dépend des variations à l’intérieur des strates, qui dépendent à leur tour des bornes.

Les premières solutions au calcul des bornes de strates sont des méthodes approximatives, vu qu’à l’époque il n’y avait pas d’ordinateurs. Dalenius (1951) est l’un des premiers à proposer une solution. C’est la méthode de la racine carrée de la densité cumulative, cum √f . Son approche consiste à prendre comme bornes optimales celles qui divisent le cumul de √f en intervalles égaux, f étant la distribution de la variable de stratification. Il est vrai que cette méthode est simple et facile à utiliser, cependant, elle engendre des grandes tailles d’échan-tillons, surtout pour des populations asymétriques, comme on va le constater dans le chapitre 3.

Sethi (1963) propose un algorithme qui permet un calcul exact des bornes optimales. Son approche est basée sur le calcul des dérivées partielles de la taille de l’échantillon par rapport aux bornes, tout en fixant la précision recherchée. L’algorithme fonctionne bien lorsque la variable de stratification suit une loi bien connue, la normale par exemple, mais ne converge pas pour d’autres distributions moins connues. De plus, les bornes calculées dépendent des bornes initiales pour démarrer l’algorithme, ce qui le rend, dans certains cas, peu fiable. L’approche de Sethi consiste à identifier la loi de la variable de stratification et à utiliser les bornes spécifiques pour cette loi. Si la loi n’est pas connue, on l’estime par une qui lui ressemble. Lavallée et Hidiroglou (1988) suggèrent, quant à eux, de faire un nouveau calcul pour chaque population en utilisant l’algorithme de Sethi sur la distribution empirique de la variable de stratification. Les bornes obtenues sont donc propres à l’enquête planifiée. De plus, afin de s’ajuster à l’asymétrie de la population dans les enquêtes entreprises, Lavallée et Hidiroglou proposent d’incorporer une strate recensement dans l’algorithme de Sethi, ce qui permet l’inclusion des établissements de grandes tailles.

En pratique, la variable de stratification n’est pas identique à la variable d’intérêt et les tailles d’échantillon obtenues par la méthode de Lavallée et Hidiroglou risquent de ne pas donner la précision recherchée. Pour différencier entre la variable de stratification et la variable d’intérêt, Rivest (2002) suggère de modéliser la relation entre les deux variables, en utilisant, par exemple, des données d’enquêtes précédentes. Cette nouvelle approche est la méthode des moments anticipés. Ceci permet d’estimer les moments de la variable d’intérêt, même si cette dernière n’est pas observée. Dans son article, Rivest intègre plusieurs modèles dans la méthode de Lavallée et Hidiroglou afin que le calcul des bornes de strates tienne compte de la différence

(14)

entre la variable de stratification et la variable d’intérêt.

Kozak (2004) développe un nouvel algorithme qui permet de calculer des bornes de strates sans utiliser l’algorithme de Sethi. Cette approche consiste à une exploration aléatoire de toutes les bornes possibles et à garder celles qui minimisent la taille de l’échantillon, pour une précision donnée.

Baillargeon et Rivest (2009) valident l’algorithme de Kozak et montrent qu’il est meilleur que celui de Sethi. En effet, dans certains cas, l’algorithme de Kozak réussit à donner une taille d’échantillon plus petite, pour une même précision cible. De plus, l’algorithme de Kozak n’a pas de problèmes de convergence comme ceux rencontrés pour l’algorithme de Sethi. Baillargeon et Rivest intègrent plusieurs paramètres dans l’algorithme de kozak, comme le taux de réponse, le taux de mortalité, l’utilisation d’une strate recensement, ainsi que la méthode des moments anticipés.

Baillargeon et Rivest (2011) développent un programme avec le logiciel R qui permet, simulta-nément, le calcul des bornes de strates et la taille de l’échantillon minimale pour un Coefficient de Variation, CV, fixé (package stratification). Dans les fonctions de ce programme, on peut choisir l’algorithme (cum√f , Sethi ou kozak), le modèle à utiliser dans les moments an-ticipés ainsi que les règles d’allocations déterminant la répartition de l’échantillon à l’intérieur des strates. Les fonctions les plus importantes du package stratification sont décrites dans la section 1.4.

Dans les prochaines sections de ce chapitre, on présente un rappel des solutions existantes au problème de stratification optimale. Tout d’abord, on commence par décrire les trois règles d’allocations les plus utilisées.

1.2 Allocation

Il y a plusieurs façons de distribuer l’échantillon à l’intérieur des strates. On peut le faire à partir d’un jugement personnel, allouer moins aux strates les plus coûteuses ou allouer plus aux strates les plus faciles à administrer. Cependant, cette façon de faire n’est pas efficiente. Il existe d’autres méthodes plus objectives et scientifiques qui donnent un meilleur résultat. Dans cette section, on introduit les trois allocations les plus importantes. Premièrement, on présente les notations utilisées.

1.2.1 Notations

Pour un plan stratifié, on réparti la population de N unités dans H strates, avec N_h la taille de la strate h. Ainsi on a N = N1+ N2+ ... + Nh. Soit sh l’échantillon aléatoire simple de nh

(15)

Soit Y la variable d’intérêt de l’enquête. Pour les paramètres de la population, on a les nota-tions suivantes :

yhj : La valeur de Y pour l’unité j de la strate h

¯

yhU = ∑

Nh j=1yhj

Nh : Moyenne de la population de la strate h

¯ yU = ∑

H

h=1∑Nhj=1yhj

N : Moyenne globale de la population

S_h2 = ∑

Nh

j=1(yhj−¯yhU)2

Nh−1 : Variance de la strate h

Wh = N_Nh : Poids de la strate h, par rapport à l’ensemble de la population

ah = n_nh : Règle d’allocation où n et nh sont respectivement la taille de l’échantillon global et

celle pour la strate h

Les quantités correspondantes pour l’échantillon sont les suivantes :

¯ yh =

∑j∈Shyhj

nh

: Moyenne échantillonnale de la strate h ¯ ystr = ∑ H h=1Nhy¯h N = ∑ H

h=1Why¯h : Moyenne échantillonnale de la population

1.2.2 Allocation proportionnelle

L’allocation proportionnelle est une façon simple de répartir l’échantillon dans les strates. La taille de l’échantillon dans une strate est proportionnelle à la taille de la strate, comme l’indique l’équation suivante

nh=

Nh

N × n, h = 1, ..., H.

Effectivement, on tire un plus grand échantillon à partir de la plus large strate. L’allocation proportionnelle donne un bon résultat si les variations à l’intérieur des strates sont semblables. Dans le cas contraire, comme celui des enquêtes entreprises, l’allocation proportionnelle peut engendrer des estimations moins fiables.

1.2.3 Allocation optimale ou de Neyman

L’allocation optimale, ou de Neyman (au nom du statisticien Jerzy Neyman), permet de minimiser la variance des estimations pour un coût fixé. Cette allocation est expliquée de la façon suivante. Supposons que le coût de l’enquête, C, est une fonction linéaire de la taille de l’échantillon, s’exprimant comme suit

C= c0+ H

∑

h=1

chnh,

avec c₀un coût constant indépendant des strates et c_h le coût par unité dans la strate h. Pour un plan stratifié, la variance de ¯ystr est égale à

V ar(¯ystr) = H ∑ h=1 W_h2S_h2 nh − H ∑ h=1 W_h2S_h2 Nh .

(16)

On s’intéresse à soit minimiser la variance pour un coût donné soit minimiser le coût pour une variance fixe. Ceci revient à minimiser le produit

(V ar(¯ystr) + H ∑ h=1 W_h2S_h2 Nh ) × (C − c0) = H ∑ h=1 W_h2S_h2 nh ×∑H h=1 chnh. (1.1)

Soit l’inégalité de Cauchy-Schwarz suivante ( ∑ h a2_h) × ( ∑ h b2_h) ≥ ( ∑ h ah× bh) 2 .

L’égalité est atteinte si bh

ah est une constante, pour tout h. Ainsi on a

∑ h W_h2S_h2 nh × ∑h chnh≥ ( ∑ h WhSh√ch)2, h= 1, ..., H.

En utilisant l’inégalité de Cauchy-Shwarz, le produit (1.1) est minimum si nh√ch

WhSh est une

constante, égale à d par exemple. Dans ce cas, on décrit n_h de la façon suivante nh n = nh ∑hnh = d× WhSh/√ch ∑hd× WhSh/√ch = NhSh/√ch ∑hNhSh/√ch .

Supposons que les unités dans chaque strate ont un coût égal, c, afin de les inclure dans l’échantillon. Alors on a c_h= c, pour tout h = 1, ..., H et le coût de l’enquête est C = c₀+ n × c. Ainsi, n_h s’écrit comme suit

nh=

NhSh

∑hNhSh × n.

(1.2) Cette dernière équation est l’allocation de Neyman. Elle permet d’allouer l’échantillon de taille n aux strates d’une façon à minimiser la variance de l’estimateur global.

1.2.4 Allocation de puissance

L’allocation de puissance, proposée par Bankier (1988), permet d’avoir des CV similaires pour toutes les strates. Par contre, l’allocation optimale permet de minimiser la variance de l’estimateur global, mais il est possible que les CV à l’intérieur des strates diffèrent. Dans certains cas, il est important d’avoir des estimations précises pour chacune des strates, d’où l’utilité de cette allocation. De plus, l’allocation de puissance dépend seulement du premier moment, ainsi elle est moins sujette aux erreurs d’échantillonnage que celle de Neyman. En effet, l’allocation de Neyman dépend de la variance, comme le montre l’équation (1.2), et lorsque des données historiques sont utilisées pour déterminer les tailles d’échantillons, elle peut être mal estimée.

1.2.5 Formule générale d’allocation

Hidiroglou (1993) généralise la formulation des allocations comme suit nh= n

λh

∑hλh

(17)

où q₁, q₂ et q₃ sont des réels positifs à spécifier. Ainsi, pour q₁ = q₂= p/2, pour un certain p, et q₃= 0, on obtient l’allocation de puissance. Si on pose dans l’équation (1.3) q₁ = 1/2, q₂ = 0 et q3 = 1/2, on retrouve l’allocation optimale. Pour obtenir l’allocation proportionnelle, on

prend q₁ = 1/2 et q₂ = q₃ = 0.

Ces trois allocations ont chacune leurs avantages et leurs utilités dépendamment des cir-constances. Par exemple, si la variation à l’intérieur des strates est semblable, l’allocation proportionnelle est une bonne candidate. Elle est simple et facile à utiliser. Cependant, si les dispersions à l’intérieur des strates diffèrent, l’allocation proportionnelle donne une précision relativement faible. Dans ce cas, l’allocation optimale ou de puissance peut être utilisée. L’allo-cation optimale ne garantit pas des résultats précis pour chacune des strates, mais plutôt pour l’estimateur global. En revanche, l’allocation de puissance permet une certaine optimisation à l’intérieur de chaque strate au risque d’augmenter la taille de l’échantillon.

1.3 Solutions existantes au problème de calcul des bornes de

strates pour la stratification univariée

Soit X la variable de stratification connue pour toutes les unités de la population. La strate h est constituée de l’ensemble des valeurs de X qui sont entre les bornes b_h₋₁et b_h, b_h₋₁≤ X < b_h. Pour déterminer les bornes de strates, on peut procéder à partir d’un jugement en analysant la distribution de X. Si on remarque des regroupements, on peut choisir comme bornes de strates celles qui semblent les séparer. Dans cette section, on présente d’autres méthodes plus rigoureuses et scientifiques qui permettent un meilleur résultat. Tout d’abord, on commence par définir le sujet, qui s’avère être un problème d’optimisation.

1.3.1 Problème d’optimisation

Supposons que la variable d’intérêt Y est égale à la variable de stratification X et que c’est une variable continue avec une densité f(y). Dans un plan stratifié, le poids de la strate h s’écrit de la sorte.

Wh = ∫ bh

bh−1

f(y)dy (1.4)

La moyenne de Y dans une strate h est égale à ¯

Yh= ∫ bh

bh−1

yf(y)dy/Wh (1.5)

La variance de Y à l’intérieur de la strate h est égale à S_h2 = ∫ bh

bh−1

y2f(y)dy/Wh− ¯Yh2 (1.6)

Ainsi, la variance de ¯ystr est

V ar(¯ystr) = H ∑ h=1 W_h2S_h2 nh − H ∑ h=1 W_h2S_h2 Nh . (1.7)

(18)

Cette variance peut être exprimée en fonction du CV de ¯ystr de la sorte

V ar(¯ystr) = CV (¯ystr)2× ¯yU2.

Ainsi, en fixant le CV(¯ystr) à une constante c et pour une allocation ah = n_nh, la taille de

l’échantillon n est égale à

n= ∑ H h=1 W2 hSh2 ah c2_Y¯2+ ∑H h=1 W2 hS2h Nh . (1.8)

On veut trouver les bornes de strates qui minimisent le n décrit dans l’équation (1.8) pour un CV fixé, égal à c. En faisant les calculs, on aboutit à une situation où les bornes recherchées sont définies de façon implicite. C’est pour cette raison que le calcul exact des bornes n’est pas réalisable. Des méthodes approximatives et des algorithmes de calcul ont été développés au cours du temps pour résoudre ce problème. Tout d’abord, on en présente la méthode du cum √f , qui est une des premières solutions à ce problème d’optimisation.

1.3.2 La méthode approximative de Dalenius (1951), cum √f

Dalenius propose une approximation à la solution exacte, la méthode cum √f , qui s’explique de la façon suivante. En utilisant l’allocation de Neyman et en ignorant la fraction de sondage, la variance de ¯ystr, décrite dans l’équation (1.7), s’écrit comme suit

V ar(¯ystr) = 1 n∑_h W_h2S_h2 NhSh × ∑h NhSh= ( ∑ hWhSh)2 n , h= 1, .., H. (1.9) Le problème consiste à trouver les bornes de strates qui minimisent la variance exprimée dans l’équation (1.9), à savoir minimiser le terme ∑_hWhSh. Vu qu’on a besoin de H− 1 bornes

afin de construire H strates, les paramètres W_h, Sh, Wh+1 et Sh+1 dépendent de la borne bh.

En dérivant l’équation (1.9) par rapport à bh et en pausant cette dérivée égale à 0, on trouve

l’équation ∂(WhSh) ∂bh +∂(Wh+1Sh+1) ∂bh = 0. (1.10)

Ainsi, trouver les bornes optimales revient à résoudre les équations (1.10) pour chaque strate h allant de 1 à H− 1.

Proposition : Les bornes optimales satisfont les équations suivantes, pour h= 1, ..., H − 1, (bh− ¯Yh)2+ S_h2 Sh = (bh− ¯Yh+1)2+ S_h+12 Sh+1 . (1.11) Preuve :

Soit f(y) la densité de la variable d’intérêt Y . On a Wh= ∫

bh

bh−1

(19)

Ainsi ∂Wh ∂bh = f(bh). Aussi on a S_h2= E(Y2∣bh−1≤ Y < bh) − E(Y ∣bh−1≤ Y < bh)2 = ∫ bh bh−1y 2_f_(y)dy ∫bh bh−1f(y)dy − (∫ bh bh−1yf(y)dy ∫bh bh−1f(y)dy )2 = ∫ bh bh−1y 2_f_(y)dy Wh −( ∫ bh bh−1yf(y)dy) 2 W2 h . D’où on a WhSh2= ∫ bh bh−1 y2f(y)dy − ( ∫ bh bh−1yf(y)dy) 2 Wh . En dérivant le terme W_hS2_h par rapport aux bornes b_h, on obtient

∂Wh ∂bh S_h2+ 2 WhSh ∂Sh ∂bh = b2 hf(bh) − 2bhf(bh) ¯Yh+ f(bh) ¯Yh2. En ajoutant S_h2 ∂Wh

∂bh à gauche de l’équation précédente et S

2

hf(bh) à sa droite et en divisant

par 2 S_h des deux côtés, on a ∂(WhSh) ∂bh = Sh ∂Wh ∂bh + Wh ∂Sh ∂yh = 1 2f(bh) (bh− ¯Yh)2+ Sh2 Sh .

De même, en utilisant la même méthode de calcul, on a ∂(Wh+1Sh+1) ∂bh = Sh+1 ∂Wh+1 ∂bh + Wh ∂Sh+1 ∂yh = − 1 2f(bh) (bh− ¯Yh+1)2+ Sh2+1 Sh+1 .

Alors, on conclut que la borne optimale b_h doit satisfaire la condition

(bh− ¯Yh)2+ S_h2

Sh

= (bh− ¯Yh+1)2+ S_h2₊₁

Sh+1

∎

Comme mentionné dans la section 1.3.1, la solution exacte ne peut être calculée à partir de l’équation (1.11), car Sh et Wh dépendent de bh. Afin de calculer une solution approximative,

Delanius suppose que la distribution à l’intérieur des strates, f_h, est uniforme, de telle façon on a

Wh= ∫ bh

bh−1

f(t)dt ≈ fh(bh− bh−1) .

En effet, la déviation standard d’une variable aléatoire uniformément distribuée sur (b_h₋₁, b_h) est

Sh≈

bh_√− bh−1

(20)

On obtient alors √ 12 H ∑ h=1 WhSh≈ H ∑ h=1 fh(bh− bh−1)2. (1.12)

Soit Z_y tel que

Zy= ∫ y

y0

√ f(t)dt,

avec y₀ est la plus petite valeur de y. Par conséquent on obtient (Zbh− Zbh−1) ≈

√

fh(bh− bh−1).

Alors on a l’équation suivante √ 12 H ∑ h=1 WhSh≈ H ∑ h=1 (Zbh− Zbh−1) 2_. _(1.13)

Les bornes qui minimisent l’équation (1.9) peuvent être approximées par celles qui minimisent ∑h(Zbh− Zbh−1)

2_{, h} _{= 1, ...H. Puisque Z}

L− Z0 est fixe, ∑h(Zbh − Zbh−1)

2 _{est minimum si}

Zbh− Zbh−1 est constant, pour tout h. Ainsi, les bornes de strates optimales sont approximées

par celles qui correspondent à des divisions égales de la fonction de répartition de √f . (voir Cochran 1977).

La solution de Delanius repose sur l’hypothèse que la distribution à l’intérieur des strates est approximativement uniforme. Cette hypothèse n’est pas vraisemblable dans le cas des enquêtes entreprises. Par conséquent, pour ce genre d’enquêtes, calculer les bornes de strates en utilisant l’approximation de Delanius peut engendrer des grandes tailles d’échantillons.

1.3.3 L’algorithme de Sethi (1962)

Contrairement à la méthode de Dalenius, Sethi procède d’une manière itérative dans le calcul des bornes de strates. Son algorithme se décrit avec les étapes suivantes.

1- Choisir une densité f(y) pour Y .

2- Choisir arbitrairement un ensemble de bornes de départ b1, b2, ..., bH−1.

3- Calculer les moyennes des strates ¯Y1, ¯Y2, ..., ¯YH ainsi que leurs variances respectives,

S₁2, S2₂, ..., S_H2 à l’aide des formules décrites dans les équations (1.4), (1.5) et (1.6).

4- Résoudre l’équation quadratique pour b_h, (1.11), h= 1, ..., H−1, afin de trouver de nouvelles bornes.

5- Répéter les étapes 2 et 3 jusqu’à ce que la différence entre les deux ensembles de bornes soit petite.

Sethi a construit des tables à partir desquelles on peut obtenir les bornes de strates optimales. Ces tables sont calculées uniquement pour certaines densités connues comme la loi normale et la chi-deux. Dans le cas où la distribution de la variable de stratification diffère de celles présentées dans ces tables, une approximation par une loi connue peut être une solution. Le désavantage de l’algorithme de Sethi est que les bornes calculées dépendent de l’ensemble de bornes de départ, ce qui cause, dans certains cas, un problème de convergence.

(21)

1.3.4 La méthode de Lavallée et Hidiroglou (1988)

Afin d’ajuster l’algorithme de Sethi aux caractéristiques des enquêtes entreprises, par exemple l’asymétrie de la population, Lavallée et Hidiroglou suggèrent l’utilisation d’une strate recen-sement qui contient des unités de grandes tailles. Ceci tient compte de la réalité des enquêtes entreprises. Effectivement, afin d’avoir des estimations fiables, les établissements de grande taille sont considérés plus importants que les autres et il est essentiel de les sonder. Lavallée et Hidiroglou incorporent la strate recensement dans le calcul de la taille de l’échantillon comme suit, n= NH+ ∑ H−1 h=1 Nh2Sh2/ah (Nc ¯Y)2_{+ ∑}H−1 h=1 NhS_h2 , (1.14)

c étant le coefficient de variation désiré pour les résultats de l’enquête et NH étant la taille de

la strate recensement. En dérivant l’équation (1.14) par rapport aux bornes b_h, on obtient une généralisation des équations (1.11) qui sont quadratiques en bh et qui peuvent être résolues

facilement, en calculant ¯yh et Sh2 à l’aide de la distribution empirique des yi.

Lavallée et Hidiroglou supposent que la variable d’intérêt est égale à la variable de stratifi-cation. En pratique, la variable de stratification n’est pas identique à la variable d’intérêt et les tailles d’échantillons obtenus par la méthode de Lavallée et Hidiroglou risquent de ne pas donner la précision recherchée. Rivest (2002) suggère une nouvelle approche, la méthode des moments anticipés, qui tient compte de la différence entre la variable de stratification et la variable d’intérêt, en modélisant la relation qui les décrit.

1.3.5 Utilisation de la méthode des moments anticipés dans le calcul des bornes

La méthode des moments anticipés consiste à postuler un modèle conditionnel pour la variable d’intérêt Y sachant la variable de stratification X et à utiliser la distribution empirique des xi comme distribution pour X. Ainsi, on peut calculer les moments de la variable d’intérêt

à partir de la variable de stratification. Ces moments anticipés remplacent les moments de la variable de stratification lors du calcul des bornes de strates dans Lavallée et Hidiroglou. Afin de décrire la relation entre la variable de stratification et la variable d’intérêt, plusieurs modèles peuvent être utilisés, comme le modèle linéaire simple et le modèle log-linéaire. Un exemple du calcul des moments anticipés en utilisant le modèle linéaire est comme suit. Posons le modèle pour Y sachant X suivant.

Y = α + β X + ,

avec ∼ N(0, σ2Xγ), γ étant le paramètre qui tient compte de l’hétéroscédasticité. Ainsi, la moyenne anticipée de Y sachant qu’on est dans la strate h est

¯ Yah= E(Y ∣bh−1≤ X < bh) = 1 Wh∫ bh bh−1 (α + β X)dFn(x) = α + β ¯xhU

(22)

où F_n(x) est la distribution de x et ¯x_hU est la moyenne de la variable de stratification X à l’intérieur de la strate h. La variance anticipée de Y sachant qu’on est dans la strate h est égale à S_ah2 = V ar(α + βX∣bh−1≤ X < bh) + E(σ2Xγ∣bh−1≤ X < bh) = β2Sxh2 + σ2 ∑bh−1≤Xi<bhX γ i Nh ,

où S_xh2 est la variance de la variable de stratification X à l’intérieur de la strate h.

Entre la mise à jour de la base de sondage et la réalisation de l’enquête, certaines unités peuvent mourir. Elles n’appartiennent plus à la population cible. Ainsi, on doit tenir compte d’un taux de mortalité, p, lors de la description de la variable Y sachant X. On peut utiliser le modèle log-linéaire avec mortalité, s’il présente une meilleure description de la relation entre la variable de stratification et la variable d’intérêt. Ce modèle est décrit de la façon suivante,

Y =⎧⎪⎪⎨⎪⎪ ⎩

exp(α + β log(X) + ) , avec probabilité p 0 , avec probabilité 1− p ⎫⎪⎪ ⎬⎪⎪ ⎭ , avec ∼ N(0, σ2) . On a alors ¯ Yah= E(Y ∣bh−1≤ X < bh) = pheα+σ 2_/2 ∑ bh−1≤xi<bh xβ_i/Nh, S_ah2 = E(Y2∣bh−1≤ X < bh) − E(Y ∣bh−1≤ X < bh)2 = p e2α+2σ2 _∑ bh−1≤xi<bh x2β_i /Nh− p2e2α+σ 2 ⎛ ⎝bh−1∑≤xi<bh xβ_i/Nh ⎞ ⎠ 2 .

Le calcul complet de ces moments est dans l’article de Rivest et Baillargeon (2009), dans lequel ils proposent l’utilisation des moments anticipés avec la méthode de Lavallée et Hidirodglou. Ces moments remplacent les moments de la variable de stratification dans l’équation (1.14). Ainsi la taille de l’échantillon à minimiser s’écrit de la façon suivante,

n= NH+ ∑ H−1 h=1 Nh2S 2 ah/ah (Nc ¯Ya)2+ ∑Hh=1−1NhS_ah2 , (1.15) avec ¯Ya = ∑ H h=1NhY¯ah

N . Utiliser la méthode des moments anticipés permet de mieux décrire la

relation entre la variable d’intérêt et la variable de stratification, ce qui donne une meilleure estimation de la taille de l’échantillon requise afin d’atteindre la précision planifiée.

1.3.6 L’algorithme de Kozak (2004)

L’algorithme de Kozak consiste en une recherche aléatoire de toutes les possibilités d’ensembles de bornes afin de trouver celui qui minimise la taille de l’échantillon n, présentée dans l’équa-tion 1.15, pour une précision cible, c. Cet algorithme dépend de 2 paramètres, le paramètre J

(23)

qui représente le déplacement de la borne choisie à une itération parmi les statistiques d’ordre de x et le paramètre K, qui représente la règle d’arrêt pour le nombre d’itérations consécutives sans modification des bornes et qui entraine l’arrêt de l’algorithme. Les étapes de l’algorithme de Kozak sont les suivantes.

1- Trier la population par rapport à la variable de stratification.

2- Choisir un ensemble de bornes de strates initiales, a1, a2, ..., aH−1 parmi les statistiques

d’ordre de la variable de stratification x.

3- Varier l’ensemble de bornes en choisissant une borne, disons ai, la statistique d’ordre xk, et

la remplacer par une statistique d’ordre xk+j . Les bornes sont donc

a′_i= ai+j, a

′

k= ak, k= 1, ..., H − 1, k ≠ i,

avec j est un entier non nul aléatoire entre −J et J, pour un certain J qui dépend de la taille de la population.

4- Calculer la nouvelle valeur de n, requise pour atteindre la précision c selon la formule 1.15 considérant {a′_i} avec la borne modifiée en 3.

5- Si le nouveau n est plus petit, garder l’ensemble de bornes {a′_i}. Sinon, rejeter le nouvel ensemble de bornes et laisser les bornes inchangées à cette itération.

6- Répéter les 5 étapes de l’algorithme jusqu’à ce que les bornes demeurent inchangées pour K itérations consécutives.

Pour une population large, la valeur de J est entre 3 et 5. Afin que l’algorithme soit rapide et efficace, J ne dois pas être égal à 1.

1.3.7 La méthode générale de Baillargeon et Rivest (2009)

Baillargeon et Rivest (2009) généralisent les méthodes de stratification en utilisant l’algorithme de Kozak. Aussi, ils ajoutent la possibilité de prendre une strate à tirage nul. Cette strate contient souvent les unités qui ont un poids faible dans la précision des estimations. Par la suite, ils corrigent le biais dû à la strate à tirage nul dans le calcul des bornes. Par exemple, dans le cas des enquêtes entreprises, les établissements de petite taille peuvent être inclus dans cette strate.

Baillargeon et Rivest ont conçu un programme R, le package stratification,3 qui permet de calculer des bornes de strates optimales ainsi que la taille de l’échantillon, pour une précision fixée, dans une seule étape. La section 1.4 présente les fonctions les plus importantes de stratification.

(24)

1.4 Les fonctions du package stratification

Dans cette section, on présente le package stratification, construit par Baillargeon et Rivest (2011), qu’on utilise tout au long du mémoire. Ce package permet de calculer et comparer des plans de sondage en utilisant plusieurs fonctions.

1.4.1 La fonction strata.LH

La fonction strata.LH permet le calcul simultané des bornes bh qui minimisent le n donné

par l’équation (1.15), ainsi que la taille de l’échantillon requise pour atteindre le CV cible. Voici un exemple de la commande R de cette fonction.

planlLH<-strata.LH(montrealX,CV=0.05,Ls=3,alloc=c(0.5,0,0),takeall=1,model= c("loglinear"),model.control=list(beta=0.855634,sig2=0.5394^2,ph=0.9),rh=0.8)

Dans cet exemple, strata.LH prend comme entrée la variable de stratification montrealX, un CV cible égal à 0.05, un nombre de strates égal à 3 (ls=3), l’utilisation de l’allocation proportionnelle (alloc=c(0.5,0,0)), tel qu’indiqué dans la formule générale d’allocation à la section 1.2.5, l’utilisation d’une strate recensement (takeall=1), les estimations des para-mètres d’un modèle log-linéaire qui décrit la relation entre la variable de stratification et la variable d’intérêt, un taux de mortalité égal à 0.9 (ph=0.9) et un taux de réponse égale à 0.8 (rh=0.8). Par défault, l’algorithme de stratification utilisé est celui de Kozak.

La sortie de la fonction est un plan stratifié, décrit dans la figure 1.1. Ainsi, dans cet exemple, les bornes calculées sont 53.5, 168 et 5 157 et la taille de l’échantillon global est égale à 464, pour une population de 4311 établissements. La borne supérieure, 5 157, est égale au maximum de la variable de stratification + 1.

(25)

1.4.2 la fonction strata.bh

La fonction strata.bh permet de calculer la taille d’échantillon nécessaire pour atteindre le CV cible, étant donné un ensemble de bornes. Cette fonction prend comme entrée les mêmes paramètres que la fonction strata.LH, en ajoutant les bornes à considérer, comme le montre cet exemple dans lequel on utilise les bornes 20 et 100 (bh=c(20,100)).

planbh<-strata.bh(montrealX,CV=0.05,Ls=3,alloc=c(0.5,0,0),bh=c(20,100),

takeall=1,model=c("loglinear"),model.control=list(beta=0.855634,sig2=0.5394^2 ,ph=0.9),rh=0.8)

Le plan calculé par strata.bh est décrit dans la figure 1.2.

Figure 1.2 – Plan stratifié calculé par la fonction strata.bh

Dans cet exemple, on utilise les bornes 20 et 100, ce qui donne une taille d’échantillon égale à 557, supérieure à celle du plan calculé par strata.LH, qui est égale à 464.

1.4.3 La fonction var.strata

La fonction var.strata permet de calculer le CV de l’estimateur de la moyenne d’une variable d’intérêt étant donné un plan stratifié. Comme entrée, cette fonction prend un objet qui représente le plan stratifié en question, ainsi que la variable d’intérêt. Dans l’exemple suivant, on calcule le CV de la variable montrealV1 en utilisant le plan planbh, décrit dans la figure 1.2. Le CV calculé pour la variable d’intérêt est égal à 0.057, comme indiqué dans la figure 1.3.

Dans le cas où la variable d’intérêt n’est pas connue pour toutes les unités de la population, la fonction strata.bh permet de calculer le CV en utilisant les paramètres du modèle qui décrit la relation entre la variable d’intérêt et la variable de stratification, comme le montre cet exemple.

(26)

Figure 1.3 – Sortie de la commande var.strata

modelVar<-var.strata(planbh,model=c("loglinear"),model.control=list(beta=0.6 ,sig2=1.7^2,ph=0.9))

Ainsi, la fonction var.strata calcule le CV de la variable dont sa relation avec la variable de stratification est décrite par un modèle log-linéaire ayant comme paramètres un β égal à 0.6 et un σ2 égal à 1.72. Le CV calculé est égal à 0.29, comme affiché dans la figure 1.4.

(27)

1.4.4 La fonction strata.cumrootf

La fonction strata.cumrootf permet de calculer les bornes de strates en utilisant la méthode approximative de Delanius, cum √f (voir la section 1.3.2). Cette fonction utilise comme entrée les mêmes paramètres que la fonction strata.LH, sauf pour l’option takeall. Voici un exemple d’un plan stratifié calculé avec la fonction strata.cumrootf.

modelCumrootf<-strata.cumrootf(montrealX,CV=0.05,Ls=3,alloc=c(0.5,0,0),model= c("loglinear"),model.control=list(beta=0.855634,sig2=0.5394^2,ph=0.9),rh=0.8)

La sortie est un plan stratifié de type strata, comme affiché dans la figure 1.5.

Figure 1.5 – sortie de la commande strata.cumrootf

Pour cet exemple, les bornes calculées par l’algorithme du cum√f sont 119.47 et 1264.13, pour une taille d’échantillon égale à 1443.

Dans le cas des enquêtes entreprises, lorsqu’on fait une stratification indépendante dans chaque secteurs économiques, on obtient plusieurs ensembles de bornes différents d’un secteur à l’autre. Ceci peut rendre difficile la tâche des analystes de données d’enquêtes, lors de l’interpréta-tion des résultats. Afin de remédier à ce genre de complical’interpréta-tions, les planificateurs d’enquêtes aimeraient avoir des bornes uniformes pour un ensemble de secteurs. Il est clair que, dans ce cas, le plan de sondage obtenu dans un secteur donné n’est pas optimal. Cependant, si le fait d’avoir des bornes uniformes facilite l’interprétation des résultats et que la taille de l’échantillon n’augmente pas trop par rapport à la taille optimale, ceci peut être bénéfique.

1.5 Stratification uniforme

Calculer des bornes uniformes pour un ensemble de secteurs est similaire au calcul des bornes pour un secteur donné, (voir la section 1.3), mais il y a certaines différences. Dans les deux cas, on fait face à un problème d’optimisation. Lors du calcul des bornes uniformes, on cherche un

(28)

seul ensemble de bornes, b₁, ..., bH−1, appliqué pour tous les secteurs en question, qui donne une

taille globale d’échantillon qui est minimale. Tandis que le calcul des bornes pour un secteur donné représente la recherche d’un ensemble de bornes qui donne une taille d’échantillon minimale pour ce secteur. En calculant les bornes pour chaque secteur séparément, on obtient une taille globale minimale, mais plusieurs ensembles de bornes, un par secteur.

SoitK le nombre de secteurs pour lequel on aimerait avoir des bornes uniformes. Les méthodes présentées dans la section 1.3 permettent de calculerK ensembles de bornes de strates, un par secteur. Dans cette section, on cherche à déterminer un seul ensemble de bornes, qui minimise la taille d’échantillon globale, pour l’ensemble desK secteurs. Ceci est réalisé tout en obtenant le même CV cible, c, pour l’estimateur de la moyenne de la variable d’intérêt Y , dans chacun des secteurs. La taille globale de l’échantillon, en fonction de l’ensemble de bornes uniformes, s’écrit différemment de la taille décrite dans l’équation (1.15). Tout d’abord, on introduit les notations suivantes.

k : indicateur de secteur, k= 1, ..., K. h : indicateur de strate, h= 1, ..., H. Nk : nombre d’unités dans le secteur k.

nk : taille de l’échantillon dans le secteur k.

Nkh : Nombre d’unités dans la strate h du secteur k.

akh= n_nkh

k : règle d’allocation de la strate h du secteur k.

¯

Yk : Moyenne de y dans le secteur k.

S_kh2 : Variance de y de la strate h du secteur k.

Le problème d’optimisation uniforme, qui inclut une strate recensement H, revient à trouver un ensemble de bornes qui minimise le n donné par l’équation

n= K ∑ k=1 nk= K ∑ k=1 NkH + K ∑ k=1 ∑H−1 h=1 Nkh2 Skh2 /akh (Nkc ¯Yk)2+ ∑hH=1−1NkhS_kh2 . (1.16)

Dans le calcul du n minimal indiqué dans l’équation (1.16), un seul ensemble de bornes est utilisé à la fois, pour l’ensemble des secteurs. Afin d’utiliser la méthode des moments anticipés, si la relation change d’un secteur à un autre, on utilise un modèle différent pour chaque secteur. Ainsi, on remplace les moments S_kh2 et ¯Yk dans l’équation (1.16) par leurs moments anticipés

respectifs S_akh2 et ¯Yak, tel qu’expliqué dans la section 1.3.5.

Afin de calculer l’ensemble de bornes qui minimise le n décrit dans l’équation (1.16), on peut utiliser les algorithmes de stratification discutés dans ce chapitre, tel que cum√f , Sethi ou Kozak. Cependant, vu que dans les exemples de ce mémoire, le nombre de valeurs que les bornes de strates peuvent prendre n’est pas grand, on effectue une recherche systématique de toutes les possibilités d’ensembles de bornes, et ce, secteur par secteur. Pour ce faire, on utilise les statistiques d’ordre de la variable de stratification. Ainsi, chaque ensemble de bornes représente une combinaison de statistiques d’ordre de la variable de stratification et on garde celui qui minimise la taille de l’échantillon globale pour l’ensemble des secteurs. La fonction

(29)

utilisée pour effectuer ces calculs est la fonction strata.bh, décrite à la section 1.4.2. En annexe, on présente comme exemple le code R utilisé pour calculer les bornes uniformes pour les secteurs économiques de la région du Bas-Saint-Laurent.

(30)

Chapitre 2

Illustration : L’Enquête sur le

Recrutement, l’Emploi et la Formation

au Québec, l’EREFQ

2.1 Introduction

L’Enquête sur le Recrutement, l’Emploi et la Formation au Québec, l’EREFQ, est une enquête entreprise supervisée par Emploi Québec1. Son objectif est d’avoir de l’information fiable sur le marché du travail à travers le Québec. Ainsi, l’enquête est stratifiée par secteur économique et par région administrative. Les secteurs économiques ou scians2(Système de Classification des Industries de l’Amérique du Nord), représentent des regroupements d’industries construits par Statistique Canada et qui sont au nombre de 33. Cependant, on a 17 régions administratives dans la province.

Certains des objectifs de l’enquête changent d’un cycle à une autre. Par exemple, en 2015, beaucoup d’employeurs affirment avoir de la difficulté à combler certains postes au sein de leurs entreprises. On parlait de pénurie de main-d’œuvre. Alors, un objectif important de la réalisation de l’EREFQ en 2015, l’EREFQ 2015, était de fournir des statistiques fiables sur les postes en difficulté de recrutement. Ainsi, l’enquête voulait connaître, par exemple, le nombre de postes vacants en raison des difficultés de recrutement par région et pour les 33 scians. La base de sondage de l’EREFQ 2015 est le répertoire des établissements du Québec3. Ce répertoire contient la liste des établissements de cinq employés et plus présents sur le sol québécois. Afin de le mettre à jour, on ajoute d’une façon continue chaque nouvel établissement

1. http://www.emploiquebec.gouv.qc.ca/uploads/tx_fceqpubform/00_etu_persp_EREFQ_2014-15.pdf

2. https://www150.statcan.gc.ca/n1/fr/pub/12-501-x/12-501-x2012001-fra.pdf?st=O3WY5x_r

3. http://imt.emploiquebec.gouv.qc.ca/mtg/inter/noncache/contenu/asp/ice621_rechrentrp_01. asp?lang=FRAN&Porte=4

(31)

qui s’inscrit au registre des entreprises du Québec, sachant que tout établissement nouvellement ouvert y est automatiquement inscrit. En revanche, les établissements qui ferment, ou ceux avec un nombre d’employés qui devient inférieur à cinq, ne sont pas retirés du répertoire d’une façon continue. L’information concernant ces établissements n’est mise à jour qu’une fois chaque deux ans, lors d’un recensement de tous les établissements du Québec. Ainsi, la base de sondage ne souffre pas d’un problème de sous-couverture, car les nouvelles unités y sont toutes entrées, mais plutôt de sur-couverture.

La base de sondage de l’EREFQ 2015 contient des informations auxiliaires à savoir le secteur économique et l’adresse postale. Ceci permet de stratifier à des fins administratives, par scian et par région administrative. Aussi, la base de sondage contient le nombre d’employés pour chaque établissement, qui est une variable de stratification à des fins statistiques. Tel que mentionné à l’introduction du chapitre 1, stratifier par la taille a pour principal objectif de bonifier la précision des estimations de l’enquête.

2.2 Planification de l’EREFQ 2015

L’EREFQ 2015 est stratifiée selon 33 secteurs économiques et 17 régions administratives. De plus, on a 3 strates de tailles : petite, moyenne et grande, pour un total de 33×17×3 strates. Ce choix du nombre de strates de taille a été décidé par les planificateurs de l’enquête, qui trouvaient que c’est pratique lors de l’interprétation des résultats.

Les bornes de strates de taille de l’enquête sont 20 et 100, uniformément pour toutes les régions administratives et tous les secteurs économiques. Ainsi, les établissements dont le nombre d’employés est entre 5 et 20 sont classés dans la strate "petite taille". Ceux ayant une taille entre 20 et 100 employés sont dans la strate "moyenne taille" et ceux qui ont un nombre d’employés plus grand que 100 sont dans la strate "grande taille". Ce choix de bornes n’est pas justifié par l’atteinte d’un objectif de précision statistique, mais plutôt à la suite d’une entente entre les planificateurs de l’enquête.

Après avoir stratifié la base de sondage, qui contient environ 120 000 établissements, un échan-tillon aléatoire simple est tiré dans chacune des strates en utilisant l’allocation proportionnelle. La taille de l’échantillon est calculée à partir de l’objectif de précision de l’enquête, soit un CV de 5 % pour toutes les 33× 17 strates administratives. La variable utilisée dans ce calcul est la variable de stratification, le nombre d’employés dans la base de sondage. Ainsi, la taille totale de l’échantillon est égale à 69 740 établissements. Chaque établissement tiré est contacté afin de répondre au questionnaire de l’enquête. Malgré tous les efforts de la firme en charge de l’enquête, on a seulement 31 452 répondants.

Le taux de réponse de l’enquête est de 57%. Ce taux est calculé en ajoutant aux répondants les établissements non admissibles, qui sont ceux dont le nombre d’employés est moins de 5,

(32)

ceux dont le numéro de téléphone est invalide ainsi que ceux qui ont été fusionnés avec un autre établissement.

Plusieurs raisons expliquent la non réponse d’environ 30 000 établissements. Les plus impor-tantes sont les rendez-vous non respectés (21 %), tomber toujours sur le répondeur (10 %) et l’absence d’une personne ressource pendant la période de collecte (7 %). Environ la moitié des établissements qui n’ont pas répondu à l’enquête n’ont indiqué aucune raison particulière. Le taux de mortalité estimé de l’enquête est de 15 %. Ce taux représente le pourcentage des établissements qui sont tirés dans l’échantillon, mais qui n’existent plus, ou qui sont hors champ car leur taille est plus petite que 5 employés. Ces établissements ne sont retirés du répertoire que lors de sa mise à jour, une fois chaque deux ans. C’est pour cette raison que le taux de mortalité est assez important.

2.3 Résultats de l’EREFQ 2015

Même si 31 452 établissements parmi les 120 000 de la population ont répondu à l’enquête, soit environ le quart, l’objectif de précision n’est pas atteint pour plusieurs variables d’intérêt. En effet, le CV de certains estimateurs à l’intérieur des strates dépasse le 5 % pour atteindre, parfois, 30 %. C’est le cas pour la région de la Côte-Nord4 (où certaines estimations ont une marge d’erreur relative plus grande que 66 %). Une explication à ce manque de précision est que les bornes de strates de taille ne permettent pas d’avoir des estimations fiables. Effectivement, utiliser pour toutes les strates les bornes 20 et 100 n’assure pas l’inclusion des établissements de grande taille, ce qui peut causer une augmentation de la variation des estimations.

L’utilisation systématique d’une strate recensement pour les grands établissements auraient également eu un impact sur la précision des estimations de l’enquête. En effet, si certains de ces établissements de grande taille ne sont pas inclus dans l’échantillon, la précision des résultats peut beaucoup diminuer. Par exemple, une étude approfondie des résultats de l’EREFQ 2015 permet de constater que pour le secteur minier de la région Côte-Nord, deux parmi les trois plus grands établissements ne sont pas inclus dans l’échantillon. Ces deux établissements représentent, à eux seuls, 60 % du nombre des employés du secteur ! Obtenir des statistiques fiables sur le secteur minier de la région sans tenir compte de ces deux établissements est impossible.

Avoir des bornes de strates de 20 et 100 ne permet pas d’assurer l’inclusion des établissements de grande taille. En effet, la strate 100 et plus peut contenir des établissements de taille 100, 200 et aussi 2 000 employés. Un échantillon aléatoire de cette strate ne garantit pas d’inclure les plus larges établissements et la variance d’un estimateur de la moyenne d’une variable d’intérêt dans une telle strate va être très grande. Aussi, chaque région et chaque secteur économique

4. https://www.emploiquebec.gouv.qc.ca/fileadmin/fichiers/pdf/Regions/Cotes-Nord/09_etu_ persp_EREFQ.pdf

(33)

ont des caractéristiques différentes. Par exemple, supposons que la région de Montréal contient plusieurs secteurs économiques qui ont des établissements de tailles beaucoup plus grandes que 100 employés. Utiliser une strate de 100 employés et plus risque de donner des estimations très variables pour la région. D’un autre côté, supposons que la région de la Gaspésie contient des secteurs économiques qui ont des petites tailles, utiliser la même strate de 100 et plus risque d’éxclure des établissements importants pour la région. Ainsi, il est préférable que chaque région ait des bornes de strates qui reflètent ses caractéristiques économiques.

2.4 Description de la base de données EREFQ 2015

Afin de comparer les méthodes de stratification présentées dans le chapitre 1, on utilise l’échan-tillon de l’EREFQ 2015 comme base de données. Cependant, parmi les 31 452 répondants à l’enquête, la base de données utilisée contient seulement 29 800 établissements. Cette diffé-rence est due à un problème d’appariement entre la base de sondage et l’échantillon. Pour chaque établissement de la base de données EREFQ 2015, on a la région administrative dans laquelle il se trouve, le secteur économique auquel il appartient, sa taille telle qu’indiquée dans le répertoire des établissements du Québec, qui est la variable de stratification X, ainsi que 7 variables d’intérêt parmi les variables d’intérêt les plus importantes de l’enquête. En revanche, on utilise un nouveau regroupement de 12 secteurs économiques remplaçant celui de 33 secteurs. Ce nouveau regroupement, qui est utilisé par Emploi Québec, permet d’avoir une idée plus globale sur le marché de travail, surtout pour les petites régions. Le tableau 2.1 présente le nombre d’établissements dans la base de données par région administrative et par secteur économique.

Table 2.1 – Nombre d’établissements dans la base de données EREFQ 2015 pour les 17 régions administratives et les 12 secteurs économiques

Région / Secteur 1 2 3 4 5 6 7 8 9 10 11 12 Total 6-Montréal 112 31 22 166 645 744 133 585 227 566 767 313 4311 16-Montérégie 243 50 33 284 595 646 157 486 125 339 713 223 3894 3-Capitale-Nationale 122 39 13 157 276 430 92 430 137 298 502 200 2696 12-Chaudière-Appalaches 99 88 16 191 305 338 103 240 75 166 415 108 2144 2-Saguenay–Lac-Saint-Jean 102 104 22 173 127 303 73 243 62 149 352 113 1823 14-Laurentides 100 43 11 130 172 294 73 272 58 162 319 104 1738 15-Lanaudière 122 33 12 140 189 280 53 262 68 126 310 102 1697 5-Estrie 108 42 3 119 224 274 59 252 66 123 304 92 1666 1-Bas-Saint-Laurent 90 64 11 99 90 270 88 217 62 119 325 95 1530 17 - Centre-du-Québec 106 47 10 119 245 236 55 167 41 118 235 86 1465 4-Mauricie 59 44 3 106 133 233 61 235 44 113 262 90 1383 7-Outaouais 30 23 3 107 49 211 39 217 64 106 272 76 1197 8-Abitibi-Témiscamingue 37 41 23 81 64 215 65 160 51 124 243 64 1168 13-Laval 32 9 4 88 134 236 34 156 64 120 191 80 1148 9-Côte-Nord 18 15 3 68 17 148 37 153 39 68 222 54 842 11-Gaspésie–Îles-de-la-Madeleine 50 20 1 50 23 138 44 147 30 53 183 44 783 10-Nord-du-Québec 0 3 8 20 6 50 10 55 10 15 117 21 315 Total 1430 696 198 2098 3294 5046 1176 4277 1223 2765 5732 1865 29800

(34)

est le suivants. 1 : Agroalimentaire. 2 : Forêt, bois et papier.

3 : Mines et première transformation des métaux. 4 : Services publics et construction.

5 : Fabrication autre qu’alimentaire, bois et première transformation des métaux. 6 : Commerce de gros et de détail.

7 : Transport et entreposage.

8 : Hébergement, restauration, communications et information, industrie culturelle et arts et spectacle.

9 : Finances, assurances et services immobiliers.

10 : Services professionnels, scientifiques et techniques et gestion de sociétés et service admi-nistratifs et gestion des déchets.

11 : Enseignement, santé, assistance sociale et administration publique. 12 : Autres services.

2.4.1 Taux de présence pour les 7 variables d’intérêt dans la base de données EREFQ 2015

Le taux de présence d’une variable d’intérêt est le pourcentage des établissements inclus dans la base de données et qui ont répondu à la question du sondage en lien avec cette variable. Ce taux varie énormément d’une variable à une autre. Comme le montre le tableau 2.2, le taux de présence peut varier de 22 % pour le nombre de postes vacants en raison des difficultés de recrutement, V 6, pour atteindre 100 % pour le nombre total d’employés, V 1. Ce taux de présence pour V 6 indique que 22 % des 29 800 établissements inclus dans la base de données EREFE 2015 ont répondu à la question en lien avec la variable.

Table 2.2 – Taux de présence pour les 7 variables d’intérêt de la base de données EREFQ 2015

Variable Taux de présence %

V1 100 V2 10 V3 43 V4 65 V5 58 V6 22 V7 22

Les 7 variables d’intérêts présentes dans la base de données sont les suivantes. V1 : Nombre total d’employés dans l’établissement.

V2 : Nombre de postes en difficulté de recrutement. V3 : Nombre total d’employés embauchés.

(35)

V4 : Nombre d’employés ayant reçu une formation.

V5 : Nombre total d’employés ayant quitté l’établissement.

V6 : Nombre de postes vacants en raison des difficultés de recrutement. V7 : Nombre total de postes vacants.

La différence entre la variable V 1 et la variable de stratification X est que les deux variables mesurent le nombre d’employés dans l’établissement, mais à deux temps différents. La variable X mesure le nombre d’employés tel qu’indiqué lors de la mise à jour de la base de sondage et la variable V 1 mesure le nombre d’employés lors de la réalisation de l’enquête.

2.4.2 Taux de présence par région

Le taux de présence pour une même variable varie d’une région à une autre. Cependant, cette fluctuation n’est pas grande, comme le montre le graphique 2.1.

Figure 2.1 – Taux de présence pour les 7 variables de la base de données EREFQ 2015 par région administrative

2.4.3 Taux de présence par secteur économique

Une étude du taux de présence des 7 variables d’intérêt par secteur économique montre une petite variation d’un secteur à un autre, pour une même variable. Le taux de présence le plus variable à l’intérieur des secteurs est celui de la variable V4, le nombre d’employés ayant reçu une formation.

(36)

Figure 2.2 – Taux de présence pour les 7 variables de la base de données EREFQ 2015 par secteur économique

L’objectif du prochain chapitre est de comparer différentes stratégies de construction de plan de sondage, discutées au chapitre 1, en utilisant la base de données EREFQ 2015, afin de réaliser plusieurs études préliminaires pour la prochaine enquête EREFQ.

(37)

Chapitre 3

Comparaison des algorithmes de

stratification à l’aide de la base de

données EREFQ 2015

3.1 Introduction

Lors de la planification de l’EREFQ 2015, les bornes de strates de taille utilisées sont 20 et 100, et ce pour toutes les régions administratives et tous les secteurs économiques. Ce choix de bornes est parmi les causes du manque de fiabilité des estimations, ce qui a limité l’utilisation des résultats de l’enquête. Vu que l’adoption des bornes 20 et 100 n’était pas basée sur l’atteinte des objectives de précision, on prévoit que les bornes calculées suivant les algorithmes de stratifications, abordés au chapitre 1, donneront un meilleur résultat.

Dans la section suivante, on applique les méthodes de calcul des bornes de strates sur la base de données EREFQ 2015, décrite à la section 2.4. Comme premier exemple, on s’intéresse seulement à la région de Montréal, vu le grand nombre de strates de l’enquête.

3.2 Calcul des bornes de strates de taille pour la région de

Montréal

La région de Montréal est la région la plus importante du Québec. En effet, Montréal contient environ le quart de l’ensemble des établissements de la province. Les principaux secteurs économiques, par rapport au nombre d’employés, sont le service des soins de santé et assistance sociale, les services professionnels, scientifiques et techniques ainsi que le secteur du commerce de gros et de détail.