L'échantillonnage équilibré par la méthode du cube et la méthode rejective

(1)

L’échantillonnage équilibré par la méthode du cube et

la méthode rejective

Mémoire

Ibrahima Ousmane Ida

Maîtrise en statistique

Maître ès sciences (M.Sc.)

Québec, Canada

(2)

(3)

Résumé

Au cours de ces dernières années, les techniques d’échantillonnage équilibré ont connu un regain d’intérêt. En effet, ces techniques permettent de reproduire la structure de la population dans des échantillons afin d’améliorer l’efficacité des estimations. La reproduction de cette structure est effectuée par l’introduction des contraintes aux plans de sondage.

Encore récemment, des nouvelles procédures d’échantillonnage équilibré ont été proposées. Il s’agit notamment de la méthode du cube présentée parDeville et Tillé(2004) et de l’algorithme réjectif deFuller(2009). Alors que la première est une méthode exacte de sélection, la seconde est une approche approximative qui admet une certaine tolérance dans la sélection.

Alors, après une brève présentation de ces deux méthodes dans le cadre d’un inventaire de pêcheurs, nous comparons à l’aide de simulations Monte Carlo, les plans de sondage produits par ces deux méthodes. Aussi, cela a été l’occasion pour nous de vérifier si ces méthodes modifient les probabilités de sélection des unités.

(4)

(5)

Abstract

In recent years, balanced sampling techniques have experienced a renewed interest. They allow to reproduce the structure of the population in samples in order to improve the efficiency of survey estimates. New procedures have been proposed. These include the cube method, an exact method presented by Deville and Tillé (2004), and an approximate method, the Fuller (2009) rejective algorithm.

After a brief presentation of these methods as part of an angler survey, we compare using Monte Carlo simulations, the survey designs produced by these two sampling algorithms. We also use this as an opportunity to check whether these methods modify the inclusion probabilities.

(6)

(7)

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures xi

Remerciements xvii Avant-propos xix Introduction 1 1 Plans de sondage 3 1.1 Notation . . . 3 1.2 Plan de sondage . . . 4

1.3 Plan de sondage stratifié . . . 5

1.4 Plan de sondage à plusieurs degrés . . . 6

1.5 Plan de sondage équilibré . . . 7

1.6 Intérêt du plan de sondage équilibré . . . 9

1.7 Difficultés et conséquences de l’équilibrage . . . 10

2 Méthodes d’échantillonnage équilibré 11 2.1 Méthode du cube . . . 11

2.2 Méthode rejective de Fuller . . . 28

3 Applications à la pêche sportive au bar rayé en Gaspésie 31 3.1 Contexte de la pêche sportive . . . 32

3.2 Localisation de la zone de l’enquête sur la pêche sportive au bar rayé . . . . 32

3.3 Information auxiliaire sur les secteurs et les sites . . . 33

3.4 Période de l’enquête sur la pêche sportive au bar rayé . . . 35

3.5 Application de la méthode du cube pour la sélection d’échantillons équilibrés pour les jours de semaine . . . 37

3.6 Application de la méthode du cube pour la sélection d’échantillons équilibrés pour les jours fériés . . . 42

(8)

3.8 Validation des résultats des simulations pour les jours de semaine et les jours

fériés . . . 49

4 Simulations par la méthode du cube et la méthode rejective 53 4.1 Information auxiliaire définie pour les simulations . . . 53

4.2 Vue d’ensemble du plan d’échantillonnage . . . 54

4.3 Probabilités d’inclusion conjointes des unités. . . 56

4.4 Sélection par la méthode du cube . . . 57

4.5 Sélection par la méthode rejective. . . 60

4.6 Validation des résultats des simulations . . . 62

4.7 Discussions . . . 64

Conclusion 67 A Annexes 69 A.1 Apercu des populations à partir les échantillons . . . 69

A.2 Contraintes par rapport aux sous-périodes imposées au deuxième degré dans la sélection pour les jours de semaine . . . 71

A.3 Contraintes par rapport aux périodes imposées au deuxième degré dans la sélection pour les jours fériés . . . 73

A.4 Contraintes par rapport aux sous-périodes imposées au troisième degré dans la sélection pour les jours fériés . . . 74

A.5 Programmes. . . 76

(9)

Liste des tableaux

2.1 Base de sondage pour le tirage d’échantillon dans l’exemple 2.1.3 . . . 18

2.2 Échantillons équilibrés sélectionnés au cours de la phase de vol . . . 19

2.3 Base de sondage pour le tirage d’échantillon dans l’exemple 2.1.4 . . . 23

2.4 Résultats de la phase de vol et échantillons compatibles . . . 24

2.5 Résultats de la phase d’atterrissage par programmation linéaire . . . 24

2.6 Résultats de la sélection d’échantillon stratifié et équilibré . . . 27

3.1 Importance des secteurs et des sites dans l’enquête sur la pêche sportive au bar rayé en Gaspésie. . . 34

3.2 Calendrier de l’enquête sur la pêche sportive au bar rayé en Gaspésie, avec les jours fériés indiqués en gras (Daigle et collab., 2015). . . 36

3.3 Résultats des simulations pour les jours de semaine. . . 49

3.4 Résultats des simulations pour les jours fériés. . . 50

4.1 Importance attribuée aux secteurs et aux sites pour fins de simulations. . . 54

4.2 Tests des différences entre les moyennes des fréquences estimées des sites et les fréquences observées. . . 63

4.3 Total des Biais et total des erreurs quadratiques moyennes. . . 64

A.1 Aperçu de la population pour la sélection pour les jours de semaine . . . 69

A.2 Aperçu de la population pour la sélection pour les jours fériés . . . 70

A.3 Aperçu de la population pour les simulations du quatrième chapitre . . . 70

A.4 Correspondance des variables d’équilibrage en théorie et en pratique dans les simulations pour les jours de semaine. . . 81

A.5 Correspondance des variables d’équilibrage en théorie et en pratique dans les simulations pour les jours fériés . . . 87

A.6 Correspondance des variables d’équilibrage en théorie et en pratique dans les simulations du chapitre 4 . . . 95

(10)

(11)

Liste des figures

2.1 Échantillons possibles à partir d’une population de taille N = 3.. . . 13

2.2 Phase de vol dans une population de taille N = 3 avec une contrainte de taille

fixe n = 2 pour l’échantillon. . . 16

(12)

(13)

A tous ceux que j’ai croisés sur mon chemin et qui m’ont appris des choses.

(14)

(15)

Si vous faites toujours de votre mieux, continuellement, vous deviendrez un maitre de la transformation. C’est la pratique qui fait le maitre. [...] Tout ce que vous savez, vous l’avez appris par la répétition. [...] Agir, mettre en pratique, voilà ce qui fait la différence.

Les quatre accords toltèques Don Miguel Ruiz

(16)

(17)

Remerciements

Je tiens à remercier sincèrement mon directeur de recherche, le professeur Louis-Paul Rivest, qui s’est toujours montré disponible malgré son emploi de temps surchargé. Si la rédaction de ce mémoire est arrivé à terme, c’est grâce à ses suggestions, remarques et sages conseils prodigués souvent avec humour au cours de nos multiples rencontres.

Je remercie également Gaétan Daigle et Hélène Crépeau qui, au début de ce projet, nous ont accordé de leur temps pour discuter de l’enquête sur la pêche sportive au bar rayé et fourni la documentation sur cette opération.

(18)

(19)

Avant-propos

Ce mémoire a été rédigé sous la direction de Louis-Paul Rivest et la proposition du sujet de recherche vient également de lui. C’est lui qui m’a convaincu de travailler sur ce thème en me montrant l’importance des méthodes d’échantillonnage équilibré qui deviennent de plus en plus populaires et dont l’utilisation se répand dans les institutions de sondage.

Ses interventions ont fortement permis de recadrer cette étude dont le champ m’est totale-ment inconnu au début. C’est pourquoi, les premières simulations m’ont été particulièretotale-ment difficiles. Mais, cela n’a tout de même pas empêché qu’en fin de compte un document ait été produit.

(20)

(21)

Introduction

Les techniques de sondage sont depuis longtemps utilisées pour étudier une population à partir d’un de ses sous-ensembles. Mais, très tôt la question de représentativité, dans le processus du choix de ce sous-ensemble, s’est posée. La question est légitime, car la représentativité permet d’améliorer l’efficacité des enquêtes et de réduire la variance des estimateurs. C’est pourquoi, depuis plusieurs années, des méthodes sont développées en vue de répondre à cette préoccupation. Il s’agit notamment des méthodes d’échantillonnage équilibré.

Les premières méthodes de tirage d’échantillon équilibré aléatoire ont été proposées parYates

(1946) et par Thionet (1953). Mais, ce sont des méthodes réjectives qui consistent à tirer progressivement plusieurs échantillons aléatoires jusqu’à l’obtention d’un échantillon équilibré. Par ailleurs, depuis quelques années, les méthodes de sondage équilibré n’ont cessé de se per-fectionner. C’est à ce titre queDeville et Tillé (2004) ont mis au point la méthode du cube qui est un algorithme exact permettant le tirage d’échantillon équilibré. Cette méthode est basée sur une transformation aléatoire du vecteur des probabilités d’inclusion jusqu’à l’obtention un échantillon qui satisfait les probabilités d’inclusion et des équations soigneusement incorpo-rées. Encore récemment,Fuller(2009) a proposé une nouvelle version des méthodes rejectives servant à sélectionner un échantillon équilibré lorsqu’un ensemble de contraintes doivent être respectées.

Alors, l’objectif de ce mémoire est d’étudier ces deux procédures d’échantillonnage équilibré, c’est-à-dire la méthode du cube et la méthode rejective de Fuller. Dans un premier temps, il tentera, dans le contexte de l’enquête sur la pêche sportive au bar rayé en Gaspésie (Daigle et collab., 2015), d’explorer comment intégrer des contraintes spatiales et temporelles à un plan de sondage et l’utiliser pour simuler des échantillons équilibrés par la méthode du cube. Dans un deuxième temps, il essayera aussi de comparer la méthode du cube et la méthode rejective à partir de simulations Monte Carlo. Aussi, les résultats de ces dernières serviront à examiner l’efficacité de ces méthodes en termes de biais et d’erreurs d’estimation.

Ce mémoire s’articule alors autour de quatre chapitres dont le premier présente brièvement quelques concepts généraux sur les méthodes de sondage. Le second chapitre expose une des-cription de la méthode du cube et de la méthode rejective. Quant au troisième chapitre, il

(22)

détaille l’application de la méthode du cube à l’enquête sur le pêche sportive au bar rayé. En-fin, le quatrième chapitre montre la démarche empruntée pour confronter les deux méthodes d’échantillonnage.

(23)

Chapitre 1

Plans de sondage

Introduction

Les méthodes d’échantillonnage équilibré sont des techniques qui permettent d’améliorer les estimateurs. Des auteurs comme Deville, Grosbras et Roth (1988), Deville et Tillé (2004) et

Fuller (2009) ont travaillé sur ces méthodes et ont mis au point de nouvelles procédures de sélection d’échantillons équilibrés. L’objectif de ces méthodes consiste à reproduire la structure de la population dans les échantillons et à améliorer l’efficacité des estimations qui en découlent. Le présent chapitre rappelle quelques notions générales sur les plans de sondage. Il présente d’abord la définition d’un plan de sondage, puis définit le plan de sondage stratifié et le plan de sondage à plusieurs degrés. Il expose ensuite ce qui détermine un plan de sondage équilibré et quelques uns de ses cas particuliers. Il aborde ensuite brièvement l’intérêt de l’échantillonnage équilibré pour enfin s’achever sur les difficultés souvent rencontrées dans mise en application de cette technique.

1.1 Notation

Le processus de sondage permet, à partir d’une population donnée, d’aboutir à un échantillon. La population et l’échantillon présentent chacun des caractéristiques. La présente section décrit la notation adaptée pour distinguer les deux entités et certaines de leurs caractéristiques. Ainsi, la population est désignée par U et sa taille par N. Tous ses éléments ou unités sont numérotés de 1 à N. D’une manière simplifiée, la population est représentée par :

U = {1, 2, · · · , N }

En ce qui concerne l’échantillon, il est noté s et n représente sa taille. Les n unités qui composent un échantillon conservent les numéros qui leur sont attribués dans la population. Par ailleurs, l’ensemble des échantillons possibles est désigné S.

(24)

Soient x une variable et xi sa valeur pour la ieme` unité de la population. Le total, noté tx, de

la variable x dans l’ensemble de la population est tel que : tx =

N

X

i=1

xi (1.1)

Quant à la moyenne de x dans la population, elle est nommée xU et calculée ainsi :

xU = 1 N N X i=1 xi (1.2)

Des statistiques telles le total et la moyenne de x dans la population sont estimables à partir de l’échantillon. Dans ce présent document, un intérêt particulier est porté aux estimateurs de Horvitz-Thompson. En effet, un estimateur est une expression mathématique qui, à chaque échantillon possible dans la population, fait correspondre une estimation (Ardilly,2006). Les estimateurs de Horvitz-Thompson sont alors des formules proposées parHorvitz et Thompson

(1952) pour estimer des caractéristiques comme le total et la moyenne d’une variable à l’aide d’un échantillon.

Si πi est la probabilité d’inclusion d’une unité i de la population, c’est-à-dire la chance de

cette unité d’appartenir à l’échantillon, l’estimateur de Horvitz-Thompson du total de x, noté btxHT, se définit par : b txHT = X i∈s xi πi (1.3)

Pour ce qui est de l’estimateur de Horvitz-Thompson de la moyenne de x, il est nommébxHT

et se calcule par : b xHT = 1 P i∈sπ1i X i∈s xi πi (1.4)

où πi est la probabilité d’inclusion de l’unité i, N la taille de la population et s l’échantillon.

Les estimateurs de Horvitz-Thompson sont réputés être des estimateurs sans biais lorsque les probabilités d’inclusion sont toutes différentes de zéro.

1.2 Plan de sondage

Le sondage désigne, d’une façon générale, la sélection d’une partie d’une population, appe-lée échantillon, et l’étude de certaines caractéristiques de cet échantillon afin d’en tirer des inférences sur la population. Le premier point important de ce processus concerne donc la sélection de l’échantillon. D’où se pose la question de la méthode de sélection.

Définition 1.2.1 Soient la population U présentée à la section1.1et S l’ensemble des échan-tillons s possibles à partir de U .

(25)

Un plan de sondage, appelé aussi plan d’échantillonnage, est toute fonction de probabilité qui, à chaque sous-ensemble s de S, associe une probabilité p(s) pour que s soit l’échantillon sélectionné, de telle sorte que :

X

s∈S

p(s) = 1 et 0 ≤ p(s) ≤ 1 (1.5)

Le plan de sondage détermine alors les probabilités de sélection des échantillons qui peuvent être formés à partir des unités de la population.

Exemple 1.2.1 Plan aléatoire simple sans remise (Lohr,2009).

C’est le plan de sondage le plus simple ; il permet de sélectionner, sans remise, n unités dans une population U de taille N . Avec ce plan, les sous-ensembles s de taille différente de n n’ont aucune chance d’être sélectionnés. Par contre, les sous-ensembles, composés de n unités, ont la même probabilité de constituer l’échantillon ; et cette probabilité est non nulle. Ainsi, le plan de sondage aléatoire simple sans remise est tel que la probabilité :

p(s) =    1 (N n) si s est de taille n 0 sinon

où N_n = _{n!(N −n)!}N ! est le nombre de sous-ensembles s de taille n qui peuvent être formés à partir des N unités de U . Ce plan satisfait en effet les deux conditions exprimées dans la relation (1.5).

1.3 Plan de sondage stratifié

Parfois, les unités de la population sont très différentes les unes des autres. Il est, dans ce cas, intéressant de les diviser dans des groupes homogènes au sein desquels des tirages peuvent être effectués.

Définition 1.3.1 Soit la population U divisée en H parties, appelées strates et notées U1, U2,

· · · , U_H de tailles respectives N₁, N2, · · · , NH telles que N1+ N2+ · · · + NH = N .

Soient n₁, n2, · · · , nH les tailles échantillons à tirer respectivement dans les strates U1, U2, · · · , UH

telles que n1+ n2+ · · · + nH = n, où n est la taille de l’échantillon s tiré dans la population

U . Si S est l’ensemble des échantillons s possibles dans la population U et Sh l’ensemble des

échantillons s_h possibles dans la strate U_h, alors :

s = H [ h=1 sh et S = H [ h=1 S_h

(26)

Un plan de sondage stratifié se définit comme une fonction de probabilité qui, à chaque élément s de l’ensemble S des échantillons possibles, associe une probabilité p(s) de sorte que :

X s∈S p(s) = 1 et 0 ≤ p(s) ≤ 1 (1.6) et p(s) = H Y h=1 p(sh) =    1 QH h=1(Nh_nh) si sh est de taille nh 0 sinon (1.7)

Par ailleurs, la stratification utilise souvent une information auxiliaire pour déterminer l’ap-partenance des unités de la population aux différentes strates. C’est une stratégie efficace lorsque l’information ayant servi à la stratification est liée à la variable d’intérêt et que les strates formées sont homogènes (Selz et collab.,2012).

1.4 Plan de sondage à plusieurs degrés

Dans un sondage à plusieurs degrés, la population est considérée comme étant constituée d’un certain nombre d’unités de sondage du premier degré, chacune de ces unités étant elle-même constituée d’un certain nombre d’unités du second degré, etc. (Yates et Darmois,1951). Définition 1.4.1 Plan de sondage à deux degrés (Tillé, 2001).

Soit la population U partitionnée en M sous-populations, appelées unités primaires, notées U1, U2, · · · , UM de tailles respectives N1, N2, · · · , NM telles que N1+ N2+ · · · + NM = N .

De plus, soient les unités de chaque sous-population Ui notées 1, · · · , Ni et appelées unités

secondaires, S₁ l’ensemble des échantillons s₁ d’unités primaires qui peuvent être formés à partir de U₁, U2, · · · , UM et S1i l’ensemble des échantillons s1i d’unités secondaires possibles

dans chaque unité primaire Ui.

En général, un plan de sondage à deux degrés se définit comme un plan :

- qui permet de sélectionner un échantillon d’unités primaires s1 selon un plan p(s1) tel que :

P [S1 = s1] = p(s1) (1.8)

où S1 est l’échantillon aléatoire sélectionné de taille m et s1 un élément de l’ensemble S1 des

échantillons d’unités primaires possibles.

- et qui permet, dans chaque unité primaire retenu au premier degré, de sélectionner un échan-tillon d’unités secondaires s1i selon un p(s1i) tel que :

(27)

où S_1i est l’échantillon d’unités secondaires sélectionné de taille n_i et s_1i un élément de l’en-semble S_1i des échantillons d’unités secondaires possibles dans l’unité primaire U_i.

Dans un plan à deux degrés, la sélection des unités secondaires est conditionnelle au tirage des unités primaires. De plus, les tirages au deuxième degré sont indépendants d’une unité primaire à l’autre, comme dans une stratification où les unités primaires sélectionnées jouent le rôle de strates.

Le plan de sondage à deux degrés consiste alors à un double échantillonnage sur les unités primaires et puis sur les unités secondaires. Il constitue le cas le plus simple du plan de sondage à plusieurs degrés. Ainsi, le procédé de sondage à plusieurs degrés permet d’opérer, à tous les niveaux, la sélection des unités qui sont des divisions et subdivisons de la population.

1.5 Plan de sondage équilibré

Le sondage équilibré permet, par l’utilisation d’information auxiliaire, de sélectionner des échantillons équilibrés afin d’améliorer les estimateurs.

Définition 1.5.1 Soient la population U décrite à la section 1.1 et p variables auxiliaires x1, x2, · · ·, xp dont les valeurs sont connues pour toutes les unités de U . Pour tous les vecteurs

de valeurs x_i= (x1i, x2i, · · ·, xpi)0 prises par les p variables auxiliaires, le vecteur des totaux de

ces variables s’écrit :

Tx=

X

i∈U

xi (1.10)

et son estimateur de Horvitz-Thompson est :

b TxHT = X i∈s xi πi (1.11)

où πi est la probabilité de l’unité i et s un élément de l’ensemble S des échantillons possibles.

Un plan de sondage p(s) est dit équilibré sur les p variables x1, x2, · · ·, xp si et seulement si il

permet de sélectionner d’échantillon tel que (Tillé, 2001) :

b

TxHT = Tx (1.12)

Ces équations peuvent s’écrire :

X i∈s xi πi = N X i=1 xi,

pour tout échantillon s ∈ S tel que p(s) > 0, avec πi probabilité d’inclusion de l’unité i.

Aussi, par utilisation de la variance de bTxHT, les équations (1.12) peuvent être exprimées

comme suit :

V arTb_xHT

(28)

Les équations (1.12) sont appelées des contraintes d’équilibrage et les variables x1, x2, · · · , xp,

des variables d’équilibrage. En effet, les variables d’équilibrage peuvent être quantitatives ou bien qualitatives. Lorsqu’il s’agit de variables qualitatives, l’équilibrage se fait alors sur des variables indicatrices associées aux modalités de chacune de ces variables qualitatives.

Remarque 1.5.1 - Le plan de sondage équilibré peut être vu comme une procédure de re-cherche d’échantillon sur un ensemble réduit d’échantillons possibles. Et cet ensemble réduit contient uniquement les échantillons qui satisfont les contraintes d’équilibrage (Tillé, 2011b). Il peut s’écrire : Q = ( s ∈ S X i∈s xi πi =X i∈U xi ) (1.13) - De plus, l’équilibrage peut être implanté en imposant des contraintes sur des moyennes plutôt que sur des totaux.

1.5.1 Exemple de sélection d’échantillon de taille fixe par équilibrage Il existe quelques exemples connus de cas particuliers de plans de sondage équilibrés. Le plan de sondage de taille fixe en est un.

Soient la population U de la section 1.1 et une variable auxiliaire x dont les valeurs sont connues pour toutes les unités de cette population. Un échantillon s sélectionné est équilibré sur la variable x si : X i∈s xi πi =X i∈U xi (1.14)

où xi est la valeur de la variable x pour l’unité i, πi la probabilité d’inclusion de cette unité.

Lorsque la variable d’équilibrage x est égale à π le vecteur des probabilités d’inclusion des unités, c’est-à-dire que x = π, alors l’équation (1.14) satisfaite par l’échantillon devient :

X i∈s πi πi =X i∈s 1 =X i∈U πi= n (1.15)

C’est pourquoi, on dit que le plan de sélection d’échantillons de taille fixe est un cas particulier de plan équilibré, pour l’obtenir il suffit d’équilibrer un plan sur les probabilités d’inclusion des unités de la population (Tillé,2011b).

1.5.2 Exemple de stratification par équilibrage

Soit population U présentée dans la section1.3. Un plan est dit stratifié s’il permet de sélec-tionner dans les strates des échantillons de tailles fixes n1, n2, · · · , nH, de sorte que les tirages

(29)

Soient x1, x2, · · · , xH, H variables dont les valeurs prises pour chaque unité i de la population sont : xhi= ( 1 si i ∈ Uh 0 si i /∈ Uh h = 1, · · · , H, i = 1, · · · , N (1.16) où xhi est la valeur de la variable xh pour l’unité i de la population.

Sous un plan stratifié les estimateurs de Horvitz-Thompson des tailles des strates sont exac-tement égaux aux tailles des strates, ce qui est une propriété de l’équilibrage sur les variables indicatrices des strates. De ce fait, les équations d’équilibrage (1.12)sont satisfaites. Elles sont données ainsi : X i∈sh xhi πi = Nh, h = 1, · · ·, H (1.17)

où sh est l’échantillon sélectionné dans la strate Uh et πi= _Nnh_h.

C’est pourquoi, on dit que le plan stratifié est un cas particulier du plan de sondage équilibré. Alors, un plan stratifié est simplement un plan de sondage équilibré sur les variables indicatrices définissant l’appartenance des unités aux strates formant la population (Tillé,2011b).

1.6 Intérêt du plan de sondage équilibré

Une stratégie représentative est une stratégie qui consiste à estimer les totaux des variables auxiliaires sans erreur. De ce fait, le plan de sondage équilibré avec l’estimateur de Horvitz-Thompson est un cas particulier de stratégie représentative (Tillé, 2011a). Toutefois, il s’agit d’une représentativité vis-à-vis d’un certain nombre de caractéristiques disponibles et connues sur toute la population (Selz et collab.,2012).

De plus, différentes informations sur une population peuvent susciter un intérêt ; certaines sont connues d’autres non et nécessitent une investigation. Or très souvent, une corrélation peut exister entre les informations disponibles et celles qui sont inconnues. L’idée du sondage équi-libré repose donc sur l’utilisation de ces informations disponibles et corrélées avec la variable d’intérêt dans l’élaboration du plan. Ainsi, lorsqu’un échantillon sélectionné restitue exacte-ment les informations disponibles conforméexacte-ment à ce qu’on retrouve dans la population, alors il restituera bien l’information sur la variable d’intérêt grâce à la corrélation entre les deux types d’information (Tillé,2011b).

C’est ce qui explique la capacité du plan de sondage équilibré à améliorer l’efficacité des esti-mateurs. Par ailleurs, le même résultat peut être escompté par l’utilisation d’une technique de calage. De ce fait, l’équilibrage sur certaines variables auxiliaires disponibles sur la population peut être effectué à l’étape de l’élaboration du plan de sondage. Puis à l’étape des estima-tions, un calage peut être appliqué sur l’échantillon en utilisant d’autres variables. C’est en effet une stratégie efficace qui combine l’équilibrage et le calage pour améliorer la qualité des estimations (Tillé,2011a).

(30)

1.7 Difficultés et conséquences de l’équilibrage

Même si le concept d’échantillonnage équilibré résout en grande partie la question de représen-tativité, quelques difficultés d’ordre pratique peuvent parfois se poser. En effet, il faut noter que toute la difficulté réside dans la mise en œuvre d’algorithmes de tirage à la fois respec-tueux des probabilités inclusion, sans remise, rapides et généralisables à tout plan de sondage (Deville et Tillé,2004;Rousseau et Tardieu,2004).

La mise en application d’un échantillonnage équilibré nécessite que la sélection d’échantillon soit complètement aléatoire d’une part, et que les contraintes d’équilibrage soient respectées d’autre part. Cependant, dans certaines circonstances, les deux exigences ne sont pas toujours totalement satisfaites en même temps. En particulier, lorsque les contraintes imposées sont nombreuses.

Par ailleurs, d’autres raisons peuvent également contribuer à rendre la tâche difficile ou la sélection quasiment impossible, c’est le cas notamment du problème d’arrondis. On parle de problème d’arrondis lorsque toutes les contraintes d’équilibrage ne peuvent être exactement satisfaites. Alors, dans ce cas la sélection conduit souvent à un échantillon « approché », c’est-à-dire à un échantillon qui ne remplit pas exactement toutes les conditions mais qui reste tout de même acceptable. Toutefois, les conséquences de l’approximation sont négligeables lorsque la taille de l’échantillon est grande (Tillé,2001;Deville et Tillé,2004;Tillé,2011b).

De plus, bien que l’échantillonnage équilibré permette de maintenir les probabilités d’inclu-sion des unités, l’existence des contraintes d’équilibrage affecte par contre les probabilités d’inclusion conjointes. Ceci a pour conséquence de modifier la variance des estimateurs.

Conclusion

Lorsqu’une information auxiliaire sur la population est disponible, elle peut être exploitée dans le processus d’élaboration des plans de sondage afin de les équilibrer. L’équilibrage permet en effet de les rendre hautement personnalisés et efficaces.

Les méthodes d’échantillonnage équilibré sont applicables à des plans simples et à des plans complexes. Aussi, leur apport sur la question de la représentativité constitue déjà une grande avancée.

(31)

Chapitre 2

Méthodes d’échantillonnage équilibré

Introduction

Le concept d’échantillonnage équilibré est une idée très ancienne. Toutefois, les premières méthodes permettant son application datent des années 1940-1950. Ce sont en particulier des méthodes rejectives. Par ailleurs, au cours des dernières années de nouvelles méthodes ont vu le jour. Leur mise en application est beaucoup facilitée par le progrès de l’informatique. Parmi ces récentes méthodes, il y a notamment la méthode du cube proposée par Deville et Tillé (2004) et la méthode rejective de Fuller (2009). La première est une méthode exacte, tandis que la seconde est un algorithme approximatif. Le présent chapitre porte alors sur ces deux procédures. Dans un premier temps, il décrit la méthode du cube à travers ses phases de vol et d’atterrissage permettant de trouver à un échantillon équilibré. Dans un second temps, il présente brièvement la méthode rejective de Fuller.

2.1 Méthode du cube

La méthode du cube fait partie de la classe d’algorithmes d’échantillonnage qui réalisent le tirage d’un échantillon équilibré et qui satisfont exactement un ensemble de probabilités d’inclusion données. Ses fondements théoriques ont été établis parDeville et Tillé(2004). Cette méthode est en effet composée de deux phases : une phase de vol et une phase d’atterrissage. Pendant le déroulement de ces phases, l’algorithme procède à une transformation de façon aléatoire du vecteur des probabilités d’inclusion jusqu’à ce tous les éléments de ce vecteur soient des entiers 0 ou 1 et que les contraintes d’équilibrage soient satisfaites autant que possible (Tillé,2011a).

2.1.1 Représentation géométrique de la méthode du cube

La méthode dite du cube doit son nom à la représentation géométrique d’un plan de sondage (Tillé,2011a). Par ailleurs, un échantillon s peut être représenté par un vecteur d’indicateurs

(32)

montrant l’appartenance ou non des unités à l’échantillon. Ainsi, dans une population U de taille N, un échantillon s tiré se traduit par :

s = (Z1, Z2, · · · , ZN)0 (2.1)

où les Zi (i = 1, · · · , N) sont des aléatoires indicatrices telles que :

Zi = ( 1, si i ∈ s; 0, sinon. et P [Zi = z] = ( πi, si z = 1; 1 − πi, si z = 0. (2.2) avec πi qui désigne la probabilité d’inclusion de l’unité i.

L’échantillon s peut alors s’interpréter comme l’un des sommets d’un hypercube de dimension N. En effet, un plan de sondage, avec π comme vecteur des probabilités d’inclusion des unités de la population, attribue une probabilité p(s) à chaque sommet de l’hypercube de telle sorte que :

E (S) =X

s∈S

sp(s) = π (2.3)

où S est l’ensemble des échantillons possibles et représente également l’ensemble des sommets de l’hypercube de dimension N (Tillé,2011a,b).

(33)

Exemple 2.1.1 Soit une population U de taille N = 3. Les échantillons possibles, par un tirage aléatoire sans remise, à partir de cette population peuvent être identifiés par les sommets de l’hypercube de dimension 3 illustré par la figure 2.1.

(0,0,0) (1,0,0) (1,0,1) (1,1,1) (0,1,1) (0,1,0) (0,0,1) (1,1,0) π

Figure 2.1 – Échantillons possibles à partir d’une population de taille N = 3.

Un sommet de l’hypercube correspond à un échantillon pouvant être tiré de la population U (Tillé, 2011b,a; Deville et Tillé, 2004). Par exemple, le sommet (0, 1, 1) représente l’échan-tillon, de taille n = 2, composé des unités 2 et 3 de la population.

Alors, le principe de la méthode du cube consiste à chercher, parmi les sommets de l’hyper-cube, un échantillon qui vérifie les contraintes d’équilibrage imposées au plan de sondage. En d’autres termes, le problème repose sur la sélection d’un sommet de l’hypercube de dimen-sion N qui demeure dans le sous-espace linéaire Q. Ce dernier est en effet le sous-espace des contraintes présenté par l’équation (1.13) et explicité dans la sous-section2.1.2. Pour trouver une échantillon, l’algorithme exécute successivement la phase de vol et la phase d’atterrissage. Toutefois, lorsqu’un échantillon exactement équilibré existe, il est atteint lors de la phase de vol. Le cas échéant, l’algorithme poursuit la sélection avec la phase d’atterrissage afin de trouver un échantillon approximatif.

2.1.2 Phase de vol

La phase du vol est une marche aléatoire qui part du vecteur des probabilités d’inclusion des unités et demeure dans le domaine défini par l’intersection de l’hypercube et du sous-espace des contraintes d’équilibrage. En effet, l’hypercube représente l’ensemble des échantillons possibles. Quand un échantillon équilibré est rencontré, la marche aléatoire s’arrête à un sommet de l’hypercube et du sous-espace des contraintes (Deville et Tillé,2004).

(34)

Sous-espace de vol

Le sous-espace de vol représente le domaine dans lequel s’effectue la construction d’un échan-tillon équilibré au cours de la phase de vol.

Soit C l’hypercube de dimension N. Les sommets de l’hypercube représentent les échantillons possibles à partir de la population. Cet ensemble C est défini par :

C = [0, 1]N (2.4)

Les équations d’équilibrage données par l’équation (1.12) peuvent être aussi s’écrire en ces termes : N X i=1 Zi xi πi = N X i=1 xi (2.5)

où Ziest la variable aléatoire sur l’unité i de la population et définie par l’équation (2.2), xi le

vecteur des valeurs prises par les p variables d’équilibrage pour cette unité et πi sa probabilité

d’inclusion.

Alors, de façon effective, ce sont ces équations qui caractérisent le sous-espace des contraintes Qénoncé par l’équation (1.13). Il est en effet un sous-domaine, de dimension N-p, de l’ensemble RN. Aussi, il peut être exprimé par :

Q = π + KerA (2.6)

où π est le vecteur des probabilités d’inclusion des unités et KerA le noyau de la matrice A présentée par l’équation (2.8).

Le noyau KerA se définit :

KerA =u ∈ RN|Au = 0

(2.7) Pour ce qui est de la matrice A, elle est déduite des contraintes définies par l’équation (2.5) et se présente en ces termes :

A =     x11 π1 · · · x1i πi · · · x1N πN ... ... ... xp1 π1 · · · xpi πi · · · xpN πN     (2.8)

Par conséquent, pendant la phase de vol, le sous-espace de vol au sein duquel l’algorithme construit, de façon aléatoire, un échantillon équilibré est un polyèdre convexe K formé par l’intersection de C et de Q. Ce polyèdre K se définit donc :

(35)

Remarque 2.1.1 Un échantillon s est dit exactement équilibré lorsqu’il appartient à l’en-semble Ext(C) ∩ Q, où Ext(C) désigne l’enl’en-semble des sommets de l’hypercube C. En fait, Ext(C) représente simplement l’ensemble S des échantillons possibles à partir de la population U .

Alors, pour qu’un échantillon exactement équilibré puisse exister, l’ensemble Ext(C) ∩ Q doit nécessairement être non vide. Toutefois, si cette intersection est vide, l’équilibrage demeure encore possible, mais seulement de façon approximative.

Martingale équilibrante

Il faut rappeler qu’au cours de la phase de vol, la construction d’un échantillon équilibré est effectuée à l’aide d’une marche aléatoire. Cette dernière est en effet une martingale équilibrante.

Définition 2.1.1 Soit un processus aléatoire à temps discret π(t) ∈ RN défini par : π(t) = {πi(t)} , t = 0, 1, · · ·

Le processus π(t) est appelé martingale équilibrante pour un vecteur de probabilités d’inclusion π et un ensemble de p variables x1, x2, · · · , xp, s’il remplit les trois conditions suivantes (Tillé,

2011b) : 1. π(0) = π,

2. E {π(t) |π(t − 1), · · · , π(0) } = π(t − 1), t = 1, 2, · · · ,

3. π(t) ∈ K = {C ∩ (π + KerA)}, où la matrice A est définie par l’équation (2.8). Quand le processus atteint une face de C, il y demeure. En effet, le nombre de composantes entières de π(t), c’est-à-dire des éléments égaux à 0 ou 1, augmente strictement avec t.

Exemple 2.1.2 Soit une population U de taille N = 3, au sein de laquelle un échantillon équilibré doit être sélectionné selon un plan de sondage p(s). De plus, l’échantillon doit être de taille n = 2. Cette exigence de taille fixe est la seule contrainte d’équilibrage imposée au plan. Si π représente le vecteur des probabilités d’inclusion des unités de la population, alors la variable d’équilibrage x telle que x = π permet de prendre en compte la contrainte relative à la taille de l’échantillon.

Si la méthode du cube est utilisée pour chercher l’échantillon, à la première étape de la phase de vol, l’algorithme choisit un vecteur u(0). Cet dernier peut être pris aléatoirement ou bien de façon délibérée. Mais il est choisi de sorte que π + u(0) demeure dans le sous-espace de la contrainte d’équilibrage. La figure 2.2 montre comment la méthode recherche l’échantillon équilibré de taille n = 2 par l’utilisation d’une martingale équilibrante.

(36)

(0,0,0) (1,0,0) (1,0,1) (1,1,1) (0,1,1) (0,1,0) (0,0,1) (1,1,0) π(0) π(0) − λ∗₂u(0) π(0) + λ∗₁u(0)

Figure 2.2 – Phase de vol dans une population de taille N = 3 avec une contrainte de taille fixe n = 2 pour l’échantillon.

Sur la figure2.2, la zone grise représente le sous-espace de vol appelé K, c’est-à-dire l’inter-section entre l’hypercube de dimension 3 et le sous-espace de la contrainte. En partant de π, suivant la direction de u(0) le processus aboutit à un point d’une face de l’hypercube. Ce point est nommé π +λ∗₁u(0). Par contre, s’il suit la direction opposée de u(0), c’est-à-dire la direction de −u(0) à partir de π, il aboutit à un point, noté π − λ∗₂u(0), d’une autre face de l’hypercube.

A cette première étape, le vecteur π(0) = π est modifié de façon aléatoire pour avoir π(1). Ainsi, le vecteur π(1) est fixé à π + λ∗₁u(0) ou à π − λ∗₂u(0) selon des probabilités (voir Algorithme de la phase de vol) de sorte que E [π(1)] = π(0).

A la fin de la première étape, le processus atteint déjà une face de l’hypercube, ce qui implique qu’au moins une composante du vecteur π(1) est égale à 0 ou à 1. Ainsi, le problème qui correspondait à un problème d’échantillonnage à partir d’une population de taille N = 3 est ramené à un problème d’échantillonnage à partir d’une population de taille N = 2 (Tillé,

2011a,b).

La martingale s’arrête au bout de N étapes au plus. Si une solution exacte existe, elle s’achève donc sur un sommet de l’hypercube, sinon la phase d’atterrissage s’amorce pour trouver une solution approchée (Tillé,2011b).

Algorithme de la phase du vol

D’un point de vue pratique, le problème consiste à trouver un algorithme stochastique qui atteint rapidement un sommet. L’algorithme de la phase de vol se servant d’une martingale équilibrante permet d’atteindre cet objectif. Il exécute principalement trois tâches importantes.

(37)

Mais avant, il initialise d’abord le processus π(t) tel que π(0) = π, où le vecteur π désigne le vecteur des probabilités d’inclusion des unités de la population. Puis, il répète les trois tâches à travers les étapes suivantes (Tillé,2011b) :

Étape 1 : Générer un vecteur quelconque u(t) = {ui(t)} 6= 0 tel que :

1. u(t) soit le noyau de la matrice A donnée par l’équation (2.8), c’est-à-dire que Au(t) = 0 ; 2. ui(t) = 0si πi(t)est un entier 0 ou 1.

Étape 2 : Calculer les plus grandes valeurs λ∗₁(t)et λ∗₂(t)telles que : 0 ≤ π(t) + λ1(t)u(t) ≤ 1

0 ≤ π(t) − λ2(t)u(t) ≤ 1

π(t) = {πi(t)}, u(t) = {ui(t)}et t = 0, 1, · · · , N.

Étape 3 : Calculer π(t + 1) tel que : π(t + 1) =

(

π(t) + λ1(t)u(t) avec la probabilité q1(t)

π(t) − λ2(t)u(t) avec la probabilité q2(t)

où q1(t) = _λ₁_(t)+λλ2(t)₂_(t) et q2(t) = 1 − q1(t).

Remarque 2.1.2 - Le nombre maximum d’itérations possibles est égal à N . Plus l’algo-rithme passe d’une itération à l’autre, plus le nombre de composantes entières du vecteur π(t), c’est-à-dire que le nombre d’éléments égaux à 0 ou 1 augmente.

- Le vecteur u(t) peut être choisi aléatoirement ou bien de façon déterministe, mais il doit nécessairement être indépendant de π(t − 1), · · · , π(1).

- L’algorithme s’arrête à l’itération t lorsque le vecteur u(t) = 0, c’est-à-dire qu’il n’est plus possible de trouver un vecteur π(t + 1) qui soit différent de π(t).

- A la dernière itération, le processus atteint un sommet du polyèdre K donnée par l’équation (2.9). Si les composantes du vecteur qui caractérise ce sommet sont toutes entières (0 ou 1), alors un échantillon exactement équilibré est trouvé.

Exemple 2.1.3 Sélection de deux échantillons équilibrés par phase de vol

Soient une population U de taille N = 12 et π le vecteur des probabilités d’inclusion des unités. Soient x1 et x2 deux variables auxiliaires dont les valeurs sont connues pour toutes unités de

(38)

Table 2.1 – Base de sondage pour le tirage d’échantillon dans l’exemple2.1.3 Unité Probabilité Variables

d’inclusion auxiliaires N° π x1 x2 1 0,2 0,2 5 2 0,4 0,4 10 3 0,6 0,6 15 4 0,8 0,8 20 5 0,2 0,2 5 6 0,4 0,4 10 7 0,6 0,6 15 8 0,8 0,8 20 9 0,2 0,2 5 10 0,4 0,4 10 11 0,6 0,6 15 12 0,8 0,8 20 Total 6 6 150 π = {πi}

L’objectif est de sélectionner deux échantillons, de taille n = 6 chacun, à partir de la population U . De plus, ces échantillons doivent être équilibrés sur les variables auxiliaires x1 et x2. En

effet, dans la population, les totaux de ces variables sont tx1 = 6 pour x1 et tx2 = 150 pour x2.

L’algorithme de vol de la méthode du cube a permis de tirer les deux échantillons. Les résultats des étapes de la sélection sont présentés dans le tableau2.2.

(39)

Table 2.2 – Échantillons équilibrés sélectionnés au cours de la phase de vol Unité Probabilité d’inclusion Échantillon 1 Échantillon 2

N° π π(0) π(1) π(2) π(0) π(1) π(2) 1 0,2 0,2 0,8 1 0,2 0,6 0 2 0,4 0,4 1 1 0,4 1 1 3 0,6 0,6 0 0 0,6 1 1 4 0,8 0,8 0 0 0,8 0 0 5 0,2 0,2 0 0 0,2 1 1 6 0,4 0,4 1 1 0,4 0 0 7 0,6 0,6 0 0 0,6 0 0 8 0,8 0,8 1 1 0,8 0 0 9 0,2 0,2 1 1 0,2 0,4 1 10 0,4 0,4 0 0 0,4 1 1 11 0,6 0,6 0,2 0 0,6 0 0 12 0,8 0,8 1 1 0,8 1 1 Total 6 6 6 6 6 6 6 btx1HT - - - 6 - - 6 btx2HT - - - 150 - - 150 π = {πi}, π(t) = {πi(t)} et π(0) = π.

Dans chacun des deux tirages effectués, l’algorithme de vol est parvenu à sélectionner un échan-tillon exactement équilibré au bout de deux itérations. En effet, dans chaque tirage, l’échanéchan-tillon obtenu à la fin de la première itération est donné par le vecteur π(1). Mais, deux éléments de ce dernier ne sont pas entiers ; ce qui implique que le processus de construction de l’échantillon n’est pas terminé.

Alors, dans chacun des deux cas, la sélection s’est poursuivie avec une deuxième itération. Suite à cette dernière, toutes les composantes du vecteur π(2) sont égales à 0 ou 1, donc l’échantillon a été choisi. En effet, ces composantes permettent d’identifier les unités apparte-nant à l’échantillon. Ainsi, l’échantillon 1 est donné par l’ensemble d’unités {1; 2; 6; 8; 9, 12} et l’échantillon 2 par {2; 3; 5; 9; 10; 12}.

Les deux échantillons obtenus sont équilibrés sur les variables x1 et x2, car les totaux estimés

de celles-ci sont égaux aux totaux dans la population, soient respectivement 6 et 150. Les échantillons sont également de taille n = 6.

Remarque 2.1.3 - Durant le processus de sélection, le nombre de composantes entières du vecteur de probabilités π(t) s’est accru graduellement. En effet, ce nombre est passé de 10 composantes entières à 12, entre la première et la deuxième itération.

- À la fin de la phase de vol, si un échantillon exactement équilibré n’est pas sélectionné, alors cela signifie que conformément aux probabilités d’inclusion et aux contraintes définies un tel

(40)

échantillon n’existe pas. Entre d’autres termes, si un échantillon exactement équilibré existe, il sera alors trouvé au cours de la phase de vol.

- Le résultat de sélection par l’algorithme du cube dépend de la valeur initiale du vecteur des probabilités d’inclusion. En effet, avec deux vecteurs de probabilités d’inclusion différents et les mêmes contraintes, la méthode du cube conduira à des échantillons équilibrés différents, sauf s’il y a échantillons qui soient respectent les conditions aux deux plans à la fois. Cependant, avec le même vecteur de probabilités d’inclusion et les mêmes contraintes, les résultats de la méthode du cube peuvent différer s’il existe plusieurs échantillons équilibrés possibles.

2.1.3 Phase d’atterrissage

À la fin de la phase de vol, la martingale équilibrante atteint un sommet du polyèdre K défini par l’équation (2.9) et qui représente l’intersection de l’hypercube C et du sous-espace des contraintes Q. Si ce sommet ne concorde pas avec un sommet de l’hypercube C, alors un échantillon exactement équilibré n’est pas trouvé. Alors, les équations d’équilibrage ne sont pas toutes exactement satisfaites. Une phase d’atterrissage est donc nécessaire. Elle sert à rechercher une solution approchée, c’est-à-dire à trouver un échantillon presque équilibré qui soit acceptable. Pour ce faire, la phase d’atterrissage peut s’opérer de deux manières différentes : par une programmation linéaire ou par suppression de variables.

Atterrissage par programmation linéaire

L’atterrissage par programmation linéaire consiste à chercher un échantillon qui soit aussi proche que possible du sous-espace des contraintes d’équilibrage. Pour ce faire, l’algorithme utilise les résultats de la phase de vol pour exécuter la phase d’atterrissage.

Soient π∗ _{= {π}∗

i} le vecteur obtenu à la dernière itération de la phase de vol et q le nombre

des composantes non entières de π∗_{, avec q > 0.}

Dans un premier temps, La méthode recense les échantillons compatibles avec le vecteur π∗_.

L’ensemble formé par ces échantillons est noté C (π∗₎_{. Par ailleurs, un échantillon s (avec}

s = (Z1, Z2, · · · , ZN)0) est dit compatible avec π∗, si πi∗= Zipour tout i tel que π∗i un entier 0

ou 1. En d’autres termes, l’échantillon s est compatible avec le vecteur π∗ _{s’il contient toutes}

les composantes entières de π∗ ₍_{Deville et Tillé}_, ₂₀₀₄_{). En effet, les Z}

i sont les indicatrices

définies par l’équation (2.2) et qui indiquent l’appartenance ou non des unités à l’échantillon s.

Dans un deuxième temps, l’algorithme construit différents plans de sondage p(s) à partir des éléments de l’ensemble C (π∗₎_{. Par ailleurs, chaque plan p(s) constitué comporte un coût}

moyen calculé à partir des coûts des échantillons qui le composent. Le coût d’un échantillon est en général la distance qui sépare cet échantillon du sous-espace des contraintes Q. Toutefois,

(41)

il existe différentes façons de définir des fonctions de coût des échantillons et le choix d’une fonction donnée dépend des objectifs de l’enquête (Tillé,2011b;Deville et Tillé,2004). L’algorithme retient alors le plan de sondage p(s) qui minimise l’espérance du coût moyen. L’échantillon final est tiré au hasard selon ce plan défini à partir des probabilités fournies par le vecteur π∗_.

Remarque 2.1.4 L’échantillon final n’est pas forcement celui qui a le plus petit coût. Il est plutôt tiré selon le plan ayant la moindre espérance du coût moyen. De plus, ce plan n’attribue pas nécessairement une probabilité non nulle à l’échantillon qui a le plus petit coût parmi les échantillons compatibles (Tillé,2011b). C’est pourquoi, l’échantillon obtenu par programmation linéaire n’est pas toujours l’échantillon le plus équilibré.

Bien que la définition des fonctions des coûts dépende des objectifs de l’enquête, certaines fonctions sont souvent plus utilisées.

Définition 2.1.2 Soient Coˆut1(s) et Coˆut2(s) deux fonctions de coût associées à l’échantillon

s. La première fonction de coût Coˆut1(s) se définit par :

Coˆut1(s) = p X k=1 btxkHT(s) − txk txk !2 (2.10) où txk est le total de la variable d’équilibrage xk dans la population et btx_kHT(s) son estimateur de Horvitz-Thompson dans l’échantillon s.

Le coût Coˆut1(s) s’interprète alors comme la somme des carrés des écarts relatifs des

estima-teurs btxkHT(s) par rapport aux totaux txk.

La deuxième fonction de coût Coˆut2(s) se calcule par :

Coˆut2(s) = (s − π∗)0A0(AA0)−1A(s − π∗) (2.11)

où A est la matrice définie par l’équation (2.4) et π∗ le vecteur des probabilités d’inclusion obtenu à la dernière itération de la phase de vol.

Le coût Coˆut2(s) est une distance dans RN. Il représente en effet le carré de la distance entre

l’échantillon s et sa projection euclidienne dans le sous-espace des contraintes Q (Tillé,2011b).

Remarque 2.1.5 Pour chaque échantillon s de l’ensemble S des échantillons possibles, il la valeur de son coût peut être déterminée selon la fonction retenue. Si l’échantillon est exacte-ment équilibré, alors son coût est nul. Par contre, s’il n’est pas exacteexacte-ment équilibré, son coût est strictement supérieur à zéro.

(42)

Par conséquent, lorsqu’un échantillon exactement équilibré n’existe pas, l’algorithme du cube, en utilisant un atterrissage par programmation, résout un problème de minimisation pour trouver un échantillon approché. Cette résolution consiste à trouver les probabilités p(s|π∗₎

des échantillons compatibles s sachant le vecteur π∗ _{qui permettent de minimiser le coût le}

coût moyen. Une fois que ces probabilités sont trouvées, elles sont utilisées pour sélectionner un échantillon parmi les éléments de C (π∗_).

En effet, le programme linéaire résolu pendant la phase d’atterrissage s’écrit : min

p(s|π∗₎

X

s∈C (π∗₎

Coˆut(s)p(s|π∗) (2.12) où Coˆut(s) est le coût de l’échantillon s et p(s|π∗₎ _{une probabilité attribuée à cet échantillon}

sachant π∗_.

Cependant, ce problème est résolu sous certaines conditions qui sont : 1. Ps∈C (π∗₎p(s|π∗) = 1,

2. Ps∈C (π∗₎sp(s|π∗) = π∗,

3. 0 ≤ p(s|π∗_{) ≤ 1}_{, ∀s ∈ C (π}∗₎_.

où π∗ _{est le vecteur des probabilités obtenu à la fin de la phase de vol, C (π}∗₎ _{l’ensemble des}

échantillons compatibles avec π∗_{, s = (Z}

1, Z2, · · · , ZN)0 un échantillon compatible (Deville et

Tillé,2004).

Remarque 2.1.6 Le programme linéaire (2.12) ne dépend pas de la taille de la population. Il dépend plutôt du nombre p de variables d’équilibrage, car le nombre q de composantes non entières du vecteur π∗ est toujours inférieur ou égal p. De ce fait, la résolution se fait dans un ensemble restreint constitué de 2q échantillons compatibles.

Exemple 2.1.4 Sélection d’échantillon à la phase d’atterrissage par programmation linéaire

Soit une population U composée de 12 unités dont les probabilités d’inclusion des unités sont données dans le tableau2.3. Soient x₁ et x₂ deux variables connues sur les unités de la popu-lation et fournies dans le même tableau. L’objectif de tirer un échantillon, de taille 6, équilibré sur x1 et x2.

Un algorithme de vol, avec la fonction fastflightcube de la librairie Sampling de R, a été appliqué sur les données du tableau2.3pour chercher un échantillon exactement équilibré. Les résultats obtenus sont :

La phase de vol a donné le vecteur π∗ dont certaines composantes ne sont pas entières (voir tableau2.4). Cela signifie qu’un échantillon de taille 6 et exactement équilibré sur les variables

(43)

Table 2.3 – Base de sondage pour le tirage d’échantillon dans l’exemple2.1.4 Unité Probabilité Variables

d’inclusion auxiliaires N° π x1 x2 1 0,5 1 1 2 0,5 1 2 3 0,5 1 3 4 0,5 1 4 5 0,5 1 5 6 0,5 1 6 7 0,5 1 7 8 0,5 1 8 9 0,5 1 9 10 0,5 1 10 11 0,5 1 11 12 0,5 1 12 Total 6 12 78 π = {πi}.

x1 et x2 n’existe pas dans la population. Il est donc nécessaire de chercher un échantillon

approché. Pour ce faire, l’algorithme d’atterrissage landingcube a été exécuté. Il faut noter qu’il existe quatre échantillons compatibles (s1, s2, s3, et s4) qui sont compatibles avec le vecteur

π∗. En utilisant les composantes non entières de ce vecteur, la phase d’atterrissage attribue différentes probabilités à ces échantillons pour trouver l’attribution qui minimise le coût moyen parmi les attributions possibles. Les résultats de cet atterrissage par programmation linéaire sont donnés par le tableau 2.5.

(44)

Table 2.4 – Résultats de la phase de vol et échantillons compatibles Unité Probabilité Résultat de la Échantillons

d’inclusion phase de vol compatibles

N° π π∗ s1 s2 s3 s4 1 0,5 0 0 0 0 0 2 0,5 0 0 0 0 0 3 0,5 1 1 1 1 1 4 0,5 1 1 1 1 1 5 0,5 1 1 1 1 1 6 0,5 0,33 1 0 1 0 7 0,5 0 0 0 0 0 8 0,5 1 1 1 1 1 9 0,5 0,67 0 1 1 0 10 0,5 0 0 0 0 0 11 0,5 1 1 1 1 1 12 0,5 0 0 0 0 0 b tx1HT - 12 12 14 10 b tx2HT - 74 80 92 62

Table 2.5 – Résultats de la phase d’atterrissage par programmation linéaire

Échantillons possibles Coˆut2(s) btx1HT btx2HT p(s|π

∗₎ _p(s|π∗_)b_t x1HT p(s|π ∗_)b_t x2HT s1= {3; 4; 5; 6; 8; 11} 0,028 12 74 0,33 3,96 24,40 s2= {3; 4; 5; 8; 9; 11} 0,007 12 80 0,67 8,04 53,60 Total - - - 1 12 78 Échantillon sélectionné s1= {3; 4; 5; 6; 8; 11} 0,028 12 74

Dans cet exemple, l’attribution optimale est alors le plan qui permet de tirer l’échantillon s1 avec une probabilité p(s1|π∗) = 0, 33, s2 avec p(s2|π∗) = 0, 67 et s3 et s4 avec p(s3|π∗) =

p(s4|π∗) = 0. Un échantillon est ensuite sélectionné parmi les quatre à l’aide de ces probabilités.

Ici l’échantillon retenu est s1 = {3; 4; 5; 6; 8; 11}. Ce dernier représente donc l’échantillon

approché fourni par la phase d’atterrissage par programmation linéaire.

Atterrissage par suppression de variables

Lorsque le nombre de variables d’équilibrage est trop grand (p > 20), l’atterrissage par la programmation linéaire ne peut résoudre le problème de la sélection. Dans ce cas, l’atterrissage par suppression de variables peut être utilisé pour trouver un échantillon approximativement équilibré.

(45)

En effet, cette méthode consiste à diminuer successivement le nombre de variables d’équili-brage. En d’autres termes, elle élimine progressivement des contraintes. De façon concrète, elle effectue une ou plusieurs phases de vol à travers lesquelles elle relâche successivement des contraintes. Ainsi, à la fin de chaque phase de vol, une contrainte est abandonnée jusqu’à ce que la martingale équilibrante soit à mesure de se déplacer dans le sous-espace des contraintes pour atteindre un sommet de l’hypercube C.

Pour appliquer cette méthode de manière efficiente, il faut présenter les variables d’équilibrage, dans le jeu de données, par ordre décroissant d’importance. Ainsi, la suppression touchera d’abord en premier les variables les moins importantes lors de l’exécution de l’algorithme. 2.1.4 Librairies Sampling et Balancedsampling

Les libraires Sampling et Balancedsampling sont des librairies du logiciel gratuit R. Elles permettent notamment de faire de la sélection d’échantillon selon divers plans de sondage et aussi d’analyser des données d’enquête. Une de leur utilités et pas des moindres, c’est qu’elles permettent de tirer des échantillons équilibrés.

La librairie Sampling a été développée par Tillé et Matei (2015). Elle contient des fonctions qui font de la sélection qui tient compte de la stratification, de la sélection à deux degrés, de la sélection avec des probabilités inégales, de la sélection par équilibrage, etc. Elle permet également de faire des estimations par calage et par régression, etc. Cette librairie offre aussi la possibilité de calculer des probabilités d’inclusion. De plus, elle contient quelques bases de données.

Quant à la libraire Balancedsampling, elle a été mise au point par Grafström et Lisic (2016). Elle permet particulièrement de tirer des échantillons équilibrés et spatialement équilibrés dans des espaces multidimensionnels avec différents types de probabilités d’inclusion. Elle dispose notamment des fonctions pour la sélection d’échantillon équilibré par la méthode du pivot local et la méthode poissonienne à corrélation spatiale. Par ailleurs, elle contient aussi la plupart des fonctions d’échantillonnage équilibré déjà implémentées dans la librairie Sampling. 2.1.5 Fonctions balancedstratification et balancedstratification2

La fonction balancedstratification est utilisée pour la sélection d’échantillons stratifiés et équi-librés. Elle est en effet implémentée dans la librairie Sampling. Cette fonction exige trois arguments importants en entrée : la matrice des variables d’équilibrage, le vecteur des strates et le vecteur des probabilités d’inclusion des unités. Lorsque ces composantes sont correcte-ment fournies à la fonction, elle procède à la recherche d’un échantillon stratifié et équilibré. En effet, la sélection est opérée même si la matrice des variables d’équilibrage n’est pas de plein rang.

(46)

Par ailleurs, lors de son exécution, la fonction balancedstratification fait appel à deux autres fonctions de la même librairie. Ce sont les fonctions fastflightcube et samplecube. Mais, elle les appelle en deux étapes.

A la première étape, la fonction balancedstratification sélectionne dans chaque strate un sous-échantillon exactement équilibré, si celui-ci existe. Pour ce faire, elle appelle la fonction fast-flightcube pour chercher des tels sous-échantillons dans les strates. En fait, la fonction fast-flightcube est utilisée afin d’exécuter une phase de vol dans chaque strate. Après l’appel de cette fonction, des sous-échantillons équilibrés sont donc sélectionnés uniquement dans les strates pour lesquelles un équilibrage est possible. Pour opérer une sélection dans les autres strates, une autre étape est alors nécessaire.

A la deuxième étape, les strates ne disposant pas de sous-échantillons équilibrés sont rassem-blées pour constituer un seul groupe. Les probabilités obtenues, lors de la première étape, dans ces strates sont également récupérées. Celles-ci sont utilisées par la fonction samplecube appe-lée pour tirer un échantillon équilibré dans le nouveau groupe formé. En d’autres termes, cette étape permet une mise en commun de l’équilibrage pour les strates appartenant au groupe créé la fin de la première étape. En effet, la fonction samplecube effectue une phase de vol pour trouver un échantillon exactement équilibré dans ce groupe. Si un tel échantillon n’existe pas dans le groupe, elle effectue une phase d’atterrissage pour trouver un échantillon approché. La fonction balancedstratification permet donc de sélectionner un échantillon stratifié et équi-libré en deux étapes dont la seconde dépend des résultats de la première. Les deux étapes utilisent des fonctions ayant des comportements assez différents. Ainsi, ce sont les sous-échantillons issus des deux étapes qui constituent l’échantillon final. Cependant, il faut noter que la fonction balancedstratification utilise la méthode de sélection par programmation linéaire pendant la phase d’atterrissage. Lorsque le nombre de contraintes est élevé, cette fonction est lente et parfois n’aboutit à aucun résultat.

Pour résoudre ce problème,Hasler et Tillé (2014) ont mis au point une nouvelle fonction, ap-pelée balancedstratification2, qui est une version modifiée de la fonction balancedstratification. Pour trouver un échantillon équilibré, cette nouvelle fonction emploie le mode d’atterrissage par suppression de variables quand le nombre de contraintes est très grand. Mais, elle n’est ni implémentée dans la librairie Sampling, ni dans Balancedsampling. Toutefois, son exécution nécessite un environnement dans lequel les deux librairies sont chargées.

Exemple 2.1.5 Sélection d’échantillon stratifié et équilibré à l’aide de la fonction balanced-stratification.

Soit la population de taille 12 considérée dans l’exemple 2.1.4. Les probabilités d’inclusion et les valeurs des variables x1et x2 pour ces unités restent telles que décrites dans le tableau(2.3).

(47)

unités 1, 2, 3, 4, 5 et 6 et la seconde des unités 7, 8, 9, 10, 10, 11 et 12.

L’objet du tirage est de sélectionner, dans cette population, un échantillon équilibré de taille 6, soit un sous-échantillon de 3 unités dans chaque strate. La fonction balancedstratification a permis d’obtenir les résultats présentés dans le tableau :

Table 2.6 – Résultats de la sélection d’échantillon stratifié et équilibré Probabilité Première étape Deuxième étape Strate Unité d’inclusion Vol dans les strates Équilibrage commun

H N° π π₁∗ π₂∗ π∗ π(T ) 1 1 0,5 0,875 0,875 1 1 2 0,5 0 0 0 1 3 0,5 1 1 1 1 4 0,5 0 0 0 1 5 0,5 0,125 0,125 0 1 6 0,5 1 1 1 2 7 0,5 0 0 0 2 8 0,5 1 1 1 2 9 0,5 0,5 0,5 1 2 10 0,5 1 1 1 2 11 0,5 0 0 0 2 12 0,5 0,5 0,5 0 btx1HT - - - - 12 btx2HT - - - - 74

Les résultats de la phase vol montre que des sous-échantillons de taille 3 exactement équilibrés sur x₁ et x₂ n’existent dans les strates, car le tirage dans dans chacun de ces strates a abouti à un vecteur comportant des éléments non entiers. Toutefois, cette première étape a fourni un vecteur π∗ obtenu par la concaténation des vecteurs π∗₁ de la strate 1 et π₂∗ de la strate 2. Le vecteur π∗ est ensuite utilisé comme vecteur de probabilités d’inclusion des unités lors de la seconde étape.

Cette deuxième étape, qui consiste à mettre en commun l’équilibrage dans les deux strates, a permis de tirer un échantillon globalement équilibré. Ce dernier est l’ensemble d’unités {1; 3; 5; 7; 8; 9}. Certaines de ces unités ont été sélectionnées au cours de la première étape et d’autres à la deuxième. En effet, la deuxième étape a servi simplement à compléter le tirage effectué à la première étape.

Cependant, cet échantillon stratifié et équilibré sélectionné est en fait une solution approchée, car l’estimation (ˆtx2HT = 74) du total de x2 dans cet échantillon n’est pas exactement égale

au total de cette variable dans la population (tx2 = 78).

(48)

n’existent pas dans certaines strates, la fonction balancedstratification effectue une mise en commun de l’équilibrage en rassemblant ces strates. La mise en commun de l’équilibrage se sert de la fonction samplecube. Celle-ci comporte également une phase de vol et une phase d’atterrissage qui sont toutes les deux exécutées si nécessaires pour trouver un échantillon stratifié et équilibré ou quasi-équilibré.

2.2 Méthode rejective de Fuller

La méthode rejective permet de sélectionner un échantillon équilibré selon un plan de sondage donné à partir d’une population finie. Elle est basée sur un critère d’équilibre préalablement défini. Ainsi, lorsqu’un échantillon est tiré, la méthode vérifie s’il respecte le critère établi pour le retenir. Par contre, si cet échantillon ne respecte pas le critère, il alors est rejeté. Un nouveau échantillon est ensuite tiré et vérifié, ainsi de suite jusqu’à trouver un échantillon équilibré, c’est-à-dire qui remplit la condition établie.

Dans la méthode proposée parFuller(2009), le critère qui permet la sélection est déterminée à l’aide de certaines caractéristiques des variables auxiliaires d’une certaine valeur de tolérance fixée.

Soient une population U de taille N et x1, x2, · · ·, xp des variables auxiliaires disponibles sur

toute la population et xi = (x1i, x2i, · · ·, xpi)0 le vecteur des valeurs des p variables pour

chaque unité i. Le vecteur Txdes totaux de ces variables dans la population et son estimateur

de Horvitz-Thompson, à partir d’un échantillon tiré à l’aide d’un plan quelconque p(s), sont définis respectivement par les équations (1.10) et (1.11) du chapitre 1.

Définition 2.2.1 La méthode rejective de Fuller (2009) se définit comme une procédure qui permet de sélectionner, parmi les échantillons tirés dans un population finie selon un plan spécifique p(s), le premier échantillon qui satisfait la relation :

Q_p,n=Tb_xHT − T_x 0h V arTb_xHT i−1 b TxHT − Tx < γ2 (2.13)

Dans cette inégalité, la quantité Qp,n est calculée à partir des caractéristiques des variables

auxiliaires et ses indices p et n renvoient respectivement au nombre de variables et à la taille de l’échantillon. Quant au terme de droite γ2, c’est une valeur de tolérance fixée et définie à partir d’une constante γ strictement positive. De plus, V ar

b TxHT

est la matrice des variances et covariances du vecteur des estimateurs des totaux des variables d’équilibrage. Définie positive, cette matrice est calculée par :

V arTb_xHT = N X i=1 N X j=1 (πij − πiπj) πiπj xix 0 i (2.14)

(49)

où π_i et π_j représentent les probabilités d’inclusion respectives des unités i et j et π_ij leur probabilité d’inclusion conjointe, avec π_ij = πi si i = j.

Alors, au sens de Fuller, un échantillon est jugé équilibré s’il vérifie la relation (2.13). Pour trouver un tel un échantillon, la méthode procède comme suit :

Étape 1 : Elle tire un échantillon à partir un plan de sondage donné.

Étape 2 : Elle vérifie si l’échantillon tiré satisfait la relation (2.13). Si cette dernière est respectée, l’échantillon est gardé ; sinon il est rejeté et la procédure retourne à à l’étape 1 pour tirer un nouveau échantillon.

Les deux étapes sont répétées jusqu’à ce qu’un échantillon équilibré soit trouvé. L’échantillon accepté est aussi appelé échantillon rejectif à de ce principe de rejection sur lequel se base la méthode.

Remarque 2.2.1 - Lorsque le plan utilisé pour tirer les échantillons admet une loi limite, la quantité Q_p,n suit asymptotiquement une loi de χ2 de degré liberté égal au nombre de va-riables auxiliaires employées (Legg et Cindy,2010). En effet, le nombre de variables auxiliaires représentent également le nombre de contraintes. En pratique, il est donc possible de fixer de façon approximative le taux de rejet de la procédure de sélection en utilisant des quantiles de la distribution χ2 pour définir la valeur de tolérance γ2.

- En général, les méthodes rejectives comportent deux inconvénients majeurs. D’une part, ce sont des procédures dont le temps d’exécution est élevé. D’autre part elles changent les probabilités d’inclusion. En effet, avec ces méthodes « les probabilités d’inclusion des unités statistiques qui sont proches des moyennes de la population sont augmentées au détriment des unités qui sont éloignées du centre » (Tillé, 2011a).

Conclusion

La méthode rejective et la méthode du cube permettent d’obtenir des échantillons équilibrés. Cependant, le préalable pour leur application est de disposer d’informations auxiliaires perti-nentes, concernant la population, qui soient corrélées avec la variable d’intérêt. Toutefois, il n’est pas toujours évident de disposer de telles informations. Ceci peut limiter leur application. En outre, lorsque le nombre de variables d’équilibrage est très grand, les chances de trouver des échantillons équilibrés deviennent très faibles. C’est pourquoi, la méthode du cube offre la possibilité d’utiliser un équilibrage par suppressions successives de variables pour trouver un échantillon équilibré approximatif.

(50)