Disponible à / Available at permalink :

(1)

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Berger, Y. (1999). Comportements asymptotiques des plans de sondage à probabilités inégales pour un modèle de population fixe (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/211962/1/52c4c472-3544-4dea-a7a4-6adfc0bf9b61.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

I nstitut de S tatistique et de R echerche O pérationnelle

Comportements asymptotiques des plans de sondage à probabilités inégales pour un modèle de population fixe.

Yves B erger

Thèse préparée sous la direction du Professeur Jean-Jacques Droesbeke et

présentée en vue de l’obtention

du grade de Docteur en Sciences orientation Statistique.

Année Académique 1998/99

(3)

Avant-propos

Tout d’abord, je voudrais remercier le Professeur Jean-Jacques Droesbeke pour m’avoir accueilli dans le Service de Statistique et de Recherche Opé

rationnelle et pour l’aide apportée lors de la réalisation de cette thèse de doctorat.

Je désire marquer ma reconnaissance à Jean-Claude Deville, de l’Institut National de la Statistique et des Etudes Economiques de France, pour m’avoir orienté sur les problèmes liés à l’entropie.

Ma gratitude va également à tous les membres de l’Institut de Sta

tistique et de Recherche Opérationnelle, du Laboratoire de Méthodologie du Traitement des Données et du Service de Statistique et de Recherche Opérationnelle.

Mes remerciements vont également à Lise Bruneel, Antonio Canedo, Fré

déric Fervaille et Mireille Lebrun, qui ont corrigé méticuleusement ce manus

crit.

Je remercie également la Communauté Française de Belgique, la Faculté des Sciences Sociales Politiques et Économiques de l’ULB et le Laboratoire de Méthodologie du Traitement des Données pour m’avoir accordé plusieurs financements pour que je puisse présenter une partie des résultats de cette thèse à différents congrès scientifiques.

Enfin, je remercie les arbitres du Journal of Statistical Planning and In-

ference, de Survey Methodology et du Journal of Official Statistics pour les

précieux commentaires concernant les résultats de cette thèse publiés dans

ces revues.

(4)

1 Introduction 5

2 Inférence sous un modèle de population fixe 8

2.1 Principes de base... 8

2.2 Échantillon ... 10

2.3 Plan-de sondage... 11

2.4 Les données... 12

2.5 Espérance, biais et variance d’un estimateur... 12

2.6 Distribution d’échantillonnage et intervalle de confiance .... 13

2.7 Le modèle de population fixe... 14

2.8 Le concept de suffisance... 16

2.9 La vraisemblance... 18

2.10 Conclusion... 19

3 L’estimation d’un total 21 3.1 considérations préliminaires... 21

3.2 Probabilités d’inclusion... 22

3.3 Estimateur de total... 24

3.4 Variance de l’estimateur de Horvitz Thompson... 26

3.5 Estimateur variance... 26

3.6 Estimateur de Horvitz-Thompson pour quelques plans de son dage sans remise à taille fixe... 28

3.6.1 Le sondage aléatoire simple...28

3.6.2 Le sondage stratifié... 29

3.7 Variable auxiliaire... 31

3.7.1 Plan de sondage rrps... 31

3.7.2 Optimalité du plan de sondage 7rps... 32

2

(5)

3.7.3 Le plan de sondage Trps pour un modèle de superpopu

lation du type ratio... 33

3.8 La classe des estimateurs de Wright... 35

3.9 Conclusion... 36

4 Approche asymptotique 37 4.1 Considérations préliminaires...37

4.2 Le plan de Poisson et le plan réjectif... 38

4.2.1 Le plan de Poisson... 38

4.2.2 Le plan réjectif... 40

4.3 Entropie et divergence... 42

4.3.1 Information et entropie d’un plan de sondage ... 43

4.3.2 Plan de sondage à entropie maximum...46

4.3.3 Divergence d’un plan de sondage...47

4.4 Hypothèses asymptotiques et plans de sondage convergents . . 49

4.5 Hypothèse de convergence pour des plans classiques... 57

4.5.1 Non-convergence du systématique... 57

4.5.2 Convergence du plan de Rao-Sampford... 59

4.5.3 Convergence du plan successif...61

4.5.4 Convergence d’un plan randomisé...63

4.5.5 Convergence d’un plan stratifié...66

4.6 Conclusion... 71

5 Approximation de la variance 72 5.1 Considérations préliminaires... 72

5.2 Approximation de la variance... 73

5.3 Approximation de Hâjek pour un modèle ratio... 75

5.4 Approximation de la variance pour le plan réjectif... 78

5.5 Approximation de la variance pour un plan de sondage sans remise à taille fixe... 78

5.6 Estimation de la variance... 81

5.7 Estimation de la variance pour un estimateur de Wright ... 83

5.8 Exemples ... 84

5.9 Conclusion... 85

(6)

6 Normalité asymptotique 86

6.1 Notations et hypothèses asymptotiques... 87

6.2 Normalité asymptotique pour le plan de Poisson... 88

6.3 Normalité asymptotique pour le plan réjectif... 89

6.4 Normalité asymptotique pour un plan de sondage sans remise à taille fixe... 89

6.5 Taux de convergence pour la distribution de l’estimateur de Horvitz-Thompson... 90

6.6 Taux de convergence de plans convergents... 92

6.6.1 Le plan de Rao-Sampford ... 92

6.6.2 Le plan successif... 93

6.7 Conclusion... 93

7 Le plan de sondage de Chao 94 7.1 Considérations préliminaires... 94

7.2 Notations et hypothèses ... 95

7.3 Le plan de Chao et ses propriétés... 96

7.4 Estimation de la variance... 99

7.4.1 Exemple Numérique ... 101

7.5 Approximation de la variance... 102

7.5.1 Approximation des probabilités d’inclusion d’ordre 2 . 103 7.5.2 Approximation de la variance... 104

7.5.3 Comparaison avec d’autres plans de sondage... 106

7.5.4 Exemples numériques... 108

7.5.5 L’approximation de Hâjek... 112

7.6 Convergence du plan de Chao... 113

7.7 Simulations... 128

7.7.1 Processus de génération des données... 128

7.7.2 Approximations des variances... 131

7.7.3 Normalité de l’estimateur de Horvitz-Thompson .... 141

7.8 Conclusion... 148

8 Conclusion 149

(7)

Introduction

La pratique des sondages constitue une première étape fréquente dans la con

stitution des statistiques. Cette étape est importante car la méconnaissance du plan de sondage sondage effectué peut conduire à des conclusions totale

ment fausses. En d’autres termes, un sondage est plus qu’une simple collecte de données. Certaines façons de récolter les données peuvent améliorer la qualité de celles-ci comme elles peuvent les détériorer.

L’idée de l’inférence à partir de données provenant d’un échantillon est fondamentale en statistique et est à la base de la théorie des sondages. Un problème de fond en théorie des sondages est l’estimation de statistiques descriptives d’une population à partir de données provenant d’un échantillon.

Par une sélection appropriée de l’échantillon, il est possible d’estimer de manière précise ces statistiques descriptives. Mais il ne faudrait pas croire que ce problème est simple à résoudre. Par exemple, si on veut estimer la moyenne d’une variable sur une population, on est souvent tenté de croire que la moyenne arithmétique de cette même variable sur l’échantillon est une bonne estimation. Cela n’est malheureusement pas toujours vrai. Si on connaît la manière dont ont été collectées les données, on est souvent amené à calculer des estimateurs beaucoup plus complexes qu’une simple moyenne arithmétique.

Les données provenant d’un sondage sont affectées d’erreurs. Nous avons trois type d’erreurs possibles : l’erreur d’échantillonnage, l’erreur de mesure et l’erreur de non-réponse. L’erreur totale s’interprète comme la somme de ces trois erreurs.

L’erreur d’échantillonnage est la différence entre la valeur estimée à partir

5

(8)

de l’échantillon et la valeur mesurée à partir de la population. En fait, c’est la partie de l’erreur qui provient du fait que nous n’avons pu observer qu’une partie de la population.

L’erreur de mesure est la différence entre la valeur réellement estimée et la valeur estimée si on connaissait de manière exacte les données de l’échantillon.

En d’autres termes, c’est la composante de l’erreur qui provient des données mesurées avec erreur.

L’erreur de non-réponse est celle qui provient de l’absence de données pour certaines unités de l’échantillon.

L’erreur de mesure et l’erreur de non-réponse sont des erreurs qui doivent être considérées à part de l’erreur d’échantillonnage. Si on connaît la méthode de sélection de l’échantillon, l’erreur d’échantillonnage est plus facile à estimer que les erreurs de mesure et de non-réponse. D’ailleurs, il arrive fréquemment que ces dernières ne soient pas estimées. La seule manière de lutter contre les erreurs de mesure et de non-réponse est d’effectuer la collecte de la manière la plus rigoureuse possible. Par exemple, dans le cas d’une enquête, un questiorinaire bien construit et un enquêteur compétent peuvent limiter ces erreurs. L’erreur d’échantillonnage est finalement la seule erreur qui peut être contrôlée et étudiée d’un point de vue théorique. C’est pour cette raison qu’une grande partie de la théorie des sondages y est consacrée. Dans ce manuscrit, nous n’étudierons que ce type d’erreur.

Une notion importante en théorie des sondages est celle de plan de son

dage. Sans entrer dans les détails, il représente la manière dont l’échantillon a été sélectionné. Le plan de sondage va permettre de quantifier les erreurs d’échantillonnage. Cette thèse traite d’une classe de plans de sondage par

ticuliers : les plans de sondage à probabilités inégales sans remise à taille fixe. Cela signifie que les unités de l’échantillon n’ont pas la même probabi

lité d’être sélectionnées et qu’elles ne peuvent pas être sélectionnées plusieurs fois. Une taille fixe signifie que le nombre d’unités de l’échantillon est fixé avant de sélectionner l’échantillon. Nous verrons au chapitre 3 qu’un tel plan de sondage permet de limiter les erreurs d’échantillonnage.

Nous nous intéresserons à l’estimation de totaux. En effet, la plupart des statistiques descriptives peuvent s’écrire comme des fonctions de totaux.

Posséder une estimation précise de totaux est un problème de base dont les

développements théoriques s’avèrent particulièrement complexes surtout si

un plan de sondage à probabilités inégales sans remise à taille fixe est mis en

œuvre. Dans le chapitre 3, nous introduirons le problème de l’estimation d’un

(9)

total pour ce type de plans de sondage. L’estimateur de Horvitz-Thompson est l’estimateur de total le plus connu. Cet estimateur est assez simple. Par contre, l’estimation de sa variance peut être très élaborée voire impossible dans certain cas. Le chapitre 5 sera consacré au problème de l’estimation de la variance. Nous proposerons une manière simple pour estimer la variance.

Nous la justifierons par une approche asymptotique exposée dans le chapitre 4.

La théorie asymptotique classique suppose que la taille de l’échantillon tend vers l’infini. Dans un problème de sondage, il faut aussi que la taille de la population tende vers l’infini. L’approche proposée dans le chapitre 4 est assez générale, en ce sens qu’elle ne fera aucune hypothèse sur la vitesse relative avec laquelle la taille de la population et la taille de l’échantillon tendent vers l’infini. Cette approche asymptotique permettra de définir des variances asymptotiques (chapitre 5) et de justifier la normalité asymptotique de l’estimateur de Horvitz-Thompson (chapitre 6).

Le chapitre 7 sera consacré à un plan de sondage particulier : le plan de Chao (1982). Nous donnerons plusieurs avantages de ce plan de son

dage. Nous proposerons plusieurs méthodes pour estimer la variance. Nous montrerons que l’approche asymptotique proposée dans le chapitre 4 peut s’appliquer si le plan de Chao est mis en oeuvre. Quelques simulations seront effectuées pour montrer la validité de nos résultats théoriques.

Les résultats originaux de ce manuscrit proviennent de six articles (Ber

ger, 1996a, 1996b, 1998a, 1998b, 1998c et 1998d). Les cinq premiers articles

sont publiés ou acceptés pour publication dans des revues. Une copie de ces

articles est fournie en annexe. L’article le plus récent. Berger (1998d), a été

soumis pour publication.

(10)

Inférence sous un modèle de population fixe

L’objectif de ce chapitre est de définir les notions de base. Nous verrons que certaines propriétés de ce modèle ne nous permettent pas d’aborder le problème de l’estimation de manière classique. Plus précisément, l’inférence ne pourra pas être uniquement basée sur les notions de suffisance et de vrai

semblance.

2.1 Principes de base

Dans une première étape, nous allons préciser ce que nous entendons par échantillonnage, théorie des sondages, population, variable d’intérêt et pa

ramètres d’intérêt. L’échantillonnage est l’étape qui consiste à sélectionner un échantillon dans une population. La théorie des sondages est le formalisme statistique qui traite du problème de l’échantillonnage. Une population est un ensemble de N unités. Nous supposons que la population est finie. Nous notons la population par U. Chaque unité est représentée par un numéro i = l,..., N. Ce numéro est appelé un label. Notre population sera notée

U = {l,...,i,...,N} ■

Le but d’un sondage est de décrire une variable d’intérêt ^ prenant des valeurs pour chaque unité de la population. On note la valeur de la variable d’intérêt pour l’unité i. Notre objectif est d’estimer des statistiques descriptives sur le vecteur

8

(11)

Par exemple, le total

ieu la moyenne

ÿu = ^T.yt (2-1)

ieu ou la variance

E (yi - ÿuŸ ■

Ces statistiques descriptives sont des paramètres d’intérêt.

Définition 1 Un paramètre d’intérêt 9 est une fonction du vecteur y.

9 = G(yi,...,y^,...,y;v) .

= G(y).

Un paramètre d’intérêt est une grandeur inconnue que l’on désire estimer.

Par exemple, 6 peut être égal à t, ou s}j.

Si on effectue un recensement, le vecteur y est connu et les valeurs des paramètres d’intérêt sont connues de manière exacte. Malheureusement, un recensement présente des désavantages. Il est coûteux, il demande un inves

tissement du point de vue du volume des données et du temps. De plus, il limite le nombre de variables mesurées par unité. Pour ces raisons, on a souvent recours à un sondage pour la collecte des données.

Lors d’un sondage, on ne mesure la variable que pour les unités ap

partenant à un échantillon. Dans ce cas, nous devons estimer les paramètres d’intérêt. Il est clair que cette façon de procéder est moins coûteuse et plus rapide. D’autre part, plusieurs variables peuvent être mesurées en même temps et la collecte est généralement plus précise. Néanmoins, on reste con

fronté au problème de l’estimation des paramètres d’intérêt.

Le problème de l’échantillonnage est le suivant : comment sélectionner

les unités à moindre coût, de manière à avoir des estimateurs de paramètres

d’intérêt simples et précis ?

(12)

2.2 Échantillon

Un échantillon s est un sous-ensemble d’une population U. Ce sous-ensemble peut éventuellement être composé d’unités identiques. Étant donné qu’à chaque unité est associé un et un seul label, un échantillon est identifié par un ensemble de labels de la population

{b ) ••• -I ij 1 ■■■ 1 in} ) où ij est le label de la j-ième unité de l’échantillon.

En théorie des sondages, on parle souvent d’information a priori et a posteriori.

Définition 2 Une information a priori est une information disponible avant la sélection de l’échantillon. Par contre, l’information a posteriori est connue après la sélection de l’échantillon.

En statistique classique, on considère qu’il existe un mécanisme qui génère y de façon aléatoire selon une loi de probabilité caractérisée par un certain nombre de paramètres qu’il faut estimer. En théorie des sondages, on adopte une approche non-paramétrique. Il n’y a aucune hypothèse sur le mécanisme aléatoire de génération de y.

Dans ce travail, nous adoptons une approche basée sur le plan de sondage.

Cela signifie que la valeur de ^ mesurée pour une unité est une constante.

Elle ne provient d’aucun mécanisme aléatoire. C’est-à-dire,

est un vecteur de constantes. Dans cette approche, la seule quantité aléatoire est l’échantillon

S {ï I ) • • • ) ù ) • • • Un }

Cette approche permet d’étudier l’erreur d’échantilonnage. Nous ferons une distinction entre la variable aléatoire échantillon S et un échantillon possible s, réalisation possible de S. Pour une unité ij, le caractère aléatoire de y^.

est contenu dans le label ij et non dans la valeur de Einalement, le caractère aléatoire des données est contrôlé par la méthode de sélection de l’échantillon.

Grâce aux notions vues jusqu’à présent, nous pouvons d’ores et déjà don

ner une première définition non formelle du modèle de population fixe.

(13)

Définition 3 Lorsque y est fini et constant et que seul l'échantillon S est aléatoire, on parle de modèle de population fixe.

Une autre approche en théorie des sondages est de considérer que y est un vecteur de variable aléatoire. Dans ce cas, on utilise un modèle de superpo

pulation. Dans la suite, nous mentionnerons brièvement quelques résultats liés à cette approche.

Un échantillon n’est pas nécessairement composé d’unités distinctes. Le nombre d’unités distinctes de l’échantillon est noté ruS) et appellé la taille de l’échantillon.

mS) ='^I{i e S} , ieu

où

Ui e S) = { J

2.3 Plan de sondage

L’échantillon étant une variable aléatoire, il est nécessaire de spécifier la loi de probabilité de cette dernière. Une loi de probabilité de ce type est appelée un plan de sondage.

Définition 4 P{s) est un plan de sondage si et seulement si P[s) > 0

E ns) = 1 ,

.5^est l’ensemble de tous les échantillons possibles de la population U. com

prend des échantillons contenant plusieurs fois des mêmes unités.

Un plan de sondage P{s) dépend de la méthode de sélection de l’échantillon.

Deux types de plans de sondage sont souvent utilisés. Les plans de sondage sans remise et les plans de sondage à taille fixe.

Définition 5 P{s) est un plan de sondage sans remise si et seulement si P{s) = 0

si et seulement si s est un échantillon constitué d’au moins deux unités semblables.

Dans le cas contraire, on parle de plan de sondage avec remise.

si i G 5 ,

s\i ^ S

(14)

Définition 6 P{s) est un plan de sondage à taille fixe n si P{s) = 0

si et seulement si l’échantillon s est tel que n (s) ^ n.

Il existe des plans de sondage qui respectent ces deux dernières définitions.

Dans ce cas, on parle de plans de sondage à taille fixe sans remise. Nous verrons que de tels plans de sondage permettent généralement d’obtenir des meilleures estimations.

2.4 Les données

Dans un premier temps, nous allons définir ce que nous entendons par données pour un modèle de population fixe.

Définition 7 Les données sont représentées par

Z= {[/{z G 5},m,(5),Oî(5),yj] : j = 1,..., ncS)}

où mi{S) est la multiplicité de i, c’est-à-dire le nombre de fois que l’unité i est présente dans l’échantillon. ofS) est l’ordre de l’unité i dans l’échantillon, c’est-

à-dire

Oi^{S) = j-

Z est une variable aléatoire. Une réalisation de celle-ci est notée z. Les données contiennent toute l’information provenant d’un échantillon.

Les données, en plus d’une information sur le vecteur y, contiennent également une information sur l’ordre et la multiplicité des données. Nous avons une multiplicité dans les données si au moins deux labels sont identi

ques ; c’est-à-dire s’il existe j et k tels que f = ik et j ^ k. Dans la section 2.8, nous verrons qu’il ne faut pas tenir compte de l’ordre et de la multiplicité pour un modèle de population fixe.

2.5 Espérance, biais et variance d’un estimateur

Définition 8 Un estimateur d’un paramètre d’intérêt 6 sera calculé à partir des données Z. Il est noté par

e = g{Z) ■

(15)

Pour ne pas alourdir les notations, nous ne ferons pas de distinction entre un estimateur 0 = g[Z) qui est une variable aléatoire et son estimation 9 = g{z), réalisation de cette variable aléatoire.

L’espérance de 9 est définie par Ep(«)= Y.

Le biais de cet estimateur est donné par

Bp{9) = Ep{9) - 9 ■ La variance est définie par

vp{ô) = E ns) 9-Ep{9)

Étant donné que Vp{9) dépend des valeurs de la variable d’intérêt prises par toutes les unités de la population, il est nécessaire de trouver un estimateur Vp{9) de Vp{9).

Si l’estimateur est biaisé, nous préférons utiliser l’erreur quadratique moyenne

Ep E P{s)[9-9)\

Vp{9)^Bp{9f-

L’un des problèmes de la théorie des sondages est de spécifier un estima

teur ayant un biais et une variance faible. Il ne faut pas non plus perdre de vue qu’il est souvent nécessaire d’estimer la variance et que des contraintes de coût doivent souvent être respectées.

2.6 Distribution d’échantillonnage et intervalle de confiance

Pour construire un intervalle de confiance, il est nécessaire de connaître la

distribution de probabilité de l’estimateur utilisé.

(16)

Définition 9 La distribution de 9 est donnée par ê] , Vse.9^

Cette distribution est appelée la distribution d’échantilonnage.

Généralement, il n’est pas possible de calculer les valeurs de P{s) pour tous les échantillons possibles. Pour cette raison, en pratique, on suppose que 9 a une distribution normale. L’intervalle de confiance utilisé est donc

IC = 9 — zi_ct/2\JVp{9) ; 9 + zi^a/2\/yp{9) avec

pr

(9

G IC^ 1 — a ,

où

2

i _ q

/2

= $“'(1—cü/2) est le quantile d’une variable normale centrée réduite. Des justifications théoriques concernant la normalité existent (Hâjek, 1964 et Berger, 1998a). Dans le chapitre 6, nous tenterons de justifier cette hypothèse de normalité. Elle sera également analysée par voie de simulation dans la section 7.7.

2.7 Le modèle de population fixe

Le but de cette section est de présenter le lien entre la statistique classique et le modèle de popualtion fixe.

L’inférence statistique classique se base généralement sur un modèle sta

tistique. Ce dernier est défini par un vecteur aléatoire X, un espace une (j-algèbre de sous-ensembles de et une famille de probabilités

{Pr, : rj eÜ} ■

Chaque mesure de probabilité Pr, est indexée par un paramètre ry appartenant à un ensemble fl appelé l’espace des paramètres. Il ne faut pas confondre rj avec un paramètre d’intérêt 9. La valeur de rj est inconnue. L’observation de X constitue les données. L’inférence consiste à se servir de l’observation de X pour estimer

77

.

Basu (1969) a montré que le problème pour un modèle de population fixe

peut être vu comme un problème d’inférence classique décrit plus haut. Pour

cela, nous avons besoin de la notion de consistance des données.

(17)

Définition 10 Une observation z des données Z est consistante avec un vecteur (>i ) • • ■ ) • • • ) J n ) seulement si

yi = y\ Vies-

A partir de cette définition, il est possible d’obtenir la probabilité d’observer les données z (Godambe, 1966). Celle-ci est donnée par

pry{z) P (s) si z est consistant avec y ,

0 sinon. (2.3)

pry{z) spécifie une distribution de probabilité discrète sur Cette dis

tribution de probabilité dépend de y. Pour le modèle de population fixe, le paramètre t ] correspond à y, l’espace des paramètre Q est IR^ et l’espace est donné par

^ = {z ■■ seye • Notre famille de loi de probabilité est

[pry{z) : y € R^} •

En statistique classique, les données servent à estimer le paramètre p.

Pour un modèle de population fixe, il n’est pas possible d’estimer le pa

ramètre y étant donné que celui-ci a une dimension supérieure à la taille de l’échantillon. D’ailleurs, ce n’est pas le paramètre qui nous intéresse mais plutôt une fonction 6 = G (y) du paramètre. Nous remarquons également que la distribution pry{z) n’est pas indexée de façon injective. C’est-à-dire

y y n’implique pas que pry{z) ^ pry (z) •

Ce qui signifie que différentes valeurs pour y peuvent conduire à des distri

butions identiques. Donc le paramètre y est mal spécifié.

Nous remarquons que la famille de probabilité est spécifiée par le plan de sondage. Si le plan de sondage est connu, la distribution est connue de manière exacte ; aucune hypothèse concernant le modèle n’est alors requise.

Néanmoins, d’un point de vue pratique, le calcul de cette distribution est irréalisable.

Nous terminons cette section en remarquant que si on suppose que y est

un vecteur de variables aléatoires distribué suivant une certaine distribution,

on adopte une approche basée sur un modèle de superpopulation. Dans ce

cas, on se trouve dans le cadre de la statistique bayesienne étant donné que

l’on spécifie une loi de probabilité sur le paramètre du modèle.

(18)

2.8 Le concept de suffisance

Le but de cette section est de montrer que l’ordre et la multiplicité des données ne constituent pas une information pertinente et qu’elle peut être omise lors de l’étape d’estimation.

Le concept de suffisance est souvent utilisé en statistique pour réduire les données en une statistique minimale suffisante contenant toute l’infor

mation nécessaire pour l’inférence. Pour un modèle de population fixe, une statistique est une fonction u{Z) des données Z. On pourrait se demander quelle est la statistique minimale suffisante pour un modèle de population fixe. Ce problème a été étudié dès les premiers pas de la théorie des sondages (Basu, 1958, Godambe, 1966, 1968). Les définitions de statistique suffisante et minimale suffisante pour le modèle de population fixe sont les suivantes.

Définition 11 Une statistique u{Z) est suffisante pour le paramètre y si et seu

lement si la distribution conditionnelle de Z étant donné u{Z) ne dépend pas de y-

A une statistique w(Z), on peut associer une partition ^^\u) définie de la manière suivante.

Définition 12 Une partition ^\u) de ^ est telle que deux réalisations des données Z\ et Z

2

appartiennent à la même partition si et seulement si

U(z,) = U{Z

2

) ■

Définition 13 Une statistique u(Z) est minimale suffisante pour le paramètre y si et seulement si pour toute statistique suffisante u {Z) chaque ensemble de

est un sous-ensemble de ^\u).

Une statistique minimale suffisante s’interprète comme la réduction minimale des données.

Théorème 1 La statistique Z^ = Ur{Z) est minimale suffisante, où Ur{ • ) la fonc

tion qui consiste à oublier l’ordre et la multiplicité. C’est-à-dire,

Ur{Z) = {[I{i e S},>'j] : ; = 1,.. .,mS)} ■

(19)

La preuve de ce théorème est donnée dans Basu et Gosh (1967) et Basa (1969).

Grâce à cette statistique minimale suffisante Z^, on peut améliorer cer

tains estimateurs en employant le théorème de Rao-Blackwell. Si nous avons un estimateur 9*^ on peut toujours en déduire l’estimateur suivant

ê=Ep

où Zr est la réalisation de la statistique minimale suffisante Z^. Cette opé

ration est communément appelée la Rao-Blakwellisation. Par le théorème de Rao-Blackwell appliqué au modèle de population fixe (Basu, 1958) nous avons que

EQM (ê) < EQM (r) •

Nous constatons que 9 est indépendant de l’ordre et de la multiplicité des données. Pour cette raison, nous ne nous limiterons qu’aux estimateurs qui ne dépendent ni de l’ordre ni de la multiplicité. Nous pouvons éviter la multiplicité en considérerant des plans de sondage sans remise. Dans la suite, nous nous limiterons à ce type de plan de sondage.

Malheureusement, il existe un grand nombre d’estimateurs qui ne dépen

dent ni de l’ordre ni de la multiplicité. Le problème est de trouver un esti

mateur optimal ; c’est-à-dire ayant le plus petit écart moyen absolu. Cela est possible si Zj. est une statistique minimale suffisante complète. La définition d’une statistique complète pour un modèle de population fixe est la suivante.

Définition 14 Une statistique u[Z) est complète si et seulement si pour n 'importe quelle fonction g{-) telle que

Ep{g[u{Z)]] = Q, nous avons que la probabilité sous le plan de sondage

prp {g[u{Z)] = 0; y} = 1 V y G •

Théorème 2 La statistique minimale suffisante Zr n 'est pas complète.

Considérons deux estimateurs non biaisés et 02 fonctions de la statistique minimale suffisante Zr. Il est clair que

9\ — 02 = 0'

(20)

Étant donné que Zj. n’est pas une statistique complète, prp l^i - 02 = 0;y| 7^ 1 V y e ■

Ce qui signifie que 0| est presque sûrement différent de 02- Nous savons que les estimateurs indépendants de l’ordre et de la multiplicité sont les meilleurs au sens de l’erreur quadratique moyenne. Malheureusement, dans cet ensemble, il n’existe pas qu’un seul estimateur sans biais. Ce qui signifie que l’estimateur optimal au sens du biais et de la variance n’est pas unique.

Ce résultat est connu depuis le début de la théorie des sondages (Godambe, 1955).

Finalement, on peut simplement dire que tous les estimateurs qui ne dépendent ni de l’ordre ni de la multiplicité sont optimaux. Ce résultat ne nous guide pas dans le choix d’un estimateur. La notion de suffisance n’est pas assez puissante pour permettre d’aborder le problème de l’inférence sous un modèle de population fixe.

2.9 La vraisemblance

Dans cette section, nous allons aborder le problème de l’inférence du point de vue de la vraisemblance.

La fonction de vraisemblance est une fonction du paramètre y qui nous donne la probabilité d’observer les données pour chaque valeur du paramètre y E L’équation (2.3) nous donne la probabilité d’observer les données

Z. Cela nous permet d’en déduire la vraisemblance des données z P {s) si y est tel que z est consistant avec y ,

0 sinon.

Nous constatons que cette vraisemblance est plate. Ce qui signifie qu’il n’existe pas d’estimateur unique du maximum de vraisemblance pour y. Dès lors, on peut dire que la fonction de vraisemblance n’est pas informative.

Nous constatons que la vraisemblance dépend du plan de sondage. Con

sidérons P\{s) et Plis) deux plans de sondage différents. Notons par L|(y; z) et Liiy, z) les deux vraisemblances correspondantes. Nous constatons que

L\{y,z) = ^^L

2

{y,z) VyGR^-

L{y, z) =

(21)

Ce qui signifie que nos vraisemblances ne varient que par un facteur multi

plicatif qui ne dépend pas du paramètre. Donc, si on se base sur la vrai

semblance, les données z donnent la même inférence par rapport à y quel que soit le plan de sondage. Ce qui signifie que si on adopte le principe de vraisemblance, il ne faut pas employer le plan de sondage lors de l’inférence.

Suite à cette constatation, certains statisticiens préfèrent une approche basée sur un modèle de superpopulation. En effet, dans cette approche, le plan de sondage n’intervient pas dans l’étape d’inférence.

De plus, le principe du maximum de vraisemblance nous dit que l’infor

mation contenue dans l’échantillon est celle qui affecte les valeurs observées de l’échantillon à y. C’est-à-dire

yi=y^ si i = ijes- (2.4) En effet, dans ce cas, z est consistant avec y et la vraisemblance est maximale.

Malheureusement la vraisemblance ne nous renseigne pas sur les valeurs à affecter à pour i ^ s. C’est-à-dire que des valeurs différentes du paramètre nous donnent une même vraisemblance. Néanmoins, le résultat (2.4) est assez décevant. Généralement, on pense que les données d’un échantillon nous donnent plus d’informations que l’équation (2.4).

Finalement, on aboutit à la même conclusion que pour le principe de suffisance : la notion de vraisemblance n’est pas assez puissante pour nous permettre d’aborder le problème de l’inférence pour un modèle de population fixe. Lorsqu’on utilise un modèle de population fixe, on oublie le principe de vraisemblance. Ce qui signifie que nous tenons compte du plan de sondage lors de l’étape d’inférence.

2.10 Conclusion

Dans ce chapitre, nous avons conclu que pour un modèle de population fixe notre inférence ne doit pas être fondée sur les notions de suffisance et de vraisemblance. Faut-il pour autant en conclure que le modèle de population fixe est un mauvais modèle et qu’il faut l’abandonner au profit d’un autre? Il ne faut pas oublier que ce modèle est plus qu’une modélisation de la réalité.

Il correspond généralement au vrai modèle d’échantillonnage.

La seule hypothèse du modèle est de supposer que la valeur de la variable

d’intérêt est connue avec exactitude pour les individus de l’échantillon. Cette

(22)

hypothèse n’est pas tellement restrictive et peut être vraie pour certains son

dages. Si on abandonne cette hypothèse, on est dans le cadre d’un modèle de superpopulation où les valeurs de la variable d’intérêt sont des variables aléatoires. Dans ce cas, on est obligé d’adopter une approche paramétrique ou semi-paramétrique pour spécifier le caractère aléatoire des valeurs de la va

riable d’intérêt. Mais cette approche n’est pas robuste. En effet, si le modèle de superpopulation est loin de la réalité, il peut conduire à des estimations erronnées.

Finalement, nous avons deux choix méthodologiques possibles : (i) soit

baser notre inférence sur un modèle de superpopulation qui peut être faux

mais qui conduit à une statistique minimale suffisante complète, (ii) soit

baser notre inférence sur un modèle de population fixe plus proche de la

réalité et plus robuste mais qui conduit à une statistique minimale suffisante

non complète. Dans ce travail, nous choisirons la méthodologie (ii). En

conséquence, notre inférence devra être basée sur des concepts différents de

ceux de la statistique classique.

(23)

L’estimation d’un total

Dans le chapitre 2, pour un modèle de population fixe, nous avons conclu que notre inférence ne doit pas être fondée sur les notions de suffisance et de vraisemblance. En conséquence, notre inférence va être basée sur des concepts différents de ceux de la statistique classique. L’objet du présent chapitre est de montrer qu’il est possible d’aborder le problème d’inférence avec un modèle de population fixe dans le cadre de l’estimation d’un total.

3.1 considérations préliminaires

Lorsque l’on dispose de données provenant d’un sondage, on s’intéresse géné

ralement aux totaux de variables d’intérêt. En effet, la plupart des pa

ramètres d’intérêt utilisés sont des fonctions de totaux. Par exemple, une moyenne ou une proportion est un total divisé par N. La taille de la popu

lation est un total étant donné qu’il s’agit d’une somme de 1 sur toutes les unités de la population. Il arrive fréquemment que N ne soit pas connue et il peut s’avérer nécessaire de l’estimer. L’estimation de N est un cas particulier d’estimation d’un total. Finalement, nous pouvons dire que le problème de l’estimation d’un total est général en théorie des sondages.

D’une manière plus formelle, notre problème est d’estimer le total t=T.yi

ieu

d’une variable d’intérêt La qtiantité yj est la valeur de la variable d’intérêt pour l’unité i.

21

(24)

Le but de rinféreiice sous un modèle de population fixe est de définir une quantité pivot

(7

où ? est un estimateur de /. La quantité f devrait avoir les propriétés sui

vantes.

(PI) L’espérance de T est nulle ou presque nulle.

(P2) (T^ est une approximation de la variance de?.

(P3) Nous voulons un estimateur de positif et simple à calculer.

(P4) La distribution de T doit être proche d’une distribution normale centrée réduite.

(P5) La sélection de l’échantillon est aisée.

Nous proposons d’estimer t par l’estimateur de Horvitz-Thompson. C’est d’ailleurs l’estimateur le plus souvent utilisé pour le traitement des données provenant d’un sondage. Dans ce chapitre, nous présentons cet estimateur ainsi que différentes propriétés. Le chapitre 5 sera consacré au problème de l’approximation de la variance. La normalité asymptotique de T fera l’objet du chapitre 6. Dans le chapitre 7, nous montrerons que les cinq propriétés (P1)-(P5) sont satisfaites pour le plan de sondage de Chao (1982).

Avant d’aborder le problème de l’estimation proprement dite, nous allons définir le concept de probabilité d’inclusion d’un plan de sondage (section 3.2). Dans les sections 3.3 et 3.5, ces probabilités vont nous servir à définir des estimateurs et des variances. Le concept d’information auxilliaire sera introduit dans la section 3.7. Nous terminerons ce chapitre en mentionnant d’autres estimateurs de totaux (section 3.8).

3.2 Probabilités d’inclusion

La probabilité d’inclusion d’ordre un de l’unité i est la probabilité de sélec

tionner l’unité i. Elle est définie par

E ^P{s)-

Tj =

(25)

Elle peut encore s’écrire

TTi = e >

= Ep [i{i e 5}] ■

I{i G S} est défini par (2.2). I{i G

5

} est l’observation de la variable aléatoire I{i G 5} pour un échantillon s. P{s) est le plan de sondage utilisé. Souvent on choisit un plan de sondage qui fixe a priori les valeurs des probabilités d’inclusion d’ordre un. Les valeurs de P{s) importent peu.

Définition 15 Un plan de sondage est dit à probabilités égales si et seulement si TTj = 7Tj V i ^ j

Définition 16 Un plan de sondage est dit à probabilités inégales si et seulement si il existe i ^ j tel que

T^i ^ 7Tj •

Pour un plan de sondage à probabilités égales les probabilités d’inclusion d’ordre un sont les mêmes pour toutes les unités de l’échantillon. Ces pro

babilités sont différentes dans le cas d’un plan de sondage à probabilités inégales.

La probabilité d’inclusion d’ordre deux des unités i et j est la probabilité de sélectionner les unités i et j dans l’échantillon. C’est-à-dire,

TTj,- = ü P(^) •

i,j€S

Celle-ci peut encore s’écrire

H P{s)I{i G s}I{j G s} ,

= Ep[I{ieS}l{jeS}]-

Les probabilités d’inclusion d’ordre deux sont représentées par une matrice symétrique N x N. Nous verrons que cette matrice est utile pour estimer sans biais la variance. Malheureusement, la dimension de celle-ci est grande.

De plus, elle est généralement difficile voire impossible à calculer.

(26)

3.3 Estimateur de total

Comme les données constituent une statistique minimale suffisante non com

plète, nous ne pouvons pas trouver un estimateur optimal unique du total.

Pour cette raison, nous allons nous restreindre à la classe des estimateurs suivante.

ieS

Wi{S) eu , \/i eU

Cette classe est appelée la classe des estimateurs linéaire de Godambe. Elle est composée des estimateurs linéaires de totaux. Nous nous intéresserons aux estimateurs de cette classe qui sont sans biais.

Proposition 1 Pour qu’un estimateur 9 e soit sans biais il faut et il suffit que Ef Wi{S)I{ieS}] = 1 y 1 = 1,..., N-

Cette proposition est un résultat très connu en théorie des sondages. La preuve est assez immédiate.

Preuve : Tout d’abord, nous remarquons qu’un estimateur de W\ peut s’écrire

ê=Y. e ■ ieu

Pour que 6 soit sans biais, il faut et il suffit que B r I ô )

ieu c’est-à-dire

x: Ep \wfS)i{i e S}

ieu La proposition en découle.

ieu

□

Considérons la sous-classe suivante

^2=1 9 9 = Y, Wiyi ieS

Wi eu , Mi eu \ <z

(27)

OÙ les poids Wi ne dépendent pas de réchantillon S. ^ est la classe des estimateurs linéaires ayant des poids indépendants de l’échantillon.

Corollaire 1 Si ni >^i E U, alors l ’estimateur tn = E

ieS

est l’unique estimateur sans biais dans la classe des estimateurs de Preuve : Par la proposition 1, 0 est non biaisé si et seulement si

WiEp [I{i G 5}] = 1 • En utilisant le fait que

Ep [I{i e 5}] = ni , nous avons le corollaire.

□

% est l’estimateur de Horvitz-Thompson (1951) encore appelé 7r-estima- teur. si nous avons des probabilités d’inclusion d’ordre un nulles, alors % est biaisé. Dans ce travail, nous allons principalement étudier cet estimateur.

Étant donné que nous ne considérons que des plans de sondage sans remise, l’échantillon ne sera constitué que d’unités différentes. Dans ce cas l’estima

teur de Horvitz-Thompson ne dépend ni de l’ordre ni de la multiplicité, il est donc optimal dans la classe Wi-

Notons que le caractère optimal de l’estimateur de Horvitz-Thompson réside dans le fait que nous nous sommes limités à la classe La précision de dépendra du plan de sondage utilisé. En réalité, sous un modèle de population fixe, le choix du plan de sondage est aussi important que le choix de l’estimateur. Dans la suite nous verrons comment nous pouvons améliorer la précision de l’estimateur de Horvitz-Thompson en mettant en œuvre un plan de sondage adéquat.

Dans la section 3.6 nous allons appliquer cet estimateur à des plans de

sondage particuliers.

(28)

3.4 Variance de l’estimateur de Horvitz Thompson

On montre sans difficulté que la variance de l’estimateur de Horvitz-Thomp- son est égale à

u( L) = E E

i€Ujeu

1Ti TTj î avec

A,J = CoK[/{i £ 5} , /{j e 5}] ,

= B|/{t£S}/{j£5}]-i;(/0es}|i;[/{i€S}i , TTjTTj

Généralement, on préfère écrire la variance de la manière suivante.

^ vp{ %) = E (?) A.. + E E .

ieu i€U 3^^ '^3

j¥^

H] (3,1)

Si le plan de sondage est à taille fixe, on peut montrer que 1

2

rp((.) = -xEEAji

ieujeu

yi yj

TT i TT -i

(3.2) Il s’agit de la variance de Yates-Grundy (1953). Sen (1953) a publié le même résultat.,

3.5 Estimateur variance

Tout d’abord, nous constatons que I{i G S}I{j G 5}

E

TV.

U

= 1 si et seulement si TVij > 0 • Dès lors, pour estimer sans biais la forme quadratique

= EE'

i€U j€U

Hj 1

(29)

nous utiliserons

En effet si 7Tÿ > 0 yi,j E{â..) =

ieujeu

=

ieu jeu

La variance de Horvitz-Thompson étant une forme quadratique, un estima

teur de Vp{%) est

I{i E S}I{j € 5}

T^ij

Ml ■) = E

ieS ^TT,;

A„ + E E ,

ieS avec

A., = ^ . (3.3)

TTij

Cet estimateur est non biaisé si > 0 Vz,j. D’autre part si le plan de sondage est à taille fixe,

Vp[ tn) (3.4)

Il s’agit de l’estimateur de variance de Yates-Grundy (1953). Cette variance est biaisée s’il existe des probabilités d’inclusion d’ordre deux nulles. Nous notons qu’une condition suffisante pour que Vp( t„.) soit toujours positive est

Aij <0 y i, j e U ■ (3.5)

La condition (3.5) est connue sous le nom de condition de Yates-Grundv

(1953).

(30)

3.6 Estimateur de Horvitz-Thompson pour quelques plans de sondage sans remise à taille fixe

3.6.1 Le sondage aléatoire simple

Le plan de sondage aléatoire simple est défini par

JY \ ^ 1

n ) 0 où

S^n = {■5 : se , n{s) — n , mi{s) = 1 V z G i'j • (3.6) Un tel plan de sondage peut être mis en œuvre par la méthode de McLeod- Bellhouse (1983). Ce plan de sondage a des probabilités d’inclusion d’ordre un égales à

p{^) = \ (

m = Y2 P{s)l{^ e s} , 1

1 )

N N- n —

T n l n

Donc, le plan de sondage aléatoire simple est un plan à probabilités égales.

Dès lors, l’estimateur de Horvitz-Thompson devient

ieS

= Nÿs,

où js est la moyenne de la variable d’intérêt sur les unités de l’échantillon.

On peut facilement montrer que

A ^

An = —

N

n 1 n

N-1 N si i j-

(31)

Ce qui donne les variances suivantes.

Vp(î^) Vp(7^)

N{N-n)

n(iV- 1) E (yi -yuf

i€U

N{N-n) n (n — 1)

_ies

où est la moyenne de la population.

Donc, pour un sondage aléatoire simple, la moyenne de l’échantillon es

time sans biais la moyenne de la population. Cela revient à traiter les données de l’échantillon comme des données provenant d’un recensement. Cette façon de procéder se rencontre souvent en pratique. Malheureusement, c’est aussi l’une des moins précises.

3.6.2 Le sondage stratifié

Pour mettre en œuvre un sondage stratifié, on divise la population en H sous- populations {Gi,... ,G h }. Dans chaque sous-population, un échantillon de taille non nulle est sélectionné. La taille de la sous-population Gh est notée Nh, et Uh est la taille de l’échantillon Sh sélectionné dans Gh- L’échantillon obtenu est

H

s= U ■

h=l

Si chaque échantillon Sh est sélectionné de manière indépendante suivant un sondage aléatoire simple dans chaque sous-population, le plan de sondage est

P{s) = V 5 G y

ST ,

0 y s ^ -^ST )

OÙ

I [i ^ s) = Uh^h = l,... ,H

On peut facilement montrer que

(32)

oii / { • } est la fonction indicatrice définie par

I{A] 1 si l’évènement A se produit ,

0 sinon, (3.7)

Nous constatons que le sondage stratifié est un plan à probabilités inégales.

L’estimateur de Horvitz-Thompson devient

H

br = E /i=l

OU

>'5. = — E

Cet estimateur est généralement utilisé lorsqu’on met en œuvre un plan de sondage stratifié.

Les Ajj sont donnés par

H

Uh f rih-l Uh

Ce qui permet d’obtenir les variances suivantes.

avec

^Gh -

N

h

-\

1 - Uh-li

ÿo^ = — E î6Gh i&Sh

La variance de l’estimateur de Horvitz-Thompson pour un sondage stra

tifié est généralement plus petite que pour le sondage aléatoire simple. On

(33)

peut évidemment sélectionner des unités à probabilités inégales dans chaque strate. Cela conduira à d’autres expressions pour la variance. Dans ce cas, il est bien connu que la stratification donne généralement de meilleurs résultats pour autant que les strates soient constituées d’unités homogènes.

Dans ce travail, nous étudierons brièvement le sondage stratifié. Géné

ralement, nous supposerons que l’échantillon est sélectionné directement à partir d’une population. Bien entendu, cette population peut elle-même être une strate.

3.7 Variable auxiliaire

Une variable auxiliaire est une variable d’intérêt dont la valeur est connue pour toutes les unités de la population. C’est-à-dire que nous supposons que les valeurs

X= {xi,...,Xi,...,XN}

sont connues a priori. Xi étant la valeur de la variable auxiliaire pour la z-ième unité de la population. Les valeurs Xi sont supposées être toutes positives.

Généralement, on suppose que cette variable est significativement corrélée avec la variable d’intérêt Nous allons utiliser cette variable auxiliaire pour améliorer la précision de l’estimateur de Horvitz-Thompson.

3.7.1 Plan de sondage Trps

Il s’agit d’un plan de sondage dont les probabilités d’inclusion d’ordre un sont soit proportionnelles à la variable auxiliaire, soit égales à un. Un plan de sondage Trps est un plan à probabilités inégales.

D’un point de vue technique, nous recherchons les quantités t T j telles que

TT ' oc Xj ,

avec la contrainte

^7r' = n- (3.8)

i€U

Ce qui implique

(34)

avec U' = U et n' = n. Mais cette façon de procéder j)eut conduire à des tt ^ plus grandes que 1. Dans ce cas, tt ^ = 1 pour tout j G D, où

B=[i : 7 t - > l} •

Étant donné que la contrainte (3.8) n’est plus satisfaite, nous devons re

considérer (3.9) avec un ensemble U = U \ B pour un échantillon de taille n = n — #5. Cette procédure est répétée jusqu’à l’obtention d’un ensemble de n quantités 7Tj inférieures ou égales à 1.

Définition 17 Un plan de sondage est irps si et seulement si TTj = 7T ■ y i Çi U ■

Si la variable auxiliaire est constante pour des unités appartenant à un même sous-groupe de la population, on obtient des probabilités d’inclusion d’un plan de sondage stratifié. En particulier si la variable auxiliaire est constante pour toutes les unités, nous avons un plan de sondage à probabilités égales. Dès lors, un sondage stratifié ou un sondage aléatoire simple sont des cas particuliers d’un plan de sondage 7rps. Le programme C cale_proba_incl de l’annexe A permet de calculer les probabilités d’inclusion d’ordre un selon cette méthode.

• 3.7.2 Optimalité du plan de sondage 7rps

Le fait d’utiliser un plan de sondage 7rps peut améliorer la précision de l’es

timateur de Horvitz-Thompson. En effet, si Xi oc , y i eU , on constate que

= 0 y i,j : TTi < 1 et 7Tj < 1 , Aij = 0 y i,j : TTj = 1 ou 7Tj = 1 •

Étant donné (3.2), la variance de l’estimateur de Horvitz-Thompson et l’esti

mateur de variance sont nuis dans ce cas. Evidemment, il est impossible que

la variable d’intérêt soit exactement proportionnelle à la variable auxiliaire.

(35)

Néanmoins, on peut s’attendre à ce que l’estimateur de Horvitz-Thompson ait une petite variance lorsque la variable auxiliaire est plus ou moins pro

portionnelle à la variable d’intérêt ^.

Dans les sections 2.8 et 2.9, nous avons vu qu’une approche classique du modèle de population fixe ne permet pas de trouver l’estimateur non biaisé de variance minimale. Si on se limite à la classe ^ des estimateurs linéaires ayant des poids indépendants de l’échantillon, l’utilisation d’informations auxiliaires permet de se limiter à l’estimateur de Horvitz-Thompson.

3.7.3 Le plan de sondage Trps pour un modèle de superpopulation du type ratio

En adoptant un modèle de superpopulation, il va être également possible de montrer que le plan de sondage Trps est optimal. Un modèle de superpopu

lation consiste à supposer que est la réalisation d’une variable aléatoire Yi dont la distribution dépend de x. Un modèle de superpopulation parti

culier est le modèle ra,tio (Sarndal et al, 1992, p247). Il s’agit d’un modèle semi-paramétrique. Il sera noté ^ u 3, vu -, vn ) et défini par

Yi — Xi P ^ i ,

OÙ

{£,) = 0 ,

= {0

où Eç (.) représente l’espérance sous le modèle ^(P, vu ---, vn ). Les quantités /?, V\, ... et vn sont les paramètres du modèle ratio. Ce modèle signifie que la va

riable d’intérêt est presque proportionnelle à la variable auxiliaire. Dans une approche basée sur un modèle de superpopulation, le paramètre du modèle de population fixe est noté

Y={Y,,...,Y n ) ■

Il est important de remarquer que cette approche revient à supposer que

le paramètre du modèle de population fixe est aléatoire. Dans ce cas, on

est plus proche d’une approche bayésienne. Le caractère aléatoire de Y est

difficile à interpréter car il ne provient d’aucun processus de sélection.

(36)

Considérons ? un estimateur de t appartenant à la classe suivante :

^ = {t •. [Ep ( ? — t )] = 0} ,

où Ep {.) représente l’espérance sous un plan de sondage P (s). La variance anticipée de T est définie par

eaVp(T)l = Eî{£:p[(<-<)’]}

Vp{'t) est la variance de ? sous le plan de sondage.

Pour le modèle et pour un plan de sondage ayant des probabi

lités d’inclusion d’ordre un non nulles, nous avons (Godambe et Joshi, 1965):

i&U

1 7Ti 1 V?€

’3 •

(3.11)

Le terme de droite de l’inégalité (3.11) est la borne inférieure de Godambe- Joshi (1965). Elle donne une limite inférieure pour la variance anticipée.

Un estimateur t est optimal si la variance anticipée est égale à cette borne inférieure. L’estimateur de Horvitz-Thompson % est optimal si le plan de sondage est tel que

7Ti = nxi

jeu

En effet, étant donné (3.1), nous avons

{3.12)

irp{ î,)l = E (i".’) ^ + E E (y.y,) _. _TTi _{• --}

_-'-TT

ieu

^{i€U fet/}

^TTiTTj

j V î

E -1) + E + E P ^j P

ieu ^ i&u ieu jet/

j V î

A,:O 'KjTÏj

ieu

- E-?G-9+'^p E P

<ieS ^TT,:

La condition (3.12) implique que

EdVpiX)] = E"H--i)+'J./JE

iet/

jeu

(37)

Donc l’estimateur de Horvitz-Thompson % est optimal si la condition (3.12) est satisfaite ; c’est-à-dire si on met en oeuvre un plan de sondage 7rps.

3.8 La classe des estimateurs de Wright

L’estimateur de Horvitz-Thompson est l’unique estimateur non biaisé de la classe Si on s’intéresse à une classe plus large que ^ et inclue dans nous pouvons imaginer trouver des estimateurs tout aussi intéressants.

Il arrive fréquemment que l’on dispose de plusieurs variables auxiliaires.

Si nous voulons utiliser toutes ces variables pour estimer un total, on doit considérer un estimateur diflFérent de celui d’Horvitz-Thompson. Considérons Xi le vecteur colonne dont chaque élément donne la valeur d’une variable auxiliaire pour l’unité i.

Une classe d’estimateurs généralement étudiée est la classe de Wright (1983)..

r4 = I ^{« :}

où

W{S)=r,+ ( E - E Ux'I ( E* •

ieS J KieS J

Ti et Qi sont des constantes positives non nulles. On constate que

^ C ^ C ^ •

Si on choisit pour tout i, nous avons l’estimateur par la régression (Sàrndal et al 1976). Dans le cas particulier où l’on utilise une seule varia

ble auxiliaire, l’estimateur par la régression devient l’estimateur de Horvitz- Thompson. Si Tj = 1 pour tout i, nous avons l’estimateur de Royall (1970).

Dans cette section, nous ne faisons qu’introduire la classe des estimateurs

de Wright. Nous renvoyons le lecteur à Sàrndal et al. (1992) pour des études

théoriques de ces estimateurs et pour le choix des r, et des Qi. Dans la

section 5.7, nous ne nous intéresserons qu’à l’estimation de la variance d’un

estimateur de

(38)

3.9 Conclusion

Dans la section 2.9, nous avons vu que les notions de vraisemblance et de suffisance ne nous donnent pas de solutions au problème d’inférence pour un modèle de population fixe. Néanmoins si nous nous limitons à la classe

^ des estimateurs linéaires, l’estimateur de Horvitz-Tliompson est l’unique estimateur de W

2

fonction de la statistique minimale suffisante. Dès lors, on peut dire que l’estimateur de Horvitz-Thompson est optimal pour

Néanmoins, cette propriété d’optimalité est principalement due au fait que nous nous sommes restreint à la classe Il ne faudrait pas pour autant en conclure que l’estimateur de Horvitz-Thompson n’est pas intéressant. En effet, la variance de cet estimateur est nulle si un plan 7rps est mis en œuvre et si la variable d’intérêt et la variable auxiliaire sont proportionnelles. Dès lors, on peut s’attendre à ce que l’estimateur de Horvitz-Thompson donne une bonne estimation lorsque la variable d’intérêt est plus ou moins propor

tionnelle à la variable auxiliaire.

(39)

Approche asymptotique

Dans ce chapitre, nous allons définir le cadre asymptotique dans lequel nous allons baser notre inférence. Ce cadre nous permettra de définir des va

riances asymptotiques pour l’estimateur de Horvitz-Thompson et de justifier l’hypothèse de normalité de l’estimateur de Horvitz-Thompson. La plupart des résulats présentés dans ce chapitre correspondent aux articles Berger

(1996a) et Berger (1998a).

4.1 Considérations préliminaires

En statistique classique, le terme "asymptotique” sous-entend que la taille de l’échantillon tend vers l’infini. Pour un modèle de population fixe, il n’existe pas de définitions claires. Par exemple, si la taille de l’échantillon n tend vers l’infini, on est forcé d’admettre que la taille de la population N tend également vers l’infini. Mais qu’en est-il du rapport n/N 1 Celui-ci tend-il vers une constante et si oui laquelle ? Une autre approche utilisée par Hartley et Rao (1962) suppose que n est fixé et que N tend vers l’infini. Mais cette seconde approche pourrait conduire à des résultats tout à fait différents.

Néanmoins, on se rend compte qu’il va être difficile d’éviter l’hypothèse selon laquelle N tend vers l’infini.

Comme l’a souligné Deville (sans date), la difficulté vient du nombre de paramètres qui entrent en jeu. D’une part, si N tend vers l’infini, la dimension du paramètre y du modèle de population fixe tend vers l’infini. On imagine les complications d’ordre théorique que cela va impliquer. D’autre part, si l’échantillon est sélectionné selon un plan de sondage stratifié, il faut

37

(40)

savoir si le nombre de strates tend vers l’infini, si l’effectif par strate tend vers l’infini et comment le nombre d’unités sélectionnées par strate se comporte.

Dans la section 4.5.5, nous appliquerons notre approche asymptotique au cas du plan de sondage stratifié.

L’approche asymptotique de ce travail a été pour la première fois intro

duite par Berger (1996a). Elle est fondée sur la notion d’entropie d’un plan de sondage (Hâjek , 1959). Notre approche sera relativement générale et ne fera aucune hypothèse sur la vitesse relative avec laquelle n et N tendent vers l’infini. Notre approche sera basée sur une notion de contiguïté entre différents plans de sondage.

Le plan de Poisson et le plan réjectif sont deux plans de sondage étroite

ment liés à la notion d’entropie. Ils constitueront la clef de voûte de notre approche asymptotique. C’est pour cette raison qu’ils feront l’objet d’une seule section. La notion d’entropie sera introduite dans la section 4.3. La section 4.4 sera consacrée à l’approche asymptotique utilisée dans ce travail.

4.2 Le plan de Poisson et le plan réjectif

Dans un premier temps, nous allons définir le plan de Poisson. Le plan réjectif sera défini à partir de ce dernier.

4.2.1 Le plan de Poisson

Le plan de Poisson est défini par

PO{s) = 1 ^ se S^ sr

{ ies iés

\ 0

s : s E , mi{s) = 1 V Z G

Si les 7Ti sont tous égaux, on parle de plan de Bernoulli. Il s’agit d’un plan de sondage sans remise.

Le plan de Poisson est mis en œuvre en sélectionnant chaque unité de

la population de manière indépendante avec des probabilités inégales. Plus

précisément.

Disponible à / Available at permalink :

- - -

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

I nstitut de S tatistique et de R echerche O pérationnelle

Comportements asymptotiques des plans de sondage à probabilités inégales pour un modèle de population fixe.

Yves B erger

Thèse préparée sous la direction du Professeur Jean-Jacques Droesbeke et

présentée en vue de l’obtention

du grade de Docteur en Sciences orientation Statistique.

Année Académique 1998/99

Avant-propos

Tout d’abord, je voudrais remercier le Professeur Jean-Jacques Droesbeke pour m’avoir accueilli dans le Service de Statistique et de Recherche Opé­

rationnelle et pour l’aide apportée lors de la réalisation de cette thèse de doctorat.

Je désire marquer ma reconnaissance à Jean-Claude Deville, de l’Institut National de la Statistique et des Etudes Economiques de France, pour m’avoir orienté sur les problèmes liés à l’entropie.

Ma gratitude va également à tous les membres de l’Institut de Sta­

tistique et de Recherche Opérationnelle, du Laboratoire de Méthodologie du Traitement des Données et du Service de Statistique et de Recherche Opérationnelle.

Mes remerciements vont également à Lise Bruneel, Antonio Canedo, Fré­

déric Fervaille et Mireille Lebrun, qui ont corrigé méticuleusement ce manus­

crit.

Enfin, je remercie les arbitres du Journal of Statistical Planning and In-

ference, de Survey Methodology et du Journal of Official Statistics pour les

précieux commentaires concernant les résultats de cette thèse publiés dans

ces revues.

1 Introduction 5

2 Inférence sous un modèle de population fixe 8

2.1 Principes de base... 8

2.2 Échantillon ... 10

2.3 Plan-de sondage... 11

2.4 Les données... 12

2.5 Espérance, biais et variance d’un estimateur... 12

2.6 Distribution d’échantillonnage et intervalle de confiance .... 13

2.7 Le modèle de population fixe... 14

2.8 Le concept de suffisance... 16

2.9 La vraisemblance... 18

2.10 Conclusion... 19

3 L’estimation d’un total 21 3.1 considérations préliminaires... 21

3.2 Probabilités d’inclusion... 22

3.3 Estimateur de total... 24

3.4 Variance de l’estimateur de Horvitz Thompson... 26

3.5 Estimateur variance... 26

3.6 Estimateur de Horvitz-Thompson pour quelques plans de son­ dage sans remise à taille fixe... 28

3.6.1 Le sondage aléatoire simple...28

3.6.2 Le sondage stratifié... 29

3.7 Variable auxiliaire... 31

3.7.1 Plan de sondage rrps... 31

3.7.2 Optimalité du plan de sondage 7rps... 32

2

3.7.3 Le plan de sondage Trps pour un modèle de superpopu­

lation du type ratio... 33

3.8 La classe des estimateurs de Wright... 35

3.9 Conclusion... 36

4 Approche asymptotique 37 4.1 Considérations préliminaires...37

4.2 Le plan de Poisson et le plan réjectif... 38

4.2.1 Le plan de Poisson... 38

4.2.2 Le plan réjectif... 40

4.3 Entropie et divergence... 42

4.3.1 Information et entropie d’un plan de sondage ... 43

4.3.2 Plan de sondage à entropie maximum...46

4.3.3 Divergence d’un plan de sondage...47

4.4 Hypothèses asymptotiques et plans de sondage convergents . . 49

4.5 Hypothèse de convergence pour des plans classiques... 57

4.5.1 Non-convergence du systématique... 57

4.5.2 Convergence du plan de Rao-Sampford... 59

4.5.3 Convergence du plan successif...61

4.5.4 Convergence d’un plan randomisé...63

4.5.5 Convergence d’un plan stratifié...66

4.6 Conclusion... 71

5 Approximation de la variance 72 5.1 Considérations préliminaires... 72

Tout d’abord, je voudrais remercier le Professeur Jean-Jacques Droesbeke pour m’avoir accueilli dans le Service de Statistique et de Recherche Opé

Ma gratitude va également à tous les membres de l’Institut de Sta

Mes remerciements vont également à Lise Bruneel, Antonio Canedo, Fré

déric Fervaille et Mireille Lebrun, qui ont corrigé méticuleusement ce manus

3.6 Estimateur de Horvitz-Thompson pour quelques plans de son dage sans remise à taille fixe... 28

3.7.3 Le plan de sondage Trps pour un modèle de superpopu

La pratique des sondages constitue une première étape fréquente dans la con

stitution des statistiques. Cette étape est importante car la méconnaissance du plan de sondage sondage effectué peut conduire à des conclusions totale

Une notion importante en théorie des sondages est celle de plan de son

dage. Sans entrer dans les détails, il représente la manière dont l’échantillon a été sélectionné. Le plan de sondage va permettre de quantifier les erreurs d’échantillonnage. Cette thèse traite d’une classe de plans de sondage par

ticuliers : les plans de sondage à probabilités inégales sans remise à taille fixe. Cela signifie que les unités de l’échantillon n’ont pas la même probabi