Critère de validation croisée pour le choix des modèles des petits domaines au niveau des unités

(1)

Critère de validation croisée pour le choix des

modèles des petits domaines au niveau des unités

Mémoire Romanic PIEUGUEU Maîtrise en statistique Maître ès sciences (M.Sc.) Québec, Canada © Romanic PIEUGUEU, 2016

(2)

(3)

Résumé

Ce mémoire s’intéresse à l’étude du critère de validation croisée pour le choix des modèles relatifs aux petits domaines. L’étude est limitée aux modèles de petits domaines au niveau des unités. Le modèle de base des petits domaines est introduit par Battese, Harter et Fuller en 1988. C’est un modèle de régression linéaire mixte avec une ordonnée à l’origine aléatoire. Il se compose d’un certain nombre de paramètres : le paramètre β de la partie fixe, la composante aléatoire et les variances relatives à l’erreur résiduelle. Le modèle de Battese et al. est utilisé pour prédire, lors d’une enquête, la moyenne d’une variable d’intérêt y dans chaque petit do-maine en utilisant une variable auxiliaire administrative x connue sur toute la population. La méthode d’estimation consiste à utiliser une distribution normale, pour modéliser la compo-sante résiduelle du modèle. La considération d’une dépendance résiduelle générale, c’est-à-dire autre que la loi normale donne une méthodologie plus flexible. Cette généralisation conduit à une nouvelle classe de modèles échangeables. En effet, la généralisation se situe au niveau de la modélisation de la dépendance résiduelle qui peut être soit normale (c’est le cas du modèle de Battese et al.) ou non-normale. L’objectif est de déterminer les paramètres propres aux petits domaines avec le plus de précision possible. Cet enjeu est lié au choix de la bonne dépendance résiduelle à utiliser dans le modèle. Le critère de validation croisée sera étudié à cet effet.

(4)

(5)

Abstract

This thesis focuses on the study of a cross-validation criterion for the choice of models for small areas. The study is limited to models of small areas at the unit level. The standard model for this problem has been introduced by Battese, Harter and Fuller in 1988. It is a mixed linear regression model with random intercepts. Its consists of a number of parameters: β a regression parameter for the fixed part, the random component and the variances for the residual error. The model of Battese et al. is used to predict in the average of a study variable y in each small area using an administrative auxiliary variable x known throughout the population. The standard estimation method consists of using a normal distribution for modelling the experimental errors. The consideration of a non normal dependence gives more accurate estimates. This new model might lead to better prediction of the mean of y within small areas. Indeed, the generalization lies in modelling the residual dependency with a non normal exchangeable model. The model selection is an issue and this work investigates cross-validation as a method to choose a model.

(6)

(7)

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures xi

Remerciements xv

1 Introduction 1

2 Les copules 3

2.1 Un peu d’histoire . . . 3

2.2 Les copules en dimension 2 . . . 4

2.3 Les copules en dimension d > 2 . . . 9

2.4 Les bornes de Fréchet -Hoeffding et la comonotonie . . . 10

2.5 Familles de copules . . . 10

3 Problématique de l’estimation dans les petits domaines 19 3.1 Plan de sondage et notations . . . 19

3.2 Méthodes d’estimation de la moyenne dans un petit domaine . . . 20

3.3 Généralisation du modèle de Battese et al. . . 24

4 Critère de validation croisée 27 4.1 Présentation générale du critère de validation croisée . . . 27

4.2 Autres critères de sélection de modèles . . . 34

4.3 Relation d’équivalence asymptotique entre le critère de validation croisée et les critères de sélection de modèles . . . 36

4.4 Calcul de l’espérance du critère de validation croisée pour des modèles de régression . . . 38

4.5 Les autres types de validation croisée . . . 41

5 Estimation des paramètres et simulation 43 5.1 Modèle général : cas semiparamétrique . . . 43

5.2 Estimation des paramètres . . . 44

(8)

5.4 Simulation . . . 47 5.5 Interprétation des résultats . . . 53 5.6 Comparaison du prédicteur EBLUP et du prédicteur sous le modèle

semi-paramétrique . . . 54

6 Conclusion 57

A Annexes 59

(9)

Liste des tableaux

2.1 Trois familles de copules archimédiennes. La fonction Dk(α) = k_α α

R

0 tk

et−1dt. . . . 17

5.1 Résultats des simulations avec marges normales pour m = 20 et τ = 1/3. . . 48

5.3 Résultats des simulations avec marges normales pour m = 20 et τ = 0.7. . . 49

5.5 Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3, τ = 1/3. . . 50

5.7 Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3, τ = 0.7 . . . 51

5.9 Résultats des simulations obtenues avec marges lognormales pour m = 20 et τ = 1/3. . . 52

5.11 Résultats des simulations obtenues avec marges lognormales pour m = 20 et τ = 0.7. . . 53

5.13 Comparaison du prédicteur EBLUP et du prédicteur semiparamétrique pour m = 40 et τ = 1/2. Les données dans le tableau réprésentent le pourcentage des fois que le prédicteur EBLUP est choisi par le critère de validation croisée. 55 A1 Résultats des simulations avec marges normales pour τ = 1/3 et m = 40. . . 59

A2 Résultats des simulations avec marges normales pour τ = 0.7 et m = 40. . . 59

A3 Résultats des simulations avec marges Student à 3 degrés de liberté pour τ = 1/3et m = 40. . . 60

A4 Résultats des simulations avec marges Student à 3 dégres de liberte pour τ = 0.7 et m = 40. . . 60

A5 Résultats des simulations avec marges lognormales pour τ = 1/3 et m = 40. . . 60

(10)

(11)

Liste des figures

2.1 À gauche, la densité d’une loi avec marges normales centrées réduites et de copule normale. À droite, le graphique de dispersion d’un échantillon de taille

1000. Le tau de Kendall entre les variables x et y est τ = 0.6. . . 12 2.2 À gauche, la densité d’une loi avec les marges normales centrées réduites et de

copule de Student à 2 degrés de liberté ; et à droite, le graphique de dispersion

pour un échantillon de taille 1000. Le tau de Kendall est de τ = 0.6. . . 13 2.3 Densité d’une distribution dont les marges sont normales centrées réduites et

graphique de dispersion de taille 1000. La copule utilisée est la Clayton avec un

tau de Kendall de τ = 0.6. . . 15 2.4 Densité d’une distribution dont les marges sont normales centrées réduites et

graphique de dispersion de taille 1000. La copule utilisée est la Gumbel avec un

tau de Kendall de τ = 0.6. . . 15 2.5 Densité d’une distribution de marges normales centrées réduites et graphique

de dispersion de taille 1000. La copule utilisée est la Franck avec un tau de

Kendall de τ = 0.6. . . 16 5.1 Pourcentage de bonne prédiction suivant les valeurs de τ. À gauche les

(12)

(13)

Je dédie ce travail à mon père et à ma feu mère : Vous m’avez donné la vie, la tendresse et le courage pour réussir. Tout ce que je peux vous offrir ne pourra exprimer l’amour et la reconnaissance que vous me portez.

(14)

(15)

Remerciements

La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais témoigner toute ma reconnaissance. Je remercie ma feue mère Woudje Jacqueline j’aimerai toujours de tout mon cœur. Je lui dis merci pour son soutien moral, physique et spirituel.

Mes remerciements vont au professeur Louis-Paul Rivest, mon directeur de mémoire pour sa patience, sa confiance , sa disponibilité, sa contribution, et le financement accordé pour l’élabo-ration de ce travail. J’exprime ma gratitude à toutes les personnes rencontrées qui m’ont aidé et qui ont accepté de répondre à mes interrogations. Je tiens à remercier Thierry Duchesne pour ses précieuses notes de cours en régression. Je tiens également à dire merci à Anne-Sophie Charest pour tous les conseils reçus, sa disponibilité. Je remercie Véronique Tremblay pour les orientations et pour les expériences partagées au sein du Département de mathématiques et de statistique.

Merci à L’ISM (Institut des sciences mathématiques) pour tout le financement offert pour l’avancement de ce mémoire. Je tiens à remercier Monsieur Frédéric Gourdeau, directeur du département et Monsieur Robert Guénette pour l’attention portée à mon dossier et pour m’avoir permis d’obtenir du financement pour mes études. Je dis merci aux professionnels du Service de consultation statistique de l’Université Laval. Je dis merci à Gaetan Daigle, Hélène Crépeau pour l’encadrement, les conseils et l’expertise offerte au sein de l’équipe des consul-tants. Merci Megbe Karamoko, Mondji Herbert, Amenan Christiane Chukunyere, Ibrahima Ousmane Ida, Jean Milou Pierre, mes collègues du Service de consultation pour leur soutien. Je remercie ma Laure Nkouekap, ma blonde pour sa présence, son soutien, et ses conseils qui m’ont permis de braver plusieurs difficultés. Je remercie tous mes amis et connaissances, je remercie particulièrement Achille Kwamegni, Morvan Nongni, Raoul Kamgang, Gael Nongni de m’avoir permis de me sentir en famille au Canada.

(16)

(17)

Chapitre 1

Introduction

La sélection de modèles est un aspect important du travail du statisticien et il existe aujour-d’hui de nombreux critères pour ce faire. L’objectif est d’obtenir un modèle qui colle bien aux données tout en restant parcimonieux, c’est-à-dire avec un nombre limité de paramètres. En effet, on peut toujours améliorer l’ajustement d’un modèle en augmentant sa complexité. Une telle stratégie, appelée sur-ajustement, est contre-productive, car elle donne un modèle lourd avec des composantes difficiles à bien estimer. Le rôle d’un critère de sélection de modèles est donc de faire un compromis entre qualité de l’ajustement et parcimonie du modèle. Selon McQuarrie et Tsai (1998), un bon modèle a des paramètres facilement interprétables et permet de bien prédire la variable d’intérêt.

La validation croisée est une méthode statistique simple et largement utilisée pour la sélection des modèles (Hastie et al. (2001), p.241). Le critère de validation croisée permet d’évaluer la performance d’un modèle à prédire de nouvelles données. Pour le cas des modèles de régression linéaires par exemple, ce critère possède un avantage sur celui de la somme des carrés résiduels qui fournit peu d’indications sur la capacité d’un modèle à prédire de nouvelles observations. Le champ d’application de la méthode s’étend sur plusieurs domaines tels que : la sélection des variables, l’estimation des densités, le data-mining, etc. L’objectif de ce mémoire est focalisé sur l’étude de la capacité de ce critère à bien choisir un modèle de prédiction dans des petits domaines.

Au cours des 20 dernières années, les statistiques des petits domaines ont connu un essor considérable. De telles statistiques sont très anciennes et existaient déjà dans certains pays comme l’Angleterre au XIe siècle et au XV IIe siècle au Canada (Brackstone (1987)). Le besoin des statistiques pour petits domaines se fait ressentir dans plusieurs secteurs dont les secteurs administratifs, privés et le secteur de l’aide internationale, etc. Ce besoin a généré un intérêt considérable auprès des chercheurs. On peut par exemple citer Ghosh et Rao (1994) et Purcell et Kish (1980) qui présentent une revue de littérature des petits domaines et Platek et al.(1986) qui insistent sur les contributions internationales sur ce sujet.

(18)

difficile d’estimer avec précision les caractéristiques lors d’une enquête par sondage. La mé-thodologie statistique des petits domaines combine les données d’enquête aux données admi-nistratives disponibles pour produire des estimations précises des caractéristiques des petits domaines de la population. En effet, les échantillons disponibles ne permettent pas de pro-duire des estimations de qualité. Un modèle statistique lie les données d’enquête aux données administratives. Cette approche fournit de bonnes estimations s’il existe une relation entre la variable administrative, aussi appelée variable auxiliaire, et la variable d’intérêt.

Ce travail se limite à l’étude des modèles de petits domaines au niveau des unités. Le modèle de base est introduit par Battese, Fuller et Harter (1988). C’est un modèle de régression linéaire mixte qui exprime la variable d’intérêt y en fonction de x, la variable auxiliaire du modèle. Les estimations par ce modèle sont possibles lorsqu’on connait la variable x sur toute la po-pulation. Cet article traite d’un exemple où la variable y est la surface de culture ensemencée en maïs et où x représente des informations satellitaires.

Un des objectifs de ce travail est de généraliser le modèle de Battese et al. en modélisant la dépendance résiduelle par une loi échangeable. On considère deux cas de figure. Premièrement, si la loi échangeable est normale on retrouve le modèle de Battese et al. Deuxièmement, si la loi n’est pas normale, les copules échangeables multivariées sont utilisées pour modéliser cette dépendance. Ceci conduit à une famille de modèles semi-paramétriques qui sont déter-minés en spécifiant une famille de copules appropriée pour la dépendance et une distribution marginale pour les erreurs. L’accent est mis sur les copules elliptiques et archimédiennes. Les copules elliptiques considérées comprennent des copules normales et de Student. Les copules archimédiennes étudiées sont celles de Clayton, de Gumbel et de Frank.

Au chapitre 2, la notion des copules est présentée pour modéliser la dépendance résiduelle. La nouvelle classe de modèles utilisés dans ce mémoire est présentée au chapitre 3 ainsi que les enjeux des petits domaines. Le critère de validation croisée utilisé pour le choix des modèles de cette classe est présenté au chapitre 4. Le critère est d’abord présenté pour les modèles linéaires. Ensuite une application du critère est effectuée au modèle linéaire mixte normal. Deux cas de figure sont présentés : le cas où l’on suppose que les paramètres sont connus et le cas où ils sont inconnus. Les méthodes d’estimation des paramètres du modèle sont présentées au chapitre 5. Une simulation est enfin effectuée pour répondre à la question posée : celle de savoir si le critère de validation croisée est crédible pour la sélection des modèles parmi la nouvelle classe étudiée dans ce mémoire.

(19)

Chapitre 2

Les copules

Les copules sont devenues en quelques années, un outil important avec des applications dans de nombreux domaines, tels en statistique, en finance et en actuariat. En effet, la théorie des copules est attrayante, car elle permet de modéliser la non-normalité des variables dans plu-sieurs contextes (Fadhilas (2011)). L’introduction des copules et leur application en statistique est un phénomène relativement récent qui trouve sa source dans les travaux de Fréchet sur les espaces métriques probabilisés réalisés dans les années 50, voir par exemple l’article de Fréchet (1951). Motivé par les travaux de Fréchet, Sklar introduit la notion de copule en 1959. Il fut le premier à utiliser au sens mathématique le mot copule ; il est également considéré comme le fondateur de la théorie des copules. De plus son théorème est l’un des plus importants de la théorie puisqu’il permet de trouver la relation entre une distribution multivariée et ses lois marginales.

2.1 Un peu d’histoire

Le mot copule vient du mot latin « copula »qui signifie liaison, lien, alliance ou union (Bouvier (2010)). Lors de la publication de son article, Sklar (1959) étudiait avec Berthol Schweizer, les espaces métriques probabilisés. De nombreux résultats concernant les copules ont été obtenus à l’aide de ces espaces implicites. Toutefois, les travaux de Hoeffding (1940) contiennent déjà de nombreux résultats sur les copules. Hoeffding (1940) considérait comme loi de référence les lois de distribution sur [−1/2; 1/2]. Nelsen (2007) explique que les travaux de Hoeffding sont restés longtemps méconnus de la littérature scientifique en raison de ses publications dans une revue allemande peu connue à cette époque. C’est bien plus tard que Fréchet, indépendamment des travaux de Hoeffding, va obtenir des résultats similaires.

On définit une copule comme une fonction de répartition dont les marginales sont uniformes sur [0, 1]. En effet, soit F la fonction de répartition d’un vecteur aléatoire (X1, X2, . . . , Xd)

avec d ≥ 2, et soit Fi les marginales associées. D’après Sklar (1959), il existe une fonction C

(20)

F (x1, x2, . . . , xd) = C(F1(x1), F2(x2), . . . , Fd(xd)). (2.1)

La copule établit donc un lien entre la loi multivariée et les lois marginales associées. Elle caractérise la relation entre les variables aléatoires indépendamment des lois marginales. Le premier article qui utilise cette structure de dépendance est celui de Schweizer et Wolf (1981). Dans cet article, les auteurs mesurent la dépendance d’une paire de variables aléatoires et présentent l’invariabilité de la copule par rapport à une transformation monotone.

Il existe dans la littérature une gamme assez variée de copules. On distingue les copules non paramétriques et les copules paramétriques. Le choix de la copule est un élément important pour la modélisation de la structure de dépendance d’un vecteur aléatoire. Ce chapitre présente un aperçu de la théorie des copules. Il introduit plusieurs familles de copules paramétriques. Il présente également les mesures de dépendance relatives aux copules, tel le tau de Kendall et le rho de Spearman.

La plupart des auteurs présentent cette notion en se focalisant sur des espaces en dimen-sions 2. Nous adopterons cette approche, puis nous ferons une extension pour les dimendimen-sions supérieures.

2.2 Les copules en dimension 2

Definition 2.2.1. Une copule est une fonction de répartition C : [0, 1]2 → [0, 1] dont les marginales (U, V ) sont uniformes sur [0, 1].

De cette définition découlent les propriétés suivantes :

Théorème 2.2.1. Une copule C : [0, 1]2→ [0, 1]est une fonction de répartition qui vérifie les conditions suivantes :

1. C(u, 0) = C(0, v) = 0 pour tout u, v ∈ [0, 1]. 2. C(u, 1) = u, C(1, v) = v pour tout u, v ∈ [0, 1].

3. C(u1, v1) − C(u1, v2) − C(u2, v1) + C(u2, v2) ≥ 0, (u1, v1) et (u2, v2) ∈ [0, 1] avec u1 ≥

u2,v1 ≥ v2 (notion de copule 2 − croissante).

Si C est la copule du vecteur (X1, X2) de fonction de répartition F et de lois marginales F1

et F2 alors C permet d’exprimer la loi conjointe F en fonction des marges comme suit :

F (x1, x2) = P(X1≤ x1; X2 ≤ x2) = C(F1(x1), F2(x2)).

Puisque C(u, 1) = u et C(1, v) = v, lim

x1→∞

F (x1, x2) = C(1, F2(x2)) = F2(x2)et lim x2→∞

F (x1, x2) =

(21)

Les définitions précédentes sont aussi applicables aux copules de survie. La fonction de survie d’un vecteur (X1, X2) est donnée par :

¯

F (X1, X2) = P(X1 > x1, X2 > x2) = ¯C( ¯F1(x1), ¯F2(x2)),

où ¯F1et ¯F2 sont les fonctions de survies de X1 et X2. La copule de survie ¯C s’écrit en fonction

de C de la manière suivante : ¯

C(u, v) = u + v − 1 + C(1 − u, 1 − v), u, v ∈ [0, 1].

L’un des théorèmes importants de la théorie des copules est celui de Sklar qui s’énonce comme suit :

Théorème 2.2.2. (Théorème de Sklar)

Soit X et Y deux variables aléatoires de loi conjointe F . Soient respectivement F1 et F2 leurs

fonctions de répartition respectives. Il existe une copule C telle que :

F (x, y) = C(F1(x), F2(y)) pour tout x, y ∈ R2. (2.2)

Si les fonctions F1 et F2 sont continues alors C est unique. Réciproquement si C est une copule

sur [0, 1]2 _{et F}

1, F2 sont deux fonctions de répartition, alors F définie par l’équation (2.2) est

une fonction de répartition conjointe dont les marges sont F1 et F2.

Soit F0 une fonction de répartition. L’inverve généralisé F₀−1 de F0 est défini par :

F₀−1(u) = inf{x, F0(x) ≥ u, u ∈ [0, 1]}.

Si Z = (X, Y ) est un vecteur de loi F dont les marginales respectives sont F1 et F2. La copule

qui satisfait le théorème de Sklar est :

C(u, v) = P(U ≤ u ; V ≤ v) = F (F1−1(u), F −1

2 (v)), u, v ∈ [0, 1].

On vérifie aisément que C est la fonction de répartition du vecteur (U, V ) avec U = F1(X)et

V = F2(Y ).

2.2.1 Propriété d’invariance d’une copule

Soit (X, Y ) un vecteur aléatoire dont la loi est décrite par les marginales continues F1 et F2

et par une copule C. Soit φ et ψ deux fonctions continues monotones. — Si φ et ψ sont croissantes alors la copule pour (φ(X), ψ(Y )) est C. — Si φ et ψ sont décroissantes alors la copule pour (φ(X), ψ(Y )) est ¯C.

Ces propriétés mettent en évidence la flexibilité des copules. En effet, si on fait varier les marginales F1 et F2 la copule C et la structure de dépendance demeurent inchangées.

(22)

2.2.2 Densité conjointe en dimension 2

Soit le vecteur (X, Y ) de loi conjointe F (x, y) et C, la copule associée. Les fonctions de densité respectives de X et Y lorsqu’elles existent sont données par :

f1(x) =

∂F1(x)

∂x f2(y) =

∂F2(x)

∂y .

La densité conjointe de (X, Y ) s’exprime en fonction de la copule C comme suit :

f (x, y) = f1(x)f2(y)c(F1(x), F2(y)),

où c est la fonction de densité de la copule C définie par : c(u, v) = ∂

2

∂u∂vC(u, v).

2.2.3 Mesure de dépendance

L’étude des relations de dépendance entre les variables aléatoires est l’un des centres d’intérêt en statistique. Il existe dans la littérature plusieurs concepts utilisés à cet effet. L’un des plus connus est le coefficient de corrélation de Pearson, utilisé pour mesurer la corrélation linéaire entre deux variables. Il est à noter que si deux variables sont fortement corrélées, cela ne justifie pas forcément qu’il y existe une relation de causalité entre elles. Une alternative à cette mesure est le tau de Kendall et le rho de Spearmean.

Le coefficient de corrélation de Pearson

Soit X et Y deux variables aléatoires continues de variance finie ; le coefficient de corrélation linéaire de Pearson est défini par :

ρ(X, Y ) = Cov (X, Y ) pV ar (X) V ar (Y ) =

E (XY ) − E (X) E (Y ) pV ar (X) V ar (Y ) .

Le coefficient de corrélation appartient à l’intervalle [−1, 1]. Il permet de mesurer la relation linéaire entre X et Y . En effet s’il existe a 6= 0, b ∈ R tel que, Y = aX +b, alors ρ(X, Y ) = +1 ou −1 selon le signe de a. De plus il est aussi invariant par transformation affine. C’est-à-dire que ρ(aX + b, cY + d) = sign(ac)ρ(X, Y ), où sign(x) représente le signe de la variable x. Le coefficient de corrélation de Pearson est une mesure très utilisée en statistique. Cependant, elle peut ne pas s’appliquer ou renvoyer des résultats erronés dans certains contextes. En effet, la corrélation de Pearson ne peut être calculée pour une distribution de Cauchy par exemple. De plus, elle peut être nulle en présence d’une dépendance non linéaire.

(23)

Exemple 1. Soient X ∼ U[−1, 1], Y = X2_{. Alors E(X) = 0 et E(XY ) = E(X}3_{) = 0}_{. Le}

coefficient de corrélation de Pearson est ρ(X, Y ) = 0. Cela pourrait suggérer a priori que les variables X et Y sont indépendantes, ce qui n’est pas vrai puisque Y dépend de X.

Ceci a conduit Scheweizer et Wolf (1981) à suggérer qu’une mesure de dépendance appropriée doit dépendre seulement de la copule.

Mesure de concordance

Definition 2.2.2. Soient (x1, y1), (x2, y2) deux observations d’un vecteur aléatoire continu

(X, Y ). Nous disons que (x1, y1) et (x2, y2) sont :

1. Concordants si :

(x1< x2 et y1< y2 ou x1 > x2 et y1 > y2) ⇐⇒ (x1− x2)(y1− y2) > 0.

2. Discordants si :

(x1< x2 et y1> y2 ou x1 > x2 et y1 < y2) ⇐⇒ (x1− x2)(y1− y2) < 0.

Géométriquement deux points (x1, y1), (x2, y2) dans le plan sont concordants si le segment

passant par ces points admet une pente positive et discordants si le segment admet une pente négative.

Le tau de Kendall (τ )

C’est une mesure de dépendance introduite pour la première fois par Maurice Kendall (1938). Le tau de Kendall τ d’un vecteur aléatoire continu (X, Y ) de loi jointe F , se définit comme la différence entre les probabilités de concordance et de discordance de 2 paires (X1, Y1) et

(X2, Y2) de loi F , c’est-à-dire :

τ (X, Y ) = P{(X1− X2)(Y1− Y2) > 0} − P{(X1− X2)(Y1− Y2) < 0}.

En intégrant suivant les distributions de (X1, Y1) et (X2, Y2), le tau de Kendall devient :

τX,Y = τC = 4 1 Z 0 1 Z 0 C (u, v) dC (u, v) − 1 = 4E{C(F1(X1), F2(X2))} − 1, (2.3)

(24)

où C est la copule associée à (X, Y ).

Soit {(x1, y1), . . . (xd, yd)}un échantillon de n points d’un vecteur aléatoire continu (X, Y ). Il

y a d

2 !

paires distinctes (xi, yi)et (xj, yj)qui sont concordantes ou discordantes.

Le tau de Kendall empirique s’écrit : b

τ = nombre de paires concordantes − nombre de paires discordantes

d(d − 1)/2 . (2.4)

Le rho de Spearman(ρ_S)

Soit (X1, Y1),(X2, Y2),(X3, Y3), 3 vecteurs aléatoires indépendants de même fonction de

répar-tition H. considérons les couples (X1, Y1) et (X2, Y3). Le rho de spearman ρS associé à une

paire (X, Y ) ∼ F se définit par :

ρS(X, Y ) = 3(P{(X1− X2)(Y1− Y3) > 0} − P{(X1− X2)(Y1− Y3) < 0}). (2.5)

Ce qui donne en terme de la copule C : ρS(X, Y ) = 12 1 Z 0 1 Z 0

(C (u, v) − uv) dudv (2.6)

= −3 + 12E{C(U V )}. (2.7)

Le rho de Spearman entre X et Y est équivalent au calcul de la corrélation de Pearson entre les variables F1(X)et F2(Y ). L’équation (2.7) s’écrit encore :

ρS(X, Y ) = ρ(F1(X), F2(Y )).

Propriétés du tau de Kendall et du rho de Spearman

Le rho de Spearman et le tau de Kendall sont des mesures d’association qui disposent de propriétés similaires, entre autres :

• Elles sont symétriques ; c’est à dire κ(X, Y ) = κ(Y, X), où κ représente le tau de Kendall ou le rho de Spearman.

• κ ∈ [−1, 1].

• Si X et Y = g(X), ou g est une fonction croissante alors κ(X, Y ) = 1. • Si X et Y = h(X), ou h est une fonction décroissante alors κ(X, Y ) = −1.

• si X et Y sont indépendantes alors κ(X, Y ) = κ_π = 0. La réciproque n’est pas forcément vraie.

(25)

2.3 Les copules en dimension d > 2

Soit (X1, X2, . . . , Xd)un vecteur aléatoire. La fonction de distribution associée se définit ainsi :

F (x1, x2, . . . , xd) = P(X1 ≤ x1, . . . , Xd≤ xd), x1, . . . , xd∈ R.

Pour i = 1, . . . d, la fonction de distribution Fi est appelée la loi marginale ou marginale et

s’obtient de F :

Fi(xi) = P(Xi ≤ xi) = F (∞, . . . , ∞, xi, . . . , ∞), xi ∈ R.

L’argument ∞ de F est une notation qui signifie la limite des arguments x1, . . . , xi−1, xi+1, . . . xd

à l’infini. Il est important de noter que la connaissance des marginales (Fi)1≤i≤d n’induit pas

automatiquement la connaissance de la distribution multivariée. Cela requiert tout d’abord la connaissance de la relation de dépendance entre les marginales. En effet, connaître la copule et les lois marginales est équivalent à la loi du vecteur aléatoire.

Definition 2.3.1. (Copule) Une fonction C : [0, 1]d→ [0, 1]est une copule si il existe un espace probabilisé (Ω, F, P) et un vecteur aléatoire (U1, . . . , Ud) dont les marges sont uniformes sur

[0, 1] tel que :

C(u1, . . . , ud) = P(U1≤ u1, . . . , ud≤ ud), u1, . . . , ud∈ [0, 1].

La copule vérifie de manière équivalente à la section 2.2.1, les propriétés suivantes : 1. C(u1, . . . , ud) = 0 si au moins l’un des ui= 0;

2. C(1, . . . , 1, ui, 1 . . . , 1) = ui;

3. C est d-croissante, c’est-à-dire :

∀ u = (u1, . . . , ud), v = (v1, . . . , vd) ∈ [0, 1]d, ui < vi, i = 1, . . . , d :

X

(w1,...,wd)∈×di=1{ui,vi}

(−1)|i:wi=ui|_C(w

1, . . . , wd) > 0.

Théorème 2.3.1. (Théorème de Sklar multivarié)

Si F est une fonction de répartition conjointe dont les lois marginales sont F1, . . . , Fd alors il

existe une copule C telle que pour tout (x1, . . . , xd) ∈ Rd :

F (x1, . . . , xd) = C(F1(x1), . . . , Fd(Xd)). (2.8)

Si de plus les fonctions F1, . . . , Fd sont continues, C est unique. Réciproquement si C est une

copule sur [0, 1]d _{et F}

1, . . . , Fd des fonctions de répartition, alors F définie par l’équation en

(2.8) est une fonction de répartition conjointe dont les marges sont F1, . . . , Fd.

Si F−1 1 , . . . , F

−1

d sont les fonctions inverses des marges F1, . . . , Fdalors, pour tout (u1, . . . , ud) ∈

[0, 1]d, on a

(26)

2.3.1 Copule de survie

La fonction de survie d’un vecteur aléatoire X = (X1, . . . , Xd) ∼ F (F1, . . . , Fd) défini sur un

espace probabilisé (Ω, F, P) est définie par : ¯

F (x1, . . . , xd) = P(X1 ≥ x1, . . . , Xd≥ xd) x1, . . . , xd∈ R.

La copule de survie est la copule associée à la fonction de survie. c’est à dire : ¯

F (x1, . . . , xd) = ¯C( ¯F1(x1), . . . , ¯Fd(xd)).

2.4 Les bornes de Fréchet -Hoeffding et la comonotonie

Definition 2.4.1. Une copule comonotone est une fonction de répartition M : [0, 1]d_{→ [0, 1]}

définie par :

M (u1, . . . , ud) = min(u1, . . . , ud). (2.9)

Si U est uniformément distribuée sur [0,1], la loi de (U, U, . . . , U) est M. En effet, M (u1, . . . , ud) = P(U ≤ u1, . . . , U ≤ ud)

= P(U < min(u1, . . . , ud))

= min(u1, . . . , ud).

2.4.1 Bornes de Fréchet-Hoeffding

Les copules sont bornées. En effet, pour toute copule C : [0, 1]d _{→ [0, 1]} _{et pour tout}

(u1, . . . , ud) ∈ [0, 1]d : W (u1, . . . , ud) = max X ui− (d − 1), 0) ≤ C(u1, . . . , ud) ≤ M (u1, . . . , ud .

W et M sont respectivement la borne inférieure et supérieure de Fréchet-Hoeffding. M est une copule en dimension d ≥ 2 tant dis que W ne l’est que pour d = 2. Elle est appelée copule anticomonotone.

2.5 Familles de copules

2.5.1 Copule d’indépendance

Definition 2.5.1. On appelle copule d’indépendance Q définie par : Y (u1, . . . , ud) = u1u2. . . ud= d Y i=1 ui, ui ∈ [0, 1].

(27)

2.5.2 La famille de copules Fairly-Gumbel-Morgenstern Elle est communément notée la copule F GM et définie comme suit :

Cθ(u, v) = uv + θuv(1 − u)(1 − v); u, v ∈ [0, 1],

où θ ∈ [−1, 1] et contrôle la dépendance entre U et V . Les membres de cette famille ont pour propriété d’être échangeables, c’est-à-dire :

Cθ(u, v) = Cθ(v, u); u, v ∈ [0, 1].

La densité de copule FGM s’écrit : cθ(u, v) =

∂2

∂u∂vCθ(u, v) = 1 + θ(1 − 2u)(1 − 2v). En appliquant la formule (2.3), le tau de Kendall associé donne :

τF GM = 4 1 Z 0 1 Z 0

Cθ(u, v) cθ(u, v) dudv − 1

= 2θ 9 ∈ −2 9, 2 9 .

L’intervalle de τ montre que la dépendance d’une copule FGM est relativement faible. 2.5.3 Copules elliptiques

Copules gaussiennes bivariées

Soit Φρ(x, y) la fonction de répartition d’une loi normale bivariée de moyenne 0, de variance

1 et de corrélation ρ. La copule Cρ correspondante est donnée par :

Cρ(u, v) = Φρ(Φ−1(u), Φ−1(v)) = 1 2πp1 − ρ2 Z Φ−1(u) −∞ Z Φ−1(v) −∞ exp −x 2_{+ y}2_{− 2ρxy} 2(1 − ρ2₎ dxdy,

où Φ−1 _{est la fonction quantile de la distribution normale centré réduite.}

Copule gaussienne multivariée

Soit R une matrice de corrélation et ΦR la distribution normale multivariée de moyenne 0 et

de corrélation R. La copule associée est gaussienne et s’écrit : CR(u1, ..., ud) = ΦR Φ−1(u1) , ..., Φ−1(ud) = Z Φ−1(u1) −∞ . . . Z Φ−1(ud) −∞ 1 (2π)d/2_{| R}1/2_|exp ( −z T_R−1_z 2 ) dzd. . . dz1,

(28)

où ρ est l’ICC et |R| est le déterminant de la matrice R. Soit x = (Φ−1_(u

1), . . . , Φ−1(ud))T. La fonction de densité associée est donnée par :

cR(u1, ..., ud) = 1 |R|12 exp −1 2x T _R−1_{− I x} , où I est la matrice identité en dimension d.

Figure 2.1 – À gauche, la densité d’une loi avec marges normales centrées réduites et de copule normale. À droite, le graphique de dispersion d’un échantillon de taille 1000. Le tau de Kendall entre les variables x et y est τ = 0.6.

La copule de Student bivariée

La copule de Student à ν degrés de liberté et de coefficient de corrélation ρ est définie comme suit : C(u, v) = Tν−1(u) Z −∞ Tν−1(v) Z −∞ 1 πνp1 − ρ2 Γ ν₂ + 1 Γ ν₂ 1 +x 2_{− 2xy + y}2 ν (1 − ρ2₎ −(ν₂+1) dxdy où T−1

ν est la fonction quantile de la loi de Student à ν degrés de liberté.

Copule de Student en dimension d

Soit xi = T−1(ui), i = 1, . . . d et x = (x1, . . . , xd)T. La copule de Student à ν degrés de liberté,

de matrice de corrélation R en dimension d s’écrit : Cν,R(x1,..., xd) = x1 Z −∞ ... xd Z −∞ Γ ν+d₂ |R|12_Γ ν 2 (νπ) d 2 1 +ν 2X T_R−1_X−( ν+d 2 ) dX. (2.10)

La densité de la copule (2.10) s’écrit : cν,R(u1,..., ud) = Γ ν+d₂ |R| Γ ν₂ Γ ν₂ Γ ν+1₂ !d 1 +1_νxTR−1x−( ν+d 2 ) i=d Π i=1 1 + 1 νxi2 −(ν+1₂ ) .

(29)

Figure 2.2 – À gauche, la densité d’une loi avec les marges normales centrées réduites et de copule de Student à 2 degrés de liberté ; et à droite, le graphique de dispersion pour un échantillon de taille 1000. Le tau de Kendall est de τ = 0.6.

Le tau de Kendall comme le rho de Spearman est le même pour une copule gaussienne que pour une copule de Student. En dimension 2, le taux Kendall est égal à :

τ = 2

πarcsin(ρ), où ρ désigne le coefficient de corrélation.

Plus généralement pour toute paire (Xi, Xj) , des composantes elliptiques de (X1, . . . , Xd), le

tau de Kendall s’écrit :

τ (Xi, Xj) =

2

πarcsin(ρij), avec ρij = Corr(Xi, Xj).

Le rho de Spearman pour une copule normale s’écrit : ρS(Xi, Xj) = 6

arcsin(ρij/2)

π .

2.5.4 Les copules archimédiennes Transformée de Laplace

Soit a une variable aléatoire positive dont la loi dépend du paramètre α. La transformée de Laplace de a est la fonction ψα définie sur [0, ∞] à valeur dans [0, 1] et donnée par :

ψα(t) = E(exp(−ta)). (2.11)

Les copules archimédiennes

Les copules archimédiennes s’expriment en utilisant la transformée de Laplace (voir (2.11)) comme suit :

(30)

Cα,d(u1, . . . , ud) = ψα{ψα−1(u1) + · · · + ψα−1(ud))}, u1, . . . , ud∈ [0, 1].

La densité d’une copule archimédienne s’écrit : (Rivest et al. (2015)) : cα,d(u1, . . . , ud) = ψd_α[ψ−1_α (u1) + · · · + ψα−1(ud)] Πd j=1ψ1α[ψ−1α (uj)] , où ψi

α est la ième dérivée de ψα.

Les copules archimédiennes sont importantes dans la modélisation des données bivariées dans le sens où elles possèdent une gamme variée de copules paramétriques permettant des structures de dépendance. De plus, les composants de cette famille possèdent de belles propriétés. En autres, elles sont symétriques, c’est-à-dire C(u, v) = C(v, u). Les marges multivariées sont toutes les mêmes. En effet, en dimension 3 on a C(1, u, v) = C(u, 1, v) = C(u, v, 1), pour u, v ∈ [0, 1]. Le développement des copules archimediennes est récent, nous les devons en grande partie à Mackay et Genest (1986) et à Genest et Rivest (1993). Nous présentons dans cette section, 3 classes de copules paramétriques qui sont :

• La copule de Clayton, • la copule de Gumbel, • la copule de Franck.

Famille de Clayton Distribution Gamma

La distribution Gamma est une loi positive, caractérisée par deux paramètres, un paramètre de forme et un paramètre d’échelle. On dit que X suit une distribution gamma de paramètre de forme k et de paramètre d’échelle β, et on note X ∼ Γ(k, β) si la densité de X a la forme :

f (x, k, β) = x

k−1_e−xβ

Γ(k)βk , x > 0, (2.12)

où Γ est la fonction gamma donnée par : Γ(k) =

Z ∞

0

tk−1e−tdt.

La copule de Clayton est une copule archidienne définie par la fonction de Laplace ψα donnée

par :

ψα(t) = (1 + αt)−1/α,

où la variable a suit une distribution Gamma (voir (2.12)) de paramètre de forme égal à 1/α et de paramètre d’échelle α.

(31)

Figure 2.3 – Densité d’une distribution dont les marges sont normales centrées réduites et graphique de dispersion de taille 1000. La copule utilisée est la Clayton avec un tau de Kendall de τ = 0.6.

Famille de Gumbel Loi stable

Une loi stable est fermée par rapport au produit de convolution. Soient X1, X2, . . . , Xd des

variables aléatoires indépendantes et identiquement distribuées. X1, X2, . . . , Xd suit une loi

stable, s’il existe ad et bd tels que Y = ad(X1+ X2+ · · · + Xd) + bd suit également la même

loi stable. Un exemple de loi stable est la distribution normale. En effet, la somme de deux variables aléatoires normales est une variable aléatoire normale.

La copule de Gumbel est générée par la fonction de Laplace ψα donnée par :

ψα(t) = exp(t1/(1+α)),

où a est une variable aléatoire de loi stable positive.

Figure 2.4 – Densité d’une distribution dont les marges sont normales centrées réduites et graphique de dispersion de taille 1000. La copule utilisée est la Gumbel avec un tau de Kendall de τ = 0.6.

(32)

Famille de Franck Loi logarithmique

C’est une loi discrète positive définie sur 1, 2, . . .. Soit p ∈ [0, 1]. On dit que X suit une loi logarithmique de paramètre p et on note X ∼ Log(p), si la densité de X s’écrit :

f (k, p) = P (X = k) = −1 ln(1 − p)

pk

k, k ≥ 1. La copule de Franck a pour générateur la fonction de Laplace :

ψα(t) = − log[1 + exp(−t){exp(−α) − 1}]/α,

où a suit une distribution logarithmique.

Figure 2.5 – Densité d’une distribution de marges normales centrées réduites et graphique de dispersion de taille 1000. La copule utilisée est la Franck avec un tau de Kendall de τ = 0.6.

Tau de Kendall pour les copules archimédiennes en dimension 2

Il a été établi par Genest et Mackay (1986) que le tau de Kendall pour une copule archimé-dienne est donné par :

τ = 1 + 4 1 Z 0 φ(t) φ0(t)dt (2.13)

φ = ψ−1 est l’inverse de la fonction de Laplace.

(33)

Copule ψ loi de a τ (tau de kendall)

Clayton (1 + αt)−1/α _Γ(1

α, α) α/ (α + 2)

Gumbel exp(t1/(1+α)₎ _{stable positive (α − 1) /α}

Franck − log[1 + exp(−t){exp(−α) − 1}]/α logarithmique 1 + 4(D1(α)−1)

α

Table 2.1 – Trois familles de copules archimédiennes. La fonction Dk(α) = _αk α

R

0 tk

et−1dt .

Le paramètre α est strictement supérieur à 0. Lorsqu’il est nul, la copule résultante est la copule d’indépendance Π.

En définitive, les copules sont un outil statistique important permettant de modéliser la struc-ture de dépendance d’un vecteur de variables aléatoires. Elles s’appliquent d’autant plus aux variables normales et non normales.

(34)

(35)

Chapitre 3

Problématique de l’estimation dans les

petits domaines

La plupart des enquêtes à grande échelle, comme celles effectuées par Statistique Canada, four-nissent de bonnes estimations. Cependant on a souvent besoin de statistiques pour certaines zones qui contiennent peu ou très peu d’unités échantillonnées. Cette petite taille d’échantillon peut augmenter la variance des statistiques de l’enquête. Ce type de zone géographique est communément appelée « petit domaine » ou « small area » en anglais. Le terme « petit » peut sembler ambigu à première vue dans l’expression « petit domaine » s’il n’est pas correctement défini. Selon Rao (2003), un domaine est un petit si l’estimateur calculé avec les seules données d’enquête est imprécis et il est considéré large sinon. Dépendant du contexte, un petit domaine peut être une province, une division administrative, un comté , une municipalité, un district, etc.

Plusieurs méthodes d’estimation existent pour prédire les caractéristiques des petits domaines. Nous présentons de prime abord quelques méthodes d’estimation de moyennes, ensuite il sera question d’introduire les modèles que nous utiliserons dans la suite de nos analyses.

3.1 Plan de sondage et notations

Considérons le plan de sondage stratifié défini comme suit. Soit une population notée U consti-tuée de m domaines de tailles respectives N1, . . . , Nm. On pose N = Pm_i=1Ni, la taille de la

population totale. Soit Ui, la population du domaine i dans lequel on effectue un tirage

aléa-toire de niéléments parmi les Ni. Soit Si, l’ensemble des éléments tirés et S = ∪Sil’échantillon

total obtenu. On pose n = Pm

i=1ni la taille totale de l’échantillon.

La variable d’intérêt de l’étude, y, est mesurée sur les échantillons {Si}. Soit x, une variable

auxiliaire connue sur toute la population U et i un domaine quelconque du plan. On pose xij = (xij1, xij2, . . . , xijp) la variable auxiliaire de dimension p. Les moyennes des variables x

(36)

et y sur le domaine i sont respectivement YiU et XiU définies par : YiU = 1 Ni Ni X j yij XiU = 1 Ni Ni X j xij.

Les moyennes respectives de ces variables sur toute la population U sont : YU = 1 N m,Ni X i,j yij XU = 1 N m,Ni X i,j xij = (X1, . . . , Xp)T.

Il est à noter que les moyennes YiU et YU qui sont relatives à la population, ne peuvent pas

être déterminées directement puisque que la variable y n’est connue que sur une partie de la population. Ces moyennes doivent donc être estimées. Les moyennes échantillonnales des variables y et x estimant les moyennes YiU et XiU sont notées respectivement yis et xis , elles

sont déterminées comme suit :

y_is= 1 ni ni X j=1 yij xis = 1 ni ni X j=1 xij = (xi1, . . . , xip)T.

Les estimateurs de moyennes de XU et YU sont respectivement xs et ys définis par :

y_s= m X i=1 Ni N yis xs= m X i=1 Ni N xis. (3.1)

On suppose que les tailles d’échantillon ni sont faibles, négligeables par rapport à la taille Ni

des domaines et que ni/Ni≈ 0.

3.2 Méthodes d’estimation de la moyenne dans un petit

domaine

L’objectif est d’estimer la moyenne de y dans un petit domaine par différentes méthodes d’es-timation. Soit donc i, un petit domaine. Ce qui caractérise le domaine i est qu’il contient peu de données échantillonnées. La littérature statistique contient plusieurs méthodes d’estima-tion de la moyenne dans un petit domaine. Certaines méthodes sont dites directes, car elles utilisent seulement les données d’enquêtes. D’autres sont syntétiques car elles intègrent des variables auxiliaires provenant de sources externes à l’enquête. La méthode composite combine les estimations obtenues sur les deux premières méthodes (méthodes directes et synthétiques). Nous allons présenter dans les lignes qui suivent quelques-unes de ces méthodes en vue de l’estimation de la moyenne YiU .

(37)

3.2.1 Méthodes d’estimation directes

C’est la méthode usuelle qui utilise uniquement les données d’enquête. L’estimateur de la moyenne YiU est donné par la moyenne échantillonnale :

yDir_is = 1 ni ni X j=1 yij.

La variance de cet estimateur est (Lohr (2009), p.53) : V ar(yDir_is ) = 1 − ni Ni S2 i ni , (3.2) où S2

i est la variance de y dans le domaine i. yDiris est un estimateur peu fiable si la taille

d’échantillon ni dans le domaine est faible. En effet, la variance (3.2) est alors élevée.

3.2.2 Méthode d’estimation synthétique

C’est une méthode qui utilise les estimations de la population dans l’objectif de produire de bonnes statistiques de petits domaines. En effet, selon Gonzalez (1973) :

"An unbiased estimator is obtained from a sample survey for a large area ; when this estimate is used to derive estimates for subareas under the assumption that the small areas have the same characteristics as the large area, we identify these estimates as synthetic estimates." La méthode d’estimation synthétique suppose donc que la population et les petits domaines ont les mêmes caractéristiques. Pour cette raison, un estimateur synthétique donne des es-timations d’une statistique cible dans un domaine en utilisant les données de la population échantillonnale (Steinberg (1979), p.1). Il existe plusieurs façons de procéder pour construire un estimateur synthétique.

Exemple 2. Estimateur synthétique pour la moyenne. Si on considère le modèle implicite suivant :

YiU = YU,

l’estimateur synthétique de la moyenne dans le petit domaine i est le suivant : ySyn_is = y_s,

où ys est donnée par (3.1). C’est-à-dire que l’estimateur synthétique est égal à l’estimateur de

la moyenne dans la population.

Exemple 3. Exemple d’estimateur synthétique pour un modèle de régression.

Pour p = 1, supposons qu’il existe une relation linéaire entre y et x avec une ordonnée à l’origine nulle. Le modèle de régression se définit comme suit :

(38)

où εij ∼ N (0, σ2xij). En passant à la moyenne, le modèle (3.3) donne :

YU = βXU. (3.4)

On déduit β de (3.4) pour obtenir :

β = YU XU

. (3.5)

Un estimateur de β est donné par (voir (3.1)) : b β = ys

xs

,

L’estimateur synthétique de la moyenne d’après (3.4) est :

ySyn_is = bβXiU.

L’un des avantages d’un estimateur synthétique est la simplicité de calcul. On montre que la variance d’un estimateur synthétique est de l’ordre de 1

n (Francisco (2003)). Cependant,

l’estimateur synthétique est souvent biaisé parce qu’il capture mal la variabilité interdomaine (variabilité associée aux différences entre les moyennes de y dans les différents domaines).

3.2.3 Estimateur composite

L’estimateur composite est une somme pondérée entre un estimateur direct et un estimateur synthétique. Le poids est défini de telle sorte que si la taille de l’échantillon ni est grande,

l’estimateur direct dispose d’un poids élevé par rapport à l’estimateur synthétique et pour une taille d’échantillon faible, la pondération sera favorable à l’estimateur synthétique. La définition d’un estimateur composite est la suivante :

yCom_is =γbiy Dir is + (1 −γbi)y Syn is , (3.6) où yCom is , yDiris , y Syn

is représentent respectivement l’estimateur composite, l’estimateur direct

et l’estimateur synthétique de la moyenne. Dans l’équation (3.6), le paramètre γbi prend ses valeurs dans l’intervalle [0, 1] et contrôle le compromis entre l’estimateur direct et l’estima-teur synthétique. Il est choisi en minimisant l’EQM de l’expression (3.6) (voir Ghosh et Rao (1994)). Ainsi, le poids associé à l’estimateur direct est élevé si la taille de l’échantillon est grande, sinon il est élevé pour l’estimateur synthétique si l’on a besoin d’informations supplé-mentaires provenant d’autres domaines.

L’estimateur composite a la propriété d’avoir un biais plus faible qu’un estimateur synthé-tique. Il est plus précis qu’un estimateur direct. Son erreur quadratique moyenne (EQM) est généralement inférieure à celle de ces deux estimateurs.

(39)

3.2.4 Méthode d’estimation de la moyenne par le modèle de Battese et al. (1988)

C’est une méthode d’estimation indirecte basée sur le modèle introduit par Battese et al. (1988). Le modèle est un modèle de régression linéaire mixte avec une ordonnée à l’origine aléatoire. Le modèle se définit ainsi :

yij = xTijβ + νi+ eij, i = 1 . . . m, j = 1 . . . Ni, (3.7)

où β est le paramètre de régression de la partie fixe du modèle ; νi ∼ N (0, σν2)la variable

aléa-toire du ième domaine et eij ∼ N (0, σe2)l’erreur associée au modèle est supposée orthogonale

à νi.

Si le modèle est vrai, la moyenne de la variable y pour le domaine i est prédite via (3.7) comme suit : YiU = X T iUβ + νi+ ei, (3.8) où ei = n−1i Pni

j=1eij. La prédiction de YiU peut varier suivant que les paramètres β et les

variances associées à νi et eij sont connus ou inconnus.

Prédiction de Y_iU : cas où β, σ_e2, σ2_ν sont connues

C’est le cas le plus classique. Pour obtenir une prédiction de la moyenne, il suffit de calculer une moyenne suivant (3.7) sur les éléments de l’échantillon. On obtient :

b y_is = XT_iUβ +ν_bi, (3.9) où νbi = n −1 i ni P j=1 γi(yij− xTijβ) = γi(yis− xTisβ) avec γi = σ 2 ν σ2 ν+ σ2e ni

. L’erreur quadratique d’après Rao (1994) est :

EQM (by_is) = g1i(σν2, σ2e) =

γiσe2

ni

.

Cas où β, σ_e2, σ2_ν sont inconnues Si les composantes de variance σ2

e, σν2 sont inconnues, on les remplace par leurs estimés bσ

2 e,

b σ2

ν. Si β est inconnu, on le remplace par son estimateur bβ donné par :

b β = m X i=1 ni X j=1 xijxTij −bγixisx T is −1 m X i=1 ni X j=1 xijyij−bγixisyis ,

(40)

avecγbi= b σ2 ν b σ2 ν+b σ2e ni .

Le prédicteur de YiU résultant est (Mukhopadhyay et al. (2011)) :

b

y_is = XT_iUβ +b ν_b_i (3.10)

= XT_iUβ +b _bγ_i(y_is− x_isβ).b

L’EQM de yis est (Rao (1994)), (Prasad et Rao (1990)) :

EQM (y_is) = g1i(σν2, σe2) + g2i(σν2, σ2e) + g3i(σ2ν, σe2), (3.11) où g1i(σ2ν, σe2) = γiσe2 ni (3.12) g2i(σ2ν, σe2) = (Xi− γixi)T m X i=1 Ai −1 (Xi− γixi) (3.13) g3i(σ2ν, σe2) = n−2i σ_ν2+ σ 2 e ni h(σ2_ν, σ_e2) (3.14) avec Ai = σ−2e ni P j=1 (xijxTij − γinixixTi ) et h(σν2, σe2) = σ4eV V νν(δ) + σν4V V ee(δ) − 2σ2eσ2νV V ν,e(δ), où δ = (σ2 ν, σe2)T ; V V νν(δ) et V V

ee sont les variances asymptotiques de bσ

2 ν et bσ 2 e et V V ν,e(δ), la covariance asymptotique deσb 2 ν etbσ 2 e (Mukhopadhyay et al. (2011)).

Nous avons présenté plusieurs méthodes qui permettent d’estimer la moyenne d’une variable d’intérêt dans un petit domaine. Les méthodes présentées étaient soit directes, soit indirectes. Il existe néanmoins d’autres méthodes d’estimation par un modèle. Des méthodes alternatives sont présentées à la section suivante.

3.3 Généralisation du modèle de Battese et al.

Le modèle présenté est une généralisation du modèle de Battese et al. défini en (3.7). La généralisation est relative à la modélisation de la dépendance résiduelle par une loi échangeable. Ce modèle est défini par :

yij = xTijβ + εij i = 1 . . . m, j = 1 . . . Ni, (3.15)

où pour tout domaine i, la fonction de répartition des erreurs (εi1, · · · , εiNi) appartient à une

famille échangeable de fonctions de répartition continues {Fα,θ,n(εi1, · · · , εiNi)}; où α et θ sont

des paramètres associés au niveau de dépendance et à la fonction de répartition marginale des erreurs qui sont de moyenne nulle et de variance finie.

(41)

3.3.1 Familles de lois échangeables {Fα,θ,n} pour les erreurs

On dit qu’une famille de fonctions de répartition {Fα,θ,n} est échangeable si elle remplit les

propriétés suivantes :

• propriétés d’échangeabilité : pour toute permutation ∆ de 1, . . . , n vers ∆(1), ∆(2), · · · , ∆(n) Fα,θ,n(z1, · · · , zn) = Fα,θ,n(z∆(1), z∆(2), · · · , z∆(n)).

• propriété de dimension invariante : pour tout 2 6 d < n Fα,θ,n(z1, · · · , zd, ∞, ∞) = Fα,θ,d(z1, · · · , zd).

Soit Fe une fonction de répartition unidimensionnelle. S’il existe une copule

multidimension-nelle Cα,n (voir la section 2.5) telle que Fα,n(z1, . . . , zn) = Cα,n(Fe(z1), . . . , Fe(zn)), alors la

famille {Fα,n} satisfait les deux conditions précédentes.

Exemple 4. Loi échangeable normale

Si εij = νi+ eij avec νi ∼ N (0, σν2) et eij ∼ N (0, σ2e), alors (εi1, . . . , εin) appartient à une

famille échangeable normale multivariée dont la distribution est N(0, σ2_{P(ρ, n}

i)), avec : X (ρ, ni) =       1 ρ · · · ρ ρ 1 · · · ρ ... ... ... ... ρ ρ · · · 1       (3.16) où σ2 _{= σ}2

e + σν2 et ρ = σ2ν/(σe2+ σν2) qui représente le paramètre de corrélation intra

classe.

Plus généralement, la matrice P(ρ, ni) est la même pour toutes les lois échangeables.

3.3.2 Estimation de la moyenne d’un petit domaine par le modèle (3.15) L’idée consiste à utiliser le modèle (3.15) dans le but d’estimer la moyenne YiU pour un

petit domaine i présentée ici [voir la section 3.1]. Soit ri = U − Si l’ensemble des éléments

non échantillonnés. Pour estimer YiU on a besoin d’estimer les yik pour k ∈ ri. Le meilleur

prédicteur non biaisé de yik est donné par l’espérance conditionnelle de yik sachant {yij, j =

1, . . . , ni} qui est le même que l’espérance conditionnelle de yik sachant {εij, j = 1, . . . , ni}

puisque εij est fonction de yij.

On suppose que les paramètres (β, α, θ) sont connus. Soit fα,θ,ni la densité de {εij, j =

1, . . . , ni}. La densité conditionnelle de εik connaissant {εij, j = 1, . . . , ni} est donnée par :

f|i(e) =

fα,θ,ni+1(e, εij, j = 1, . . . , ni)

fα,θ,ni(εij, j = 1, . . . , ni)

(42)

Le meilleur prédicteur non biaisé de yik d’après (3.17) est alors : ˜ yik= Z R (xT_ikβ + e)f|i(e))de = xT_ikβ + Z R ef|i(e))de.

Finalement le prédicteur non biaisé de YiU est donc :

by M is = 1 Ni ni X j=1 yij+ Ni X k=ni ˜ yik . (3.18)

Le prédicteur de YiU exprimé en (3.18) a été obtenu de la manière suivante. Tout d’abord, les

meilleurs prédicteurs non biaisés des y non observés ont été explicitement déterminés par le modèle (3.15). Ensuite, la prédiction résultante est la moyenne des y observés et de ceux non observés.

La variance de l’erreur de prédiction d’après Rivest et al. (2015) est : M SRi= 1 N2 i V ar X k∈ri (yik− ˜yik) = 1 N_i2E X k∈ri V ar(yik− ˜yik| εij, j ∈ Si)) + X k6=l∈ri Cov(yik− ˜yik, yil− ˜yil, | εij, j ∈ Si) ≈ 1 N2 i E X k6=l∈ri Cov(yik− ˜yik, yil− ˜yil, | εij, j = 1, . . . , ni) (3.19) = E Cov εik, εil, | εij, j = 1, . . . , ni . (3.20)

L’équation (3.19) est déduit du fait que, comme Ni est supposé grand, la somme des Ni

va-riances est négligée par rapport à N2

i. Les variables εik et εil définissent les erreurs aléatoires

de deux unités non échantillonnées. L’expression de la variance du prédicteur (3.20) peut s’ex-primer de différentes manières dans la littérature statistique. D’après Rivest et al. (2015), cette variance (3.20) est une meilleure mesure de précision pour un petit domaine lorsqu’il dépend de ses données.

Pour conclure ce chapitre, il a été montré que la précision des prédictions des caractéristiques est l’enjeu principal de l’estimation dans de petits domaines. Plusieurs méthodes d’estimation ont été présentées à cet effet. Parmi ces méthodes, la méthode d’estimation par un modèle est présentée comme la méthode par excellence pour l’estimation des petits domaines. Une nou-velle classe de modèles a été présentée, généralisant le modèle de Battese et al. Les prédictions des paramètres dépendent des modèles de cette classe. Le choix du meilleur modèle à utiliser pour les prédictions des paramètres d’intérêt est donc le problème qui se pose. Ce choix va se faire par le biais du critère de validation croisée.

(43)

Chapitre 4

Critère de validation croisée

De façon générale, la sélection de modèles est une procédure statistique qui consiste à choisir, dans une famille, le modèle qui s’ajuste le mieux à un jeu de données. Certains critères s’ap-pliquent aux modèles à but prédictifs, tel le critère de validation croisée.

Le critère de validation croisée mesure l’erreur d’un modèle en évaluant les performances pré-dictives de celui-ci. En effet, l’idée de la validation croisée est de ne pas utiliser l’ensemble des données pour construire le modèle. Certaines données sont retirées, un modèle est ajusté sous ces données réduites. L’écart entre les données retirées et leur prédiction par le modèle ajusté mesure la performance prédictive du modèle. Plus ce critère est petit et plus le modèle est efficace pour la prédiction.

Il existe d’autres critères de sélection qui imposent une pénalité aux modèles utilisant beau-coup de paramètres. Dans cette catégorie, les critères les plus populaires sont l’AIC (Akaike Information Criteria) et le BIC (Bayesian Information Criteria).

Pour la sélection des variables en régression, il existe un autre critère important. Il s’agit du Cp

de Mallows qui choisit un modèle qui possède un bon compromis entre le biais et la variance. Il existe une relation d’équivalence asymptotique entre ces critères et le critère de validation croisée pour les modèles linéaires (Stone (1977)) et les modèles linéaires mixtes (Fang (2011)). Ce chapitre porte sur l’étude du critère de validation croisée et son application aux modèles linéaires. Nous présentons tout d’abord le critère de validation croisée pour les modèles de régression linéaire avec ou sans effets aléatoires. Ensuite, nous montrons ses liens avec l’AIC et le Cp de Mallows. Enfin, nous étudions l’espérance du critère de validation croisée.

4.1 Présentation générale du critère de validation croisée

C’est une méthode statistique qui partitionne les données en deux groupes. Un pour l’en-trainement et l’autre pour la validation du modèle. Les données d’enl’en-trainement permettent d’estimer le modèle tandis que les données de validation permettent de mesurer son erreur d’ajustement sur les données. Il existe plusieurs variantes de la validation croisée, nous nous

(44)

intéressons à l’une d’elles, appelée LOOCV (Leave-one-Out Cross Validation) en anglais. Supposons qu’on dispose d’un jeu de données {(xi, yi), i = 1, . . . , n}, et soit M un modèle

construit sur le jeu de données. L’algorithme du calcul du critère LOOCV sur le modèle M est le suivant (Duchesne (2014), p.57) :

1. Retirer la ième observation du jeu de données.

2. Réestimer le modèle M sur les (n − 1) données restantes en estimant ses paramètres, notons M−i _{ce modèle.}

3. Prédireby

−i M = M

−i_(y

i), qui est la prédiction de yi par le modèle obtenu en 2.

4. Répeter les étapes 1, 2, 3 pour chaque i, i = 1 . . . n.

5. Calculer le critère de validation croisée dont l’expression est la suivante : LOOCV (M ) = 1 n n X i=1 (yi−yb −i M) 2_. _(4.1)

4.1.1 Modèle de régression linéaire

Ce modèle est un cas particulier de celui de Battese et al. sans composante aléatoire, obtenu en considérant νi= 0 et εij = eij pour i ∈ 1, . . . , m, j ∈ 1, . . . , ni.

Soit Mn×m l’ensemble des matrices de n lignes et m colonnes. Puisque pour i ∈ {1, . . . , m},

yi= (yi1, . . . , yini)

T _{et x}

ij = (xij1, . . . , xijp)T, on considère les notations matricielles suivantes :

• Y = (yT 1, . . . , yTm)T ∈ Mn×1, • Xi = (xi1, . . . , xini) T _{∈ M} ni×p et X = (X T 1 , . . . , XmT)T ∈ Mn×p, • εi = (εi1, . . . , εini) T _{et ε = (ε}T 1, . . . , εTm)T.

La forme matricielle du modèle de Battese et al. (voir la section 3.2.4) se définit comme suit :

Y = Xβ + ε, (4.2)

où β = (β1, . . . , βp)T est le paramètre de la partie fixe et ε = (ε1, . . . , εm)T est un vecteur

aléa-toire dont les composantes sont indépendantes, centrées et de variance égale à σ2

e. L’estimateur

β obtenu par la méthode des moindres carrés s’écrit : (Duchesne (2014), p.27.) : b β = ( bβ1, . . . , bβp) = (XTX)−1XTY. Celui de la variance σ2 e donne (Duchesne (2014), p.29) : b σ_e2= m X i=1 ni X j=1 (yij−ybij) 2 n − p = SSRes n − p (4.3)

avec byij = bβ1xij1+ · · · + cβpxijp, oùybij est la prédiction de yij pour le domaine i. En fait, si le modèle est bon, byij se rapproche de yij et l’écart (byij − yij)

2 _{est petit. Ainsi, si le modèle}

M est bon, la somme de ces écarts encore appelée « somme des carrés résiduels » notée SSRes

(45)

Maximum de vraisemblance d’un modèle de régression linéaire

Si on suppose la normalité des erreurs ε, Y défini par (4.2) satisfait Y |X ∼ N(Xβ, σ2 eI). La

densité conjointe des observations encore appelée la vraisemblance du modèle s’écrit :

L(β, σ_e2) = 1 p(2π)n_kσ2 eIk exp −1 2(Y − Xβ) T_(σ2 eI)−1(Y − Xβ) = (2πσ2_e)−n2 exp − 1 2 (Y − Xβ)T(Y − Xβ) σ2 e . (4.4)

La log-vraisemblance est le logarithme népérien de la vraisemblance. Son expression est la suivante : l(β, σ_e2) = log(L(β, σ2_e)) = −n 2 log(2π) − n 2 log(σ 2 e) − 1 2 (Y − Xβ)T(Y − Xβ) σ2 e . (4.5)

On montre d’après Rencher (2008) que bβ = (XTX)−1XTY et _bσ2=Pm

i=1 Pni j=1 (yij−ybij) 2 n

maximisent la vraisemblance et donc la log vraisemblance du modèle. C’est-à-dire qu’ils sont solution des équations :

∂l ∂β(β, σ 2 e) = 0 ∂l ∂σ2 e (β, σ2_e) = 0. b β etbσ

2 _{sont appelés les estimateurs du maximum de vraisemblance (EMV) respectivement de}

β et σ2.

Critère de validation croisée pour la régression linéaire

En appliquant l’algorithme de la section 4.1 au modèle (4.2) on obtient le critère de validation croisée noté P RESS et dont l’expression est :

P RESS = 1 n m X i=1 ni X j=1 (yij −yb −[ij]₎2_, _(4.6) où yb

−[ij] _{est la prédiction de y}

ij obtenue par le modèle (4.2) sans la jème observation du

domaine i.

Le P RESS représente la somme des erreurs de prévision et mesure la capacité d’un modèle donné à bien prédire les nouvelles observations. Ainsi, plus le critère est faible et plus le modèle prédit bien. Par ailleurs, on peut constater que la complexité de l’algorithme est fonction de la taille d’échantillon n . Il existe heureusement un théorème qui permet d’obtenir le résidu P RESS défini en (4.6) sans avoir à effectuer les n régressions.

(46)

Théorème 4.1.1. Soit H = X(XT_X)−1_XT _{la matrice chapeau associée au modèle (4.2).}

Soit ˆY = HY le vecteur des valeurs prédites par le modèle. Le critère P RESS peut encore s’écrire comme suit (Rencher (2008), p.235.) :

P RESS = 1 n m X i=1 ni X j=1 (yij − ˆyij)2 (1 − h(ij)(ij))2 , (4.7)

où h(ij)(ij) représente l’ élément diagonal de la matrice H situé au rang (k, k) avec k = j si

i = 1ou k = Pi−1_l=1nl+ j si i = 2, . . . , m.

Dans une famille de modèles, celui qui possède les meilleures capacités prédictives est celui avec un P RESS minimal. Si les h(ij)(ij) sont égaux, le critère P RESS est proportionnel à la

somme des carrés résiduels SSRes.

Un des avantages de ce critère est qu’il permet d’éviter les modèles en situation de sur-ajustement. En effet, les modèles en sur-ajustement ont tendance à avoir des petits résidus pour les données incluses dans le jeu de donnée d’entrainement et des grands résidus pour les données externes. Or le critère P RESS, par définition utilise les données qui n’ont pas servi à l’estimation du modèle. Par conséquent, un modèle sur-ajusté aura des grands résidus et donc un critère P RESS élevé.

Les modèles de régression linéaires supposent l’hypothèse de l’indépendance des données, ce qui n’est pas toujours vérifié dans la réalité. Lorsque les données sont corrélées, on a recours à un modèle prenant en compte cette dépendance. Les modèles linéaires mixtes sont une extension des modèles de régression linéaires. Ces derniers sont plus flexibles et permettent de modéliser plusieurs types de données incluant les données stratifiées, longitudinales et spatiales (Müller et al.(2013)).

4.1.2 Modèle de régression linéaire mixte Structure du modèle général

Soient y, X, β et ε, tels que définis à la section 4.1.1. Soit νi un vecteur d’effets aléatoires du

domaine i de taille q × 1. On suppose que νi suit une loi normale de moyenne 0 et de matrice

de variance-covariance Gi. On pose ν = (ν1T, . . . , νmT)T, le vecteur d’effets aléatoires de taille

r × 1 avec r = mq. Le vecteur ν suit une distribution normale, de moyenne 0 et de matrice de variance covariance G, avec G = diag(G1, . . . , Gm). Le modèle de régression linéaire mixte

(général) se définit comme suit :

Y = Xβ + Zν + ε, (4.8)

où Z est une matrice connue de taille n × r ; ε ∼ N(0, R). Les variables ν et ε sont supposées indépendantes. Sous ces suppositions, la variance de Y s’écrit :

(47)

Lorsque R et G sont connues, on montre que les estimateurs respectifs de β et ν, notés bβ et b

ν, sont (Rencher et al. (2008)) : b

β = (XTΣ−1X)−1XTΣ−1Y (4.10)

b

ν = σ2_eZTΣ−1(Y − X bβ). (4.11) Modèle de régression linéaire mixte : Cas particulier du modèle de Battese et al. Le modèle de Battese et al. est un cas particulier du modèle (4.1.2) obtenu en posant q = 1, c’est à dire en considérant un effet aléatoire par domaine. Ce modèle se définit comme suit :

yij = xTijβ + νi+ εij, (4.12)

où β = (β1, . . . , βp) est le vecteur de p paramètres de la partie fixe. En effet, si on pose

ν = (ν1, . . . , νm)T ∈ Mm×1, zi = (1, . . . , 1)T ∈ Mni×1 et Z = diag(z1, . . . , zm) ∈ Mn×m, la

forme matricielle du modèle (4.12), équivalente à (4.1.2) est donné par :

Y = Xβ + Zν + ε, (4.13)

avec ε ∼ N(0, σ2

eIN) et ν ∼ N(0, σν2Im). Les matrices IN et Im étant respectivement les

matrices identité de taille N × N et m × m. La structure de la matrice Z dans ce cas donne :

Z =diag(z1, . . . , zni) =                       1 0 · · · 0 ... ... ··· ... 1 0 ... ... 0 1 0 ... ... ··· ... 0 1 ... 0 ... 0 1 ... ... ... 0 0 1                       .

Le modèle (4.12) étant un cas particulier de (4.9) avec R = σ2

eIN et G = σν2Im, la matrice de variance de Y s’écrit : Σ = σ2_eIN + σν2ZZT =diag(Σ1, . . . , Σni), où Σi = σ2eIni+ σ 2 νziziT =        σ2_e+ σ_ν2 σ_ν2 · · · σ2_ν σ_ν2 ... · · · ... ... ... σ2 e+ σν2 σ2ν σ2 ν σν2 · · · σe2+ σν2        .

(48)

Le modèle linéaire mixte dispose d’une structure plus complexe que le modèle linéaire. Cette complexité est due à la prise en compte de la structure de dépendance à l’intérieur de chaque strate. Et elle se fait grâce à une composante aléatoire. Dans notre cas, la structure de dé-pendance à l’intérieur des strates est caractérisée par les matrices de covariances Σi, égales à

σ2_e+ σ2_ν sur la diagonale et à σ2_ν à l’extérieur de la diagonale.

Définition de la matrice chapeau du modèle général donné par l’équation(4.13) La matrice chapeau est la matrice qui lie les valeurs prédites Yb obtenues par le modèle aux données Y . Cette matrice permet de mesurer l’effet des données observées sur les prédictions. La relation que définit la matrice chapeau H1 d’un modèle linéaire mixte est la suivante :

b

Y = H1Y, (4.14)

où la matrice H1 est définie par le théorème suivant : (Hodge et al. (2001)).

Théorème 4.1.2. Pour un modèle avec effets aléatoires, G étant définie positive, il existe une matrice ∆ ∈ Mm×m telle que G/σe2 = (∆T∆)−1. Soit M une matrice carrée définie comme

suit : M = " X Z 0 −∆ # . (4.15)

La matrice H1 = (X : Z)(MTM )−1(X : Z)T est la matrice chapeau associée à l’équation

(4.13), c’est à direY = Hb ₁Y.

Pour deux matrices A et B, l’expression (A : B) est une matrice égale à la concaténation au sens des colonnes des matrices A et B.

Exemple 5. Soit deux matrices A et B définies par :

A = " 1 5 2 4 # , B = " 6 0 9 8 3 7 # . La matrice (A : B) s’écrit : (A : B) = " 1 5 6 0 9 2 4 8 3 7 # .