Critère de validation croisée pour le choix des
modèles des petits domaines au niveau des unités
Mémoire Romanic PIEUGUEU Maîtrise en statistique Maître ès sciences (M.Sc.) Québec, Canada © Romanic PIEUGUEU, 2016
Résumé
Ce mémoire s’intéresse à l’étude du critère de validation croisée pour le choix des modèles relatifs aux petits domaines. L’étude est limitée aux modèles de petits domaines au niveau des unités. Le modèle de base des petits domaines est introduit par Battese, Harter et Fuller en 1988. C’est un modèle de régression linéaire mixte avec une ordonnée à l’origine aléatoire. Il se compose d’un certain nombre de paramètres : le paramètre β de la partie fixe, la composante aléatoire et les variances relatives à l’erreur résiduelle. Le modèle de Battese et al. est utilisé pour prédire, lors d’une enquête, la moyenne d’une variable d’intérêt y dans chaque petit do-maine en utilisant une variable auxiliaire administrative x connue sur toute la population. La méthode d’estimation consiste à utiliser une distribution normale, pour modéliser la compo-sante résiduelle du modèle. La considération d’une dépendance résiduelle générale, c’est-à-dire autre que la loi normale donne une méthodologie plus flexible. Cette généralisation conduit à une nouvelle classe de modèles échangeables. En effet, la généralisation se situe au niveau de la modélisation de la dépendance résiduelle qui peut être soit normale (c’est le cas du modèle de Battese et al.) ou non-normale. L’objectif est de déterminer les paramètres propres aux petits domaines avec le plus de précision possible. Cet enjeu est lié au choix de la bonne dépendance résiduelle à utiliser dans le modèle. Le critère de validation croisée sera étudié à cet effet.
Abstract
This thesis focuses on the study of a cross-validation criterion for the choice of models for small areas. The study is limited to models of small areas at the unit level. The standard model for this problem has been introduced by Battese, Harter and Fuller in 1988. It is a mixed linear regression model with random intercepts. Its consists of a number of parameters: β a regression parameter for the fixed part, the random component and the variances for the residual error. The model of Battese et al. is used to predict in the average of a study variable y in each small area using an administrative auxiliary variable x known throughout the population. The standard estimation method consists of using a normal distribution for modelling the experimental errors. The consideration of a non normal dependence gives more accurate estimates. This new model might lead to better prediction of the mean of y within small areas. Indeed, the generalization lies in modelling the residual dependency with a non normal exchangeable model. The model selection is an issue and this work investigates cross-validation as a method to choose a model.
Table des matières
Résumé iii
Abstract v
Table des matières vii
Liste des tableaux ix
Liste des figures xi
Remerciements xv
1 Introduction 1
2 Les copules 3
2.1 Un peu d’histoire . . . 3
2.2 Les copules en dimension 2 . . . 4
2.3 Les copules en dimension d > 2 . . . 9
2.4 Les bornes de Fréchet -Hoeffding et la comonotonie . . . 10
2.5 Familles de copules . . . 10
3 Problématique de l’estimation dans les petits domaines 19 3.1 Plan de sondage et notations . . . 19
3.2 Méthodes d’estimation de la moyenne dans un petit domaine . . . 20
3.3 Généralisation du modèle de Battese et al. . . 24
4 Critère de validation croisée 27 4.1 Présentation générale du critère de validation croisée . . . 27
4.2 Autres critères de sélection de modèles . . . 34
4.3 Relation d’équivalence asymptotique entre le critère de validation croisée et les critères de sélection de modèles . . . 36
4.4 Calcul de l’espérance du critère de validation croisée pour des modèles de régression . . . 38
4.5 Les autres types de validation croisée . . . 41
5 Estimation des paramètres et simulation 43 5.1 Modèle général : cas semiparamétrique . . . 43
5.2 Estimation des paramètres . . . 44
5.4 Simulation . . . 47 5.5 Interprétation des résultats . . . 53 5.6 Comparaison du prédicteur EBLUP et du prédicteur sous le modèle
semi-paramétrique . . . 54
6 Conclusion 57
A Annexes 59
Liste des tableaux
2.1 Trois familles de copules archimédiennes. La fonction Dk(α) = kα α
R
0 tk
et−1dt. . . . 17
5.1 Résultats des simulations avec marges normales pour m = 20 et τ = 1/3. . . 48
5.2 Résultats des simulations avec marges normales pour m = 20 et τ = 1/2. . . 48
5.3 Résultats des simulations avec marges normales pour m = 20 et τ = 0.7. . . 49
5.4 Résultats des simulations avec marges normales pour m = 40 et τ = 1/2. . . 49
5.5 Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3, τ = 1/3. . . 50
5.6 Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3, τ = 1/2. . . 50
5.7 Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3, τ = 0.7 . . . 51
5.8 Résultats des simulations obtenues avec marges de Student pour m = 40, ν = 3, τ = 1/2. . . 51
5.9 Résultats des simulations obtenues avec marges lognormales pour m = 20 et τ = 1/3. . . 52
5.10 Résultats des simulations obtenues avec marges lognormales pour m = 20 et τ = 1/2. . . 52
5.11 Résultats des simulations obtenues avec marges lognormales pour m = 20 et τ = 0.7. . . 53
5.12 Résultats des simulations obtenues avec marges lognormales pour m = 40 et τ = 1/2. . . 53
5.13 Comparaison du prédicteur EBLUP et du prédicteur semiparamétrique pour m = 40 et τ = 1/2. Les données dans le tableau réprésentent le pourcentage des fois que le prédicteur EBLUP est choisi par le critère de validation croisée. 55 A1 Résultats des simulations avec marges normales pour τ = 1/3 et m = 40. . . 59
A2 Résultats des simulations avec marges normales pour τ = 0.7 et m = 40. . . 59
A3 Résultats des simulations avec marges Student à 3 degrés de liberté pour τ = 1/3et m = 40. . . 60
A4 Résultats des simulations avec marges Student à 3 dégres de liberte pour τ = 0.7 et m = 40. . . 60
A5 Résultats des simulations avec marges lognormales pour τ = 1/3 et m = 40. . . 60
Liste des figures
2.1 À gauche, la densité d’une loi avec marges normales centrées réduites et de copule normale. À droite, le graphique de dispersion d’un échantillon de taille
1000. Le tau de Kendall entre les variables x et y est τ = 0.6. . . 12 2.2 À gauche, la densité d’une loi avec les marges normales centrées réduites et de
copule de Student à 2 degrés de liberté ; et à droite, le graphique de dispersion
pour un échantillon de taille 1000. Le tau de Kendall est de τ = 0.6. . . 13 2.3 Densité d’une distribution dont les marges sont normales centrées réduites et
graphique de dispersion de taille 1000. La copule utilisée est la Clayton avec un
tau de Kendall de τ = 0.6. . . 15 2.4 Densité d’une distribution dont les marges sont normales centrées réduites et
graphique de dispersion de taille 1000. La copule utilisée est la Gumbel avec un
tau de Kendall de τ = 0.6. . . 15 2.5 Densité d’une distribution de marges normales centrées réduites et graphique
de dispersion de taille 1000. La copule utilisée est la Franck avec un tau de
Kendall de τ = 0.6. . . 16 5.1 Pourcentage de bonne prédiction suivant les valeurs de τ. À gauche les
Je dédie ce travail à mon père et à ma feu mère : Vous m’avez donné la vie, la tendresse et le courage pour réussir. Tout ce que je peux vous offrir ne pourra exprimer l’amour et la reconnaissance que vous me portez.
Remerciements
La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais témoigner toute ma reconnaissance. Je remercie ma feue mère Woudje Jacqueline j’aimerai toujours de tout mon cœur. Je lui dis merci pour son soutien moral, physique et spirituel.
Mes remerciements vont au professeur Louis-Paul Rivest, mon directeur de mémoire pour sa patience, sa confiance , sa disponibilité, sa contribution, et le financement accordé pour l’élabo-ration de ce travail. J’exprime ma gratitude à toutes les personnes rencontrées qui m’ont aidé et qui ont accepté de répondre à mes interrogations. Je tiens à remercier Thierry Duchesne pour ses précieuses notes de cours en régression. Je tiens également à dire merci à Anne-Sophie Charest pour tous les conseils reçus, sa disponibilité. Je remercie Véronique Tremblay pour les orientations et pour les expériences partagées au sein du Département de mathématiques et de statistique.
Merci à L’ISM (Institut des sciences mathématiques) pour tout le financement offert pour l’avancement de ce mémoire. Je tiens à remercier Monsieur Frédéric Gourdeau, directeur du département et Monsieur Robert Guénette pour l’attention portée à mon dossier et pour m’avoir permis d’obtenir du financement pour mes études. Je dis merci aux professionnels du Service de consultation statistique de l’Université Laval. Je dis merci à Gaetan Daigle, Hélène Crépeau pour l’encadrement, les conseils et l’expertise offerte au sein de l’équipe des consul-tants. Merci Megbe Karamoko, Mondji Herbert, Amenan Christiane Chukunyere, Ibrahima Ousmane Ida, Jean Milou Pierre, mes collègues du Service de consultation pour leur soutien. Je remercie ma Laure Nkouekap, ma blonde pour sa présence, son soutien, et ses conseils qui m’ont permis de braver plusieurs difficultés. Je remercie tous mes amis et connaissances, je remercie particulièrement Achille Kwamegni, Morvan Nongni, Raoul Kamgang, Gael Nongni de m’avoir permis de me sentir en famille au Canada.
Chapitre 1
Introduction
La sélection de modèles est un aspect important du travail du statisticien et il existe aujour-d’hui de nombreux critères pour ce faire. L’objectif est d’obtenir un modèle qui colle bien aux données tout en restant parcimonieux, c’est-à-dire avec un nombre limité de paramètres. En effet, on peut toujours améliorer l’ajustement d’un modèle en augmentant sa complexité. Une telle stratégie, appelée sur-ajustement, est contre-productive, car elle donne un modèle lourd avec des composantes difficiles à bien estimer. Le rôle d’un critère de sélection de modèles est donc de faire un compromis entre qualité de l’ajustement et parcimonie du modèle. Selon McQuarrie et Tsai (1998), un bon modèle a des paramètres facilement interprétables et permet de bien prédire la variable d’intérêt.
La validation croisée est une méthode statistique simple et largement utilisée pour la sélection des modèles (Hastie et al. (2001), p.241). Le critère de validation croisée permet d’évaluer la performance d’un modèle à prédire de nouvelles données. Pour le cas des modèles de régression linéaires par exemple, ce critère possède un avantage sur celui de la somme des carrés résiduels qui fournit peu d’indications sur la capacité d’un modèle à prédire de nouvelles observations. Le champ d’application de la méthode s’étend sur plusieurs domaines tels que : la sélection des variables, l’estimation des densités, le data-mining, etc. L’objectif de ce mémoire est focalisé sur l’étude de la capacité de ce critère à bien choisir un modèle de prédiction dans des petits domaines.
Au cours des 20 dernières années, les statistiques des petits domaines ont connu un essor considérable. De telles statistiques sont très anciennes et existaient déjà dans certains pays comme l’Angleterre au XIe siècle et au XV IIe siècle au Canada (Brackstone (1987)). Le besoin des statistiques pour petits domaines se fait ressentir dans plusieurs secteurs dont les secteurs administratifs, privés et le secteur de l’aide internationale, etc. Ce besoin a généré un intérêt considérable auprès des chercheurs. On peut par exemple citer Ghosh et Rao (1994) et Purcell et Kish (1980) qui présentent une revue de littérature des petits domaines et Platek et al.(1986) qui insistent sur les contributions internationales sur ce sujet.
difficile d’estimer avec précision les caractéristiques lors d’une enquête par sondage. La mé-thodologie statistique des petits domaines combine les données d’enquête aux données admi-nistratives disponibles pour produire des estimations précises des caractéristiques des petits domaines de la population. En effet, les échantillons disponibles ne permettent pas de pro-duire des estimations de qualité. Un modèle statistique lie les données d’enquête aux données administratives. Cette approche fournit de bonnes estimations s’il existe une relation entre la variable administrative, aussi appelée variable auxiliaire, et la variable d’intérêt.
Ce travail se limite à l’étude des modèles de petits domaines au niveau des unités. Le modèle de base est introduit par Battese, Fuller et Harter (1988). C’est un modèle de régression linéaire mixte qui exprime la variable d’intérêt y en fonction de x, la variable auxiliaire du modèle. Les estimations par ce modèle sont possibles lorsqu’on connait la variable x sur toute la po-pulation. Cet article traite d’un exemple où la variable y est la surface de culture ensemencée en maïs et où x représente des informations satellitaires.
Un des objectifs de ce travail est de généraliser le modèle de Battese et al. en modélisant la dépendance résiduelle par une loi échangeable. On considère deux cas de figure. Premièrement, si la loi échangeable est normale on retrouve le modèle de Battese et al. Deuxièmement, si la loi n’est pas normale, les copules échangeables multivariées sont utilisées pour modéliser cette dépendance. Ceci conduit à une famille de modèles semi-paramétriques qui sont déter-minés en spécifiant une famille de copules appropriée pour la dépendance et une distribution marginale pour les erreurs. L’accent est mis sur les copules elliptiques et archimédiennes. Les copules elliptiques considérées comprennent des copules normales et de Student. Les copules archimédiennes étudiées sont celles de Clayton, de Gumbel et de Frank.
Au chapitre 2, la notion des copules est présentée pour modéliser la dépendance résiduelle. La nouvelle classe de modèles utilisés dans ce mémoire est présentée au chapitre 3 ainsi que les enjeux des petits domaines. Le critère de validation croisée utilisé pour le choix des modèles de cette classe est présenté au chapitre 4. Le critère est d’abord présenté pour les modèles linéaires. Ensuite une application du critère est effectuée au modèle linéaire mixte normal. Deux cas de figure sont présentés : le cas où l’on suppose que les paramètres sont connus et le cas où ils sont inconnus. Les méthodes d’estimation des paramètres du modèle sont présentées au chapitre 5. Une simulation est enfin effectuée pour répondre à la question posée : celle de savoir si le critère de validation croisée est crédible pour la sélection des modèles parmi la nouvelle classe étudiée dans ce mémoire.
Chapitre 2
Les copules
Les copules sont devenues en quelques années, un outil important avec des applications dans de nombreux domaines, tels en statistique, en finance et en actuariat. En effet, la théorie des copules est attrayante, car elle permet de modéliser la non-normalité des variables dans plu-sieurs contextes (Fadhilas (2011)). L’introduction des copules et leur application en statistique est un phénomène relativement récent qui trouve sa source dans les travaux de Fréchet sur les espaces métriques probabilisés réalisés dans les années 50, voir par exemple l’article de Fréchet (1951). Motivé par les travaux de Fréchet, Sklar introduit la notion de copule en 1959. Il fut le premier à utiliser au sens mathématique le mot copule ; il est également considéré comme le fondateur de la théorie des copules. De plus son théorème est l’un des plus importants de la théorie puisqu’il permet de trouver la relation entre une distribution multivariée et ses lois marginales.
2.1
Un peu d’histoire
Le mot copule vient du mot latin « copula »qui signifie liaison, lien, alliance ou union (Bouvier (2010)). Lors de la publication de son article, Sklar (1959) étudiait avec Berthol Schweizer, les espaces métriques probabilisés. De nombreux résultats concernant les copules ont été obtenus à l’aide de ces espaces implicites. Toutefois, les travaux de Hoeffding (1940) contiennent déjà de nombreux résultats sur les copules. Hoeffding (1940) considérait comme loi de référence les lois de distribution sur [−1/2; 1/2]. Nelsen (2007) explique que les travaux de Hoeffding sont restés longtemps méconnus de la littérature scientifique en raison de ses publications dans une revue allemande peu connue à cette époque. C’est bien plus tard que Fréchet, indépendamment des travaux de Hoeffding, va obtenir des résultats similaires.
On définit une copule comme une fonction de répartition dont les marginales sont uniformes sur [0, 1]. En effet, soit F la fonction de répartition d’un vecteur aléatoire (X1, X2, . . . , Xd)
avec d ≥ 2, et soit Fi les marginales associées. D’après Sklar (1959), il existe une fonction C
F (x1, x2, . . . , xd) = C(F1(x1), F2(x2), . . . , Fd(xd)). (2.1)
La copule établit donc un lien entre la loi multivariée et les lois marginales associées. Elle caractérise la relation entre les variables aléatoires indépendamment des lois marginales. Le premier article qui utilise cette structure de dépendance est celui de Schweizer et Wolf (1981). Dans cet article, les auteurs mesurent la dépendance d’une paire de variables aléatoires et présentent l’invariabilité de la copule par rapport à une transformation monotone.
Il existe dans la littérature une gamme assez variée de copules. On distingue les copules non paramétriques et les copules paramétriques. Le choix de la copule est un élément important pour la modélisation de la structure de dépendance d’un vecteur aléatoire. Ce chapitre présente un aperçu de la théorie des copules. Il introduit plusieurs familles de copules paramétriques. Il présente également les mesures de dépendance relatives aux copules, tel le tau de Kendall et le rho de Spearman.
La plupart des auteurs présentent cette notion en se focalisant sur des espaces en dimen-sions 2. Nous adopterons cette approche, puis nous ferons une extension pour les dimendimen-sions supérieures.
2.2
Les copules en dimension 2
Definition 2.2.1. Une copule est une fonction de répartition C : [0, 1]2 → [0, 1] dont les marginales (U, V ) sont uniformes sur [0, 1].
De cette définition découlent les propriétés suivantes :
Théorème 2.2.1. Une copule C : [0, 1]2→ [0, 1]est une fonction de répartition qui vérifie les conditions suivantes :
1. C(u, 0) = C(0, v) = 0 pour tout u, v ∈ [0, 1]. 2. C(u, 1) = u, C(1, v) = v pour tout u, v ∈ [0, 1].
3. C(u1, v1) − C(u1, v2) − C(u2, v1) + C(u2, v2) ≥ 0, (u1, v1) et (u2, v2) ∈ [0, 1] avec u1 ≥
u2,v1 ≥ v2 (notion de copule 2 − croissante).
Si C est la copule du vecteur (X1, X2) de fonction de répartition F et de lois marginales F1
et F2 alors C permet d’exprimer la loi conjointe F en fonction des marges comme suit :
F (x1, x2) = P(X1≤ x1; X2 ≤ x2) = C(F1(x1), F2(x2)).
Puisque C(u, 1) = u et C(1, v) = v, lim
x1→∞
F (x1, x2) = C(1, F2(x2)) = F2(x2)et lim x2→∞
F (x1, x2) =
Les définitions précédentes sont aussi applicables aux copules de survie. La fonction de survie d’un vecteur (X1, X2) est donnée par :
¯
F (X1, X2) = P(X1 > x1, X2 > x2) = ¯C( ¯F1(x1), ¯F2(x2)),
où ¯F1et ¯F2 sont les fonctions de survies de X1 et X2. La copule de survie ¯C s’écrit en fonction
de C de la manière suivante : ¯
C(u, v) = u + v − 1 + C(1 − u, 1 − v), u, v ∈ [0, 1].
L’un des théorèmes importants de la théorie des copules est celui de Sklar qui s’énonce comme suit :
Théorème 2.2.2. (Théorème de Sklar)
Soit X et Y deux variables aléatoires de loi conjointe F . Soient respectivement F1 et F2 leurs
fonctions de répartition respectives. Il existe une copule C telle que :
F (x, y) = C(F1(x), F2(y)) pour tout x, y ∈ R2. (2.2)
Si les fonctions F1 et F2 sont continues alors C est unique. Réciproquement si C est une copule
sur [0, 1]2 et F
1, F2 sont deux fonctions de répartition, alors F définie par l’équation (2.2) est
une fonction de répartition conjointe dont les marges sont F1 et F2.
Soit F0 une fonction de répartition. L’inverve généralisé F0−1 de F0 est défini par :
F0−1(u) = inf{x, F0(x) ≥ u, u ∈ [0, 1]}.
Si Z = (X, Y ) est un vecteur de loi F dont les marginales respectives sont F1 et F2. La copule
qui satisfait le théorème de Sklar est :
C(u, v) = P(U ≤ u ; V ≤ v) = F (F1−1(u), F −1
2 (v)), u, v ∈ [0, 1].
On vérifie aisément que C est la fonction de répartition du vecteur (U, V ) avec U = F1(X)et
V = F2(Y ).
2.2.1 Propriété d’invariance d’une copule
Soit (X, Y ) un vecteur aléatoire dont la loi est décrite par les marginales continues F1 et F2
et par une copule C. Soit φ et ψ deux fonctions continues monotones. — Si φ et ψ sont croissantes alors la copule pour (φ(X), ψ(Y )) est C. — Si φ et ψ sont décroissantes alors la copule pour (φ(X), ψ(Y )) est ¯C.
Ces propriétés mettent en évidence la flexibilité des copules. En effet, si on fait varier les marginales F1 et F2 la copule C et la structure de dépendance demeurent inchangées.
2.2.2 Densité conjointe en dimension 2
Soit le vecteur (X, Y ) de loi conjointe F (x, y) et C, la copule associée. Les fonctions de densité respectives de X et Y lorsqu’elles existent sont données par :
f1(x) =
∂F1(x)
∂x f2(y) =
∂F2(x)
∂y .
La densité conjointe de (X, Y ) s’exprime en fonction de la copule C comme suit :
f (x, y) = f1(x)f2(y)c(F1(x), F2(y)),
où c est la fonction de densité de la copule C définie par : c(u, v) = ∂
2
∂u∂vC(u, v).
2.2.3 Mesure de dépendance
L’étude des relations de dépendance entre les variables aléatoires est l’un des centres d’intérêt en statistique. Il existe dans la littérature plusieurs concepts utilisés à cet effet. L’un des plus connus est le coefficient de corrélation de Pearson, utilisé pour mesurer la corrélation linéaire entre deux variables. Il est à noter que si deux variables sont fortement corrélées, cela ne justifie pas forcément qu’il y existe une relation de causalité entre elles. Une alternative à cette mesure est le tau de Kendall et le rho de Spearmean.
Le coefficient de corrélation de Pearson
Soit X et Y deux variables aléatoires continues de variance finie ; le coefficient de corrélation linéaire de Pearson est défini par :
ρ(X, Y ) = Cov (X, Y ) pV ar (X) V ar (Y ) =
E (XY ) − E (X) E (Y ) pV ar (X) V ar (Y ) .
Le coefficient de corrélation appartient à l’intervalle [−1, 1]. Il permet de mesurer la relation linéaire entre X et Y . En effet s’il existe a 6= 0, b ∈ R tel que, Y = aX +b, alors ρ(X, Y ) = +1 ou −1 selon le signe de a. De plus il est aussi invariant par transformation affine. C’est-à-dire que ρ(aX + b, cY + d) = sign(ac)ρ(X, Y ), où sign(x) représente le signe de la variable x. Le coefficient de corrélation de Pearson est une mesure très utilisée en statistique. Cependant, elle peut ne pas s’appliquer ou renvoyer des résultats erronés dans certains contextes. En effet, la corrélation de Pearson ne peut être calculée pour une distribution de Cauchy par exemple. De plus, elle peut être nulle en présence d’une dépendance non linéaire.
Exemple 1. Soient X ∼ U[−1, 1], Y = X2. Alors E(X) = 0 et E(XY ) = E(X3) = 0. Le
coefficient de corrélation de Pearson est ρ(X, Y ) = 0. Cela pourrait suggérer a priori que les variables X et Y sont indépendantes, ce qui n’est pas vrai puisque Y dépend de X.
Ceci a conduit Scheweizer et Wolf (1981) à suggérer qu’une mesure de dépendance appropriée doit dépendre seulement de la copule.
Mesure de concordance
Definition 2.2.2. Soient (x1, y1), (x2, y2) deux observations d’un vecteur aléatoire continu
(X, Y ). Nous disons que (x1, y1) et (x2, y2) sont :
1. Concordants si :
(x1< x2 et y1< y2 ou x1 > x2 et y1 > y2) ⇐⇒ (x1− x2)(y1− y2) > 0.
2. Discordants si :
(x1< x2 et y1> y2 ou x1 > x2 et y1 < y2) ⇐⇒ (x1− x2)(y1− y2) < 0.
Géométriquement deux points (x1, y1), (x2, y2) dans le plan sont concordants si le segment
passant par ces points admet une pente positive et discordants si le segment admet une pente négative.
Le tau de Kendall (τ )
C’est une mesure de dépendance introduite pour la première fois par Maurice Kendall (1938). Le tau de Kendall τ d’un vecteur aléatoire continu (X, Y ) de loi jointe F , se définit comme la différence entre les probabilités de concordance et de discordance de 2 paires (X1, Y1) et
(X2, Y2) de loi F , c’est-à-dire :
τ (X, Y ) = P{(X1− X2)(Y1− Y2) > 0} − P{(X1− X2)(Y1− Y2) < 0}.
En intégrant suivant les distributions de (X1, Y1) et (X2, Y2), le tau de Kendall devient :
τX,Y = τC = 4 1 Z 0 1 Z 0 C (u, v) dC (u, v) − 1 = 4E{C(F1(X1), F2(X2))} − 1, (2.3)
où C est la copule associée à (X, Y ).
Soit {(x1, y1), . . . (xd, yd)}un échantillon de n points d’un vecteur aléatoire continu (X, Y ). Il
y a d
2 !
paires distinctes (xi, yi)et (xj, yj)qui sont concordantes ou discordantes.
Le tau de Kendall empirique s’écrit : b
τ = nombre de paires concordantes − nombre de paires discordantes
d(d − 1)/2 . (2.4)
Le rho de Spearman(ρS)
Soit (X1, Y1),(X2, Y2),(X3, Y3), 3 vecteurs aléatoires indépendants de même fonction de
répar-tition H. considérons les couples (X1, Y1) et (X2, Y3). Le rho de spearman ρS associé à une
paire (X, Y ) ∼ F se définit par :
ρS(X, Y ) = 3(P{(X1− X2)(Y1− Y3) > 0} − P{(X1− X2)(Y1− Y3) < 0}). (2.5)
Ce qui donne en terme de la copule C : ρS(X, Y ) = 12 1 Z 0 1 Z 0
(C (u, v) − uv) dudv (2.6)
= −3 + 12E{C(U V )}. (2.7)
Le rho de Spearman entre X et Y est équivalent au calcul de la corrélation de Pearson entre les variables F1(X)et F2(Y ). L’équation (2.7) s’écrit encore :
ρS(X, Y ) = ρ(F1(X), F2(Y )).
Propriétés du tau de Kendall et du rho de Spearman
Le rho de Spearman et le tau de Kendall sont des mesures d’association qui disposent de propriétés similaires, entre autres :
• Elles sont symétriques ; c’est à dire κ(X, Y ) = κ(Y, X), où κ représente le tau de Kendall ou le rho de Spearman.
• κ ∈ [−1, 1].
• Si X et Y = g(X), ou g est une fonction croissante alors κ(X, Y ) = 1. • Si X et Y = h(X), ou h est une fonction décroissante alors κ(X, Y ) = −1.
• si X et Y sont indépendantes alors κ(X, Y ) = κπ = 0. La réciproque n’est pas forcément vraie.
2.3
Les copules en dimension d > 2
Soit (X1, X2, . . . , Xd)un vecteur aléatoire. La fonction de distribution associée se définit ainsi :
F (x1, x2, . . . , xd) = P(X1 ≤ x1, . . . , Xd≤ xd), x1, . . . , xd∈ R.
Pour i = 1, . . . d, la fonction de distribution Fi est appelée la loi marginale ou marginale et
s’obtient de F :
Fi(xi) = P(Xi ≤ xi) = F (∞, . . . , ∞, xi, . . . , ∞), xi ∈ R.
L’argument ∞ de F est une notation qui signifie la limite des arguments x1, . . . , xi−1, xi+1, . . . xd
à l’infini. Il est important de noter que la connaissance des marginales (Fi)1≤i≤d n’induit pas
automatiquement la connaissance de la distribution multivariée. Cela requiert tout d’abord la connaissance de la relation de dépendance entre les marginales. En effet, connaître la copule et les lois marginales est équivalent à la loi du vecteur aléatoire.
Definition 2.3.1. (Copule) Une fonction C : [0, 1]d→ [0, 1]est une copule si il existe un espace probabilisé (Ω, F, P) et un vecteur aléatoire (U1, . . . , Ud) dont les marges sont uniformes sur
[0, 1] tel que :
C(u1, . . . , ud) = P(U1≤ u1, . . . , ud≤ ud), u1, . . . , ud∈ [0, 1].
La copule vérifie de manière équivalente à la section 2.2.1, les propriétés suivantes : 1. C(u1, . . . , ud) = 0 si au moins l’un des ui= 0;
2. C(1, . . . , 1, ui, 1 . . . , 1) = ui;
3. C est d-croissante, c’est-à-dire :
∀ u = (u1, . . . , ud), v = (v1, . . . , vd) ∈ [0, 1]d, ui < vi, i = 1, . . . , d :
X
(w1,...,wd)∈×di=1{ui,vi}
(−1)|i:wi=ui|C(w
1, . . . , wd) > 0.
Théorème 2.3.1. (Théorème de Sklar multivarié)
Si F est une fonction de répartition conjointe dont les lois marginales sont F1, . . . , Fd alors il
existe une copule C telle que pour tout (x1, . . . , xd) ∈ Rd :
F (x1, . . . , xd) = C(F1(x1), . . . , Fd(Xd)). (2.8)
Si de plus les fonctions F1, . . . , Fd sont continues, C est unique. Réciproquement si C est une
copule sur [0, 1]d et F
1, . . . , Fd des fonctions de répartition, alors F définie par l’équation en
(2.8) est une fonction de répartition conjointe dont les marges sont F1, . . . , Fd.
Si F−1 1 , . . . , F
−1
d sont les fonctions inverses des marges F1, . . . , Fdalors, pour tout (u1, . . . , ud) ∈
[0, 1]d, on a
2.3.1 Copule de survie
La fonction de survie d’un vecteur aléatoire X = (X1, . . . , Xd) ∼ F (F1, . . . , Fd) défini sur un
espace probabilisé (Ω, F, P) est définie par : ¯
F (x1, . . . , xd) = P(X1 ≥ x1, . . . , Xd≥ xd) x1, . . . , xd∈ R.
La copule de survie est la copule associée à la fonction de survie. c’est à dire : ¯
F (x1, . . . , xd) = ¯C( ¯F1(x1), . . . , ¯Fd(xd)).
2.4
Les bornes de Fréchet -Hoeffding et la comonotonie
Definition 2.4.1. Une copule comonotone est une fonction de répartition M : [0, 1]d→ [0, 1]
définie par :
M (u1, . . . , ud) = min(u1, . . . , ud). (2.9)
Si U est uniformément distribuée sur [0,1], la loi de (U, U, . . . , U) est M. En effet, M (u1, . . . , ud) = P(U ≤ u1, . . . , U ≤ ud)
= P(U < min(u1, . . . , ud))
= min(u1, . . . , ud).
2.4.1 Bornes de Fréchet-Hoeffding
Les copules sont bornées. En effet, pour toute copule C : [0, 1]d → [0, 1] et pour tout
(u1, . . . , ud) ∈ [0, 1]d : W (u1, . . . , ud) = max X ui− (d − 1), 0) ≤ C(u1, . . . , ud) ≤ M (u1, . . . , ud .
W et M sont respectivement la borne inférieure et supérieure de Fréchet-Hoeffding. M est une copule en dimension d ≥ 2 tant dis que W ne l’est que pour d = 2. Elle est appelée copule anticomonotone.
2.5
Familles de copules
2.5.1 Copule d’indépendance
Definition 2.5.1. On appelle copule d’indépendance Q définie par : Y (u1, . . . , ud) = u1u2. . . ud= d Y i=1 ui, ui ∈ [0, 1].
2.5.2 La famille de copules Fairly-Gumbel-Morgenstern Elle est communément notée la copule F GM et définie comme suit :
Cθ(u, v) = uv + θuv(1 − u)(1 − v); u, v ∈ [0, 1],
où θ ∈ [−1, 1] et contrôle la dépendance entre U et V . Les membres de cette famille ont pour propriété d’être échangeables, c’est-à-dire :
Cθ(u, v) = Cθ(v, u); u, v ∈ [0, 1].
La densité de copule FGM s’écrit : cθ(u, v) =
∂2
∂u∂vCθ(u, v) = 1 + θ(1 − 2u)(1 − 2v). En appliquant la formule (2.3), le tau de Kendall associé donne :
τF GM = 4 1 Z 0 1 Z 0
Cθ(u, v) cθ(u, v) dudv − 1
= 2θ 9 ∈ −2 9, 2 9 .
L’intervalle de τ montre que la dépendance d’une copule FGM est relativement faible. 2.5.3 Copules elliptiques
Copules gaussiennes bivariées
Soit Φρ(x, y) la fonction de répartition d’une loi normale bivariée de moyenne 0, de variance
1 et de corrélation ρ. La copule Cρ correspondante est donnée par :
Cρ(u, v) = Φρ(Φ−1(u), Φ−1(v)) = 1 2πp1 − ρ2 Z Φ−1(u) −∞ Z Φ−1(v) −∞ exp −x 2+ y2− 2ρxy 2(1 − ρ2) dxdy,
où Φ−1 est la fonction quantile de la distribution normale centré réduite.
Copule gaussienne multivariée
Soit R une matrice de corrélation et ΦR la distribution normale multivariée de moyenne 0 et
de corrélation R. La copule associée est gaussienne et s’écrit : CR(u1, ..., ud) = ΦR Φ−1(u1) , ..., Φ−1(ud) = Z Φ−1(u1) −∞ . . . Z Φ−1(ud) −∞ 1 (2π)d/2| R1/2|exp ( −z TR−1z 2 ) dzd. . . dz1,
où ρ est l’ICC et |R| est le déterminant de la matrice R. Soit x = (Φ−1(u
1), . . . , Φ−1(ud))T. La fonction de densité associée est donnée par :
cR(u1, ..., ud) = 1 |R|12 exp −1 2x T R−1− I x , où I est la matrice identité en dimension d.
Figure 2.1 – À gauche, la densité d’une loi avec marges normales centrées réduites et de copule normale. À droite, le graphique de dispersion d’un échantillon de taille 1000. Le tau de Kendall entre les variables x et y est τ = 0.6.
La copule de Student bivariée
La copule de Student à ν degrés de liberté et de coefficient de corrélation ρ est définie comme suit : C(u, v) = Tν−1(u) Z −∞ Tν−1(v) Z −∞ 1 πνp1 − ρ2 Γ ν2 + 1 Γ ν2 1 +x 2− 2xy + y2 ν (1 − ρ2) −(ν2+1) dxdy où T−1
ν est la fonction quantile de la loi de Student à ν degrés de liberté.
Copule de Student en dimension d
Soit xi = T−1(ui), i = 1, . . . d et x = (x1, . . . , xd)T. La copule de Student à ν degrés de liberté,
de matrice de corrélation R en dimension d s’écrit : Cν,R(x1,..., xd) = x1 Z −∞ ... xd Z −∞ Γ ν+d2 |R|12Γ ν 2 (νπ) d 2 1 +ν 2X TR−1X−( ν+d 2 ) dX. (2.10)
La densité de la copule (2.10) s’écrit : cν,R(u1,..., ud) = Γ ν+d2 |R| Γ ν2 Γ ν2 Γ ν+12 !d 1 +1νxTR−1x−( ν+d 2 ) i=d Π i=1 1 + 1 νxi2 −(ν+12 ) .
Figure 2.2 – À gauche, la densité d’une loi avec les marges normales centrées réduites et de copule de Student à 2 degrés de liberté ; et à droite, le graphique de dispersion pour un échantillon de taille 1000. Le tau de Kendall est de τ = 0.6.
Le tau de Kendall comme le rho de Spearman est le même pour une copule gaussienne que pour une copule de Student. En dimension 2, le taux Kendall est égal à :
τ = 2
πarcsin(ρ), où ρ désigne le coefficient de corrélation.
Plus généralement pour toute paire (Xi, Xj) , des composantes elliptiques de (X1, . . . , Xd), le
tau de Kendall s’écrit :
τ (Xi, Xj) =
2
πarcsin(ρij), avec ρij = Corr(Xi, Xj).
Le rho de Spearman pour une copule normale s’écrit : ρS(Xi, Xj) = 6
arcsin(ρij/2)
π .
2.5.4 Les copules archimédiennes Transformée de Laplace
Soit a une variable aléatoire positive dont la loi dépend du paramètre α. La transformée de Laplace de a est la fonction ψα définie sur [0, ∞] à valeur dans [0, 1] et donnée par :
ψα(t) = E(exp(−ta)). (2.11)
Les copules archimédiennes
Les copules archimédiennes s’expriment en utilisant la transformée de Laplace (voir (2.11)) comme suit :
Cα,d(u1, . . . , ud) = ψα{ψα−1(u1) + · · · + ψα−1(ud))}, u1, . . . , ud∈ [0, 1].
La densité d’une copule archimédienne s’écrit : (Rivest et al. (2015)) : cα,d(u1, . . . , ud) = ψdα[ψ−1α (u1) + · · · + ψα−1(ud)] Πd j=1ψ1α[ψ−1α (uj)] , où ψi
α est la ième dérivée de ψα.
Les copules archimédiennes sont importantes dans la modélisation des données bivariées dans le sens où elles possèdent une gamme variée de copules paramétriques permettant des structures de dépendance. De plus, les composants de cette famille possèdent de belles propriétés. En autres, elles sont symétriques, c’est-à-dire C(u, v) = C(v, u). Les marges multivariées sont toutes les mêmes. En effet, en dimension 3 on a C(1, u, v) = C(u, 1, v) = C(u, v, 1), pour u, v ∈ [0, 1]. Le développement des copules archimediennes est récent, nous les devons en grande partie à Mackay et Genest (1986) et à Genest et Rivest (1993). Nous présentons dans cette section, 3 classes de copules paramétriques qui sont :
• La copule de Clayton, • la copule de Gumbel, • la copule de Franck.
Famille de Clayton Distribution Gamma
La distribution Gamma est une loi positive, caractérisée par deux paramètres, un paramètre de forme et un paramètre d’échelle. On dit que X suit une distribution gamma de paramètre de forme k et de paramètre d’échelle β, et on note X ∼ Γ(k, β) si la densité de X a la forme :
f (x, k, β) = x
k−1e−xβ
Γ(k)βk , x > 0, (2.12)
où Γ est la fonction gamma donnée par : Γ(k) =
Z ∞
0
tk−1e−tdt.
La copule de Clayton est une copule archidienne définie par la fonction de Laplace ψα donnée
par :
ψα(t) = (1 + αt)−1/α,
où la variable a suit une distribution Gamma (voir (2.12)) de paramètre de forme égal à 1/α et de paramètre d’échelle α.
Figure 2.3 – Densité d’une distribution dont les marges sont normales centrées réduites et graphique de dispersion de taille 1000. La copule utilisée est la Clayton avec un tau de Kendall de τ = 0.6.
Famille de Gumbel Loi stable
Une loi stable est fermée par rapport au produit de convolution. Soient X1, X2, . . . , Xd des
variables aléatoires indépendantes et identiquement distribuées. X1, X2, . . . , Xd suit une loi
stable, s’il existe ad et bd tels que Y = ad(X1+ X2+ · · · + Xd) + bd suit également la même
loi stable. Un exemple de loi stable est la distribution normale. En effet, la somme de deux variables aléatoires normales est une variable aléatoire normale.
La copule de Gumbel est générée par la fonction de Laplace ψα donnée par :
ψα(t) = exp(t1/(1+α)),
où a est une variable aléatoire de loi stable positive.
Figure 2.4 – Densité d’une distribution dont les marges sont normales centrées réduites et graphique de dispersion de taille 1000. La copule utilisée est la Gumbel avec un tau de Kendall de τ = 0.6.
Famille de Franck Loi logarithmique
C’est une loi discrète positive définie sur 1, 2, . . .. Soit p ∈ [0, 1]. On dit que X suit une loi logarithmique de paramètre p et on note X ∼ Log(p), si la densité de X s’écrit :
f (k, p) = P (X = k) = −1 ln(1 − p)
pk
k, k ≥ 1. La copule de Franck a pour générateur la fonction de Laplace :
ψα(t) = − log[1 + exp(−t){exp(−α) − 1}]/α,
où a suit une distribution logarithmique.
Figure 2.5 – Densité d’une distribution de marges normales centrées réduites et graphique de dispersion de taille 1000. La copule utilisée est la Franck avec un tau de Kendall de τ = 0.6.
Tau de Kendall pour les copules archimédiennes en dimension 2
Il a été établi par Genest et Mackay (1986) que le tau de Kendall pour une copule archimé-dienne est donné par :
τ = 1 + 4 1 Z 0 φ(t) φ0(t)dt (2.13)
φ = ψ−1 est l’inverse de la fonction de Laplace.
Copule ψ loi de a τ (tau de kendall)
Clayton (1 + αt)−1/α Γ(1
α, α) α/ (α + 2)
Gumbel exp(t1/(1+α)) stable positive (α − 1) /α
Franck − log[1 + exp(−t){exp(−α) − 1}]/α logarithmique 1 + 4(D1(α)−1)
α
Table 2.1 – Trois familles de copules archimédiennes. La fonction Dk(α) = αk α
R
0 tk
et−1dt .
Le paramètre α est strictement supérieur à 0. Lorsqu’il est nul, la copule résultante est la copule d’indépendance Π.
En définitive, les copules sont un outil statistique important permettant de modéliser la struc-ture de dépendance d’un vecteur de variables aléatoires. Elles s’appliquent d’autant plus aux variables normales et non normales.
Chapitre 3
Problématique de l’estimation dans les
petits domaines
La plupart des enquêtes à grande échelle, comme celles effectuées par Statistique Canada, four-nissent de bonnes estimations. Cependant on a souvent besoin de statistiques pour certaines zones qui contiennent peu ou très peu d’unités échantillonnées. Cette petite taille d’échantillon peut augmenter la variance des statistiques de l’enquête. Ce type de zone géographique est communément appelée « petit domaine » ou « small area » en anglais. Le terme « petit » peut sembler ambigu à première vue dans l’expression « petit domaine » s’il n’est pas correctement défini. Selon Rao (2003), un domaine est un petit si l’estimateur calculé avec les seules données d’enquête est imprécis et il est considéré large sinon. Dépendant du contexte, un petit domaine peut être une province, une division administrative, un comté , une municipalité, un district, etc.
Plusieurs méthodes d’estimation existent pour prédire les caractéristiques des petits domaines. Nous présentons de prime abord quelques méthodes d’estimation de moyennes, ensuite il sera question d’introduire les modèles que nous utiliserons dans la suite de nos analyses.
3.1
Plan de sondage et notations
Considérons le plan de sondage stratifié défini comme suit. Soit une population notée U consti-tuée de m domaines de tailles respectives N1, . . . , Nm. On pose N = Pmi=1Ni, la taille de la
population totale. Soit Ui, la population du domaine i dans lequel on effectue un tirage
aléa-toire de niéléments parmi les Ni. Soit Si, l’ensemble des éléments tirés et S = ∪Sil’échantillon
total obtenu. On pose n = Pm
i=1ni la taille totale de l’échantillon.
La variable d’intérêt de l’étude, y, est mesurée sur les échantillons {Si}. Soit x, une variable
auxiliaire connue sur toute la population U et i un domaine quelconque du plan. On pose xij = (xij1, xij2, . . . , xijp) la variable auxiliaire de dimension p. Les moyennes des variables x
et y sur le domaine i sont respectivement YiU et XiU définies par : YiU = 1 Ni Ni X j yij XiU = 1 Ni Ni X j xij.
Les moyennes respectives de ces variables sur toute la population U sont : YU = 1 N m,Ni X i,j yij XU = 1 N m,Ni X i,j xij = (X1, . . . , Xp)T.
Il est à noter que les moyennes YiU et YU qui sont relatives à la population, ne peuvent pas
être déterminées directement puisque que la variable y n’est connue que sur une partie de la population. Ces moyennes doivent donc être estimées. Les moyennes échantillonnales des variables y et x estimant les moyennes YiU et XiU sont notées respectivement yis et xis , elles
sont déterminées comme suit :
yis= 1 ni ni X j=1 yij xis = 1 ni ni X j=1 xij = (xi1, . . . , xip)T.
Les estimateurs de moyennes de XU et YU sont respectivement xs et ys définis par :
ys= m X i=1 Ni N yis xs= m X i=1 Ni N xis. (3.1)
On suppose que les tailles d’échantillon ni sont faibles, négligeables par rapport à la taille Ni
des domaines et que ni/Ni≈ 0.
3.2
Méthodes d’estimation de la moyenne dans un petit
domaine
L’objectif est d’estimer la moyenne de y dans un petit domaine par différentes méthodes d’es-timation. Soit donc i, un petit domaine. Ce qui caractérise le domaine i est qu’il contient peu de données échantillonnées. La littérature statistique contient plusieurs méthodes d’estima-tion de la moyenne dans un petit domaine. Certaines méthodes sont dites directes, car elles utilisent seulement les données d’enquêtes. D’autres sont syntétiques car elles intègrent des variables auxiliaires provenant de sources externes à l’enquête. La méthode composite combine les estimations obtenues sur les deux premières méthodes (méthodes directes et synthétiques). Nous allons présenter dans les lignes qui suivent quelques-unes de ces méthodes en vue de l’estimation de la moyenne YiU .
3.2.1 Méthodes d’estimation directes
C’est la méthode usuelle qui utilise uniquement les données d’enquête. L’estimateur de la moyenne YiU est donné par la moyenne échantillonnale :
yDiris = 1 ni ni X j=1 yij.
La variance de cet estimateur est (Lohr (2009), p.53) : V ar(yDiris ) = 1 − ni Ni S2 i ni , (3.2) où S2
i est la variance de y dans le domaine i. yDiris est un estimateur peu fiable si la taille
d’échantillon ni dans le domaine est faible. En effet, la variance (3.2) est alors élevée.
3.2.2 Méthode d’estimation synthétique
C’est une méthode qui utilise les estimations de la population dans l’objectif de produire de bonnes statistiques de petits domaines. En effet, selon Gonzalez (1973) :
"An unbiased estimator is obtained from a sample survey for a large area ; when this estimate is used to derive estimates for subareas under the assumption that the small areas have the same characteristics as the large area, we identify these estimates as synthetic estimates." La méthode d’estimation synthétique suppose donc que la population et les petits domaines ont les mêmes caractéristiques. Pour cette raison, un estimateur synthétique donne des es-timations d’une statistique cible dans un domaine en utilisant les données de la population échantillonnale (Steinberg (1979), p.1). Il existe plusieurs façons de procéder pour construire un estimateur synthétique.
Exemple 2. Estimateur synthétique pour la moyenne. Si on considère le modèle implicite suivant :
YiU = YU,
l’estimateur synthétique de la moyenne dans le petit domaine i est le suivant : ySynis = ys,
où ys est donnée par (3.1). C’est-à-dire que l’estimateur synthétique est égal à l’estimateur de
la moyenne dans la population.
Exemple 3. Exemple d’estimateur synthétique pour un modèle de régression.
Pour p = 1, supposons qu’il existe une relation linéaire entre y et x avec une ordonnée à l’origine nulle. Le modèle de régression se définit comme suit :
où εij ∼ N (0, σ2xij). En passant à la moyenne, le modèle (3.3) donne :
YU = βXU. (3.4)
On déduit β de (3.4) pour obtenir :
β = YU XU
. (3.5)
Un estimateur de β est donné par (voir (3.1)) : b β = ys
xs
,
L’estimateur synthétique de la moyenne d’après (3.4) est :
ySynis = bβXiU.
L’un des avantages d’un estimateur synthétique est la simplicité de calcul. On montre que la variance d’un estimateur synthétique est de l’ordre de 1
n (Francisco (2003)). Cependant,
l’estimateur synthétique est souvent biaisé parce qu’il capture mal la variabilité interdomaine (variabilité associée aux différences entre les moyennes de y dans les différents domaines).
3.2.3 Estimateur composite
L’estimateur composite est une somme pondérée entre un estimateur direct et un estimateur synthétique. Le poids est défini de telle sorte que si la taille de l’échantillon ni est grande,
l’estimateur direct dispose d’un poids élevé par rapport à l’estimateur synthétique et pour une taille d’échantillon faible, la pondération sera favorable à l’estimateur synthétique. La définition d’un estimateur composite est la suivante :
yComis =γbiy Dir is + (1 −γbi)y Syn is , (3.6) où yCom is , yDiris , y Syn
is représentent respectivement l’estimateur composite, l’estimateur direct
et l’estimateur synthétique de la moyenne. Dans l’équation (3.6), le paramètre γbi prend ses valeurs dans l’intervalle [0, 1] et contrôle le compromis entre l’estimateur direct et l’estima-teur synthétique. Il est choisi en minimisant l’EQM de l’expression (3.6) (voir Ghosh et Rao (1994)). Ainsi, le poids associé à l’estimateur direct est élevé si la taille de l’échantillon est grande, sinon il est élevé pour l’estimateur synthétique si l’on a besoin d’informations supplé-mentaires provenant d’autres domaines.
L’estimateur composite a la propriété d’avoir un biais plus faible qu’un estimateur synthé-tique. Il est plus précis qu’un estimateur direct. Son erreur quadratique moyenne (EQM) est généralement inférieure à celle de ces deux estimateurs.
3.2.4 Méthode d’estimation de la moyenne par le modèle de Battese et al. (1988)
C’est une méthode d’estimation indirecte basée sur le modèle introduit par Battese et al. (1988). Le modèle est un modèle de régression linéaire mixte avec une ordonnée à l’origine aléatoire. Le modèle se définit ainsi :
yij = xTijβ + νi+ eij, i = 1 . . . m, j = 1 . . . Ni, (3.7)
où β est le paramètre de régression de la partie fixe du modèle ; νi ∼ N (0, σν2)la variable
aléa-toire du ième domaine et eij ∼ N (0, σe2)l’erreur associée au modèle est supposée orthogonale
à νi.
Si le modèle est vrai, la moyenne de la variable y pour le domaine i est prédite via (3.7) comme suit : YiU = X T iUβ + νi+ ei, (3.8) où ei = n−1i Pni
j=1eij. La prédiction de YiU peut varier suivant que les paramètres β et les
variances associées à νi et eij sont connus ou inconnus.
Prédiction de YiU : cas où β, σe2, σ2ν sont connues
C’est le cas le plus classique. Pour obtenir une prédiction de la moyenne, il suffit de calculer une moyenne suivant (3.7) sur les éléments de l’échantillon. On obtient :
b yis = XTiUβ +νbi, (3.9) où νbi = n −1 i ni P j=1 γi(yij− xTijβ) = γi(yis− xTisβ) avec γi = σ 2 ν σ2 ν+ σ2e ni
. L’erreur quadratique d’après Rao (1994) est :
EQM (byis) = g1i(σν2, σ2e) =
γiσe2
ni
.
Cas où β, σe2, σ2ν sont inconnues Si les composantes de variance σ2
e, σν2 sont inconnues, on les remplace par leurs estimés bσ
2 e,
b σ2
ν. Si β est inconnu, on le remplace par son estimateur bβ donné par :
b β = m X i=1 ni X j=1 xijxTij −bγixisx T is −1 m X i=1 ni X j=1 xijyij−bγixisyis ,
avecγbi= b σ2 ν b σ2 ν+b σ2e ni .
Le prédicteur de YiU résultant est (Mukhopadhyay et al. (2011)) :
b
yis = XTiUβ +b νbi (3.10)
= XTiUβ +b bγi(yis− xisβ).b
L’EQM de yis est (Rao (1994)), (Prasad et Rao (1990)) :
EQM (yis) = g1i(σν2, σe2) + g2i(σν2, σ2e) + g3i(σ2ν, σe2), (3.11) où g1i(σ2ν, σe2) = γiσe2 ni (3.12) g2i(σ2ν, σe2) = (Xi− γixi)T m X i=1 Ai −1 (Xi− γixi) (3.13) g3i(σ2ν, σe2) = n−2i σν2+ σ 2 e ni h(σ2ν, σe2) (3.14) avec Ai = σ−2e ni P j=1 (xijxTij − γinixixTi ) et h(σν2, σe2) = σ4eV V νν(δ) + σν4V V ee(δ) − 2σ2eσ2νV V ν,e(δ), où δ = (σ2 ν, σe2)T ; V V νν(δ) et V V
ee sont les variances asymptotiques de bσ
2 ν et bσ 2 e et V V ν,e(δ), la covariance asymptotique deσb 2 ν etbσ 2 e (Mukhopadhyay et al. (2011)).
Nous avons présenté plusieurs méthodes qui permettent d’estimer la moyenne d’une variable d’intérêt dans un petit domaine. Les méthodes présentées étaient soit directes, soit indirectes. Il existe néanmoins d’autres méthodes d’estimation par un modèle. Des méthodes alternatives sont présentées à la section suivante.
3.3
Généralisation du modèle de Battese et al.
Le modèle présenté est une généralisation du modèle de Battese et al. défini en (3.7). La généralisation est relative à la modélisation de la dépendance résiduelle par une loi échangeable. Ce modèle est défini par :
yij = xTijβ + εij i = 1 . . . m, j = 1 . . . Ni, (3.15)
où pour tout domaine i, la fonction de répartition des erreurs (εi1, · · · , εiNi) appartient à une
famille échangeable de fonctions de répartition continues {Fα,θ,n(εi1, · · · , εiNi)}; où α et θ sont
des paramètres associés au niveau de dépendance et à la fonction de répartition marginale des erreurs qui sont de moyenne nulle et de variance finie.
3.3.1 Familles de lois échangeables {Fα,θ,n} pour les erreurs
On dit qu’une famille de fonctions de répartition {Fα,θ,n} est échangeable si elle remplit les
propriétés suivantes :
• propriétés d’échangeabilité : pour toute permutation ∆ de 1, . . . , n vers ∆(1), ∆(2), · · · , ∆(n) Fα,θ,n(z1, · · · , zn) = Fα,θ,n(z∆(1), z∆(2), · · · , z∆(n)).
• propriété de dimension invariante : pour tout 2 6 d < n Fα,θ,n(z1, · · · , zd, ∞, ∞) = Fα,θ,d(z1, · · · , zd).
Soit Fe une fonction de répartition unidimensionnelle. S’il existe une copule
multidimension-nelle Cα,n (voir la section 2.5) telle que Fα,n(z1, . . . , zn) = Cα,n(Fe(z1), . . . , Fe(zn)), alors la
famille {Fα,n} satisfait les deux conditions précédentes.
Exemple 4. Loi échangeable normale
Si εij = νi+ eij avec νi ∼ N (0, σν2) et eij ∼ N (0, σ2e), alors (εi1, . . . , εin) appartient à une
famille échangeable normale multivariée dont la distribution est N(0, σ2P(ρ, n
i)), avec : X (ρ, ni) = 1 ρ · · · ρ ρ 1 · · · ρ ... ... ... ... ρ ρ · · · 1 (3.16) où σ2 = σ2
e + σν2 et ρ = σ2ν/(σe2+ σν2) qui représente le paramètre de corrélation intra
classe.
Plus généralement, la matrice P(ρ, ni) est la même pour toutes les lois échangeables.
3.3.2 Estimation de la moyenne d’un petit domaine par le modèle (3.15) L’idée consiste à utiliser le modèle (3.15) dans le but d’estimer la moyenne YiU pour un
petit domaine i présentée ici [voir la section 3.1]. Soit ri = U − Si l’ensemble des éléments
non échantillonnés. Pour estimer YiU on a besoin d’estimer les yik pour k ∈ ri. Le meilleur
prédicteur non biaisé de yik est donné par l’espérance conditionnelle de yik sachant {yij, j =
1, . . . , ni} qui est le même que l’espérance conditionnelle de yik sachant {εij, j = 1, . . . , ni}
puisque εij est fonction de yij.
On suppose que les paramètres (β, α, θ) sont connus. Soit fα,θ,ni la densité de {εij, j =
1, . . . , ni}. La densité conditionnelle de εik connaissant {εij, j = 1, . . . , ni} est donnée par :
f|i(e) =
fα,θ,ni+1(e, εij, j = 1, . . . , ni)
fα,θ,ni(εij, j = 1, . . . , ni)
Le meilleur prédicteur non biaisé de yik d’après (3.17) est alors : ˜ yik= Z R (xTikβ + e)f|i(e))de = xTikβ + Z R ef|i(e))de.
Finalement le prédicteur non biaisé de YiU est donc :
by M is = 1 Ni ni X j=1 yij+ Ni X k=ni ˜ yik . (3.18)
Le prédicteur de YiU exprimé en (3.18) a été obtenu de la manière suivante. Tout d’abord, les
meilleurs prédicteurs non biaisés des y non observés ont été explicitement déterminés par le modèle (3.15). Ensuite, la prédiction résultante est la moyenne des y observés et de ceux non observés.
La variance de l’erreur de prédiction d’après Rivest et al. (2015) est : M SRi= 1 N2 i V ar X k∈ri (yik− ˜yik) = 1 Ni2E X k∈ri V ar(yik− ˜yik| εij, j ∈ Si)) + X k6=l∈ri Cov(yik− ˜yik, yil− ˜yil, | εij, j ∈ Si) ≈ 1 N2 i E X k6=l∈ri Cov(yik− ˜yik, yil− ˜yil, | εij, j = 1, . . . , ni) (3.19) = E Cov εik, εil, | εij, j = 1, . . . , ni . (3.20)
L’équation (3.19) est déduit du fait que, comme Ni est supposé grand, la somme des Ni
va-riances est négligée par rapport à N2
i. Les variables εik et εil définissent les erreurs aléatoires
de deux unités non échantillonnées. L’expression de la variance du prédicteur (3.20) peut s’ex-primer de différentes manières dans la littérature statistique. D’après Rivest et al. (2015), cette variance (3.20) est une meilleure mesure de précision pour un petit domaine lorsqu’il dépend de ses données.
Pour conclure ce chapitre, il a été montré que la précision des prédictions des caractéristiques est l’enjeu principal de l’estimation dans de petits domaines. Plusieurs méthodes d’estimation ont été présentées à cet effet. Parmi ces méthodes, la méthode d’estimation par un modèle est présentée comme la méthode par excellence pour l’estimation des petits domaines. Une nou-velle classe de modèles a été présentée, généralisant le modèle de Battese et al. Les prédictions des paramètres dépendent des modèles de cette classe. Le choix du meilleur modèle à utiliser pour les prédictions des paramètres d’intérêt est donc le problème qui se pose. Ce choix va se faire par le biais du critère de validation croisée.
Chapitre 4
Critère de validation croisée
De façon générale, la sélection de modèles est une procédure statistique qui consiste à choisir, dans une famille, le modèle qui s’ajuste le mieux à un jeu de données. Certains critères s’ap-pliquent aux modèles à but prédictifs, tel le critère de validation croisée.
Le critère de validation croisée mesure l’erreur d’un modèle en évaluant les performances pré-dictives de celui-ci. En effet, l’idée de la validation croisée est de ne pas utiliser l’ensemble des données pour construire le modèle. Certaines données sont retirées, un modèle est ajusté sous ces données réduites. L’écart entre les données retirées et leur prédiction par le modèle ajusté mesure la performance prédictive du modèle. Plus ce critère est petit et plus le modèle est efficace pour la prédiction.
Il existe d’autres critères de sélection qui imposent une pénalité aux modèles utilisant beau-coup de paramètres. Dans cette catégorie, les critères les plus populaires sont l’AIC (Akaike Information Criteria) et le BIC (Bayesian Information Criteria).
Pour la sélection des variables en régression, il existe un autre critère important. Il s’agit du Cp
de Mallows qui choisit un modèle qui possède un bon compromis entre le biais et la variance. Il existe une relation d’équivalence asymptotique entre ces critères et le critère de validation croisée pour les modèles linéaires (Stone (1977)) et les modèles linéaires mixtes (Fang (2011)). Ce chapitre porte sur l’étude du critère de validation croisée et son application aux modèles linéaires. Nous présentons tout d’abord le critère de validation croisée pour les modèles de régression linéaire avec ou sans effets aléatoires. Ensuite, nous montrons ses liens avec l’AIC et le Cp de Mallows. Enfin, nous étudions l’espérance du critère de validation croisée.
4.1
Présentation générale du critère de validation croisée
C’est une méthode statistique qui partitionne les données en deux groupes. Un pour l’en-trainement et l’autre pour la validation du modèle. Les données d’enl’en-trainement permettent d’estimer le modèle tandis que les données de validation permettent de mesurer son erreur d’ajustement sur les données. Il existe plusieurs variantes de la validation croisée, nous nous
intéressons à l’une d’elles, appelée LOOCV (Leave-one-Out Cross Validation) en anglais. Supposons qu’on dispose d’un jeu de données {(xi, yi), i = 1, . . . , n}, et soit M un modèle
construit sur le jeu de données. L’algorithme du calcul du critère LOOCV sur le modèle M est le suivant (Duchesne (2014), p.57) :
1. Retirer la ième observation du jeu de données.
2. Réestimer le modèle M sur les (n − 1) données restantes en estimant ses paramètres, notons M−i ce modèle.
3. Prédireby
−i M = M
−i(y
i), qui est la prédiction de yi par le modèle obtenu en 2.
4. Répeter les étapes 1, 2, 3 pour chaque i, i = 1 . . . n.
5. Calculer le critère de validation croisée dont l’expression est la suivante : LOOCV (M ) = 1 n n X i=1 (yi−yb −i M) 2. (4.1)
4.1.1 Modèle de régression linéaire
Ce modèle est un cas particulier de celui de Battese et al. sans composante aléatoire, obtenu en considérant νi= 0 et εij = eij pour i ∈ 1, . . . , m, j ∈ 1, . . . , ni.
Soit Mn×m l’ensemble des matrices de n lignes et m colonnes. Puisque pour i ∈ {1, . . . , m},
yi= (yi1, . . . , yini)
T et x
ij = (xij1, . . . , xijp)T, on considère les notations matricielles suivantes :
• Y = (yT 1, . . . , yTm)T ∈ Mn×1, • Xi = (xi1, . . . , xini) T ∈ M ni×p et X = (X T 1 , . . . , XmT)T ∈ Mn×p, • εi = (εi1, . . . , εini) T et ε = (εT 1, . . . , εTm)T.
La forme matricielle du modèle de Battese et al. (voir la section 3.2.4) se définit comme suit :
Y = Xβ + ε, (4.2)
où β = (β1, . . . , βp)T est le paramètre de la partie fixe et ε = (ε1, . . . , εm)T est un vecteur
aléa-toire dont les composantes sont indépendantes, centrées et de variance égale à σ2
e. L’estimateur
β obtenu par la méthode des moindres carrés s’écrit : (Duchesne (2014), p.27.) : b β = ( bβ1, . . . , bβp) = (XTX)−1XTY. Celui de la variance σ2 e donne (Duchesne (2014), p.29) : b σe2= m X i=1 ni X j=1 (yij−ybij) 2 n − p = SSRes n − p (4.3)
avec byij = bβ1xij1+ · · · + cβpxijp, oùybij est la prédiction de yij pour le domaine i. En fait, si le modèle est bon, byij se rapproche de yij et l’écart (byij − yij)
2 est petit. Ainsi, si le modèle
M est bon, la somme de ces écarts encore appelée « somme des carrés résiduels » notée SSRes
Maximum de vraisemblance d’un modèle de régression linéaire
Si on suppose la normalité des erreurs ε, Y défini par (4.2) satisfait Y |X ∼ N(Xβ, σ2 eI). La
densité conjointe des observations encore appelée la vraisemblance du modèle s’écrit :
L(β, σe2) = 1 p(2π)nkσ2 eIk exp −1 2(Y − Xβ) T(σ2 eI)−1(Y − Xβ) = (2πσ2e)−n2 exp − 1 2 (Y − Xβ)T(Y − Xβ) σ2 e . (4.4)
La log-vraisemblance est le logarithme népérien de la vraisemblance. Son expression est la suivante : l(β, σe2) = log(L(β, σ2e)) = −n 2 log(2π) − n 2 log(σ 2 e) − 1 2 (Y − Xβ)T(Y − Xβ) σ2 e . (4.5)
On montre d’après Rencher (2008) que bβ = (XTX)−1XTY et bσ2=Pm
i=1 Pni j=1 (yij−ybij) 2 n
maximisent la vraisemblance et donc la log vraisemblance du modèle. C’est-à-dire qu’ils sont solution des équations :
∂l ∂β(β, σ 2 e) = 0 ∂l ∂σ2 e (β, σ2e) = 0. b β etbσ
2 sont appelés les estimateurs du maximum de vraisemblance (EMV) respectivement de
β et σ2.
Critère de validation croisée pour la régression linéaire
En appliquant l’algorithme de la section 4.1 au modèle (4.2) on obtient le critère de validation croisée noté P RESS et dont l’expression est :
P RESS = 1 n m X i=1 ni X j=1 (yij −yb −[ij])2, (4.6) où yb
−[ij] est la prédiction de y
ij obtenue par le modèle (4.2) sans la jème observation du
domaine i.
Le P RESS représente la somme des erreurs de prévision et mesure la capacité d’un modèle donné à bien prédire les nouvelles observations. Ainsi, plus le critère est faible et plus le modèle prédit bien. Par ailleurs, on peut constater que la complexité de l’algorithme est fonction de la taille d’échantillon n . Il existe heureusement un théorème qui permet d’obtenir le résidu P RESS défini en (4.6) sans avoir à effectuer les n régressions.
Théorème 4.1.1. Soit H = X(XTX)−1XT la matrice chapeau associée au modèle (4.2).
Soit ˆY = HY le vecteur des valeurs prédites par le modèle. Le critère P RESS peut encore s’écrire comme suit (Rencher (2008), p.235.) :
P RESS = 1 n m X i=1 ni X j=1 (yij − ˆyij)2 (1 − h(ij)(ij))2 , (4.7)
où h(ij)(ij) représente l’ élément diagonal de la matrice H situé au rang (k, k) avec k = j si
i = 1ou k = Pi−1l=1nl+ j si i = 2, . . . , m.
Dans une famille de modèles, celui qui possède les meilleures capacités prédictives est celui avec un P RESS minimal. Si les h(ij)(ij) sont égaux, le critère P RESS est proportionnel à la
somme des carrés résiduels SSRes.
Un des avantages de ce critère est qu’il permet d’éviter les modèles en situation de sur-ajustement. En effet, les modèles en sur-ajustement ont tendance à avoir des petits résidus pour les données incluses dans le jeu de donnée d’entrainement et des grands résidus pour les données externes. Or le critère P RESS, par définition utilise les données qui n’ont pas servi à l’estimation du modèle. Par conséquent, un modèle sur-ajusté aura des grands résidus et donc un critère P RESS élevé.
Les modèles de régression linéaires supposent l’hypothèse de l’indépendance des données, ce qui n’est pas toujours vérifié dans la réalité. Lorsque les données sont corrélées, on a recours à un modèle prenant en compte cette dépendance. Les modèles linéaires mixtes sont une extension des modèles de régression linéaires. Ces derniers sont plus flexibles et permettent de modéliser plusieurs types de données incluant les données stratifiées, longitudinales et spatiales (Müller et al.(2013)).
4.1.2 Modèle de régression linéaire mixte Structure du modèle général
Soient y, X, β et ε, tels que définis à la section 4.1.1. Soit νi un vecteur d’effets aléatoires du
domaine i de taille q × 1. On suppose que νi suit une loi normale de moyenne 0 et de matrice
de variance-covariance Gi. On pose ν = (ν1T, . . . , νmT)T, le vecteur d’effets aléatoires de taille
r × 1 avec r = mq. Le vecteur ν suit une distribution normale, de moyenne 0 et de matrice de variance covariance G, avec G = diag(G1, . . . , Gm). Le modèle de régression linéaire mixte
(général) se définit comme suit :
Y = Xβ + Zν + ε, (4.8)
où Z est une matrice connue de taille n × r ; ε ∼ N(0, R). Les variables ν et ε sont supposées indépendantes. Sous ces suppositions, la variance de Y s’écrit :
Lorsque R et G sont connues, on montre que les estimateurs respectifs de β et ν, notés bβ et b
ν, sont (Rencher et al. (2008)) : b
β = (XTΣ−1X)−1XTΣ−1Y (4.10)
b
ν = σ2eZTΣ−1(Y − X bβ). (4.11) Modèle de régression linéaire mixte : Cas particulier du modèle de Battese et al. Le modèle de Battese et al. est un cas particulier du modèle (4.1.2) obtenu en posant q = 1, c’est à dire en considérant un effet aléatoire par domaine. Ce modèle se définit comme suit :
yij = xTijβ + νi+ εij, (4.12)
où β = (β1, . . . , βp) est le vecteur de p paramètres de la partie fixe. En effet, si on pose
ν = (ν1, . . . , νm)T ∈ Mm×1, zi = (1, . . . , 1)T ∈ Mni×1 et Z = diag(z1, . . . , zm) ∈ Mn×m, la
forme matricielle du modèle (4.12), équivalente à (4.1.2) est donné par :
Y = Xβ + Zν + ε, (4.13)
avec ε ∼ N(0, σ2
eIN) et ν ∼ N(0, σν2Im). Les matrices IN et Im étant respectivement les
matrices identité de taille N × N et m × m. La structure de la matrice Z dans ce cas donne :
Z =diag(z1, . . . , zni) = 1 0 · · · 0 ... ... ··· ... 1 0 ... ... 0 1 0 ... ... ··· ... 0 1 ... 0 ... 0 1 ... ... ... 0 0 1 .
Le modèle (4.12) étant un cas particulier de (4.9) avec R = σ2
eIN et G = σν2Im, la matrice de variance de Y s’écrit : Σ = σ2eIN + σν2ZZT =diag(Σ1, . . . , Σni), où Σi = σ2eIni+ σ 2 νziziT = σ2e+ σν2 σν2 · · · σ2ν σν2 ... · · · ... ... ... σ2 e+ σν2 σ2ν σ2 ν σν2 · · · σe2+ σν2 .
Le modèle linéaire mixte dispose d’une structure plus complexe que le modèle linéaire. Cette complexité est due à la prise en compte de la structure de dépendance à l’intérieur de chaque strate. Et elle se fait grâce à une composante aléatoire. Dans notre cas, la structure de dé-pendance à l’intérieur des strates est caractérisée par les matrices de covariances Σi, égales à
σ2e+ σ2ν sur la diagonale et à σ2ν à l’extérieur de la diagonale.
Définition de la matrice chapeau du modèle général donné par l’équation(4.13) La matrice chapeau est la matrice qui lie les valeurs prédites Yb obtenues par le modèle aux données Y . Cette matrice permet de mesurer l’effet des données observées sur les prédictions. La relation que définit la matrice chapeau H1 d’un modèle linéaire mixte est la suivante :
b
Y = H1Y, (4.14)
où la matrice H1 est définie par le théorème suivant : (Hodge et al. (2001)).
Théorème 4.1.2. Pour un modèle avec effets aléatoires, G étant définie positive, il existe une matrice ∆ ∈ Mm×m telle que G/σe2 = (∆T∆)−1. Soit M une matrice carrée définie comme
suit : M = " X Z 0 −∆ # . (4.15)
La matrice H1 = (X : Z)(MTM )−1(X : Z)T est la matrice chapeau associée à l’équation
(4.13), c’est à direY = Hb 1Y.
Pour deux matrices A et B, l’expression (A : B) est une matrice égale à la concaténation au sens des colonnes des matrices A et B.
Exemple 5. Soit deux matrices A et B définies par :
A = " 1 5 2 4 # , B = " 6 0 9 8 3 7 # . La matrice (A : B) s’écrit : (A : B) = " 1 5 6 0 9 2 4 8 3 7 # .