Sélection de copules archimédiennes dans un modèle
semi-paramétrique
Mémoire Lobna Khadraoui Maîtrise en statistique Maître ès sciences (M. Sc.) Québec, Canada © Lobna Khadraoui, 2018Sélection de copules archimédiennes dans un modèle
semi-paramétrique
Mémoire
Lobna Khadraoui
Sous la direction de:
Résumé
Ce travail considère un modèle linéaire semi-paramétrique dont les erreurs sont modélisées par une copule choisie parmi la famille archimédienne ou bien la copule normale. La modélisation des erreurs par une copule apporte une flexibilité et permet de caractériser la structure de dépendance d’une manière simple et efficace. La simplicité réside dans le fait qu’un seul para-mètre α contrôle le degré de dépendance présent dans les données. L’efficacité réside dans le fait que ce modèle semi-paramétrique permet de lever des hypothèses standards souvent ren-contrées en statistique appliquée à savoir la normalité et l’indépendance. Après une mise en œuvre du modèle basée sur une copule nous avons proposé une étude théorique du comporte-ment asymptotique de l’estimateur du paramètre de dépendance α en montrant sa convergence et sa normalité asymptotique sous des hypothèses classiques de régularité. L’estimation des paramètres du modèle a été réalisée en maximisant une pseudo-vraisemblance. La sélection de la meilleure copule pour un jeu de données a été faite à l’aide du critère d’Akaike. Une comparaison avec le critère de la validation croisée a été proposée également. Enfin, une étude numérique sur des jeux de données simulés et réels a été proposée dans la sélection.
Mots clefs : Modèle linéaire, copules archimédiennes, analyse asymptotique, sélection de mo-dèles.
Abstract
This work considers a semi-parametric linear model with error terms modeled by a copula cho-sen from the Archimedean family or the normal copula. The modeling of errors by a copula provides flexibility and makes it possible to characterize the dependency structure in a simple and effective manner. The simplicity lies in the fact that a single parameter α controls the de-gree of dependency present in the data. The efficiency is in the fact that this semi-parametric model weakens standard assumptions often encountered in applied statistics namely normality and independence. After an implementation of the model based on a copula we proposed a theoretical study on the asymptotic behavior of the estimator of the dependence parameter α by showing its consistency and its asymptotic normality under classical assumptions of regu-larity. Estimation of the model parameters is performed by maximizing a pseudo-likelihood. The selection of the best copula that fits the data for each case is based on the Akaike selection criterion. A comparison with the criterion of cross-validation is presented as well. Finally, a numerical study on simulated and real data sets is proposed.
Table des matières
Résumé iii
Abstract iv
Table des matières v
Liste des tableaux vii
Liste des figures viii
Remerciements ix
Introduction 1
1 Caractérisation de la dépendance par les copules sur Rd 3
1.1 Mesures de dépendance . . . 3
1.2 Les copules . . . 5
2 Inférence statistique 17 2.1 Structure des données . . . 17
2.2 Familles de fonctions de répartitions échangeables . . . 17
2.3 Présentation des données et spécification du modèle . . . 19
2.4 Estimateur de la distribution marginale . . . 20
2.5 Estimation du paramètre de dépendance . . . 21
3 Sélection de copules dans un modèle semi-paramétrique 28 3.1 Le critère d’information d’Akaike . . . 28
3.2 Le critère de validation croisée . . . 31
4 Sélection d’une famille de copules dans un modèle pour petits domaines 32 4.1 Problématique dans les petits domaines . . . 32
4.2 Modèle pour petits domaines et estimation des paramètres . . . 32
4.3 Simulation des données pour l’étude Monte Carlo . . . 34
4.4 Présentation des deux méthodes de sélection . . . 35
4.5 Résultats . . . 36
4.6 Interprétation des résultats . . . 37
A Quelques résultats plus techniques associés à la preuve du théorème 4 : 43
B Résultats des simulations 45
C Code informatique 48
Liste des tableaux
1.1 Tau de Kendall et rho de Spearman pour quelques copules. . . 9 4.1 Estimateur de α par maximum de vraisemblance pour les 4 différentes copules
archimédiennes. . . 36 4.2 Résultats des simulations obtenues avec marge normale pour m = 20 et τ = 1/2. 36 4.3 Résultats des simulations obtenues avec marge normale pour m = 40 et τ = 1/2. 37 4.4 Pourcentage de bonne classification pour les deux critères AIC et LOOCV. . . 38 4.5 Tableau de contingence pour le test du McNemar (m = 20). . . 39 4.6 Tableau de contingence pour le test du McNemar (m = 40). . . 39 4.7 Landsat data. . . 39 4.8 Sélection du modèles par maximum du pseudo vraisemblance et la validation
croisée pour maïs. . . 41 B.1 Résultats des simulations obtenues avec marge exponentielle pour m = 20 et
τ = 1/2. . . 45 B.2 Résultats des simulations obtenues avec marge exponentielle pour m = 40 et
τ = 1/2. . . 46 B.3 Résultats des simulations obtenues avec marge log-normale pour m = 20 et
τ = 1/2. . . 46 B.4 Résultats des simulations obtenues avec marge log-normale pour m = 40 et
Liste des figures
1.1 Figures présentant en (a) la discordance et en (b) la concordance entre les deux
points A = (x1, y1) et B = (x2, y2). . . 4
1.2 Le paralléllipipède R = [x1, x2] × [y1, y2] × [z1, z2]. . . 7
1.3 Graphes des bornes de Fréchet-Hoeffding dans le cas bivarié. . . 8
1.4 La copule d’indépendance dans le cas bivarié. . . 10
1.5 Densité et nuage de points de la copule normale bivariée pour ρ = 0.5. . . 11
1.6 Densité et nuage de points de la copule de Clayton bivariée pour τ = 0.5 et α = 2. 13 1.7 Densité et nuage de points de la copule de Frank bivariée pour τ = 0.5 et α = 5.7369. . . 14
1.8 Densité et nuage de points de la copule de Gumbel bivariée pour τ = 0.5 et α = 2. 15 1.9 Densité et nuage de points de la copule de Joe bivariée pour τ = 0.5 et α = 2.857. 16 2.1 Diagramme illustrant la structure des données hiérarchiques. . . 18
Remerciements
Mes premiers remerciements vont à Louis-Paul Rivest qui m’a encouragée à réaliser ma maîtrise sous sa direction. Louis-Paul tu as su m’aider à faire évoluer et fructifier mes recherches durant cette dernière année. Au-delà des aspects purement scientifiques de ton encadrement, tu m’as appris que les discussions et échanges avec nos pairs sont le plaisir essentiel en recherche. En particulier, mon thème de recherche a beaucoup évolué au gré des rencontres hebdomadaires avec toi. Merci pour ta disponibilité et ton suivi ponctuel.
Lors de cours, séminaires, colloques, ou de simple pauses-café, j’ai pu dialoguer avec de nom-breux statisticiens. Cet environnement m’a ouvert l’esprit sur l’étendue des thèmes de re-cherche en statistique et le dévouement des statisticiens à leur discipline. Je ne regrettrai pas certainement mon choix de se spécialiser en statistique à la fin de mon Baccalauréat en mathématiques à l’Université Laval en 2016.
Ce fut un plaisir de travailler au département de mathématiques et statistique ; je remercie en particulier les étudiants en maîtrise et les doctorants du département au bureau VCH-419 et au labo VCH-1073. Enfin, merci à ceux et à celles qui n’ont aucun lien scientifique avec ce mémoire mais qui font que si je suis contente d’aller au labo le matin, je le suis encore plus de le quitter le soir. Merci à tous ceux qui ont croisé mon chemin jusqu’à présent.
Introduction
Dans ce mémoire, on s’intéresse à l’estimation dans les petits domaines et à la théorie des copules pour données hiérarchiques. L’approche des copules a gagné beaucoup de popularité en statistique où son utilité s’avère naturellement justifiée à chaque fois qu’on s’intéresse à l’étude d’un vecteur de variables aléatoires en grande dimension (d ≥ 2) avec un intérêt particulier à la dépendance. L’estimation dans les petits domaines a reçu un important développement ces dernières années. Cette estimation implique des données d’enquête avec une information auxiliaire provenant d’une autre source. Son but est de produire des estimations pertinentes et fiables pour les petits domaines de la population où peu d’unités ont été échantillonnées. En considérant des variables auxiliaires x (qui peuvent êtres fixes ou aléatoires), la modélisa-tion et éventuellement les prédicmodélisa-tions pour les petits domaines sont généralement construites à l’aide de modèles mixtes linéaires exprimant la variable d’enquête Y en termes de x (Rao et Molina, 2015). Au niveau des applications, on se réfère souvent au modèle avec ordonnée à l’origine (intercept) aléatoire de Battese et al. (1988). Conceptuellement, ces derniers mo-dèles linéaires supposent une loi normale multivariée pour la fonction de distribution cumulée conjointe du vecteur Y à chaque petit domaine et, par conséquent, l’inférence statistique est effectuée sous l’hypothèse de normalité. Pour un survol sur le sujet de l’estimation dans les petits domaines et pour une revue bibliographique exhaustive nous renvoyons le lecteur à consulter Jiang et Lahiri (2006).
Vraisemblablement, l’hypothèse de normalité sur laquelle repose le modèle de Battese et al. (1988) n’est pas valide dans tous les contextes et un raffinement de ce point devient nécessaire. À titre d’exemples, dans les enquêtes auprès des entreprises la variable d’intérêt a souvent une distribution asymétrique (Bernardini et al., 2013) et la relation de régression entre les variables peut carrément ne pas être linéaire et on doit penser à une régression non-paramétrique ou une autre alternative. De plus, les valeurs aberrantes sont également une préoccupation qui a été soulignée dans quelques articles récents (Chambers et al., 2014; Dongmo et al., 2013; Sinha et Rao, 2009). Selon ces constats, l’hypothèse standard de normalité des erreurs doit être levée en utilisant, par exemple, une approche basée sur les copules (Rivest et al., 2016). Le concept de copule fut d’abord introduit par Sklar en 1959. Les copules sont des fonctions permettant de coupler les lois marginales des variables afin d’obtenir une loi jointe. Elles
permettent d’intégrer divers degrés et formes de dépendance entre les variables. Clairement, une telle approche élargit la gamme des modèles disponibles et permet une modélisation très flexible des erreurs. Dans ce travail, nous considérons l’estimation dans les petits domaines avec une large classe de modèles de copules échangeables pour les résidus de la régression linéaire mixte. Les copules sont indexées par un ou plusieurs paramètre de dépendance α. Ce paramètre est très important dans l’inférence et il est estimé par une technique voisine de la méthode de vraisemblance (souvent nommée par pseudo-vraisemblance). Ce n’est pas la seule façon d’estimer le paramètre de la copule, nous proposons une analyse des propriétés de l’estimateur de α dans un cadre particulier(on démontre qu’il converge en probabilité et on explicite sa loi asymptotique normale). Les marges des copules sont, quant à elles, estimées par la méthode empirique. Finallement, nous étudions le problème de la sélection de la copule afin de choisir un modèle qui décrit bien les données. Nous considérons ici une démarche de sélection classique basée essentiellement sur le critère d’information d’Akaike (AIC) (Akaike, 1974).
Ce mémoire débute par un rappel sur les copules et les mesures de dépendance. Puis, nous effectuons la modélisation par régression linéaire où les erreurs sont distribuées selon une loi marginale quelconque et une copule C indexée par un paramètre de dépendance α. Dans le chapitre 2, nous travaillons sur l’inférence statistique : estimation des paramètres inconnus du modèle, en utilisant plusieurs approches telles que la méthode de maximum de vraisemblance et la méthode empirique. Aussi, nous faisons une étude théorique de l’estimateur de dépendance et nous donnons un exemple numérique du calcul de cet estimateur pour une famille de copules archimédiennes. Dans le chapitre 3, notre objectif est la sélection du modèle qui s’ajuste le mieux possible à nos données. Enfin, dans le dernier chapitre, nous effectuons des simulations numériques pour comparer les modèles en appliquant les résultats des chapitres précédents.
Chapitre 1
Caractérisation de la dépendance par
les copules sur R
d
On focalise dès maintenant sur la modélisation de la distribution d’un vecteur aléatoire tout en tenant compte de la présence de la dépendance. La modélisation qu’on propose dans ce mé-moire est de type semi-paramétrique, elle s’appuie sur les copules pour différentes raisons qui seront explicitées plus tard. Pour que le mémoire soit complet, nous proposons dans la suite un rapide survol de la théorie de copules. Particulièrement, on rappelle brièvement certains résultats fondamentaux utilisés dans ce travail. D’abord, on présente les mesures de dépen-dences et on illustre cette présentation par des exemples de mesures. Puis, on définit la notion de copule. Ensuite, on donne les propriétés et les résultats classiques concernant cette notion. Pour un exposé détaillé sur les copules on pourra consulter Nelsen (2006).
1.1
Mesures de dépendance
" Dependence relations between random variables is one of the most widely studied subjects in probability and statistics. The nature of the dependence can take a variety of forms and unless some specific assumptions are made about the dependence, no meaningful statistical model can be contemplated." Jogdeo (1982)
En statistique, on calcule souvent une mesure de dépendance entre deux ou plusieurs variables aléatoires. Il s’agit d’une pratique répandue vu son utilité pour décrire et mesurer la nature du lien qui les unit. Il existe une large gamme de mesures de dépendance entre les variables aléatoires. À titre d’exemple, on cite dans cette section le coefficient de corrélation de Pearson, qui mesure la dépendance linéaire, le tau de Kendall et le rho de Spearman, qui mesurent une
forme de dépendance connue sous le nom de concordance. Nous présentons à ce niveau une définition pour la mesure de concordance.
Définition 1 Soient (x1, y1) et (x2, y2) une paire de points. On dit que (x1, y1) et (x2, y2)
sont :
— concordants (voir Figure 1.1a) : si
x1 < x2 et y1 < y2 ou x1 > x1 et y1 > y2 ⇔ (x1− x2)(y1− y2) > 0.
— discordants (voir Figure 1.1b) : si
x1 < x2 et y1 > y2 ou x1 < x2 et y1 > y2 ⇔ (x1− x2)(y1− y2) < 0.
(a) Cas de discordance. (b) Cas de concordance.
Figure 1.1 – Figures présentant en (a) la discordance et en (b) la concordance entre les deux points A = (x1, y1)et B = (x2, y2).
Dans la suite, on présente à titre d’exemple de mesure de dépendance, le cœfficient de corré-lation de Pearson une mesure de dépendance linéaire. De même, comme exemple de mesure de concordance, on présente le tau de Kendall et le rho de Spearmann.
1.1.1 Le cœfficient de corrélation de Pearson(ρ)
Soient Y et X deux variables aléatoires continues de variance finies. Le cœfficient de Pearson entre X et Y est défini comme la covariance entre les deux variables, rapportée au produit de leurs écarts-types :
ρ(X, Y ) = Cov(X, Y ) pV ar(X)V ar(Y ).
Par l’inégalité de Cauchy-Schwartz, on remarque que ce rapport est compris entre -1 et 1. Ce cœfficient mesure la relation linéaire entre X et Y . En effet, un signe négatif indique que Y varie en sens inverse de X et on parle alors de corrélation négative. Si le coefficient est proche de 0, les deux variables sont linéairement indépendantes tandis qu’une liaison linéaire est d’autant plus marquée que le cœfficient s’approche de 1 ou de -1.
1.1.2 Le Tau de Kendall (τ )
Le tau de Kendall est introduit par Maurice Kendall dans Kendall (1938). Soit le vecteur aléatoire continu (X, Y ) ayant comme loi jointe H. Le tau de Kendall de ce vecteur est la différence entre les probabilités de concordance et de discordance d’une paire (X1, Y1) et
(X2, Y2) de points telle que
τX,Y = P{(X1− X2)(Y1− Y2) > 0} − P{(X1− X2)(Y1− Y2) < 0}.
1.1.3 Le rho de Spearmann (ρs)
Soit (X, Y )T un vecteur aléatoire continue de copule C et des lois marginales F et G, alors le
rho de Spearmann ρs est
ρs(X, Y ) = ρ(F (X), G(Y ))
De plus, on trouve dans la littérature (Nelsen (2006))la définition suivante : Soient (X1, Y1),
(X2, Y2) et (X3, Y3) trois vecteurs aléatoires indépendants de fonction de répartition H. Le
rho de Spearmann ρs est proportionnel à la différence entre la probabilité de la concordance
et la probabilité de discordance des deux vecteurs (X1, Y1) et (X2, Y3),
ρs= 3 P[(X1− X2)(Y1− Y3) > 0] − P[(X1− X2)(Y1− Y3) < 0] .
1.2
Les copules
1.2.1 Définitions et résultats de base
Les copules présentent un outil très puissant pour modéliser la structure de dépendance de plu-sieurs variables aléatoires. Avant de présenter quelques résultats essentiels, nous commencons l’étude par une définition des copules.
Définition 2 Pour d ≥ 2, une copule est une fonction de répartition, notée C, définie sur [0, 1]d et dont les marges sont uniformes sur [0, 1]. Elle se caractérise par :
(i) C(u1, . . . , ud) = 0 si au moins un ui= 0 pour i = 1, . . . , d et avec ui∈ [0, 1].
(iii) C est d-croissante, i.e., pour chaque hyper-rectangle R =Qd i=1[xi, yi] ⊂ [0, 1]dle C−volume de R est positif : Z R dC(u) = X z∈×d i=1{xi,yi} sgn(z)C(z) = X z∈×d i=1{xi,yi} (−1)N (z)C(z) ≥ 0,
où la somme est prise sur tous les sommets z du R qui sont les 2d d-uplets (z1, . . . , zd)
avec chacune des coordonnées zkest égale à xk ou yk pour k = 1, . . . , d. On précise qu’on
désigne par N (z) := #{k : zk= xk} où le symbole # signifie le cardinal de l’ensemble.
Ainsi, sgn(y1, y2, . . . , yd) = 1, sgn(x1, y2, . . . , yd) = −1 et sgn(x1, x2, . . . , xd) = (−1)d.
On remarque ici qu’il est classique de réprésenter l’hyper-rectangle R par un produit cartésien d’intervalles (voir figure 1.2). À titre d’exemple, la définition dans le cas d = 3 est explicitée dans l’exemple suivant :
Exemple 1 Cas d = 3. La fonction C : [0, 1] × [0, 1] × [0, 1] 7→ [0, 1] est une copule si : (i) C(u1, u2, 0) = C(u1, 0, u3) = C(0, u2, u3) = 0.
(ii) C(u1, 1, 1) = u1, C(1, u2, 1) = u2 et C(1, 1, u3) = u3.
(iii) Dans cet exemple, R est le parallélépipède R = [x1, x2] × [y1, y2] × [z1, z2] (voir Figure
1.2) :
Le C-volume de R se calcule de la manière suivante : Z R dC(u) = (−1)0C(x2, y2, z2) + (−1)1C(x2, y2, z1) + (−1)1C(x2, y1, z2) +(−1)1C(x1, y2, z2) + (−1)2C(x2, y1, z1) + (−1)2C(x1, y2, z1) +(−1)2C(x1, y1, z2) + (−1)3C(x1, y1, z1) = C(x2, y2, z2) − C(x2, y2, z1) − C(x2, y1, z2) − C(a1, b2, z2) +C(x2, y1, z1) + C(x1, y2, z1) + C(x1, y1, z2) −C(x1, y1, z1) ≥ 0, pour tout 0 ≤ x1 ≤ x2≤ 1, 0 ≤ y1≤ y2≤ 1 et 0 ≤ z1≤ z2 ≤ 1.
Le théorème suivant est la base de l’application des copules pour modéliser les distributions de vecteurs aléatoires en statistique.
Théorème 1 (Théorème de Sklar (1959)) Si F est une fonction de répartition de dimen-sion d dont les lois marginales F1, . . . , Fd sont continues, alors il existe une copule unique C
telle que :
Figure 1.2 – Le paralléllipipède R = [x1, x2] × [y1, y2] × [z1, z2].
D’après le théorème 1, on pourra alors parler de la copule associée à un vecteur aléatoire (X1, . . . , Xd). La copule est donc la fonction de répartition du vecteur aléatoire (F1(X1), . . . , Fd(Xd)).
Pour une démonstration rigoureuse du Théorème 1, on pourra consulter le livre de Nelsen (2006) page 12.
Remarque 1 Si les marginales ne sont pas continues, il est toujours possible de définir une copule, mais celle-ci n’est plus unique. On remarque aussi que la copule caractérise la structure de dépendance entre les distributions marginales.
Le théorème suivant présente les bornes inférieure et supérieure de la copule.
Théorème 2 (Les bornes de Fréchet-Hoeffding) Pour toute copule C : [0, 1]d7→ [0, 1] et
pour tout (u1, . . . , ud) ∈ [0, 1]d on a :
W (u1, . . . , ud) ≤ C(u1, . . . , ud) ≤ M (u1, . . . , ud),
avec la borne inférieure est définie par : W (u1, . . . , ud) = max ( 1 − d + d X i=1 ui, 0 ) ,
et la borne supérieure est définie par :
M (u1, . . . , ud) = min{u1, . . . , ud},
où W et M sont des copules pour le cas d = 2.
On précise que dans le cas d > 2, la borne W n’est plus une copule, mais M reste une copule. Pour plus de détails sur les bornes de Fréchet-Hoeffding on pourra consulter les pages 11 à 14 et 30 à 32 du livre Nelsen (2006). Voici des graphes illustratifs de ces bornes :
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 (a) La copule W. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 (b) La copule M.
Figure 1.3 – Graphes des bornes de Fréchet-Hoeffding dans le cas bivarié.
Dans la suite, on s’intéresse aux copules absolument continues, pour lesquelles on définit la fonction densité par :
c(u1, . . . , ud) =
∂dC(u
1, . . . , ud)
∂u1. . . ∂ud
. (1.1)
1.2.2 Mesures de dépendance et copule
Dans la littérature, l’article de Schweizer et Wolff (1981) est le premier papier qui a établi explicitement le lien entre la copule et l’étude de la dépendance des variables aléatoires. Dans cet article, ils donnent les propriétés d’invariance de la copule sous les transformations stric-tement monotones (voir Théorème 2.4.3 et Théorème 2.4.4 dans Schweizer et Wolff (1981) et ils introduisent une mesure de dépendance connue sous le nom de “sigma de Schweizer et Wolff”. Évidemment, il y a d’autres travaux qui ont étudié implicitement le lien entre la co-pule et la dépendance, à titre d’exemple, on cite (Hoeffding, 1940b,a) qui a étudié les mesures d’association basées sur les rangs : le rho de Spearman et l’indice de dépendance Φ.
Dans la section 1.1, on a présenté des mesures de dépendance comme le tau de Kendall et le rho de Spearman. Ces mesures peuvent s’écrire en fonction de la copule sous-jacente. Soient X et Y deux variables aléatoires continues dont la copule est C et les marges sont F et G. On note que U = F (X) et V = G(Y ). Le tau de Kendall τ de X et Y est donné par (où on écrit τ (X, Y ) ou τC si ça convient, car les mesures de dépendance s’écrivent à l’aide des fonctions
de répartition des variables à l’étude. Certaines mesures dépendent seulement de la copule) : τ (X, Y ) = τC = 4
Z
[0,1]2
C(u, v)dC(u, v) − 1 = 4E(C(X, Y )) − 1. (1.2) Alors que le rho de Spearmann s’écrit :
ρs(X, Y ) = ρsC = 12
Z
[0,1]2
C(u, v)dudv − 3. (1.3) À titre d’exemple, on présente dans le tableau 1.1 quelques valeurs du tau de Kendall et rho de Spearman pour les copules normale, de Clayton et de Frank qui sont définies à la section suivante. Ces résultats sont obtenues en appliquant les formules 1.2 et 1.3.
Table 1.1 – Tau de Kendall et rho de Spearman pour quelques copules. Copule Tau de Kendall τ Rho de Spearman ρs Définitions des paramètres
Clayton α/(α + 2) 12I(α) − 3 • I(α) = Z 1 0 Z 1 0 (u−α+ vα− 1)−α1dudv • α est le paramètre de dépendance défini sur (0, ∞). Normale 2π−1arcsin(ρ) 6 πarcsin( ρ 2) ρ est la corrélation. Frank 1 − 4(1 − D(1)(α))/α 1 − 12(D(1)− D(2))/α • D(k)(x) = k/xRx 0 tx/(et− 1)dt
est appelée la fonction de Debye. • α est le paramètre de
dépendance défini sur (0, ∞).
1.2.3 Exemples de copules
Nous présentons dans cette section quelques exemples connus de copules.
Copule d’indépendance
La copule d’indépendance aussi appelée copule produit Q est définie par : Y
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Figure 1.4 – La copule d’indépendance dans le cas bivarié.
Copule gaussienne
L’importance de cette copule réside dans le fait qu’elle est sous-jacente à la distribution nor-male multivariée. La fonction de répartition de la copule gaussienne d-dimensionnelle, s’écrit pour tout (u1, . . . , ud) :
C(u1, . . . , ud) = ΨΣ Ψ−1(u1), . . . , Ψ−1(ud) ,
où ΨΣ est la fonction de répartition jointe d’une distribution normale multivariée avec un
vecteur moyen nul et une matrice de covariance égale à la matrice de corrélation Σ, la fonction quantile Ψ−1 est l’inverse de la distribution normale centrée réduite. Pour obtenir la densité
de la copule gaussienne d-variée, on dérive C et on a :
c(u1, . . . , ud) = 1 det(Σ)1/2 exp −1 2 Ψ−1(u1) ... Ψ−1(ud) T (Σ−1− Id) Ψ−1(u1) ... Ψ−1(ud) ,
où Idest la matrice identité de dimension d×d. La figure 1.5 montre la densité de cette copule
(a) Densité bivariée de la copule normale. (b) Échantillon aléatoire de taille 1000.
Figure 1.5 – Densité et nuage de points de la copule normale bivariée pour ρ = 0.5. Copule échangeable
Une copule est dite échangeable si :
C(u1, . . . , ud) = C(uπ(1), . . . , uπ(d)),
pour toute permutation π de (1, . . . , d). Comme exemple de la famille des copules échangeable, on cite les copules archimédiennes.
Copules archimédiennes
Originalement, cette classe de copule est apparue dans l’étude des espaces métriques proba-bilistes. Pour une synthèse historique sur le sujet on pourra se référer à Schweizer (1991). On notera par la fonction ψ : [0, +∞] 7→ [0, 1] le générateur archimédien de la copule. Il s’agit d’une fonction convexe et décroissante avec ψ(0) = 1.
Définition 3 Une copule C de dimension d est appelée archimédienne si elle admet la repré-sentation : C(u) = ψnψ−1(u1) + · · · + ψ−1(ud) o = ψt(u) , u = (u1, . . . , ud) ∈ (0, 1)d, avec : t(u) = ψ−1(u1) + · · · + ψ−1(ud). (1.4)
Pour que le générateur ψ définisse une copule archimédienne, il a été démontré par Mc-Neil et Nešlehová (2009) qu’il doit être d-monotone, c’est-à-dire qu’il possède des dérivées
d’ordre k, avec k ∈ {0, 1, ..., d − 2} qui satisfont (−1)kψ(k)(t) ≥ 0, pour tout t ∈ (0, ∞) et
(−1)d−2ψ(d−2)(t) est décroissante et convexe sur (0, ∞). Selon McNeil et Nešlehová (2009), une copule archimédienne C admet une densité c si et seulement si ψ(d−1) existe et elle est
absolument continue sur (0, ∞). Dans ce cas, cette densité c est donnée par :
cα,d(u ) = ψ(d){t(u)} d Y j=1 ψ−1 0 (uj), u ∈ (0, 1)d. (1.5)
Pour faire simple, on supposera que le générateur ψ est complètement monotone, c’est-à-dire que la fonction ψ est continue sur [0, ∞] et (−1)kψ(k)(t) ≥ 0pour tout k ∈ N
0, ce qui fait que
ψ est la transformée de Laplace-Stieltjes de la fonction de répartition F qui vérifie l’identité suivante : ψ = LS[F ] (voir le théorème de Bernstein cité par Feller (1971) p.439). Dans la suite, nous présentons les densités (1.5) de quelques copules archimédiennes. Ces résultats proviennent de l’article Hofert et al. (2012). On précise que pour une étude détaillée du calcul des générateurs et des densités de ces copules, le lecteur peut se référer à cet article.
(i) Copule de Clayton : Le paramètre de dépendance de cette copule est α ∈ (0, ∞), son générateur ψ est donné par
∀t ∈ [0, ∞], ψα(t) = (1 + t)
−1
α , (1.6)
et sa densité est égale à
cα,d(u ) = d−1 Y k=0 (αk + 1) d Y j=1 uj −(1+α) n 1 + tα(u ) o−(d+1/α) , (1.7)
où tα(u )est définit par (1.4) et u = (u1, . . . , ud).
Pour mieux voir l’expression analytique de la densité de la copule de Clayton, on présente dans la Figure 1.6 la densité bivariée et un échantillon aléatoire de taille 1000 généré avec α = 2et un tau de Kendall τ = α+2α = 0.5, voir le tableau 1.1.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10
(a) Densité bivariée de Clayton.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
(b) Échantillon aléatoire de taille 1000.
Figure 1.6 – Densité et nuage de points de la copule de Clayton bivariée pour τ = 0.5 et α = 2.
(ii) Copule de Frank : Concernant la copule de Frank, on précise en premier lieu qu’elle est caractérisée par un paramètre de dépendance α ∈ (0, ∞). Le générateur ψ dans ce cas est donné par
∀t ∈ [0, ∞], ψα(t) =
−1
α ln1 − (1 − e
−α) exp(−t) , (1.8)
et sa densité est égale à
cα,n(u ) = α 1 − e−α d−1 Li−(d−1){hFα(u )} exp −α d X j=1 uj hF α(u ) , (1.9) où Lis(z) est la fonction polylogarithme d’orde s en z et est définie par :
Lis(z) = ∞ X k=1 zk ks, et la fonction hF
α(u ) est définie par
hFα(u ) = (1 − e−α)1−d
d
Y
j=1
{1 − exp(−αuj)}.
On présente dans la Figure 1.7 la densité bivariée et un échantillon aléatoire de taille 1000 généré avec α = 5.7369, soit un tau de Kendall τ = 1 − 4(1 − D(1)(α))/α = 0.5, selon le
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3
(a) Densité bivariée de Frank.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
(b) Échantillon aléatoire de taille 1000.
Figure 1.7 – Densité et nuage de points de la copule de Frank bivariée pour τ = 0.5 et α = 5.7369.
(iii) Copule de Gumbel : Le paramètre de dépendance est α ∈ [1, ∞). Le générateur ψ dans ce cas est donné par
∀t ∈ [0, ∞], ψα(t) = exp(−t
1
α), (1.10)
et sa densité est égale à
cα,d(u ) = αdexp{−tα(u ) 1 α} d Y j=1 − ln(uj)α−1 tα(u )d d Y j=1 uj Pd,αG {tα(u )α1}, (1.11) où PG
d,α(x) est définie par :
Pd,αG (x) = d X k=1 aGα,k(α)xk, et où aGα,k(α) = d! k! k X j=1 k j j α d (−1)d−j, k ∈ {1, . . . , d}.
Pour mieux voir l’expression analytique de la densité de la copule de Gumbel, on présente dans la Figure 1.8 la densité bivariée et un échantillon aléatoire de taille 1000 généré avec α = 2et un tau de Kendall τ = α−1α = 0.5, voir le tableau 1.1.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8
(a) Densité bivariée de Gumbel.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
(b) Échantillon aléatoire de taille 1000.
Figure 1.8 – Densité et nuage de points de la copule de Gumbel bivariée pour τ = 0.5 et α = 2.
(v) Copule de Joe : Le paramètre de dépendance est α ∈ [1, ∞), son générateur ψ est donné par
∀t ∈ [0, ∞], ψα(t) = 1 − {1 − exp(−t)}
1
α, (1.12)
et sa densité est égale à
cα,d(u ) = α(d−1) d Y j=1 (1 − uj)α−1 {1 − hJ α(u )}1− 1 α Pd,αJ hJα(u ) 1 − hJ α(u ) , (1.13)
où les fonctions :
hJα(u ) = d Y j=1 {1 − (1 − uj)α} Pd,αJ (x) = d−1 X k=0 aJα,k(α)xk aJα,k(α) = S(d, k + 1)Γ(k + 1 − 1 α) Γ(1 − α1) ,
où k ∈ {1, . . . , d} et S(n, k) est le nombre de Stirling de deuxième espèce.
Pour mieux voir l’expression analytique de la densité de la copule de Joe, on présente dans la Figure 1.9 la densité bivariée et un échantillon aléatoire de taille 1000 généré avec α = 2.857 et un tau de Kendall τ = 1 − 4
∞
X
k=1
1/[k(αk + 2){α(k − 1) + 2)}] = 0.5, voir le tableau 2 dans Hofert et al. (2012).
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10
(a) Densité bivariée de Joe.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
(b) Échantillon aléatoire de taille 1000.
Figure 1.9 – Densité et nuage de points de la copule de Joe bivariée pour τ = 0.5 et α = 2.857.
Dans le chapitre suivant, nous étudions l’estimation du paramètre de dépendance α à l’aide de données hiérarchiques dans un contexte semi-paramétrique.
Chapitre 2
Inférence statistique
2.1
Structure des données
Dans plusieurs situations, les données collectées possèdent une structure hiérarchique. En effet, les données peuvent être groupées dans l’espace, par exemple selon l’appartenance à une entité géographique (dimension spatiale), ou être des mesures répétées dans le temps, c’est le cas des données longitudinales. La structure hiérarchique signifie que les unités observées appartenant à une même entité ont tendance à se ressembler et à avoir des caractéristiques communes. En d’autres mots, ces unités sont dépendantes et corrélées entre elles. Alors, il est important de prendre en considération et de reconnaître cette structure de dépendance lors de l’analyse statistique afin d’obtenir des résultats valides. Nous considérons que les unités sont groupées en grappes et on utilise l’indice i pour représenter la grappe, avec i = 1, . . . , m et l’indice j pour l’unité de la grappe i, avec j = 1, . . . , ni et ni est la taille de la grappe i.
2.2
Familles de fonctions de répartitions échangeables
On note les mesures hiérarchiques collectées (voir figure 2.1) par l’ensemble {yij où i =
1, . . . , m, et j = 1, . . . , ni}. Pour tenir compte de l’effet grappe, on peut modéliser la
dé-pendance par le modèle linéaire suivant :
yij = ij = ai+ eij, i = 1, . . . , m et j = 1, . . . , ni, (2.1)
où l’erreur ij est décomposée en ai : l’effet aléatoire de la i-ème grappe et eij : l’erreur aléatoire
individuelle. Ces deux composantes sont indépendantes entre elles.
Pour chaque grappe i, la fonction de répartition des observations (yi1, . . . , yini) appartient à
une famille de lois échangeables. Un élément de la famille s’écrit {Fα,θ,ni(yi1, . . . , yini)}où α
et θ sont des paramètres reliés , respectivement, à la dépendance et à la distribution marginale des erreurs qui sont de moyenne nulle et de variance finie σ2. La définition suivante donne les
Figure 2.1 – Diagramme illustrant la structure des données hiérarchiques.
Définition 4 Famille de lois échangeables {Fα,θ,ni} :
Soit la famille : F = {Fα,θ,ni(z1, . . . , zni), pour n ∈ N
∗}. Cette famille est dite échangeable si
elle satisfait les deux conditions suivantes :
— Échangeabilité : Pour toute permutation arbitraire {π(1), . . . , π(ni)} des entiers {1, . . . , ni},
on a
Fα,θ,ni(z1, . . . , zni) = Fα,θ,ni(zπ(1), . . . , zπ(ni)). (2.2)
— Fermeture : Pour tout 2 ≤ d < ni, on a
Fα,θ,ni(z1, . . . , zd, ∞, . . . , ∞) = Fα,θ,d(z1, . . . , zd). (2.3)
Pour construire des familles qui satisfont ces deux conditions, nous pouvons utiliser les familles de copules archimédiennes vues au chapitre 1. Si
Fα,ni(z1, . . . , zni) = Cα,ni(Fe(z1), . . . , Fe(zni)), (2.4)
où Cα,ni est une des copules vues à la section 1.2.3, alors (2.4) satisfait les deux conditions
précédentes (2.2) et (2.3).
Exemple 2 Le modèle standard à ordonnée à l’origine aléatoire de Battese et al. (1988) est un exemple de (2.1) en considérant ai i.i.d ∼ N (0, σ2 a) et eij i.i.d ∼ N (0, σ2 e). Pour ce modèle (yi1, . . . , yin)
suit une distribution normale N 0, σ2Σ(ρ, n) où Σ(ρ, n) = 1 ρ . . . ρ ρ 1 . . . ρ .. . ... . .. ... ρ ρ . . . 1 , et σ2 = σ2e+ σ2a et ρ = σ 2 e σ2 e + σa2 ,
avec ρ le paramètre de corrélation intra-classe. Ce modèle peut s’écrire sous la forme (2.4) en prenant Cn,α comme étant la copule normale multidimensionelle de matrice de corrélation Σ
et Fe la loi N (0, σ2).
2.3
Présentation des données et spécification du modèle
Les vecteurs yi = (yi1, . . . , yini)sont des vecteurs aléatoires indépendants pour chaque grappe
i, avec i = 1, . . . , m. La distribution de ces vecteurs est spécifiée par une famille de fonctions de répartitions F0satisfaisant la définition 2.4. On peut toujours définir une famille de copules
C0 et une vraie marge continue Fe0 telle que :
F0(yi1, . . . , yin) = Cn0(Fe0(yi1), . . . , Fe0(yin)) avec n = 2, 3, . . . . (2.5)
Le modèle ajusté est donnée par (2.4) avec une famille de copules Cα,ni et une marge Fe.
Soit A ⊂ R l’espace du paramètre α. Ici, on suppose que la copule C0 n’appartient pas à la
famille Cα,n. On va chercher la valeur de α pour laquelle Cα,n approxime le mieux Cn0. Le
modèle est semi-paramétrique car on ne fait pas d’hypothèse particulière sur la loi marginale. On peut également avoir un modèle complètement paramétrique qui spécifie une loi pour la marge (disons une loi normale) et une famille paramétrique de copules (disons de Clayton). La densité de la distribution (2.4) s’écrit :
fni yi1, . . . , yini = cni Fe(yi1), . . . , Fe(yini), α Yni j=1 fe yij, (2.6)
où cni est la densité de la copule d’interêt et fe est la densité marginale.
Maximiser la vraisemblance basée sur la densité (2.6) nous suggère de suivre entre autres une approche paramétrique ou bien possiblement aussi une approche semi-paramétrique. Pour des raisons de clarté, nous expliquons brièvement la principale différence entre les deux démarches. — Dans l’approche paramétrique la marge appartient à une famille de lois paramétriques
indexées par des paramètres γ, ainsi la densité devient : fni yi1, . . . , yini; γ, α = cni Fe(yi1, γ), . . . , Fe(yini, γ), α Yni j=1 fe yij, γ. (2.7)
Pour estimer les paramètres α et γ, on peut maximiser la vraisemblance construite avec (2.7).
— Dans l’approche semi-paramétrique on ne fait pas d’hypothèse sur la marge mais on l’estime par une méthode non paramétrique. Pour estimer le paramètre de dépendance α, on construit une pseudo-vraisemblance en remplaçant la marge par son estimé non paramétrique.
Ce chapitre étudie les propriétés des estimateurs de α en supposant que les ni sont bornés par
une constante n∗ et que le nombres de grappes m tend vers l’infini (m → ∞).
2.4
Estimateur de la distribution marginale
L’estimateur ˆFe(y)de la distribution marginale Fe0(y)est la fonction de répartition empirique
échelonnée de y11, . . . , ymnm explicité par la fonction en escalier suivante :
ˆ Fe(v) = Pm i=1 Pni j=11(yij≤v) Pm i=1ni , (2.8)
où 1Aest la fonction indicatrice de l’ensemble A. Nous vérifions à ce stade que la convergence
uniforme ˆFe(v) → Fe0(v) a lieu.
Lemme 1 L’estimateur empirique ˆFe défini par l’équation (2.8) converge uniformément vers
la vraie loi marginale Fe0 telle que
k ˆFe− Fe0k∞= sup v∈R ˆ Fe(v) − Fe0(v) P −→ 0. (2.9)
Preuve : Pour établir la convergence simple, il suffit de remarquer que les ˆFe ont la même
espérance et une variance asymptotiquement qui tend vers 0, alors par l’inégalité de Bienaymé-Tchebychev la suite ( ˆFe)m∈N∗(v) converge vers Fe0 en probabilité. Cette suite de fonctions
( ˆFe)m(v) est croissante et converge vers une fonction continue et bornée, alors on obtient :
sup v∈R ˆ Fe(v) − Fe0(v) −→ 0,
ce qui termine la preuve.
Remarque 2 On peut remarquer qu’il est possible d’estimer Fe0 même si la famille de copules est mal spécifiée.
2.5
Estimation du paramètre de dépendance
Le paramètre α mesure le degré de dépendance entre les observations {yij}d’une même grappe
le tau de Kendall (noté τ, voir 1.1.2) ou celle de la maximisation de la vraisemblance (2.6) par l’intermédiaire de la densité de la copule. Concernant la première approche, elle repose sur l’idée que le tau de Kendall et le paramètre α sont liés par des fonctions mathématiques dont les expressions explicites dépendent de la copule considérée. Par exemple en considérant le tableau 1.1, avec la copule normale, on a
τ = 2 arcsin(ρ)/π.
Pour les copules de la famille archimédienne (Clayton, Gumbel, Frank, etc) on trouvera les expressions qui relient τ et α résumées au Tableau 1.1.
Dans la suite, on focalise sur l’approche du maximum de vraisemblance où on mentionne que la loi marginale Fe est estimée par son estimateur empirique ˆFe. La pseudo-vraisemblance
déduite de (2.6)) est donnée par : L(α) = m Y i=1 cni ˆFe(yi1), ˆFe(yi2), . . . , ˆFe(yini), α , (2.10)
L’estimateur du paramètre de dépendance est alors : ˆ α = arg max α∈A 1 m m X i=1 log n cni ˆFe(yi1), ˆFe(yi2), . . . , ˆFe(yini), α o , (2.11) On remarque qu’implicitement l’inférence sur α consiste d’abord à estimer la marge comme première étape puis à maximiser la log-pseudo-vraisemblance (2.10). Pour cette raison, on trouve dans la littérature l’appellation "estimateur en deux étapes" concernant l’estimateur
ˆ α.
Dans la suite, nous étudions le comportement asymptotique de l’estimation du paramètre de dépendance. On rappelle que par convergence faible, on entend convergence en loi ou en probabilité. Nous établissons la convergence en probabilité et la distribution asymptotique de l’estimateur ˆα.
Dans la suite, on a besoin d’introduire quelques notations utiles pour la rigueur et la clarté des résultats et des démonstrations. Pour A ⊂ R l’espace des paramètres et α, α∗ ∈ A, on
note kα − α∗k la distance euclidienne. Soit
Ui = Ui1 ... Uini , où Uij = Fe(yij), pour j = 1, . . . , ni et ˆ Ui = ˆ Ui1 ... ˆ Uini ,
où ˆUij = ˆFe(yij), pour j = 1, . . . , ni. On note également par ∇θf le vecteur des dérivées
premières de f(θ) par rapport à θ ou bien plus formellement ∇θf désigne le gradient de
f : Θ 7→ R évalué en θ ∈ Θ. Par convention, le gradient d’une fonction n’est calculé en θ que si la fonction est de classe C1 sur un voisinage de θ.
Pour des raisons de simplicité, on suppose pour la suite de ce chapitre que les tailles des grappes sont identiques donc n1 = · · · = nm= n∗.
2.5.1 Convergence en probabilité de ˆα
Les conditions suivantes sont suffisantes pour établir la convergence de l’estimateur du para-mètre de dépendance ˆα vers la vraie valeur :
α∗ = arg max α∈AE h log cn∗ U1, α i . (2.12) C1 : Condition d’identification : α 6= ˜α ⇔ Cα,n 6= Cα,n˜
Cette condition est nécessaire pour la convergence de ˆα et elle nous assure que la limite possède un unique maximum α∗.
C2 : Condition de compacité : A est un ensemble compact de R. C3 : Condition de continuité : ∀ Ui∈ [0, 1]n
∗
, la vraisemblance est une fonction continue en α.
C4 : Condition de dominance : Il existe une fonction g telle que : | log cn∗(Ui, α)| < gn∗(Ui, α), avec E(g) < ∞.
C5 : sup |∇Uilog cn∗(Ui, α)| ≤ M < ∞.
Théorème 3 Sous les conditions C1–C5, l’estimateur ˆα du paramètre de dépendance α obtenu par maximisation de la pseudo-vraisemblance (2.10) est un estimateur convergent au sens faible et satisfait
ˆ
α −→ αP ∗, lorsque m → ∞. (2.13) Preuve : Pour démontrer la convergence faible (2.13), nous proposons de démontrer d’abord (lorsque m → ∞) : sup α∈A 1 m m X i=1 log cn∗( ˆUi, α) − 1 m m X i=1 Ehlog cn∗(Ui, α) i P −→ 0. (2.14)
En effet, en développant le terme logarithmique de la copule en série de Taylor au premier ordre on obtient
log cn∗( ˆUi, α) = log cn∗(Ui, α) + ∇U
avec ˜Ui est entre Ui et ˆUi. En combinant les deux termes (2.14) et (2.15), on a, sup α∈A 1 m m X i=1 log cn∗( ˆUi, α) − 1 m m X i=1 E h log cn∗(Ui, α) i = sup α∈A 1 m m X i=1 log cn∗(Ui, α) + ∇U ilog cn∗( ˜Ui, α)(Ui− ˆUi) − E h log cn∗(Ui, α) i ≤ sup α∈A 1 m m X i=1 log cn∗(Ui, α) − E h log cn∗(Ui, α) i (2.16) + sup α∈A 1 m m X i=1 ∇Uilog cn∗( ˜Ui, α)(Ui− ˆUi) . (2.17)
Par la loi uniforme des grands nombres (Newey et McFadden, 1994; Jennrich, 1969), le premier terme à droite (2.16) converge uniformément vers 0 :
sup α∈A 1 m m X i=1 log cn∗(Ui, α) − E h log cn∗(Ui, α) i −→ 0, si m → ∞.
Le terme (2.17) converge uniformément vers 0 en vertu du lemme 2.9 et la condition C5. En effet, sup α∈A 1 m m X i=1 ∇Uilog cn∗( ˜Ui, α)(Ui− ˆUi) ≤ sup α∈A 1 m m X i=1 ∇Uilog cn∗( ˜Ui, α) sup α∈A 1 m m X i=1 (Ui− ˆUi) ≤ M 1 m m X i=1 n∗ = M n∗,
qui tend vers zéro en prenant ↓ 0 quand m → ∞. Finallement, par application du théorème 5 (voir annexe A), toujours sous les conditions C1 − C4, on obtient immédiatement que :
ˆ
α−→ αP ∗, si m → ∞,
ce qui termine la démonstration. Nous étudions dans la suite la loi asymptotique de l’estimateur du paramètre de dépendance.
2.5.2 Distribution asymptotique de ˆα
La distribution asymptotique est explicitée dans le théorème 4. Pour établir ce résultat, on se sert des conditions de régularité précédentes et de quelques développements en séries de Taylor.
Théorème 4 La distribution asymptotique de l’estimateur ˆα est normale donnée par √
m ˆα − α∗−→ NL 0, Σ I2
où Σ = var ( ∂ log cn∗(U1, α∗) ∂α + n∗ X k=1 Z [0,1]n∗ 1{U1k≤u1}− u1 ∂ log cn∗(u, α ∗) ∂α (1) dC(u) ) , avec ∂ log cn∗(u, α∗) ∂α (k) = ∂ 2log c n∗(u, α∗) ∂α∂Uk pour k = 1, . . . , n∗. et I(α∗) = E −∂ 2log c n∗(U1, α∗) ∂α2 .
Ésquisse de la preuve : Notons d’abord grâce à l’échangeabilité : ∂2log cn∗(U, α∗) ∂Uk∂α = ∂ 2log c n∗(U∗, α∗) ∂U1∗∂α où U ∗= (U k, U1, . . . , Un∗). On pose Ln∗( ˆUi, α) = m X i=1 log cn∗( ˆUi, α). (2.19)
En écrivant le développement en série de Taylor au premier ordre de la fonction score en utilisant (2.19), on obtient ∂Ln∗( ˆUi, ˆα) ∂α = ∂Ln∗( ˆUi, α∗) ∂α + ∂2Ln∗( ˆUi, ¯α) ∂α2 ( ˆα − α ∗),
avec ¯α est un réel entre ˆα et α∗. Par la définition de ˆα (il annule la dérivée première), alors :
0 = ∂Ln∗( ˆUi, α ∗) ∂α + ∂2Ln∗( ˆUi, ¯α) ∂α2 ( ˆα − α ∗), et par la suite, √ m( ˆα − α∗) = − 1 m ∂2Ln∗( ˆUi, ¯α) ∂α2 !−1 1 √ m ∂Ln∗( ˆUi, α∗) ∂α . (2.20)
Lorsque m → ∞, par la loi des grands nombres avec le fait que ¯α P
→ α∗ et ˆU i P → Ui : −1 m ∂2Ln∗( ˆUi, ¯α) ∂α2 P → E −∂ 2log c n∗(Ui, α∗) ∂α2 = I(α∗). (2.21) Maintenant, on va étudier le comportement asymptotique du terme √1
m ∂Ln∗( ˆUi,α∗) ∂α dans l’équa-tion (2.20). En effet, 1 √ m ∂Ln∗( ˆUi, α∗) ∂α = 1 √ m m X i=1 ∂ log cn∗( ˆUi, α∗) ∂α
Ce dernier résultat (2.22) converge en loi vers une distribution normale de moyenne nulle et de variance Σ. En effet, le développement de Taylor du premier ordre de :
1 √ m m X i=1 ∂ log cn∗( ˆUi, α∗) ∂α = 1 √ m m X i=1 ∂ log cn∗(Ui, α∗) ∂α + 1 √ m m X i=1 n∗ X k=1 ∂ log cn∗(Ui, α∗) ∂α (k) ˆ Uik−Uik. (2.22) Le terme à droite dans (2.22) peut s’écrire :
1 √ m m X i=1 n∗ X k=1 ∂ log cn∗(Ui, α∗) ∂α (k) ˆ Uik− Uik = √1 m m X i=1 n∗ X k=1 m X i1=1 n∗ X k1=1 1{yi1k1≤yik}− Uik mn∗ × ∂ log cn∗(Ui, α∗) ∂α (k) = √1 m m X i1=1 n∗ X k1=1 m X i=1 n∗ X k=1 1{yi1k1≤yik}− Fe(yik) mn∗ × ∂ log cn∗(Ui, α∗) ∂α (k) = √1 m m X i1=1 n∗ X k1=1 nZ [0,1]n∗ n∗ X k=1 1{Ui1k1≤uk}− uk × ∂ log cn∗(u, α∗) ∂α (k) dCn∗(u) o + op 1 √ m
Toutes les dérivées d’ordre k sont semblables et toutes les n∗-intégrales-dC
n∗ sont égales, donc
le dernier terme vaut : 1 √ m m X i=1 n∗ X k=1 ( Z 1 0 . . . Z 1 0 1{Uik≤u1}− u1 ∂ log cn∗(u, α ∗) ∂α (1) dC(u) ) + op 1 √ m . Au final, on en déduit que,
m X i=1 ∂ log cn∗( ˆUi, α∗) ∂α = m X i=1 ∂ log cn∗(Ui, α∗) ∂α + m X i=1 n∗ X k=1 Z [0,1]n∗ 1{Uik≤u1}− u1 ∂ log cn∗(u, α ∗) ∂α (1) dC(u) + op(1),
En vertu du théorème central limite, on en déduit le résultat. Dans le théorème 4, nous avons établi un résultat sur la loi asymptotique pour l’estimateur du paramètre de dépendance ˆα, ce qui permet d’analyser rigoureusement son comportement et certaines propriétés de variabilité résumées dans sa variance asymptotique. L’intérêt du théorème 4 est qu’il montre, sous des conditions idoines, que la loi limite est normale et sa vitesse de convergence est m1/2; ceci n’est d’ailleurs pas surprenant puisqu’il s’agit de la
vitesse classique des modèles paramétriques et semi-paramétriques. Le principe de la méthode du maximum de vraisemblance a été défini par Gauss au début du XIXe siècle. Ce principe
intuitif de construction des estimateurs fut par la suite repris, élargi et formalisé, notamment par le statisticien Fisher au XXe siècle, à qui l’on doit l’information du même nom.
Les hypothèses des théorèmes de convergence et de normalité asymptotique de ˆα ont été renforcées pour permettre une présentation plus simple de leurs démonstrations. On peut affaiblir les hypothèses et on peut s’inspirer de l’ouvrage de Van Der Vaart (1998).
Exemple 3 La variance asymptotique explicitée dans le Théorème 4 dépend directement de la densité de la copule choisie. Pour mieux comprendre l’expression de cette variance, on détaillera dans cet exemple l’expression de Σ dans le cas de la copule de Clayton de marge normale et avec une taille d’échantillon balancée égale à n∗ = 2. Dans ce cadre, on sait à partir de (1.7) que la densité bivariée de la copule de Clayton, pour α ∈ [0, ∞), est :
c2(ui1, ui2, α) = (α + 1) u1+αi1 u1+αi2 1 + ψα−1(ui1) + ψα−1(ui2) −(2+α1) = (α + 1)u1+αi1 u1+αi2 u−αi1 + u−αi2 − 1−(2+ 1 α) , et on en déduit que
log c2(ui1, ui2, α) = log(α + 1) + (α + 1) log(ui1ui2) − (2 +
1 α) log u −α i1 + u −α i2 − 1.
Par un calcul aisé on obtient la dérivée première ∂ log c2(ui1, ui2, α) ∂α = 1 α + 1+ log(ui1ui2) + (2 + 1/α)u−αi1 log(ui1) + u−αi2 log(ui2) u−αi1 + u−αi2 − 1 +log u −α i1 + u −α i2 − 1 α2 , et ∂2log c2(ui1, ui2, α) ∂α∂ui1 = 1 ui1 −(2 + 1 α)(−αu −α−1 i1 log(ui1) + u−α−1i1 ) u−αi1 + u−αi2 − 1 +(2α + 1)u −α−1 i1 u −α i1 log(ui1) + u−αi2 log(ui2) (u−αi1 + u−αi2 − 1)2 + −u −α−1 i1 α(u−αi1 + u−αi2 − 1) et de même on obtient la dérivée seconde
∂2log c2(ui1, ui2, α) ∂α2 = −1 (α + 1)2 − (2 + 1/α) u−αi1 log2(ui1) + u−αi2 log2(ui2) u−αi1 + u−αi2 − 1 − 2 u−αi1 log(ui1) + u−αi2 log(ui2) α2(u−α i1 + u −α i2 − 1) − (2 + 1/α) u−αi1 log(ui1) + u−αi2 log(ui2) 2 (u−αi1 + u−αi2 − 1)2 −2 log u −α i1 + u −α i2 − 1 α3 .
Dans ce chapitre, on a détaillé l’estimation des lois marginales et du paramètre de dépendance α: deux composantes cruciales du modèle. L’estimation de α est étudiée dans l’article de Chen et Fan (2005). En effet, cet article estime le paramètre α par la méthode du maximum de vrai-semblance et il étudie les propriétés asymptotiques de l’estimateur de ce paramètre dans le cas i.i.d. Aussi, il traite la séléction de modèles sous la mal spécification des copules paramétriques par le critère d’Akaike ce qui est notre prochaine étape. On souhaite sélectionner la meilleure copule parmi une classe de copules afin de l’inclure dans le modèle semi-paramétrique.
Chapitre 3
Sélection de copules dans un modèle
semi-paramétrique
Ce chapitre propose une stratégie permettant de sélectionner un modèle pour des données hiérarchiques. Pour effectuer cette sélection, nous considérons d’abord un critère dont la ro-bustesse a été démontrée dans la littérature portant sur la théorie de l’information à savoir le critère d’information d’Akaike (AIC). Ensuite, nous présentons le critère de validation croisée.
3.1
Le critère d’information d’Akaike
Parmi les critères de comparaison utilisés pour la sélection des modèles, on trouve le critère d’information d’Akaike AIC (Akaike, 1974). Le critère d’information d’Akaike est une mesure de qualité relative d’un modèle statistique proposée par Akaike en 1973. Il s’agit d’un critère inspiré de l’entropie et la théorie de l’information de Shannon. Il s’appuie sur la divergence de Kullback-Leibler entre le vrai modèle et le modèle candidat approximatif. L’entropie est un concept mathématique apparaissait d’abord dans l’article Shannon et Weaver (1949) en théorie de l’information. L’entropie est donc un outil largement utilisé par les mathématiciens et les physiciens.
Pour Shannon, l’information présente un caractère essentiellement aléatoire. Un événement aléatoire est par définition incertain. Cette incertitude est prise comme mesure de l’informa-tion. Bien que cette approche du problème de la mesure quantitative de l’information n’englobe pas tous les aspects du problème, elle satisfait à certaines attentes intuitives.
On considère une variable aléatoire discrète X prenant ses valeurs dans un ensemble A. Il est assez naturel de définir l’incertitude i(x) liée à la réalisation d’un état x comme étant une fonction de sa masse de probabilité P (X = x) = p(x), x ∈ A.
On peut raisonnablement imposer à F les propriétés suivantes : — i(x) est une quantité positive.
— F est une fonction décroissante, c’est-à-dire que l’incertitude est d’autant plus élevée plus la probabilité d’apparition de x est faible.
— Si X et Y sont deux v.a. indépendantes, l’incertitude liée à la réalisation du couple d’états (x, y) est la somme de l’incertitude liée à x et de celle liée à y :
F [p(x, y)] = F [p(x)p(y)] = F [p(x)] + F [p(y)].
L’utilisation de ces conditions conduit facilement à F (p(x)) = −m log(p(x)) avec m > 0. Pour évaluer la moyenne des incertitudes sur l’ensemble des états, on définit une quantité, l’entropie, liée à l’expérience aléatoire elle-même. L’entropie est associée à la v.a. X, ou de façon équivalente à sa loi P . les notations employées sont H(X) ou H(P ) :
H(X) = H(P ) = −mX
x∈A
p(x) log p(x)
On adopte la convention 0 log 0 = 0 (prolongement par continuité de x log x en 0).
La divergence de Kullback-Leibler (ou entropie relative) entre deux distributions p et q définies sur un même ensemble A est donnée par :
Cas discret : DKL(p, q) = X x∈A p(x) logp(x) q(x), Cas continue : DKL(p, q) = Z p(x) log p(x) q(x) dx.
Comme mentionné plus haut, L’AIC est basé sur cette divergence, ce qui sera détailler dans la suite. Soient les modèles M1, . . . , Mk caractérisés par un ensemble de densités et définis
comme suit : Mj = n p(y; θj) : θj ∈ Θj et Θj ⊂ Rdj pour dj ∈ N∗ o , (3.2)
où p est une notation générique pour désigner une densité quelconque. Soient des observations i.i.d. Y1, . . . , Yndistribuées selon une loi de densité f. On suppose que f n’appartient à aucun
modèle Mj dans la classe de modèles (3.2). On pose ˆθj l’estimateur du maximum de
vraisem-blance relatif au modèle j. Un estimateur de p concernant le modèle j est ˆpj(y) = p(y; ˆθj). La
qualité du j-ème modèle est mesurée par la divergence de Kullback-Leibler : DKL(f, ˆpj) =
Z
f (y) log f (y) ˆ pj(y) dy = Z
f (y) log f (y)dy − Z
f (y) log ˆpj(y)dy. (3.3)
Le premier terme dans (3.3) ne dépend pas de j. Donc minimiser DKL(f, ˆpj) revient à
maxi-miser :
Kj =
Z
Le calcul de l’intégrale (3.4) peut se faire aisément en l’approximant par une moyenne empi-rique comme suit :
¯ Kj = 1 n n X i=1 log p(Yi; ˆθj) = lj(ˆθ) n , (3.5)
où lj(θj) est la fonction de log-vraisemblance du modèle j. Nous remarquons
vraisemblable-ment que cette approximation (3.5) est biaisée puisqu’elle utilise les données deux fois : d’abord pour obtenir ˆθj et ensuite pour approcher l’intégrale (3.4). Akaike a montré (par un simple
développoment en série de Taylor de la vraisemblance) que le biais vaut asymptotiquement dj/n, où dj est la dimension de l’espace paramétrique Θj. C’est pour cette raison qu’on opte
pour : ˆ Kj = lj(ˆθj) n − dj n = ¯Kj− dj n. Au final, le critère AIC retenu est défini par
AIC(j) = −2n ˆKj = −2lj(ˆθj) + 2dj, (3.6)
où clairement l’AIC n’est autre que le double de la log-vraisemblance maximisée et pénalisée par un terme (2dj) lié à la dimension de l’espace des paramètres. L’interprétation de ce critère
est intuitive puisque si on estime un modèle quelconque, il est possible d’augmenter sa vrai-semblance maximale en ajoutant des paramètres. Le critère d’information d’Akaike pénalise les modèles par deux fois le nombre de paramètres afin de satisfaire le critère de parcimonie. Remarquons de plus que dans le critère (3.6) le premier terme dû à la vraisemblance est mul-tipliée d’un signe négatif, le meilleur modèle est pour lequel le critère d’information d’Akaike est le plus faible.
Le critère d’information d’Akaike peut être adapté aisément aux comparaisons des modèles semi paramétriques impliquant des copules. Dans le cadre semi paramétrique, on utilise souvent l’AIC pour sélectionner le modèle le plus parcimonieux. Dans ce cadre (α est de dimension 1) ce critère est défini par :
AIC = −2 m m X i=1 log cnin ˆFe(yi1), . . . , ˆFe(yini), ˆα o + 2 m. (3.7)
On choisit le modèle avec la plus petite valeur d’AIC. On remarque que minimiser l’AIC est équivalent à maximiser la log-vraisemblance, lorsque les modèles comparés ont le même nombre de paramètres.
Pour une discussion plus détaillée, le lecteur peut se référer à l’article de Chen et Fan (2005), mais il est à noter que dans ce mémoire on a travaillé avec des données échangeables alors que Chen et Fan (2005) ont travaillé avec des données multivariées.
À part l’AIC, il existe d’autres alternatives populaires vu leurs efficacités pour détecter le modèle qui s’ajuste le mieux aux données. Parmi ces critères, on va présenter la validation
croisée. En effet, elle possède un principe différent de celui qu’on a détaillé ci dessus. Elle évalue la performance prédictive du modèle en mesurant son erreur. La section suivante aborde ce critère.
3.2
Le critère de validation croisée
La validation croisée est une technique statistique permettant de sélectionner les modèles. Pour une discussion générale le lecteur peut se référer à Pieugueu (2016). Il y a plusieurs méthodes de validation croisée, mais dans ce travail, on s’intéresse à celle nommée leave-one out cross validation (LOOCV). En effet, le LOOCV nous permet de faire la sélection de modèles selon l’algorithme suivant :
1− Retirer l’unité j au petit domaine i avec i = 1, . . . , m et j = 1, . . . , ni
2− Réestimer le modèle (4.1) sur les
m
X
i=1
ni− 1
!
éléments restants en estimant les paramètres : ˆβ−(ij), ˆα−(ij) et ˆF e−(ij); notons M(−ij) ce modèle.
3− Prédire yij par le modèle M−(ij); on appelle ˆy −(ij)
ij cette estimation.
4− Répéter les étapes 1, 2, 3 pour chaque j, j = 1, . . . , ni et i = 1, . . . , m.
5− Enfin, le critère de validation croisée est donnée par : LOOCV = X1 i ni m X i=1 ni X j=1 yij − ˆy −(ij) ij 2 .
En fait, le meilleur modèle est celui ayant le plus petit LOOCV c’est à dire celui ayant la plus petite distance entre les données et les prédictions.
En somme, on a consacré ce chapitre pour exposer des critères de sélection de modèles qu’on va se servir pour choisir le modèle adéquat. Dans la suite, notre but est de comparer ces deux critères et de les confronter pour évaluer leurs fiabilités et de savoir lequel est le plus performant. Cette comparaison est réalisée dans le cadre d’une étude de simulation.
Chapitre 4
Sélection d’une famille de copules dans
un modèle pour petits domaines
4.1
Problématique dans les petits domaines
Ce chapitre effectue la sélection de modèles dans les petits domaines. Un domaine est petit, selon Rao (2003), si l’échantillon spécifique au domaine n’est pas assez grand pour donner des estimations directes avec une précision adéquate. Dans la suite, nous présentons des simula-tions numériques afin de mettre en pratique la modélisation qu’on propose pour la distribution des observations dans les petits domaines. En premier lieu, nous présentons le modèle général. Ensuite, on traite de l’estimation des paramètres. Puis, nous expliquons la démarche poursui-vie afin de générer les observations permettant de faire une étude Monte Carlo de la procédure de sélection d’une copule. Ces observations seront générées à partir de cinq copules (4 co-pules archimédiennes et une copule normale) indexées par un paramètre de dépendance α. Finallement, nous étudions le problème de la sélection du modèle afin de choisir le modèle qui s’ajuste le mieux aux données. Nous considérons ici une démarche de sélection classique basée essentiellement sur un critère de sélection cité dans la littérature : le critère d’information d’Akaike (AIC) et nous le comparons au critère de validation croisée.
4.2
Modèle pour petits domaines et estimation des paramètres
Soit une généralisation du modèle (2.1) :
yij = xTijβ + ij, i = 1, . . . , m et j = 1, . . . , ni, (4.1)
où le vecteur (i1, . . . , ini)est distribué selon Fα,Fe,ni(i1, . . . , ini). Cette fonction de
réparti-tion est donnée par :
où Fe est une fonction de répartition de moyenne nulle et de variance finie σ2 satisfant les
conditions (2.2) et (2.3) de la définition 4 et qui ne dépend pas de α. Les copules invoquées dans la suite sont les copules normale, Clayton, Frank, Joe et Gumbel.
Les paramètres introduits ci dessus sont α, Fe et β. Pour les estimer, on propose une
straté-gie qui combine la méthode du maximum de vraisemblance et une méthode empirique pour estimer la distribution marginale résiduelle. Pour simplifier la présentation dans la suite, nous introduisons quelques notations supplémentaires. Soit n = Pm
i=1ni la taille totale de
l’échan-tillon. Soient X la matrice des variables explicatives de taille n × p qui contient tous les petits domaines et Y le vecteur correspendant de la variable dépendante de taille n × 1. Sous les considérations précédentes, soit V la matrice de variance-covariance de Y de taille n × n où V est diagonale par blocs avec chaque bloc (correspond à chaque petit domaine i) est donné par σ2Σ(ρ, ni), où Σ(ρ, ni) est une matrice de corrélation de dimension ni× ni dont les éléments
non diagonaux sont égaux à la corrélation intra classe ρ.
L’estimation des cœfficients de régression β est essentiellement basée sur l’approche considérée par Battese et al. (1988). Tel que montré par Rivest et al. (2016), la log-vraisemblance du modèle de Battese et al. (1988) s’appuie sur l’hypothèse de normalité :
l(β, σ2, ρ) ∝ −1 2
n
(Y − Xβ)TV−1(Y − Xβ) + log(|V|)o. (4.3) La maximisation de la log-vraisemblance (4.3) permet l’obtention des estimateurs convergents
ˆ
β, ˆσ2 et ˆρ, (voir Rivest et al. (2016)).
L’estimation de paramètre Fe est basée sur les résidus ˆeij = yij− x ˆβ. Il faut qu’on sache que
la moyenne des résidus ne donne pas toujours 0, donc on va plutôt travailler avec les résidus centrés ˆec
ij = ˆeij − ¯e... On définit l’estimateur de la marge comme suit :
ˆ Fe(z) = 1 n + 1 m X i=1 ni X j=1 1{ˆec ij≤z}. (4.4)
On divise par n + 1 au lieu de n pour éviter que la distribution empirique soit exactement égale à 1 car les densités de copules ont des singularités à 0 et 1. L’estimateur ˆFe(z)donné par
(4.4) est semblable à celui étudié au chapitre 2, voir l’équation (2.8). Ici ˆFeest calculé à partir
des résidus et non pas des erreurs comme au (2.8). L’usage des résidus au lieu des erreurs n’a pas d’impact sur la convergence de ˆFe établie dans le chapitre 2, le lecteur peut se référer à
Rivest et al. (2016).
Pour l’estimation du paramètre α, il suffit de maximiser la pseudo vraisemblance (2.10) construite à l’aide de ˆFe présentée dans (4.4). On procède comme au chapitre 2 (voir 2.5)
pour l’estimer. De même, l’utilisation des résidus au lieu des vraies erreurs n’influe pas sur la convergence (2.13) et la distribution asymptotique (2.18) de l’estimateur de α, voir Rivest et al. (2016).
Les estimations sont faits avec le logiciel R. Pour estimer β, on a utilisé la fonction lme du package du Pinheiro et al. (2017) et pour estimer α on a utilisé la fonction optimize. Pour plus de détails voir le code R dans l’annexe C.
4.3
Simulation des données pour l’étude Monte Carlo
On considère une expérience Monte Carlo impliquant m = 20 ou m = 40 petits domaines. Pour chaque petit domaine, on pose ni = 3 pour i = 1, . . . , m. On considère 5 copules pour
modéliser la distribution des erreurs : Clayton, Joe, Frank, Gumbel et normale. De plus, on considère 3 distributions marginales des erreurs : normale N (0, 1), exponentielle E(1) et la log-normale Log-N (-log(2)/2, log(2)) (Une variable aléatoire est dite suivre une loi log-log-normale de paramètres µ et σ2 si le logarithme de cette variable suit une loi normale de moyenne µ
et de variance σ2). Par exemple, pour la loi log-normale, on a obtenu ces paramètres comme
suit : On suppose que la variable aléatoire X ∼ N(µ, σ2), alors eX ∼ Log − N (µ, σ2). Ainsi :
E(eX) = eµ+σ2/2
V ar(eX) = (eσ2− 1)e2µ+σ2.
Si on pose µ = −σ2/2, on obtient :
E(eX) = 1 V ar(eX) = eσ2− 1.
Alors, il suffit d’avoir σ2 = log(2) et µ = − log(2)/2 pour que la variable = eX − 1 soit de
moyenne 0 et de variance 1. Pour plus de détails, voir le code dans l’annexe C.
Pour simuler ces lois, on se fixe une copule C. On génère les erreurs selon des marges uniformes et la copule C. Ensuite, on utilise la méthode d’inversion en calculant les quantiles des erreurs. Le tau de Kendall utilisé est 0.5. Les observations {yij} ont été obtenues selon le modèle
linéaire à effet fixe (4.1). La vraie valeur de β est (1, 1)T et on a généré des observations {x ij}
selon une loi normale d’espérance 2 et d’écart type 0.35.
4.4
Présentation des deux méthodes de sélection
Dans cette section on va introduire les deux critères de sélection de modèles à copules à savoir le critère d’AIC et le critère de validation croisée (LOOCV). On va les présenter et on va mentionner les différents étapes pour leur mise en œuvre.