La copule khi-carré et son utilisation en statistique spatiale et pour la modélisation de données multidimensionnelles

(1)

La copule khi-carré et son utilisation en statistique

spatiale et pour la modélisation de données

multidimensionnelles

Thèse Marie-Hélène Toupin Doctorat en Statistique Philosophiæ doctor (Ph.D.) Québec, Canada © Marie-Hélène Toupin, 2017

(2)

La copule khi-carré et son utilisation en statistique

spatiale et pour la modélisation de données

multidimensionnelles

Thèse

Marie-Hélène Toupin

Sous la direction de:

Louis-Paul Rivest, directeur de recherche Jean-François Quessy, codirecteur de recherche

(3)

Résumé

Cette thèse étudie les propriétés des copules appartenant à la famille khi-carré. Il s’agit d’une généra-lisation des copules normales multidimensionnelles obtenue en élevant au carré les composantes d’un vecteur de variables aléatoires normales. Ces copules sont indicées par une matrice de corrélation et par un paramètre de forme. Cette thèse montre comment cette famille de copules peut être utilisée pour faire de l’interpolation spatiale et pour modéliser des données multidimensionnelles.

Dans un premier temps, l’utilité de cette classe de structures de dépendance est démontrée par le biais d’une application en statistique spatiale. Un problème important dans ce contexte est de prévoir la valeur d’un champ aléatoire stationnaire en une position où il n’a pas été observé. Cette thèse montre comment construire de telles prévisions à l’aide de modèles spatiaux basés sur les copules. L’accent est mis sur l’utilisation de la famille des copules khi-carré dans ce contexte. Il faut d’abord supposer que la matrice de corrélation a une forme paramétrique standard, telle celle de Matérn, indicée par un paramètre inconnu associé à la force de l’association spatiale. Ce paramètre est d’abord estimé à l’aide d’une pseudo-vraisemblance composite construite à partir des lois bidimensionnelles des don-nées observées. Ensuite, une méthode d’interpolation spatiale utilisant les rangs des observations est suggérée afin d’approximer la meilleure prévision du champ aléatoire à une position non observée.

Dans un deuxième temps, les propriétés fondamentales des copules khi-carré sont étudiées en détail. Cette famille de copules permet une grande flexibilité quant à la modélisation de données multidimen-sionnelles. Dans le cas bivarié, ces copules s’adaptent à de la dépendance autant symétrique qu’asy-métrique. En dimension plus grande, le paramètre de forme contrôle le degré d’asymétrie radiale des distributions marginales bidimensionnelles. Des procédures d’estimation de la matrice de corrélation et du paramètre de forme sont comparées dans le cas de répétitions indépendantes et identiquement distribuées. Enfin, des formules de l’espérance conditionnelle pour la meilleure prévision dans un contexte spatiale sont établies.

(4)

Finalement, des tests d’adéquation basés sur des moments pour la famille des copules khi-carré sont développés. Ces nouveaux tests peuvent être appliqués à un ensemble de données de n’importe quelle dimension. Ces procédures reposent sur deux mesures d’association basées sur les rangs des observa-tions ce qui évite d’avoir à spécifier les lois marginales. Il est démontré que le comportement conjoint de ces deux mesures est asymptotiquement normal. L’efficacité des nouvelles procédures d’adéqua-tion est démontrée via une étude de simulad’adéqua-tions et est comparée à un test d’adéquad’adéqua-tion classique basé sur la copule empirique.

(5)

Abstract

This thesis studies the properties of the family of chi-square copulas. This is a generalization of the multidimensional normal copulas obtained by squaring the components of normal random vector. These copulas are indexed by a correlation matrix and by a shape parameter. This thesis shows how this family can be used to perform spatial interpolation and to model multidimensional data.

First, the usefulness of this class of dependence structures is demonstrated with an application in spatial statistics. An important problem in that context is to predict the value of a stationary random field at a position where it has not been observed. This thesis shows how to construct such predictions using spatial models based on copulas. One focusses on the use of the family of chi-square copulas in that context. One must first assumes that the correlation matrix has a standard parametric form, such as that of Matérn, indexed by an unknown parameter associated with the force of the spatial association. This parameter is first estimated using a composite pseudo-likelihood constructed from the bivariate distributions of the observed data. Then, a spatial interpolation method using the ranks of the observations is suggested to approximate the best prediction of the random field at an unobserved position under a chi-square copula.

In a second work, the fundamental properties of the chi-square copulas are studied in detail. This family allows a lot of flexibility to model multidimensional data. In the bivariate case, this family is adapted to symmetric and asymmetric dependence structures. In larger dimensions, the shape param-eter controls the degree of radial asymmetry of the two-dimensional marginal distributions. Paramparam-eter estimation procedures of the correlation matrix and of the shape parameter are compared under inde-pendent and identically distributed repetitions. Finally, the formulas of the conditional expectation for the best prediction in a spatial context are established.

Goodness-of-fit tests for the family of chi-square copulas are then developed. These new tests can be applied to data in any dimension. These procedures are based on two association measures based on

(6)

the ranks of the observations, which avoids having to specify the marginal distributions. It is shown that the joint behavior of these two measures is asymptotically normal. The efficiency of the new goodness-of-fit procedures is demonstrated through a simulation study and is compared to a classical goodness-of-fit test based on the empirical copula.

(7)

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures x

Remerciements xi

Avant-propos xii

Introduction 1

1 Les copules et la statistique spatiale 4

1.1 Définition et propriétés des copules. . . 4

1.2 Mesures de dépendance . . . 8

1.3 Quelques modèles de copules. . . 9

1.4 Estimation de la copule . . . 12

1.5 Tests d’adéquation pour les copules . . . 15

1.6 Stratégies de modélisation de données en grande dimension . . . 17

1.7 La statistique spatiale et les champs aléatoires . . . 18

1.8 Modélisation de la dépendance spatiale à l’aide des copules . . . 21

1.9 Méthodes d’interpolation spatiale. . . 23

1.10 Modélisation de la dépendance spatiale extrême . . . 24

2 Semi-parametric pairwise inference methods in spatial models based on copulas 28 2.1 Introduction . . . 29

2.2 A general copula-based framework for spatial random fields . . . 30

2.3 Some spatial copula models. . . 33

2.4 A rank-based pairwise likelihood estimator . . . 36

2.5 Pairwise spatial interpolation . . . 41

2.6 Illustration on the Meuse river data . . . 46

2.7 Discussion. . . 49

3 On the family of multivariate chi-square copulas 52 3.1 Introduction . . . 53

(8)

3.2 The bivariate chi-square copula . . . 54

3.3 Dependence measures. . . 60

3.4 The multivariate chi-square copula . . . 65

3.5 The chi-square copula in action . . . 68

4 Goodness-of-fit tests for the family of multivariate chi-square copulas 78 4.1 Introduction . . . 79

4.2 Some theoretical properties of the two measures . . . 81

4.3 Empirical versions and asymptotic behavior . . . 85

4.4 Goodness-of-fit tests for the family of multivariate chi-square copulas . . . 88

4.5 Investigation of the sample properties of the tests . . . 92

4.6 Illustration on the five-dimensional Nutrient dataset . . . 99

5 Test score pour les copules khi-carré 103 5.1 Introduction . . . 103

5.2 Rappel concernant les tests scores . . . 103

5.3 La fonction score de la copule khi-carré . . . 104

5.4 Test score pour la copule normale . . . 106

Conclusion 107 A Arguments techniques et matériel supplémentaire du Chapitre 2 109 A.1 Technical arguments of Chapter 2 . . . 109

A.2 Supplementary material of Chapter 2 . . . 111

B Preuves et matériel supplémentaire du Chapitre 3 117 B.1 Proofs of the main results of Chapter 3 . . . 117

B.2 Additional material of Chapter 3 . . . 123

C Preuves et matériel supplémentaire du Chapitre 4 125 C.1 Proofs of the main results of Chapter 4 . . . 125

D Aspects computationnels 134 D.1 Logiciels utilisés . . . 134

D.2 Algorithme facilitant le calcul de la densité et de l’espérance conditionnelle . . . 135

(9)

Liste des tableaux

2.1 Mean squared prediction errors from cross-validation and the estimation of all the

parameters for the Meuse river data set . . . 48

3.1 Estimation of the relative root mean-squared error and relative bias of the inversion of

the three estimators of the correlation . . . 71

3.2 Estimation of the prediction error variance for the two prediction techniques . . . 74

3.3 Mean squared prediction error from cross-validation and the estimated parameters for

the water level data . . . 75

4.1 Percentages of rejection, as estimated from 1 000 replicates, of the null hypothesis of

a bivariate Normal copula under nine copula models and three levels of dependence . 93

4.2 Percentages of rejection, as estimated from 1 000 replicates, of the null hypothesis of a bivariate centered chi-square copula under nine copula models and three levels of

dependence . . . 94

4.3 Percentages of rejection, as estimated from 1 000 replicates, of the null hypothesis of a

d-dimensionel Normal copula under seven copula models and three levels of dependence 95

4.4 Percentages of rejection, as estimated from 1 000 replicates, of the null hypothesis of a d-dimensional centered chi-square under nine copula models and three levels of

dependence . . . 96

4.5 Percentages of rejection, as estimated from 1 000 replicates, of the null hypothesis of

a tri-dimensional Normal copula under six copula models and four levels of dependence 97

4.6 Percentages of rejection, as estimated from 1 000 replicates, of the null hypothesis of a tri-dimensional centered chi-square copula under six copula models and four levels

of dependence . . . 98

4.7 P-values (in %), as estimated from M=1 000 parametric bootstrap samples, of the

goodness-of-fit tests performed on the five-dimensional Nutrient dataset . . . 99

A.1 Estimation of the relative root mean-squared error and relative bias of the two

estima-tors under a Matérn link function . . . 112

A.2 Estimation of the relative root mean-squared error and relative bias of the two

estima-tors under a the Rational quadratic link function . . . 113

A.3 Estimation of the mean squared prediction error for three interpolation methods under

the Normal spatial model . . . 114

A.4 Estimation of the mean squared prediction error for three interpolation methods under

the centered chi-square spatial model. . . 115

A.5 Estimation of the empirical coverage rates and mean length of 95% prediction

(10)

Liste des figures

2.1 Densities of the Normal and the centered chi-square copulas . . . 35

2.2 Box-plots of estimations of the effective range for the full and the pairwise pseudo maximum-likelihood estimators . . . 39

2.3 Kendall’s tau as a function of the distance for the Normal and the centered chi-square copulas . . . 40

2.4 Box-plots of prediction errors from multivariate and pairwise rank interpolations . . 45

2.5 Original log-zinc concentrations and interpolation grid arising from the survival chi-square spatial copula for the Meuse river data set . . . 49

2.6 Interpolation differences between the Normal, centered chi-square spatial copulas and survival centered chi-square spatial copulas for the Meuse river data set . . . 49

3.1 Some symmetric chi-square copula densities . . . 58

3.2 Some asymmetric chi-square copula densities . . . 59

3.3 Some curves of the asymmetry index as a function of the correlation . . . 60

3.4 Some curves of the contraints on the third Kendall’s tau under a trivariate chi-square copula . . . 68

3.5 Scatter plots of samples from the trivariate chi-square copula . . . 69

3.6 Map of the eighteen tide gauge stations, the regression residuals and the locations of the interpolated values for the water level data . . . 74

3.7 Map of predicted values for the water level data . . . 76

4.1 Curves of S(∞1)and S (1) 0 in terms of the Kendall’s tau for the Normal, Clayton, survival Clayton, Frank, centered chi-square, survival centered chi-square, Student copulas. . 85

4.2 Scatterplots of the standardized ranks and estimation of the entries ofΣ under a

(11)

Remerciements

Je tiens tout d’abord à exprimer toute ma gratitude envers mes directeurs de recherche, M. Louis-Paul Rivest, professeur au département de mathématiques et de statistique de l’Université Laval et M. Jean-François Quessy, professeur au département de mathématiques et d’informatique de l’Université du Québec à Trois-Rivières. En plus de m’avoir proposé ce projet passionnant, ils ont su m’encourager et me soutenir tout au long de mon doctorat. Tout le savoir qu’ils m’ont généreusement transmis, la confiance qu’ils m’ont témoignée et leur grande disponibilité ont assurés la réussite de ce projet. Vous avez su me guider d’une main de maître au fil de mes recherches. J’ai grandement apprécié travailler avec vous. Je vous remercie spécialement pour votre compréhension pour les huit mois où j’ai travaillé depuis la France pour des raisons familiales. Louis-Paul, merci de votre grande sagesse, de votre œil critique et de vos conseils fort judicieux qui ont permis d’améliorer grandement la qualité des diffé-rents chapitres de cette thèse. Jean-François, merci de m’avoir enseigné la rigueur et le souci du détail. Merci également de ta grande disponibilité, de ta patience et des précieux mots d’encouragement.

Un remerciement très spécial va à mon fiancé Dave. Merci de m’avoir encouragé à reprendre mes études doctorales, grâce à toi, je cherche toujours à me dépasser. Merci de m’avoir si bien soutenu, écouté et conseillé durant toutes ces années d’études. Je remercie également mes parents, Réjean et Hélène, pour leur amour inconditionnel.

Je remercie le Fonds Québécois de Recherche Nature et Technologies ainsi que l’Institut Canadien des Sciences Statistiques pour les bourses d’études doctorales qu’ils m’ont accordées. Une partie de ce travail a également été financée par des octrois individuels accordés à MM. Jean-François Quessy et Louis-Paul Rivest par le Conseil de Recherche en Sciences Naturelles et en Génie du Canada.

(12)

Avant-propos

Cette thèse de doctorat est composée de cinq chapitres. Le Chapitre 1 introduit le lecteur à la théorie des copules ainsi qu’à la statistique spatiale. Les chapitres suivants sont constitués de trois articles écrits en collaboration avec mon directeur de recherche Louis-Paul Rivest, de l’Université Laval, et mon co-directeur de recherche Jean-François Quessy, de l’Université du Québec à Trois-Rivières. Finalement, le Chapitre 5 présente le calcul de la fonction score pour la famille des copules khi-carré.

Le premier article, intitulé Semi-parametric pairwise inference methods in spatial models based on copulas, est présenté au Chapitre 2. Celui-ci a été publié dans la revue Spatial Statistics en novembre 2015. Le deuxième article dont le titre est On the family of multivariate chi-square copulas, fait l’objet du Chapitre 3, est disponible dans le numéro de décembre 2016 dans la revue Journal of Multivariate Analysis. Le troisième article, constituant le Chapitre 4 de la thèse, est intitulé Goodness-of-fit tests for the family of multivariate chi-square copulaset est présentement soumis à la revue Electronic Journal of Statistics.

De courts textes permettent de faire plus facilement la transitions entre chacun des chapitres. De plus, les résumés en français et en anglais au début des chapitres incluant un article, c’est-à-dire les chapitres 2, 3 et 4, permettent d’assurer une certaine cohérence entre les différentes sections de la thèse.

(13)

Introduction

Dans une perspective de modélisation du comportement conjoint de plusieurs variables aléatoires, les copules s’imposent depuis plusieurs années comme une option très porteuse. Cette méthode offre une grande flexibilité quant à la construction de modèles multivariés en permettant de choisir les lois marginales indépendamment de la structure de dépendance qui est complètement gérée par la copule. Depuis le début du 21e siècle, les applications de la théorie des copules ne cessent de se multiplier. Récemment, les copules ont été mises à profit afin de modéliser de la dépendance de type spatiale.

La modélisation de données spatiales est un sujet qui retient beaucoup d’attention dans la littérature scientifique. Dans ce contexte, un phénomène continu est observé en des positions de l’espace géogra-phique, appelé champ aléatoire. Il pourrait s’agir, par exemple, de la quantité de précipitation observée à différentes stations météorologiques au Canada. Des données à référence spatiale sont présentes dans plusieurs domaines tels que la géologie, la foresterie, les sciences du sol, l’épidémiologie, la démo-graphie et l’écologie. Les méthodes classiques de statistique spatiale modélisent la dépendance via le populaire variogramme. Celui-ci dépend fortement des lois marginales du champ aléatoire et son es-timation est grandement influencée par les valeurs extrêmes observées. L’utilisation des copules dans ce contexte est très attirante puisqu’elle permet la construction de modèles flexibles comme alterna-tives aux modèles traditionnels. Le premier a avoir utilisé les copules alternativement aux méthodes classiques de modélisation spatiale est apparemmentBárdossy(2006).

Une particularité qu’il faut considérer lors de la modélisation spatiale est que le niveau de dépendance entre deux observations de la variable d’intérêt dépend généralement de la distance entre les positions où elles sont mesurées. Une petite distance est reliée à un grand niveau de dépendance alors qu’une grande distance engendre une dépendance faible. Ainsi, pour pouvoir être utilisés dans ce contexte, les modèles de copules multivariées doivent permettre des niveaux de dépendance flexibles pour leurs distributions marginales bivariées. La populaire famille des copules normales est un choix naturel

(14)

pour modéliser de la dépendance spatiale. En effet, comme cette famille est indicée par une matrice de corrélation, il est facile d’incorporer les distances entre les positions du champ aléatoire. Les copules normales souffrent de quelques limites quant au genre de structures de dépendance qu’elles peuvent modéliser. Une de ces limites de forme est la symétrie radiale, qui implique que les distributions de queue inférieure et supérieure sont identiques. Des extensions de la famille des copules normales, telles que les copules khi-carré, ont été proposées entre autres par Bárdossy (2006) et Li (2010). Ces nouvelles structures de dépendance engendrent plus de flexibilité en permettant la modélisation d’asymétrie radiale, tout en conservant les avantages des copules normales. Des modèles spatiaux basés sur les copules vignes ont également été proposés, notamment par Erhardt et coll. (2015a) , Erhardt et coll. (2015b), Gräler(2014) etGräler & Pebesma(2011). Les copules vignes fournissent des modèles spatiaux très flexibles, mais dont l’interprétation est plus difficile.

Le but de la statistique spatiale est généralement de prévoir la valeur du phénomène à l’étude en une position non observée ; c’est ce qu’on appelle faire de l’interpolation spatiale. Les modèles basés sur des extensions de la famille des copules normales permettent le calcul de la prévision optimale qui est donnée par une espérance conditionnelle. Il s’agit d’une alternative à la populaire méthode du krigeage qui consiste en la meilleure prévision linéaire. Des méthodes d’interpolation spatiale basées sur la distribution conditionnelle ont été étudiées par Bárdossy & Li (2008), Li et coll. (2011) et

Kazianka & Pilz(2010) ; ce dernier traite du cas où les lois marginales sont discrètes.

La principale difficulté reliée à la modélisation spatiale est que l’on dispose généralement d’une seule observation du phénomène aux positions échantillonnées. Par conséquent, l’hypothèse classique se-lon laquelle les observations sont indépendantes et identiquement distribuées n’est pas vérifiée et l’inférence statistique demandera alors une attention particulière. Quelques travaux se concentrent sur l’estimation des paramètres dans des modèles spatiaux basés sur les copules. Par exemple,Kazianka & Pilz(2011) proposent une approche Bayésienne alors que Bai et coll. (2014) utilisent une vraisem-blance par paires dans un contexte de données spatiales regroupées en grappes.

La famille des copules khi-carré est attirante non seulement en statistique spatiale, mais également dans un contexte général de modélisation multivariée. En effet, bien que la théorie des copules soit bien implantée depuis plusieurs années, la gamme de modèles de copules disponibles en grande dimension est beaucoup moins diversifiée que dans le cas cas bivarié. Peu de familles de copules multivariées sont à la fois faciles à interpréter et flexibles quant à la construction de modèles en grande dimension. La famille des copules khi-carré offre tous ces avantages et vient ainsi enrichir la classe des copules

(15)

multidimensionnelles disponibles dans la littérature. Celle-ci inclut la très populaire copule normale comme cas particulier, offrant par le fait même une alternative extrêmement intéressante à la populaire famille des copules elliptiques. Cette thèse se consacre à l’étude des propriétés théoriques et pratiques de cette famille, d’abord dans un contexte spatial, puis dans un contexte de modélisation multivariée plus général.

Les principaux objectifs de cette thèse sont :

(i) Définir des modèles multivariés basés sur les copules afin de modéliser la dépendance spatiale ; (ii) Étudier des méthodes d’interpolation spatiale en présence de champs aléatoires dont la

dépen-dance est régie par une copule, spécialement par la copule khi-carré ;

(iii) Investiguer les propriétés de dépendance des copules khi-carré dans le cas bivarié ainsi qu’en grande dimension ;

(iv) Développer des procédures d’estimation des paramètres de la copule khi-carré dans un contexte spatial et pour la modélisation générale de données multivariées ;

(v) Développer des procédures d’adéquation pour la famille des copules khi-carré multivariées. Tout au long de cette thèse, une approche semi-paramétrique sera privilégiée pour les procédures d’in-férence. Ainsi, les distributions marginales sont estimées par les lois marginales empiriques, évitant donc d’avoir à les spécifier.

Cette thèse est organisée comme suit. Le Chapitre1rappelle certains concepts concernant les copules et la statistique spatiale ce qui facilitera la compréhension des chapitres subséquents. Le Chapitre2

introduit une famille générale de distributions multivariées dans un contexte spatial et des procédures d’inférence semi-paramétriques basées sur une approche par paires sont proposées ; l’accent sera mis sur l’utilisation de la copule khi-carré. Le Chapitre3est dédié à l’étude des propriétés théoriques et pratiques de la famille des copules khi-carré. Le Chapitre4introduit de nouveaux tests d’adéquation pour les structures de dépendance khi-carré multidimensionnelles. Le Chapitre5présente le calcul de la fonction score pour cette famille de copules. Les nombreuses preuves, des détails techniques, ainsi que du matériel supplémentaire en lien avec les Chapitres2,3et4, se retrouvent respectivement dans les AnnexesA,BetCà la fin de cette thèse. Finalement, l’AnnexeDtraite de certains aspects com-putationnels, notamment les logiciels utilisés pour le travail informatique et un algorithme facilitant le calcul de la densité et de l’espérance conditionnelle de la copule khi-carré.

(16)

Chapitre 1

Les copules et la statistique spatiale

1.1 Définition et propriétés des copules

L’importance des copules dans la modélisation multivariée est soulignée dans un célèbre théorème dû àSklar(1959) qui s’énonce comme suit

Théorème 1. (Sklar)

Soient d variables aléatoires X1, . . . , Xddont les lois marginales sont données par Fi(xi) =P(Xi≤ xi),

pour i=1, . . . , d, et dont la loi jointe est définie par F(x₁, . . . , xd) =P(X1≤ x1, . . . , Xd≤ xd). Il existe

une fonction C:[0, 1]d_→_[_{0, 1}_]_{telle que}

F(x1, . . . , xd) =C{F1(x1), . . . , Fd(xd)}

pour tout(x1, . . . , xd)∈ Rd. Dans le cas où les lois marginales F1, . . . , Fd sont continues, la fonction

C est unique.

La fonction C s’appelle la copule de (X1, . . . , Xd)et contient toute l’information concernant la

dé-pendance entre les composantes de ce vecteur. Il s’ensuit qu’on peut extraire la copule d’une loi multivariée continue à l’aide de la formule

C(u₁, . . . , ud) =F

F₁−1(u₁), . . . , F_d−1(ud)

, (1.1)

où(u₁, . . . , ud)∈[0, 1]d. Le théorème de Sklar met en lumière le fait qu’une fonction de répartition se

décompose en deux composantes, à savoir la copule et les lois marginales. La structure de dépendance, représentée par la copule, peut donc être étudiée indépendamment des marges.

(17)

Définition 1. Une copule C:[0, 1]d_→_[_{0, 1}_]_{est une fonction de répartition d-dimensionnelle dont les}

lois marginales sont uniformes sur[0, 1].

En supposant que les distributions marginales de (X1, . . . , Xd)sont continues, à partir de (1.1), on a

pour tout(u1, . . . , ud)∈[0, 1]d que

C(u1, . . . , ud) = P(X1≤ F1−1(u1), . . . , Xd≤ F_d−1(ud))

= P(U1≤ u1, . . . ,Ud≤ ud),

où Ui=Fi(Xi)est une variable uniforme sur[0, 1], pour i=1, . . . , d. Ainsi, il est clair qu’une copule

est une fonction de répartition multivariée dont les marges sont uniformes sur[0, 1].

Puisque C est une fonction de répartition, sa densité c, si elle existe, peut être obtenue en dérivant C successivement par rapport à u1, . . . , ud. Celle-ci peut également s’écrire

c(u1, . . . , ud) = fF₁−1(u1), . . . , Fd−1(ud) f1 F₁−1(u1) × ... × fd F_d−1(ud) , (u1, . . . , ud)∈[0, 1]d,

où fi=dFiest la densité marginale de Xi, i=1, . . . , d, et f =dF la densité conjointe de(X1, . . . , Xd).

La définition suivante découle du fait qu’une copule est une fonction de répartition multivariée.

Définition 2. Soient (a1, . . . , ad)∈[0, 1]d et (b1, . . . , bd)∈[0, 1]d tels que ai ≤ bi pour tout i ∈

{1,...,d}. Soit également ∆bk

akC(u1, . . . , ud) =C(u1, . . . , uk−1, bk, uk+1, . . . , ud)− C(u1, . . . , uk−1, ak, uk+1, . . . , ud).

Une fonction C:[0, 1]d_→_[_{0, 1}_]_{doit satisfaire les trois propriétés suivantes pour être une copule :}

• Si ui=0 pour au moins un i∈ {1,...,d}, alors C(u1, . . . , ud) =0 ;

• C(1, . . . , 1, uk, 1, . . . , 1) =uk;

• ∆bd

ad . . . ∆

b1

a1C(u1, . . . , ud)≥ 0.

Si la copule de(U1, . . . ,Ud)est C, alors la troisième condition de la définition précédente peut

s’inter-préter comme

∆bd

ad . . . ∆

b1

a1 C(u1, . . . , ud) =P(a1≤ U1≤ b1, . . . , ad≤ Ud≤ bd)≥ 0.

Dans le cas bidimensionnel, cette condition se résume à

(18)

Si les composantes de (X1, . . . , Xd)sont indépendantes, alors F(x1, . . . , xd) =F1(x1)× ··· × Fd(xd).

Une application directe de l’équation (1.1) implique que la copule associée à l’indépendance est

Π(u1, . . . , ud) =u1× ... × ud, (u1, . . . , ud)∈[0, 1]d. (1.2)

La proposition suivante établit qu’une copule est toujours comprise entre deux bornes.

Proposition 1. (Bornes de Fréchet–Hoeffding) Si C est une copule, alors

max d

∑

i=1 ui− d+1, 0 !

≤ C(u₁, . . . , ud)≤ min(u1, . . . , ud), pour tout(u1, . . . , ud)∈[0, 1]d.

Les bornes supérieure et inférieure de la proposition précédente sont appelées les bornes de Fréchet– Hoeffding. La borne supérieure donnée par

M(u1, . . . , ud) =min(u1, . . . , ud) (1.3)

est elle-même une copule et représente la dépendance positive parfaite, c’est-à-dire la copule issue du cas extrême U1=. . .=Ud. Dans le cas bidimensionnel, la borne inférieure

W(u1, u2) =max(u1+u2− 1,0)

est également une copule et est associée à la dépendance négative parfaite, correspondant au cas où U₁=1_−U2.

Une propriété fondamentale des copules est leur invariance sous des transformations monotones crois-santes. Cette propriété est énoncée dans la proposition suivante.

Proposition 2. (Invariance sous des transformations strictement croissantes) Soient η1, . . . , ηd, des

fonctions strictement croissantes. Si la copule de(X1, . . . , Xd)est C, alors la copule de(η1(X1), . . .,

ηd(Xd))est également C.

Démonstration. Soit Yi =ηi(Xi), pour i=1, . . . , d. La loi marginale de Yi est donnée par Gi(x) =

Fi(η_i−1(x)), où Fiest la loi marginale de Xi. La distribution jointe de(Y1, . . . ,Yd)est telle que

G(x1, . . . , xd) =P{η1(X1)≤ x1, . . . , ηd(Xd)≤ xd}=F

η₁−1(x1), . . . , ηd−1(xd)

,

(19)

où F est la loi jointe de(X1, . . . , Xd). Suivant (1.1), la copule D de(Y1, . . . ,Yd)est telle que pour tout (u₁, . . . , ud)∈[0, 1]d, D(u1, . . . , ud) = G G−1₁ (u1), . . . , G−1₁ (ud) = Fη₁−1(G−1₁ (u1)), . . . , ηd−1(G−1d (ud)) = FF₁−1(u1), . . . , Fd−1(ud) = C(u1, . . . , ud),

ce qui complète la preuve.

Définition 3. (Symétrie radiale) Soit (U1, . . . ,Ud), un vecteur de variables aléatoires uniformes sur

[0, 1]. Une copule C est dite symétrique radiale si pour (U1, . . . ,Ud)∼ C, on a également (1−

U1, . . . , 1−Ud)∼ C.

La loi jointe de(1_−U1, . . . , 1−Ud), notée bC, est appelée la copule de survie associée à C. Ainsi, une

copule C est symétrique radiale si et seulement si C=C. Dans le cas db =2, on peut montrer que la copule de survie de C est donnée par

b

C(u₁, u2) =u1+u2− 1+C(1− u1, 1− u2).

Définition 4. (Échangeabilité) Une copule C est dite échangeable si C(u₁. . . , ud) =C(uπ(1). . . , uπ(d)) où π(1), . . . , π(d)sont des permutations arbitraires des nombres entiers de1 à d.

Dans le cas bidimensionnel, l’échangeabilité signifie que C(u1, u2) =C(u2, u1)pour tout(u1, u2)∈

[0, 1]2_{et on dit alors que C est symétrique par rapport à sa diagonale principale.}

Si C est la copule d-dimensionnelle de(X₁, . . . , Xd), alors la copule de(X1, . . . , Xd₋₁)est donnée par

C(u1, . . . , ud₋₁, 1). À partir de C, on peut donc obtenir de façon inductive l’expression de la copule de

n’importe quel sous-ensemble de variables de(X₁, . . . , Xd). Ces copules de dimension inférieure à d

sont appelées les copules sous-jacentes à C dans la définition suivante.

Définition 5. (Fermeture sous les marges) Soit C, une copule d-dimensionnelle appartenant à une certaine famille de copules _{F. Si toutes les copules de dimension inférieure à d sous-jacentes à C} appartiennent également à la famille_{F, alors F est dite fermée sous les marges.}

(20)

1.2 Mesures de dépendance

Puisqu’une copule contient toute l’information au sujet de la dépendance d’un vecteur aléatoire, une mesure qui tente de saisir l’ampleur de cette association devrait dépendre uniquement de la copule. La présente section décrit quelques-unes de ces mesures dans le cas bidimensionnel ; les deux plus populaires sont probablement le tau de Kendall et le rho de Spearman.

Soit(X,Y), un vecteur aléatoire de distribution jointe F, de lois marginales continues FX et FY et dont

la copule sous-jacente à F est C. Soient également(X₁,Y1)et (X2,Y2), des copies indépendantes et

identiquement distribuées de (X,Y). Le tau de Kendall mesure la différence entre la probabilité de concordance et de discordance de(X₁,Y1)et(X2,Y2). Plus spécifiquement, celui-ci est défini par

τ(X,Y) =P{(X1− X2) (Y1−Y2)> 0} − P{(X1− X2) (Y1−Y2)< 0}.

Cette mesure de dépendance peut s’écrire uniquement en terme de la copule C via

τ(C) =4 Z 1 0 Z 1 0 C(u, v)dC(u, v)− 1. (1.4)

Le rho de Spearman quant à lui est défini par la corrélation entre les variables uniformisées U=FX(X)

et V =FY(Y), c’est-à-dire

ρS(X,Y) =corr{FX(X), FY(Y)}=12 E(UV)− 3.

Cette mesure s’exprime également en terme de la copule de(X,Y)via

ρS(C) =12 Z 1 0 Z 1 0 C(u, v)du dv− 3.

Sous la copule d’indépendance, on établit facilement que τ(Π) =ρS(Π) =0. De plus, en présence de

dépendance positive parfaite, on a τ(M) =ρS(M) =1, tandis qu’en présence de dépendance négative

parfaite, on obtient τ(W) =ρS(W) =−1.

Soient maintenant ˜x et ˜y, les médianes des distributions marginales FX et FY, respectivement. Le beta

de Blomqvist est associé à la probabilité de concordance et de discordance entre (X,Y)et(˜x, ˜y). Sa définition exacte est

β(X,Y) =P{(X_{− ˜x}) (Y_{− ˜y})> 0_{} − P{}(X_{− ˜x}) (Y_{− ˜y})< 0_}.

Le beta de Blomqvist est une autre mesure de dépendance qui s’écrit en terme de la copule C. En effet, on peut montrer que

β(C) =4C 1 2, 1 2 − 1.

(21)

Les mesures de dépendance caudale sont utilisées afin de capturer la dépendance dans les queues des distributions bivariées. Plus spécifiquement, l’indice de dépendance caudale inférieur λL quantifie la

probabilité d’observer une petite valeur de X sachant que l’on a observé une petite valeur de Y tandis que l’indice de dépendance caudale supérieure λU est associé à la probabilité d’observer une grande

valeur de Y sachant que l’on a observé une grande valeur de X . Plus spécifiquement,

λL(X,Y) = lim u_→0+P X_{≤ F}_X−1(u)|Y ≤ FY−1(u) et λU(X,Y) = lim u_→1−P X> F_X−1(u)|Y > FY−1(u) .

On peut montrer facilement que ces deux mesures s’écrivent en fonction de la copule C via

λL(C) = lim u_→0+ C(u, u) u et λU(C) =2− limu_→1− 1_−C(u, u) 1− u . Pour plus de détails au sujet de ces mesures, le lecteur se référera àNelsen(2006).

1.3 Quelques modèles de copules

1.3.1 Les copules Archimédiennes

Les copules Archimédiennes forment probablement la classe de copules paramétriques la plus popu-laire. Cette famille a été introduite par Genest & MacKay(1986), étudiée en détails par Genest & Rivest(1993) et plus récemment parMcNeil & Nešlehová(2009). Une copule est dite Archimédienne si elle peut être écrite sous la forme

C(u1, . . . , ud) =Ψ Ψ−1₍_u 1) +. . .+Ψ−1(ud) , (1.5)

où Ψ est une fonction appelée le générateur de la copule Archimédienne. Une condition suffisante pour que la forme (1.5) donne une copule, pour tout entier d≥ 2, est que la fonction Ψ soit complète-ment monotone, c’est-à-dire

(−1)i d i

dtiΨ(t)≥ 0 pour tout t ∈[0, ∞) et i∈ {1,2,...}.

SiΨ est complètement monotone, alors c’est une transformée de Laplace et limt→0Ψ−1(t) =∞. À noter que toutes les copules de cette famille sont échangeables et fermées sous les marges. Tel que montré parMcNeil & Nešlehová(2009), lorsque C est une copule Archimédienne dont le générateur estΨ, le tau de Kendall s’exprime en fonction de son générateur par

τ(C) =1− 4

Z _Ψ−1(0)

0

(22)

Les indices de dépendance caudale s’écrivent également en fonction du générateur par les expressions λL(C) = lim x_→∞ Ψ(2x) Ψ(x) et λU(C) =2− limx_→0+ 1_{− Ψ}(2x) 1− Ψ(x) .

La copule de Clayton définie par

Cα(u1, . . . , ud) = d

∑

i=1 u−α_i _{− d}+1 !_−1/α , α> 0,

est une copule Archimédienne dont le générateur estΨα(t) = (1+αt)−1/α. Son tau de Kendall est

donné par τ(C_α) =α/(α+2). Son indice de dépendance caudale inférieure est λL(Cα) =2−1/α et

supérieure λU(Cα) =0. Cette copule n’est pas symétrique radiale.

La copule de Frank est un autre exemple de copule Archimédienne. Son expression est

C_α(u1, . . . , ud) =−

1 αln

1+{exp(−αu1)− 1} × ... × {exp(−αud)− 1}

exp(−α)− 1

, α> 0,

et son générateur est

Ψα(t) =−

1

αlog[exp(−t){exp(−α) +1}+1].

En dimension 2, la copule de Frank est symétrique radiale et ses deux indices de dépendance caudale sont nuls. Son tau de Kendall est donné par

τ(Cα) =1− 4_{D1(α)− 1} α , où D1(α) = 1 α Z α 0 x exp(x)− 1dx.

Pour les copules de Frank et Clayton, on retrouve la borne supérieure de Fréchet–Hoeffding M, voir (1.3), lorsque α_{→ ∞ et la copule d’indépendance Π donnée à (}1.2) lorsque α_{→ 0. Par ailleurs,} la copule d’indépendance est une copule Archimédienne de générateurΨ(t) =exp(−t).

1.3.2 La copule normale et autres modèles elliptiques

Soit φ_Σ, la densité de la loi normale d-dimensionnelle de moyennes nulles, de variances unitaires et de matrice de corrélationΣ ∈ Rd×d, c’est-à-dire

φ_Σ(x) = 1 (2π)d/2_|Σ|1/2 exp −1 2xΣ −1_x> , où x= (x1, . . . , xd)∈ Rd.

La populaire copule normale, aussi appelée copule Gaussienne, est la structure de dépendance extraite de la distribution normale multivariée de fonction de répartition donnée par

ΦΣ(x) = Z x1 −∞. . . Z xd −∞φΣ( s₁, . . . , sd)dsd. . . ds1.

(23)

Dans ce cas, les distributions marginales sont toutes normales standardisées. Suivant le théorème de Sklar, la copule normale est alors donnée par

C_ΣN(u₁, . . . , ud) =ΦΣ Φ−1₍_u 1), . . . ,Φ−1(ud) , _∀(u₁, . . . , ud)∈[0, 1]d, (1.6)

où Φ est la fonction de répartition de la loi normale standardisée. La copule normale est un cas particulier d’une classe de copule plus générale que sont les copules elliptiques, voir Embrechts et coll. (2003). Celles-ci sont les copules sous-jacentes aux distributions elliptiques multidimension-nelles dont la densité, si elle existe, peut être écrite sous la forme

fµ,Σ,h(x) = 1 |Σ|1/2h 1 2(x− µ)Σ −1₍_x_{− µ}₎> ,

où µ _{∈ R}dest un vecteur de moyennes,Σ ∈ Rd×dest une matrice de corrélation et h:R+→ R+est une fonction normalisée de telle sorte que

Z ∞ 0

td2−1_h(_t)_dt= Γ(d/2) (2π)d/2,

où Γ dénote la fonction Gamma définie par Γ(s) =R∞ 0 t

s₋₁_exp₍_−t₎_{dt. On retrouve la densité de la}

loi normale d-dimensionnelle lorsque h(t) =exp(−t)/(2π)d/2_{. À noter que si}₍_X

1, . . . , Xd)suit une

loi elliptique multidimensionnelle, alors les lois marginales sont elliptiques univariées de la même famille. Ainsi, on peut donc invoquer le théorème de Sklar pour retrouver la forme de la copule elliptique associée à n’importe quelle densité de type f_µ,Σ,h.

La copule de Student à ν degrés de liberté est un autre exemple de copule elliptique. Celle-ci est issue de la distribution de Student centrée multidimensionnelle dont la densité est

f_ν,Σ(x) = Γ ν+d 2 Γ ν 2 (π ν)d/2|Σ|1/2 1+xΣ−1x> ν −ν+d 2 , ν> 2.

Puisque les lois marginales de cette distribution sont des lois de Student univariées à ν degrés de liberté, alors la copule de Student est donnée par

C_ν,Σ(u₁, . . . , ud) = Z F_ν−1(u1) −∞ . . . Z F_ν−1(ud) −∞ f_ν,Σ(s₁, . . . , sd)dsd. . . ds1,

où Fν est la fonction de répartition de la distribution de Student univariée à ν degrés de liberté.

À noter que toutes les copules elliptiques sont symétriques radiales et fermées sous les marges. Celles-ci atteignent la borne supérieure de Fréchet–Hoeffding donnée à (1.3). En effet, lorsque toutes les corrélations tendent vers 1, ces copules sont équivalentes à la dépendance positive parfaite. Dans le

(24)

cas bivarié, la dépendance négative parfaite survient lorsque la corrélation converge vers -1. De plus, parmi la classe des structures de dépendance elliptique, seule la copule normale permet d’atteindre la copule d’indépendance donnée à (1.2). Cela se produit lorsque la matrice de corrélation est la matrice identité, c’est-à-dire lorsque toutes les corrélations sont nulles.

En dimension 2, les copules elliptiques sont indicées par le coefficient de corrélation ρ =Σ12 =

Σ21, ρ ∈(−1,1). Si C=Cρ est une copule elliptique bidimensionnelle, alors le tau de Kendall est

directement relié au coefficient de corrélation via l’expression

τ(Cρ) =

2

πarcsin(ρ). (1.7)

Dans le cas de la copule normale de corrélation ρ, notée C_ρN, le rho de Spearman est donné par ρS CN_ρ = 6 πarcsin _ρ 2 .

Dans le cas de la copule de Student, les indices de dépendance caudale sont donnés par

λL(Cν,ρ) =λU(Cν,ρ) =2tν+1 − s (ν+1)(1− ρ) (1+ρ) ! ,

où tν+1 dénote la fonction de répartition d’une distribution de Student centrée avec ν+1 degrés de

liberté, voir Joe (2015) pour plus de détails. Lorsque ν → ∞, la copule de Student correspond à la copule normale. Dans ce cas, les indices de dépendance caudale sont nuls.

1.4 Estimation de la copule

1.4.1 Estimation non paramétrique par la copule empirique

Soient(X₁₁, . . . , Xn1), . . .(X1d, . . . , Xnd), des copies indépendantes et identiquement distribuées issues

du vecteur (X1, . . . , Xd)de copule C. Les distributions marginales F1, . . . , Fd de (X1, . . . , Xd)peuvent

être estimées par les lois marginales empiriques Fn1, . . . , Fndqui sont définies par

Fn j(x) = 1 n+1 n

∑

i=1 I(Xi j≤ x), pour j=1, . . . , d. (1.8)

Le choix de diviser par n+1 plutôt que par n fait en sorte que Fn j(x)< 1 ce qui permet d’éviter certains

problèmes numériques. Une estimation non paramétrique de C est donnée par la copule empirique

Cn(u1, . . . , ud) = 1 n+1 n

∑

i=1 d

∏

j=1 IFn j(Xi j)≤ uj . (1.9)

(25)

Sous l’hypothèse que les dérivées partielles ∂C(u1. . . , ud)/∂ uj existent et sont continues

respective-ment sur(u₁. . . , ud)∈[0, 1]d: 0 < uj< 1

, pour j=1, . . . , d,Segers(2012) a démontré la conver-gence en loi de√n(Cn−C)vers un processus gaussien centré.

1.4.2 Estimation dérivée de la vraisemblance

Soit une famille de copules{Cλ; λ∈ Λ}, où Λ ⊆ R

p_{. En considérant que le modèle de dépendance du}

vecteur aléatoire(X1, . . . , Xd)provient de cette famille, on désire souvent estimer le paramètre inconnu

λ . Pour ce faire, on considère à nouveau n copies indépendantes(X11, . . . , X1d), . . . ,(Xn1, . . . , Xnd)du

vecteur (X1, . . . , Xd). Cette section présente des méthodes d’estimation de paramètres dérivées de la

fonction de vraisemblance.

En se basant sur le théorème de Sklar, la fonction de répartition jointe de(X1, . . . , Xd), dont F1, . . . , Fd

sont les lois marginales, est F_λ(x₁, . . . , xd) =Cλ{F1(x1), . . . , Fd(xd)} et sa densité est

f_λ(x₁, . . . , xd) =cλ{F1(x1), . . . , Fd(xd)} f1(x1)× ... × fd(xd),

où fj =dFj pour j=1, . . . , d, et cλ est la densité de la copule Cλ. Lorsque les loi marginales sont

connues, la méthode classique du maximum de vraisemblance consiste à maximiser, en fonction de λ , la fonction de vraisemblance L(λ) = n

∏

i=1 f_λ(Xi1, . . . , Xid) = n

∏

i=1 c_λ_{F1(Xi1), . . . , Fd(Xid)} f1(Xi1)× ... × fd(Xid),

ou de façon équivalente, à maximiser la fonction de log-vraisemblance

L(λ) =log{L(λ)}=

n

∑

i=1

log cλ{F1(Xi1), . . . , Fd(Xid)}+K,

où K=∑ni=1∑dj=1log fi(Xi j)ne dépend pas de λ . L’estimateur à maximum de vraisemblance classique

de λ est la solution de argmax λ∈Λ n

∑

i=1 log c_λ_{F1(Xi1), . . . , Fd(Xid)}.

Pour plusieurs modèles de copules, le calcul de la densité multidimensionnelle c_λ est ardu ce qui rend la méthode décrite précédemment difficile à mettre en œuvre. Une solution est alors de consi-dérer une fonction de vraisemblance composite qui consiste en une multiplication de vraisemblances de dimension plus petite ; voir Varin et coll. (2011). Une vraisemblance composite populaire est la vraisemblance par paires qui fait intervenir uniquement les loi marginales bivariées extraites de la

(26)

distribution multidimensionnelle. L’estimateur obtenu est alors la solution de argmax λ∈Λ n

∑

i=1

∑

j<k log cjk,λ{Fj(Xi j), Fk(Xik)},

où c_jk,λ est la densité de la copule de la paire(Xj, Xk).

L’intérêt principal de l’utilisation des copules tient au fait qu’il n’est pas nécessaire de connaître les marges pour effectuer de l’inférence sur la fonction de dépendance. Comme les marges F1, . . . , Fd

sont supposées inconnues, on remplace habituellement Fj par la loi marginale empirique Fn jdonnées

par (1.8) pour j =1, . . . , d. Dans ce contexte, Genest et coll. (1995) ont proposé de maximiser le logarithme de la pseudo-vraisemblance ; l’estimateur de λ issu de cette méthode est donné par

argmax λ∈Λ n

∑

i=1 log cλ{Fn1(Xi1), . . . , Fnd(Xid)} .

Une version par paires de la vraisemblance basée sur les rangs est également possible, mais ne semble pas avoir été étudiée jusqu’à présent. L’avantage principal des méthodes d’estimation issues de la vraisemblance est qu’elles s’appliquent aux situations à plusieurs paramètres, c’est-à-dire lorsque

p_{≥ 2, contrairement aux méthodes qui seront décrites à la section suivante.}

1.4.3 Estimation semi-paramétrique par l’inversion d’une statistique d’association

Lorsque d=2 et que le paramètre de la copule λ est univarié, il est possible d’utiliser la technique d’inversion d’une statistique d’association, telle que le tau de Kendall, afin d’estimer λ . Plus spéci-fiquement, soit une famille de copules bivarié_{C_λ; λ _{∈ R}. En considérant que le modèle de} dépen-dance du vecteur aléatoire (X1, X2)provient de cette famille, on désire souvent estimer le paramètre

inconnu λ . Pour ce faire, on considère n copies indépendantes (X11, X12), . . . ,(Xn1, Xn2) du vecteur

(X1, X2). Soit Qn, le nombre de paires concordantes dans cet échantillon, c’est-à-dire

Qn= n

∑

i< j I(X1i− X1 j)(X2i− X2 j)> 0 .

La version empirique du tau de Kendall est alors donnée par

τn=

4Qn

n(n_{− 1})− 1.

Supposons que pour la famille de copules C_λ, le tau de Kendall tel que défini à (1.4) s’écrit τ(C_λ) =

h(λ), où h est une fonction continue dont la dérivée première existe. Une estimation plausible pour λ est alors λn=h−1(τn). Une étude de l’efficacité de cette estimation basée sur le tau de Kendall est

(27)

Une adaptation de cette méthode pour le rho de Spearman est immédiate. En effet, supposons que le rho de Spearman se définit en fonction du paramètre λ par la relation rS(Cλ) =h(λ), où h est une

fonction continue. Dans ce cas, λn=h−1(ρn), où ρn est la version empirique du rho de Spearman,

fournit aussi une estimation convergente pour λ ; voir Toupin (2008) pour plus de détails sur cette méthode d’estimation.

1.5 Tests d’adéquation pour les copules

Dans cette section, quelques procédures d’adéquation pour les copules sont sommairement présen-tées dans un contexte multivarié général. À cette fin, soit un vecteur aléatoire X = (X1, . . . , Xd),

d _{≥ 2, de copule C et de lois marginales F}i(x) =P(Xi≤ x), 1≤ i ≤ d. À partir d’un échantillon

(X11, . . . , X1d), . . . ,(Xn1, . . . , Xnd), composé de n copies indépendantes de X, nous désirons déterminer

si C appartient ou non à une famille de copules paramétriques _{C_λ; λ _{∈ Λ}. Plus formellement, les} hypothèses à confronter sont

H0: C∈ {Cλ; λ ∈ Λ} vs H1: C /∈ {Cλ; λ ∈ Λ}.

Autrement dit, les tests d’adéquation pour les copules permettent de valider une structure de dépen-dance adéquate pour X.

Plusieurs procédures d’adéquation ont été proposées dans la littérature. Notamment, le test de Brey-mann et coll. (2003) est basé sur la transformation de Rosenblatt des variables X1, . . . , Xd. Pour

2≤ i ≤ d, soient les fonctions de répartitions marginales conditionnelles

Fi_|1,...,i−1(xi|x1, . . . , xi₋₁) =P(Xi≤ xi|X1=x1, . . . , Xi₋₁=xi₋₁), x1, . . . , xi∈ R.

La transformation de Rosenblatt des variables X1, . . . , Xd est définie par W1=F1(X1)et

Wi=Fi_|1,...,i−1(Xi|X1, . . . , Xi₋₁), 2≤ i ≤ d.

On utilise alors le fait que, sous l’hypothèse nulle,(W1, . . . ,Wd)est un vecteur de variables aléatoires

indépendantes, chacune étant distribuée uniformément sur l’intervalle(0, 1).

Un autre exemple de test d’adéquation pour les copules est le test de Genest et coll. (2006) reposant sur le processus de Kendall. Celui-ci a été introduit parGenest & Rivest(1993) et son comportement asymptotique a été étudié en détails par Barbe et coll. (1996). Pour t ∈[0, 1], le processus de Kendall

(28)

est donné parKn(t) =√n{Kn(t)− K(t)}, où K est la transformation intégrale de probabilité

multi-variée définie par K(t) =P_{C(U₁, . . . ,Up)≤ t}, où la loi de(U1, . . . ,Ud)est C. L’estimation Knde K

est Kn(t) = 1 n n

∑

i=1

I(Vi,n≤ t), où Vi,n=

1 n n

∑

j=1 I(Xj1≤ Xi1, . . . , Xjd≤ Xid), 1≤ i ≤ n.

Mesfioui et coll. (2009) ont étudié quant à eux un processus d’adéquation basé sur la fonction de Spearman. Pour t ∈[0, 1], la fonction de Spearman et sa version empirique sont définies respective-ment par S(t) =P_{F1(X1)× ... × Fd(Xd)≤ t} et Sn(t) = 1 n n

∑

i=1 {Fn1(Xi1)× ... × Fnd(Xid)≤ t},

où Fn j est la version empirique de Fj, telle que définie à (1.8), pour j=1, . . . , d. Le test d’adéquation

de Mesfioui et coll. (2009) découle du processus de Spearman√n_{Sn(t)− S(t)}, pour t ∈[0, 1].

Une autre possibilité est de travailler directement avec une estimation de la copule inconnue C, à savoir la copule empirique Cndéfinie à (1.9). L’idée de baser un test d’adéquation sur Cna été étudiée

sous divers scénarios de dépendance par Genest et coll. (2009). Ces derniers suggèrent d’utiliser

Cn,N(u) =√n{Cn(u)−CN(u)}, u= (u1, . . . , ud)∈[0, 1]d,

où CN est une approximation par bootstrap de C_bλ

n basé sur un échantillon aléatoire artificiel

prove-nant de C_bλ

n, où bλn est une estimation du paramètre λ . Afin de tester l’hypothèse nulle H0, Genest

et coll. (2009) proposent des statistiques de test basées sur les distances de Cramér–von Mises et de Kolmogorov–Smirnov. Des valeurs critiques peuvent être déduites à partir d’une procédure de boots-trap paramétrique dont la validité a été établie parGenest & Rémillard(2008).

À noter également qu’un test d’adéquation spécifique à la copule normale donnée à (1.6) a été étudié parMalevergne & Sornette(2003). Sous l’hypothèse que la structure de dépendance de(X₁, . . . , Xd)

est la copule normale de matrice de corrélationΣ, le vecteur aléatoire Z= (Φ−1{F1(X1)},..., Φ−1{Fd(Xd)})

suit une loi normale multivariée de moyennes nulles et de matrice de covariance Σ ∈ Rd×d_{. L’idée}

de ce test découle d’un résultat classique qui assure alors que ZΣ−1Z>est distribué selon une loi du khi-carré à d degrés de liberté. Pour une revue plus complète de procédures d’adéquation pour les copules, le lecteur se référera àBerg(2009).

(29)

1.6 Stratégies de modélisation de données en grande dimension

Bien que la théorie des copules soit bien implantée depuis plusieurs années, la gamme de modèles de copules disponibles en grande dimension est beaucoup moins diversifiée que dans le cas cas biva-rié. Peu de familles multivariées sont à la fois interprétables aisément, faciles à manier et flexibles. Par exemple, les copules Archimédiennes telles que décrites à la Section 1.3.1sont facilement ma-niables et interprétables en reposant très souvent sur un seul paramètre. Par contre, celles-ci ne sont pas flexibles dans le sens que les distributions marginales bivariées ont toutes le même niveau de dépendance. Par exemple, cela revient à supposer qu’une mesure de dépendance telle que le tau de Kendall donnée à (1.4) est le même pour chacune des paires de variables. Cette hypothèse est souvent irréaliste, surtout lorsque le nombre de variables est grand.

Les copules elliptiques (Section1.3.2), quant à elles, offrent une bonne flexibilité en permettant des niveaux de dépendance différents pour chacune des paires de variables via une matrice de corrélation Σ ∈ Rd_×d_{. La difficulté réside alors dans l’estimation de cette matrice, puisque estimer} _{Σ revient à}

estimer ses d(d_{− 1})/2 corrélations hors-diagonales. Plus d est grand, plus cette tâche est ardue. Une possibilité est de réduire le nombre de paramètres en imposant une structure particulière à la matrice de corrélation, tel que suggéré par exemple parKlüppelberg & Kuhn(2009). Rappelons que le tau de Kendall pour chaque paire de variables est directement relié à la corrélation qui lui est associée via (1.7). Ainsi, une façon naturelle d’estimer la matrice de corrélationΣ est d’appliquer simplement la méthode de l’inversion du tau de Kendall, telle que décrite à la Section1.4.3, pour estimer chacun des éléments de Σ. Un problème potentiel avec cette méthode d’estimation est que la matrice résultante, disons bΣ, peut être singulière et par conséquent ne pas fournir une estimation valide de la matrice de corrélation. Une solution est de considérer une version légèrement modifiée de bΣ qui est semi-définie positive. L’idée est de trouver une matrice non singulière eΣ qui est le plus proche possible de bΣ. Quelques auteurs se sont penchés sur ce problème en considérant différentes normes sur les matrices, notammentHigham(2002) etWegkamp & Zhao(2016).

Une façon très flexible de construire des modèles de copules multivariées est la construction par paires, aussi connue sous le nom de copules vignes ; voir par exemple Aas et coll. (2009),Bedford & Cooke

(2002) etJoe(2015). Ces copules offrent une nouvelle façon de modéliser des données multivariées en se basant sur le principe qu’une loi de densité multivariée peut être décomposée en une cascade de lois bivariées définies par conditionnements successifs. À titre d’exemple, lorsque d=3, une possibilité

(30)

de ré-écriture de la densité c du vecteur(U1,U2,U3)de lois marginales uniformes sur[0, 1]est

c(u1, u2, u3) =c12(u1, u2)c23(u2, u3)c13|2(u1|2, u3|2; u2), (1.10)

où c12et c23désignent respectivement les densités des paires(U1,U2)et(U2,U3), alors que c13|2est la

densité conditionnelle de la copule de la paire(U1,U3)sachant que U2=u2évaluée à uj_|2=P(Uj≤

uj|U2=u2), pour j=1, 3. N’importe quel choix de densité bivariée pour c12, c23et c13|2engendre une

densité de copule trivariée valide. De plus, la représentation en (1.10) n’est pas unique. Pour d=3, il y a trois décompositions différentes possibles de la densité c. Plus la dimension augmente, plus il y a de possibilités différentes de décompositions.

L’avantage principale des copules vignes est certainement leur flexibilité. En effet, la construction de copules par paires fournit une grande variété de modèles possibles en tirant profit du nombre impor-tant de décompositions possibles et de la panoplie de familles de copules bivariées exisimpor-tantes dans la littérature. Par contre, il n’est pas toujours clair comment choisir le modèle le plus approprié et comment tester la justesse de ce choix. À noter également que les copules vignes peuvent être plus difficiles à manier que d’autres modèles de copules multivariées et les coûts de calcul nécessaires pour les simulations et l’inférence sont plus importants. En effet, l’estimation de leurs nombreux pa-ramètres nécessite habituellement de longues procédures numériques et les modèles qui en résultent sont souvent difficiles à interpréter. Afin de simplifier l’inférence dans ces modèles, l’hypothèse que les distributions bivariées conditionnelles ne dépendent pas des valeurs conditionnelles est souvent formulée en pratique. Par exemple, dans (1.10), ceci est équivalent à supposer que la copule condi-tionnelle c13|2de la paire(U1,U3)sachant U2=u2est la même pour toute valeur de u2∈[0, 1]. Cette

hypothèse à été étudiée en détail par Acar et coll. (2012) qui rapportent que cette simplification doit être effectuée avec prudence. Pour un portrait plus complet de la construction de copules par paires, le lecteur se référera àKurowicka & Joe(2011).

La suite de ce chapitre se situe dans un contexte de statistique spatiale. Dans ce domaine, on a souvent affaire à des données multivariées de grandes dimensions. On verra comment les stratégies discutées précédemment peuvent être mises à profit afin de gérer de tels ensembles de données.

1.7 La statistique spatiale et les champs aléatoires

Dans un contexte spatial, un phénomène est observé en des lieux de positions connues. Ces lieux pourraient, par exemple, être des stations météorologiques où la force des vents est observée à un

(31)

moment donné. La modélisation statistique utilise alors la position des lieux d’observation de telle sorte que les données mesurées en des lieux géographiquement proches soient plus associées que celles mesurées en des lieux éloignés. Cette modélisation permet entre autres de prévoir la valeur prise par le phénomène à l’étude en une position non échantillonnée à partir des observations effectuées en des lieux voisins. C’est ce qu’on appelle faire de l’interpolation spatiale.

La géostatistique est un domaine particulier de la statistique spatiale. En géostatistique, les données sont échantillonnées irrégulièrement sur une région continue de l’espace géographique. Ces données pourraient, en principe, être mesurées en tout point de cette région. Dans la suite, la région à l’étude sera notée S⊆ Rm_{. Le phénomène observé en une position x}_{∈ S sera noté z}₍_x₎_{. Les méthodes}

sto-chastiques de modélisation spatiale considèrent z(x)comme une observation d’une variable aléatoire Z(x), où Z(x)est vue comme une réalisation d’un processus stochastique{Z(x)|x ∈ S} appelé champ aléatoire. En pratique, le phénomène est observé à n positions x1, . . . , xnde la région S. La

modélisa-tion spatiale repose alors sur l’analyse du vecteur de variables aléatoires(Z(x1), . . . , Z(xn)).

Pour un champ aléatoire{Z(x)|x ∈ S}, on définit la fonction de covariance K(x, y) =Cov{Z(x), Z(y)}, pour tout x, y_{∈ S. Cette fonction de covariance doit être semi-définie positive, c’est-à-dire}

n

∑

i=1 n

∑

j=1 rirjK(xi, xj)≥ 0

pour tout n_{∈ N, tout x}1, . . . , xn∈ S et tous nombres réels r1, . . . , rn. Cette condition vient du fait que

Var ( n

∑

i=1 riZ(xi) ) = n

∑

i=1 n

∑

j=1 rirjK(xi, xj).

Les définitions suivantes concernant des propriétés des champs aléatoires sont tirées deStein(1999).

Définition 6. Un champ aléatoire{Z(x)|x ∈ S} est dit gaussien si, pour tout n ∈ {2,3,...}, la loi jointe de (Z(x1), . . . , Z(xn)), tel quexi∈ S, i ∈ {1,...,n}, est la distribution normale multidimensionnelle

de moyennes(m(x1), . . . , m(xn)), où m(xi) =E{Z(xi)}, et de matrice de covariance Γ telle que Γi j=

K(xi, xj), i, j∈ {1,...,n}.

En géostatistique, la principale difficulté vient du fait qu’on observe généralement une unique réali-sation de (Z(x1), . . . , Z(xn))pour un n fini. Ainsi, afin de pouvoir procéder à l’inférence statistique,

il faudra imposer certaines hypothèses sur le champ aléatoire ; la stationnarité est l’une de ces hypo-thèses. Dans cette thèse, les champs aléatoires sont considérés stationnaires au sens de la définition suivante.

(32)

Définition 7. Un champ aléatoire_{Z(x)|x ∈ S} est stationnaire si, pour tout n ∈ {2,3,...}, tout xi∈ S,

i_{∈ {1,...,n}, et pour tout vecteur de translation s ∈ R}mtel quexi+s∈ S, on a

P{Z(x1)≤ x1, . . . , Z(xn)≤ xn}=P{Z(x1+s)≤ x1, . . . , Z(xn+s)≤ xn}, où (x1, . . . , xn)∈ Rn.

La Définition 7implique que la structure de probabilité de Z est la même dans toutes les régions de S. L’hypothèse de stationnarité a également pour conséquence que la fonction de covariance K(x, y)

dépend uniquement du vecteur séparant x et y, c’est-à-dire K(x, y) =K(x_{− y}).

Une autre hypothèse qui est considérée dans cette thèse est l’isotropie du champ aléatoire. L’isotropie est défini par une invariance de la distribution de probabilité sous une rotation des positions au sens de la définition suivante.

Définition 8. Un champ aléatoire _{Z(x)_{|x ∈ S} est isotrope si, pour tout n ∈ {2,3,...}, tout x}i∈ S,

i_{∈ {1,...,n}, tout vecteur de translation s ∈ R}met toute matrice orthogonale Q_{∈ R}m×mtelle que Qxi+s∈ S, on a

P{Z(Qx1+s)≤ x1, . . . , Z(Qxn+s)≤ xn}=P{Z(x1)≤ x1, . . . , Z(xn)≤ xn}, où (x1, . . . , xn)∈ Rn.

Cette hypothèse implique, entre autres, que la fonction de covariance dépend uniquement de la norme du vecteur séparant x et y, c’est-à-dire K(x, y) =K(kx − yk). Dans ce cas, K est appelée fonction de covariance isotrope et dépend uniquement de la distance entre x et y. L’hypothèse d’isotropie équivaut à assumer que la structure de dépendance de (Z(x1), . . . , Z(xn)) découle directement des distances

entre les positions du champ aléatoire et non de l’orientation relative de ces positions. Dans la suite, le champ aléatoire{Z(x)|x ∈ S} est supposé stationnaire et isotrope au sens des définitions7et8.

À noter que, pout tout x_{∈ S, Var{Z}(x)}=K(0). Ainsi, la corrélation entre Z(xi)et Z(xj)est donnée

par K(δi j)/K(0), où δi j=kxi− xjk est la distance entre xiet xj. On appelle fonction de corrélation

ou corrélogramme la fonction g:[0, ∞)→[0, 1]telle que g(δi j) =corr{Z(xi), Z(xj)}=

K(δi j)

K(0) . (1.11)

Étant donné que K(·)est une fonction semi-définie positive, la fonction de corrélation doit également être semi-définie positive, c’est-à-dire

n

∑

i=1 n

∑

j=1 rirjg(kxi− xjk)≥ 0

(33)

pour tout n∈ N, tout x1, . . . , xn∈ S et tous nombres réels r1, . . . , rn; voirCressie(1993) pour plus de

détails. Une fonction de corrélation g est toujours continue sur (0, ∞)et g(0) =1. À l’origine, elle peut être soit continue ou discontinue. Si

lim

δ→0+

g(δ) =1− ε, où ε > 0,

alors la fonction de corrélation est discontinue à l’origine et ε ∈[0, 1)est appelé l’effet pépite. Un grand effet pépite, c’est-à-dire un saut abrupt à l’origine, dénote une faible ressemblance entre les valeurs très rapprochées.

Plusieurs fonctions de corrélation ont été proposées dans la littérature. La plus populaire est sans contredit la fonction de Matérn, dû àMatérn(1960), qui est donnée par

g_ν(x) = x

ν_K ν(x)

2ν−1Γ₍_ν₎, ν> 0,

où _Kν est la fonction de Bessel modifiée de deuxième espèce. Lorsque ν = 1/2, on retrouve la

fonction de corrélation exponentielle, c’est-à-dire g1/2(x) =exp(−x).Stein(1999) recommande

for-tement l’utilisation de la classe de fonctions Matérn puisqu’elle permet une grande flexibilité quant à la modélisation de champs aléatoires, tout en conservant un nombre raisonnable de paramètres.

On appelle variogramme la fonction

2γ(δi j) =Var Z(xi)− Z(xj) =EhZ(xi)− Z(xj) 2i .

À noter qu’il y a un lien étroit entre le variogramme et le corrélogramme puisque γ(δi j) =K(0)−

K(δi j). En présence d’un effet pépite, on a limδ→0+γ(δ)> 0. Un effet pépite important dénote peut

être interprété comme des erreurs de mesure.

Les méthodes classiques de modélisation spatiale sont principalement basées sur le variogramme. Celui-ci est généralement inconnu et estimé empiriquement à partir de la variance sur la différence des paires d’observations dont la distance se situe dans un intervalle fixé. Le variogramme empirique obtenu est alors comparé à plusieurs modèles théoriques de variogramme dont les paramètres sont généralement estimés par la méthode des moindres carrés. Pour plus de détails, voir par exemple

Ripley(1981) etCressie(1993).

1.8 Modélisation de la dépendance spatiale à l’aide des copules

Le premier à considérer l’utilisation des copules en statistique spatiale comme alternative aux mé-thodes basées sur le variogramme est probablement Bárdossy(2006). Soit{Z(x)|x ∈ S}, un champ

(34)

aléatoire continu, stationnaire et isotrope. L’hypothèse de stationnarité a pour conséquence que la loi marginale de la variable aléatoire Z(x)est la même en tout point x_{∈ S. On notera F}Zcette loi

margi-nale, µZson espérance et σZ2sa variance. En se basant sur le théorème de Sklar, l’unique copule C du

vecteur de variables aléatoires(Z(x1), . . . , Z(xn))est telle que

P(Z(x1)≤ z1, . . . , Z(xn)≤ zn) =C{FZ(z1), . . . , FZ(zn)}, où (z1, . . . , zn)∈ Rn. (1.12)

L’isotropie implique que le niveau de dépendance entre Z(xi)et Z(xj)est rattaché à la distance entre

xiet xj, notée δi j=kxi−xjk, i 6=j∈ {1,...,n}. Ainsi, la copule spatiale C, telle qu’exprimée à (1.12),

dépend des distances entre les postions d’observation_{xi ; i=1. . . , n}. Une famille de copules

per-mettra de modéliser la dépendance spatiale si elle est indicée par l’ensemble des matrices de corréla-tion Σ ∈ Rn×n_{. Ainsi, on pose}_Σ

i j =Σji=g(δi j), où g est une fonction de corrélation (ou fonction

de lien) telle que définie à (1.11). Cette-ci retourne la corrélation attendue entre Z(xi)et Z(xj)selon

la distance δi j entre xi et xj. Le fait que cette fonction est semi-définie positive assure que la matrice

de corrélationΣ sera définie positive.

Soit Cg(δi j)la copule de Z(xi)et Z(xj), i6= j∈ {1,...,n}. On s’attend à ce que Z(xi)et Z(xj)soient

dépendantes positives parfaites lorsque la distance δi jest très petite. À cette fin, on impose que Cg(0)= C1=M, où M est la borne supérieure de Fréchet–Hoeffding bivariée. De plus, Z(xi)et Z(xj)devraient

être indépendantes lorsque δi j est très grande. Ainsi, on impose également que

lim

δi j→∞

C_g₍_δ_{i j}₎=Π,

oùΠ est la copule d’indépendance bidimensionnelle, pour tout i 6= j_{∈ {1,...,n}.}

Parmi les familles de copules décrites à la Section1.3, les copules Archimédiennes ne peuvent être utilisées afin de modéliser de la dépendance spatiale. En effet, pour ces modèles, les niveaux de dé-pendance sont les mêmes pour chacune des distributions marginales bivariées. Les copules elliptiques, quant à elles, permettent une modélisation flexible des lois marginales bidimensionnelles par le biais d’une matrice de corrélation. Par contre, seule la copule normale atteint l’indépendance lorsque la corrélation est nulle. Pour cette raison, seule la copule normale est considérée parmi celles-ci pour modéliser de la dépendance spatiale. Quelques auteurs, tels que Bai et coll. (2014), ont considéré la copule normale afin de bâtir des modèles multivariés spatiaux.

Une autre copule possédant toutes les qualités requises afin de modéliser de la dépendance spatiale est la copule khi-carré telle qu’introduite par Bárdossy (2006). Celle-ci est obtenue en élevant au