• Aucun résultat trouvé

Mesures d'association pour des modèles de copules multidimensionnelles

N/A
N/A
Protected

Academic year: 2021

Partager "Mesures d'association pour des modèles de copules multidimensionnelles"

Copied!
120
0
0

Texte intégral

(1)

Mesures d’association pour des modèles de

copules multidimensionnelles

Thèse

Héla Romdhani

Doctorat en Mathématiques

Philosophiæ doctor (Ph.D.)

Québec, Canada

© Héla Romdhani, 2013

(2)
(3)

Résumé

Dans cette thèse nous nous intéressons à la mesure de dépendance sous des modèles de copules. Nous y traitons trois problèmes : la mesure d’association dans le cas bidimen-sionnel en présence de seuils de détection, la mesure d’association pour des données en grappes et la mesure d’association pour des données hiérarchiques.

Le premier problème, indépendant des deux autres, concerne la mesure d’association entre deux variables sujettes à une censure à gauche fixe due à l’existence de seuils de détection. Nous définissons une version conditionnelle du tau de Kendall permettant de mesurer l’association entre de telles variables. Nous en proposons un estimateur non paramétrique et en étudions les propriétés asymptotiques. Nous supposons, ensuite, un modèle de copule Archimédienne et en déduisons un estimateur pour le tau de Kendall global. Un test d’ajustement de copules à ce type de données est développé.

Le deuxième problème traite de la mesure d’association dans un cadre multidimen-sionnel pour des données en grappes telles que les observations à l’intérieur de chaque groupe sont échangeables. Pour cela, nous introduisons le tau de Kendall échangeable comme une mesure d’association intra-classe et présentons un estimateur non paramé-trique pour cette mesure. Ses propriétés asymptotiques sont étudiées sous un modèle de copules multidimensionnelles caractérisées par une propriété appelée échangeabi-lité. Nous en déduisons un estimateur du cœfficient de corrélation intra-classe pour des données provenant d’une distribution elliptique. Nous dérivons ses propriétés asymp-totiques sous un modèle ANOVA généralisé à un facteur. Enfin, nous développons un test d’indépendence basé sur le tau de Kendall.

Le troisième problème est une extension du deuxième au cas de données hiérarchiques avec des sous-groupes imbriqués dans des groupes, dans le cas où les unités à l’inté-rieur de chaque sous-groupe sont échangeables et où les sous-groupes appartenant à un même groupe sont, eux mêmes, échangeables. Nous définissons alors deux mesures d’association basées sur le tau de Kendall échangeable et en proposons des estimateurs

(4)

non paramétriques. Nous étudions les propriétés asymptotiques de ces estimateurs sous des modèles de copules hiérarchiques vérifiant certaines propriétés d’échangeabilité par-tielle. Pour les données provenant de copules meta-elliptiques hiérarchiques, nous dédui-sons des estimateurs pour les cœfficients de corrélation intra-classe associés aux groupes et aux sous-groupes respectivement. Nous développons, enfin, des procédures de tests pour les effets de groupes et de sous-groupes.

(5)

Abstract

In this thesis we are interested in measuring the dependence under copula models. We deal with three problems: the measure of association in the bivariate case in the presence of lower detection limits, the measure of association for clustered data and the measure of association for two-level hierarchical data.

The first problem, independent of the other two, deals with the measure of associa-tion between two variables subject to fixed left censoring due to the presence of lower detection limits. We define a conditional version of Kendall’s tau to measure the asso-ciation between such variables. We provide a nonparametric estimator of this measure and study its asymptotic properties. We then assume an Archimedean copula model and deduce an estimator for the copula’s Kendall’s tau. A goodness-of-fit test for the assumed copula is developed.

The second problem deals with the measure of intra-class association for clustered data such that observations within each group are exchangeable. For this, we introduce an exchangeable version of Kendall’s tau as a measure of intra-class dependance and provide a nonparametric estimator for this measure. Its asymptotic properties are investigated under a multivariate exchangeable copula model. We derive an estimator of the intra-class correlation coefficient for data drawn from an elliptical distribution. The asymptotic properties of this estimator are investigated under a generalized one-way ANOVA model. Finally, we develop an intra-class independence test based on Kendall’s tau.

The third problem is an extension of the second to the case of hierarchical data with a set of subgroups nested into groups, such that the units within each subgroup are exchangeable and the subgroups belonging to the same group are themselves exchange-able. We define two association measures based on the exchangeable Kendall’s tau and propose nonparametric estimators for these measures. We investigate their asymp-totic properties under hierarchical copula models satisfying some properties of partial

(6)

exchangeability. For data drawn from meta-elliptical hierarchical copulas we deduce es-timators for the intra-class correlation coefficients associated to groups and subgroups respectively. We also develop procedures for testing the effects of groups and subgroups.

(7)

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures xi

Remerciements xvii

Avant-propos xix

Introduction 1

1 Les copules et le tau de Kendall 7

1.1 Les copules bidimensionnelles et le tau de Kendall . . . 7

1.2 Les copules Archimédiennes . . . 9

1.3 Les copules Meta-elliptiques . . . 15

2 Étude de l’association entre deux variables avec seuils de détection 21 2.1 Introduction . . . 22

2.2 Nonparametric approach . . . 23

2.3 A copula model approach . . . 24

2.4 Numerical investigations . . . 29

2.5 Conclusion . . . 32

3 Un tau de Kendall échangeable pour des données en grappes 35 3.1 Introduction . . . 36

3.2 Copula models for clustered data . . . 37

3.3 An estimator for the exchangeable Kendall’s τ . . . 40

3.4 Estimation of the intra cluster correlation . . . 42

3.5 Hypothesis tests . . . 46

3.6 Illustration. . . 49

(8)

4 Tau de Kendall pour des données hiérarchiques 53 4.1 Introduction . . . 54 4.2 Copula models for nested data . . . 55 4.3 Estimators for Kendall’s tau . . . 59 4.4 Estimators for the intra cluster correlations for elliptical distributions . 66 4.5 Hypothesis tests . . . 67 4.6 Illustration. . . 71 4.7 Conclusion . . . 72

Conclusion 73

A Matériel Supplémentaire 75

A.1 Matériel supplémentaire pour le chapitre III . . . 75 A.2 Matériel supplémentaire pour le chapitre IV . . . 77

B Preuves 81

B.1 Proofs of chapter II . . . 81 B.2 Proofs of chapter III . . . 83 B.3 Proofs of chapter IV . . . 88

(9)

Liste des tableaux

1.1 Quelques familles de copules Archimédiennes . . . 10

1.2 Fonction K et le tau de Kendall pour quelques copules Archimédiennes . . 11

2.1 Value of τb under a Gumbel copula. . . 29

2.2 Simulations results for the performance of ˆτb, ˆα and ˆτ . . . 30

2.3 Percentage of rejection of various null hypotheses at the 5% level. . . 31

3.1 Number of generated clusters of each size . . . 45

3.2 Simulations results for the performance of ˆρτ,1, ˆρτ,2 and ˆρm . . . 45

3.3 Details for Pitman efficiency calculation. . . 47

3.4 Pitman efficiencies of the ˆτd based test with respect to the ˆρm based test . 47 3.5 p-values of the ˆτd,1 and ˆτd,2 based tests and ANOVA test.. . . 50

4.1 Simulations results for the performance of ˆτ1, ˆτ1′, ˆτ2 and ˆτ2′ . . . 65

4.2 Simulations results for the performance of ˆρ1,τ, ˆρ1, ˆρ2,τ and ˆρ2 . . . 67

4.3 Values of ρ1 for various copulas and marginal distributions . . . 70

4.4 Pitman efficiencies . . . 71

4.5 Estimates of τ1 and τ2 with the two weightings . . . 71

4.6 P-values . . . 72

A.1 Resultats additionnels pour la performance de ˆρτ,1, ˆρτ,2 et ˆρm . . . 75

A.2 Resultats additionnels pour la performance de ˆρ1,τ, ˆρ1, ˆρ2,τ et ˆρ2 . . . 79

B.1 Covariances needed to compute the asymptotic variance of ˆτd . . . 84

B.2 Expectations needed to compute V ar[ˆτ2] . . . 86

B.3 Covariances needed to compute the asymptotic variance of ˆτ1 . . . 92

B.4 Covariances needed to compute the asymptotic variance of ˆτ2 . . . 92

(10)
(11)

Liste des figures

1.1 Structure en arbre d’une copule Archimédienne totalement imbriquée . . . 13

1.2 Structure en arbre d’une copule Archimédienne partiellement imbriquée . 15 2.1 Relative bias of τb. . . 26

2.2 Nonparametric and copula-based estimators of K . . . 32

3.1 Power deviation of the ˆτd based test from the ANOVA test . . . 48

3.2 Power deviation of the ˆτd based test from the ANOVA test . . . 49

4.1 Powers of the tests for Hs 0 . . . 69

4.2 Powers of the tests for Hc 0 . . . 70

A.1 Comparaison des trois tests : celui basé sur ˆτd,KW et ANOVA, Clayton . . 76

A.2 Comparaison des trois tests : celui basé sur ˆτd,KW et ANOVA, Frank . . . 77

(12)
(13)

À ma Tunisie, celle des lumières...

(14)
(15)

Lorsqu’un jour le peuple veut vivre, Force est pour le Destin, de répondre, Force est pour les ténèbres de se dissiper, Force est pour les chaînes de se briser. Avec fracas, le vent souffle dans les ravins, au sommet des montagnes et sous les arbres, disant : "Lorsque je tends vers un but, je me fais porter par l’espoir

et oublie toute prudence ;

Je n’évite pas les chemins escarpés et n’appréhende pas la chute dans un feu brûlant.

Qui n’aime pas gravir la montagne, vivra éternellement au fond des vallées". Abou El Kacem Chebbi,

extrait du poème "La volonté de vivre". Traduit de l’arabe par S. Masliah.

Abou El Kacem Chebbi, est un poète tunisien qui a vécu pendant la colonisation française. Ses poèmes chantaient en particulier l’amour et la liberté, et incitaient à la résistance. Les quatre premiers vers de ce poème font partie de l’hymne national tunisien, et ont été hissés et chantées par les protestataires pendant la révolution tunisienne. Les deux derniers vers ont marqué mon enfance, mon père nous les a toujours répétés. Ce poème a été écrit à Tabarka le 16 septembre 1933. Le poète était alors malade et en convalescence. Il est mort le 9 octobre 1934 à Tunis à l’âge de vingt-cinq ans.

(16)
(17)

Remerciements

Je tiens à remercier Lajmi Lakhal-Chaieb et Louis-Paul Rivest pour tout le savoir qu’ils m’ont si généreusement transmis, leur encadrement si efficace et leurs conseils si pertinents, pour leur grande disponibilité, leur confiance et leur soutien. Leur rigueur scientifique et leur savoir faire m’ont été très avantageux. Merci de m’avoir poussée à me surpasser. Merci d’avoir été compréhensifs pendant la période où la révolution a éclaté en Tunisie et que mon "rendement" avait considérablement baissé.

J’exprime aussi ma gratitude au département de mathématiques et de statistique de l’Université Laval, ainsi qu’à plusieurs organismes (FQRNT, CRSNG, ISM) pour leur soutien financier sans lequel ce travail n’aurait pu être mené à bien.

Je remercie tous les membres du département de mathématiques et de statistique avec qui j’ai eu la chance de travailler et d’enseigner, merci à Christian Genest, à Thierry Duchesne, à Rachid Kandri-Rody, à Meriem Said, mais surtout à Emmanuelle Reny-Nolin et à Claude Bélisle. J’ai beaucoup appris de vous. Merci à tous les membres du personnel du département et particulièrement à Sylvie Drolet et Michel Lapointe qui n’ont jamais hésité à déployer tous les moyens pour me venir en aide.

Ma plus grande reconnaissance va à mes parents à qui je dois toutes mes réussites si modestes qu’elles soient. Papa tu es un homme exceptionnel et d’une sagesse rare. Tu m’as transmis ta rigueur et m’as appris à être fidèle à moi-même. Maman tu es le "nour" de mes yeux, ton affection et ta tendresse ont fait de moi cette personne si sensible et aimante. Je suis chanceuse de vous avoir comme parents et j’espère être à la hauteur de vos attentes. Mes frères Haythem et Mohamed, je vous remercie pour votre soutien incessant, notre complicité m’a toujours était précieuse. Haythem, tes idées diaboliques quand nous étions enfants me donnent encore le sourire et ta grande affection m’a toujours marquée. Mohamed, ta folie, ton humour et ta sensibilité font de toi une personne phénoménale, merci pour ton soutien. Je vous aime énormément tous les deux. Merci à mes belles-soeurs Sabrine et Barbara pour les beaux moments

(18)

que nous passons ensembles mais surtout pour être à côté de mes frères alors que je suis loin. Merci à mes petites nièces Kenza et Alma pour les doses de bonheur et de joie qu’elles nous apportent, je ne me lasserai jamais de vous entendre rire.

À mon cher époux Mahdi, notre amour a grandi en même temps que ce modeste travail, merci de m’avoir soutenue et encouragée, merci d’avoir pris soin de moi pendant mes maladies régulières, merci d’avoir supporté mes sautes d’humeur particulièrement les derniers mois du doctorat. Je suis chanceuse de t’avoir dans ma vie. Sans toi, ces années loin de ma famille auraient été insupportables.

Je remercie également mes beaux-parents et mes belles-soeurs pour leur soutien et leurs prières.

(19)

Avant-propos

La thèse que nous présentons ici contient trois articles. Le premier est écrit en collabo-ration avec M’hamed Lajmi Lakhal-Chaieb, mon directeur de recherche, le deuxième et le troisième avec M’hamed Lajmi Lakhal-Chaieb et Louis-Paul Rivest mon co-directeur de recherche. Le premier de ces articles, présenté au chapitre II, a été publié à la revue Statistics in Medicine, le 20 novembre 2011. Dans ce travail, j’ai participé à l’élaboration de l’idée et à la rédaction, et j’ai fait tous les calculs théoriques et la programmation. Le deuxième, présenté au chapitre III, est soumis à la Revue canadienne de statistique (Canadian Journal of Statistics). En ce qui concerne cet article, j’ai proposé l’idée que j’ai ensuite développée avec mon directeur et mon co-directeur de recherche. J’ai également fait tous les calculs théoriques et la programmation. J’ai écrit une première version de l’article qui a été, ensuite, nettement améliorée par mon directeur et mon co-directeur de recherche. Le troisième article, présenté au chapitre IV, est soumis à la revue Journal of Multivariate Analysis. Pour celui-ci, j’ai élaboré l’idée, j’ai fait tous les calculs théoriques et la programmation et j’ai écrit une première version de l’article qui a été, ensuite, révisée par mon directeur et mon co-directeur de recherche. Pour les trois articles, les calculs théoriques ont été minutieusement vérifiés par mon directeur et mon co-directeur de recherche.

(20)
(21)

Introduction

Les copules sont devenues en quelques années un outil important dans la modélisation de la structure de dépendance de deux ou plusieurs variables aléatoires. Depuis les années 90, les applications de la théorie des copules n’ont pas cessé de se multiplier dans différents domaines, par exemple en finance (Embrechts, McNeil, et Straumann, 1999), en hydrologie (De Michele et Salvadori, 2002 et Favre et al., 2004), en analyse de survie (Lakhal-Chaieb, Rivest et Abdous, 2008 et Lakhal-Chaieb, 2010). Pour une revue sur les copules voir Nelson (2006), Joe (1997) et Genest et Favre (2007).

Une copule est un outil permettant de séparer dépendance et comportement marginal. Formellement, les copules ont été introduites par Sklar (1959) par le théorème suivant Théorème 0.1 (Sklar) Soit G une fonction de répartition multidimensionnelle conti-nue de dimension d associée aux variables aléatoires X1, . . . , Xd de fonctions de

ré-partition continues respectives F1, . . . , Fd. Alors il existe une unique fonction continue

[0, 1]d→ [0, 1] satisfaisant

G(x1, . . . , xd) = C{F1(x1), . . . , Fd(xd)} . (1)

La fonction C est appelée copule. Inversement, étant données une copule C et des fonc-tions de répartition unidimensionnelles arbitraires F1, . . . , Fd, la fonction G construite

à partir de (1) est une fonction de répartition de dimension d dont les marges sont F1, . . . , Fd. D’une part, le théorème de Sklar nous permet de décomposer n’importe

quelle fonction de répartition en deux composantes : la copule et les marges. Ceci nous permet d’étudier la structure de dépendance indépendamment des marges. D’autre part, ce théorème fournit un outil de construction de familles de lois multidimensionnelles utilisé pour échantillonner des distributions multidimensionnelles à partir de copules. Cette thèse porte essentiellement sur la mesure de la dépendance entre deux ou plusieurs variables à l’aide de modèles de copules dans différents cas de figure. Le coefficient de

(22)

corrélation de Pearson pour une paire de variables aléatoires (X, Y ), donné par ρ = Cov(X, Y )

pV ar(X)V ar(Y ),

est probablement la mesure de dépendance la plus populaire vu la facilité de son calcul. Cependant, ce coefficient ne mesure que la dépendance linéaire. L’utilisation de cette mesure est alors naturelle dans le cas de distributions elliptiques bidimensionnelles comme la distribution normale et la distribution t. Mais quand la distribution conjointe de deux variables aléatoires ne suit pas une loi elliptique, l’utilisation du coefficient de corrélation de Pearson n’est pas adéquate et mène à des conclusions erronées. Plusieurs mesures alternatives peuvent alors être utilisées (Nelson, 2006) notamment le tau de Kendall et le rho de Spearman (Kendall et Stuart, 1963, Kruskal, 1958, Hollander et Wolfe, 1973 et Lehmann, 1975).

Soient (X1, Y1) et (X2, Y2) deux copies indépendantes de (X, Y ). Le tau de Kendall

entre X et Y est défini par

τ = P [(X1− X2)(Y1− Y2) > 0]− P [(X1− X2)(Y1− Y2) < 0] . (2)

Cette mesure, prenant ses valeurs dans [−1, 1], est basée sur la notion de concordance associée au cas où les grandes valeurs d’une variable aléatoire sont associées à de grandes valeurs de l’autre. La discordance, elle, réfère au cas où les grandes valeurs de l’une sont associées aux petites valeurs de l’autre. Le tau de Kendall est donc la différence entre la probabilité de concordance et celle de discordance des deux paires (X1, Y1) et (X2, Y2).

Il s’écrit aussi

τ =−1 + 4P [X1 < X2, Y1 < Y2] . (3)

Le rho de Spearman est aussi une mesure de dépendance reliée à la notion de concor-dance ; il est donné par

ρs = 3{P [(X1− X2)(Y1− Y3) > 0]− P [(X1− X2)(Y1− Y3) < 0]} , (4)

où (X1, Y1), (X2, Y2) et (X3, Y3) sont des copies indépendantes de (X, Y ). Notons que

les variables X2 et Y3 sont indépendantes et que, par conséquent, la paire (X2, Y3) n’a

pas la même distribution que (X, Y ).

Dans cette thèse, la mesure de dépendance principalement utilisée est le tau de Ken-dall. À partir d’un échantillon de taille n, le tau de Kendall est estimé par sa

(23)

ver-sion échantillonnale en comptant le nombre Nc de paires concordantes, c-à-d

véri-fiant (X1 − X2)(Y1− Y2) > 0 et le nombre Nd de paires discordantes, c-à-d vérifiant

(X1− X2)(Y1− Y2) < 0. L’estimateur du tau de Kendall est donc donné par

ˆ

τ = 2(Nc − Nd) n(n− 1) .

Dans le chapitre II, nous traitons le cas de paires (X, Y ) sujettes à une censure à gauche fixe due à l’existence de seuils de détection. Ce problème survient par exemple dans le cadre des études sur les charges virales du VIH. En effet, le charges virales X et Y des patients soumis à un traitement antirétroviral intensif ne peuvent être mesurées si elles sont inférieures aux seuils de détection connus LX et LY, respectivement. Les variables

X et Y sont alors dites censurées à gauche par des seuils fixes LX et LY. Dans ce cas,

on ne peut observer que max(X, LX) et max(Y, LY). La relation entre X et Y est alors

complètement non observée si X < LX ou Y < LY. Pour mesurer l’association entre

de telles variables, Chu, Nie et Zhu (2008) et Nie, Chu et Korostyshevskiy (2008) ont proposé de considérer les mesures non observées comme des répétitions et d’adapter l’estimateur du tau de Kendall avec correction pour les égalités, proposé par Gibbons et Chakraborti (2003), ˆ τc = 2(Nc− Nd) q Q2 k=1[n(n− 1) − mk(mk− 1)] , (5)

où m1 (respectivement m2) est le nombre d’observations de la variable X

(respective-ment Y ) qui tombent sous le seuil LX (respectivement LY). Mais cet estimateur ne

converge pas vers une quantité connue. De plus son comportement asymptotique n’a pas été établi. Nous proposons alors une version du tau de Kendall définie conditionnel-lement à un événement qu’on appellera ordorabilité. Un estimateur du tau de Kendall est déduit. Nous en étudions les propriétés asymptotiques pour les modèles de copules Archimédiennes et développons un test pour ajuster les copules à ce type de données. Le chapitre III traite de la mesure d’association dans un cadre multidimensionnel pour des données en grappes telles que les observations à l’intérieur de chaque groupe sont échangeables. Pour cela nous utilisons des modèles de copules échangeables multidimen-sionnelles. Une copule est dite échangeable si pour toute permutation {π(1), . . . , π(d)} des entiers {1, . . . , d}, on a C(u1, . . . , ud) = C(uπ(1), . . . , uπ(d)). Deux grandes classes

de copules multidimensionnelles vérifient cette propriété : les copules meta-elliptiques multidimensionnelles (voir Embrechts, Lindskog, et McNeil, 2003) associées à une ma-trice d’équi-corrélation et les copules Archimédiennes multidimensionnelles (McNeil et

(24)

Ne˜slehová, 2009). Une copule meta-elliptique est une copule associée à une distribu-tion elliptique multidimensionnelle. La plupart des copules elliptiques ne peuvent être données explicitement à cause de l’écriture sous forme d’intégrales de la fonction de ré-partition conjointe et des marges des lois elliptiques multidimensionnelles. Les copules Archimédiennes jouent, en pratique, un rôle très important. En effet, contrairement aux copules meta-elliptiques, les copules Archimédiennes multidimensionnelles sont données explicitement en fonction d’un générateur. Dans le cas que nous considérons, toutes les paires provenant d’un même groupe sont caractérisées par le même degré de dépen-dance. Pour le mesurer Kendall et Babington Smith (1940) ont proposé une version du tau de Kendall multidimensionnel calculé comme la moyenne des tau de Kendall bidimensionnels associés à toutes les paires,

Td= 1 d(d− 1) X r6=s τ (Xr, Xs), (6)

où τ(Xr, Xs) dénote le tau de Kendall (3) associé à la paire (Xr, Xs). D’autre part, Joe

(1990) a défini un ordre de concordance multidimensionnelle et l’a utilisé pour proposer une extension directe de (4) en dimension d ≥ 2.

Mais ces deux versions ne sont pas adaptées au cas de données en grappes puisqu’elles ne sont pas invariables aux permutations à l’intérieur d’un même groupe. Nous défi-nissons, alors, une version échangeable du tau de Kendall permettant de mesurer la dépendance intra-classes dans le cas de données en grappes. Nous en déduisons un estimateur du cœfficient de corrélation intra-classe pour des données provenant d’une copule meta-elliptique. Le cœfficient de corrélation intra-classe, ou ICC, est le coefficient de corrélation linéaire commun à toutes les paires provenant d’un même groupe. Dans un contexte d’analyse de la variance, l’ICC correspond à la proportion de la variance totale due au facteur "groupe". Un test semi-paramétrique d’indépendance intra-classe basé sur le tau de Kendall est déduit. Nous le comparons au test ANOVA à l’aide de si-mulations mais aussi théoriquement avec des calculs d’efficacité de Pitman. Ces calculs d’efficacité sont très utilisés pour évaluer les performance des tests non-paramétriques, voir par exemple Quessy (2010).

Nous étendons, dans le chapitre IV, les méthodes proposées dans le chapitre III au cas de données hiérarchiques avec des sous-groupes imbriqués dans des groupes, dans le cas où les unités à l’intérieur de chaque sous-groupe sont échangeables et où les sous-groupes appartenant à un même groupe sont, eux mêmes, échangeables. Nous

(25)

uti-lisons alors la famille des copules Archimédiennes hiérarchiques et celle des copules meta-elliptiques hiérarchiques pour modéliser la structure de dépendance. En effet, des copules Archimédiennes peuvent, sous certaines conditions, être imbriquées les unes dans les autres. Bandeen-Roche et Liang (1996) ont proposé une extension des copules Archimédiennes adaptée aux données hiérarchiques dans le cadre d’analyse de survie multidimensionnelle. Les copules Archimédiennes hiérarchiques ont été, ensuite, discu-tées par Joe (1997), Embrechts, Lindskog and McNeil (2003), Whelan (2004), etc. . .. Les copules meta-elliptiques hiérarchiques sont, elles, construites en imposant une struc-ture hiérarchique directement sur leurs matrices de covariance. Cette construction est aussi soumise à des conditions. Ces deux familles de copules hiérarchiques permettent de contourner la propriété d’échangeablité "totale" des copules multidimensionnelles et ainsi de modéliser des structures de dépendance hiérarchiques. Dans ce cadre, il existe deux types de dépendance à mesurer : celle associée aux sous-groupes et celle associée aux groupes. Par conséquent, deux mesures d’association sont à estimer : celle associée aux unités d’un même sous-groupe et celle associée aux unités prove-nant de sous-groupes différents d’un même groupe. Nous proposons deux estimateurs non-paramétriques de ces mesures d’association, invariables aux permutations à l’inté-rieur des sous-groupes et aux permutations entre les sous-groupes d’un même groupe. Pour les copules meta-elliptiques hiérarchiques, nous déduisons des estimateurs des cœf-ficients de corrélation intra-classe associés, ainsi que des procédures de tests pour les effets des facteurs "groupe" et "sous-groupe".

(26)
(27)

Chapitre 1

Les copules et le tau de Kendall

1.1

Les copules bidimensionnelles et le tau de

Kendall

1.1.1

Les copules bidimensionnelles

Une copule bidimensionnelle peut être définie de deux façons. Par sa construction, à partir du théorème de Sklar, et donc comme l’unique fonction C de [0, 1]2 → [0, 1]

permettant d’écrire la fonction de répartition conjointe G d’une paire (X, Y ) en fonction des marges continues FX et FY,

G(x, y) = C{FX(x), . . . , FY(y)} , (1.1)

ou par la définition suivante.

Définition 1 La copule C : [0, 1]2 → [0, 1] est une fonction de répartition

bidimension-nelle dont les marges U et V sont uniformes sur [0, 1]. En utilisant les notations de (1.1), U = F−1

X (X) et V = FY−1(X). De manière

équiva-lente, une copule bidimensionnelle vérifie les caractéristiques annoncées dans le théo-rème suivant.

Théorème 1.1 Une copule bidimensionnelle C est une fonction de [0, 1]2 → [0, 1]

pos-sédant les caractéristiques suivantes • C(u, 0) = C(0, v) = 0, ∀u, v ∈ [0, 1],

(28)

• C(u, 1) = u, ∀u ∈ [0, 1], • C(1, v) = v, ∀v ∈ [0, 1],

• C est une fonction 2-croissante, c-à-d. ∀ 0 ≤ u1 ≤ v1 ≤ 1 et 0 ≤ u2 ≤ v2 ≤ 1 on

a C(v1, v2)− C(v1, u2)− C(u1, v2) + C(u1, u2)≥ 0.

Les deux premières conditions s’interprètent graphiquement comme des conditions de bord. Dans la troisième, la quantité C(v1, v2)− C(v1, u2)− C(u1, v2) + C(u1, u2) est

la probabilité que (U, V ) appartienne au rectangle [u1, v1]× [u2, v2] et est appelée

C-volume du rectangle. Cette propriété permet de démontrer que la densité de la copule est positive. La densité de la copule, souvent dénotée c(u, v), est définie par c(u, v) = ∂C(u, v)/∂u∂v. Pour plus de détails concernant ces conditions, consulter Nelson (2006). Donnons comme premier exemple la copule d’indépendance donnée par C0(u, v) =

uv,∀(u, v) ∈ [0, 1]2. Par le théorème de Sklar, cette copule correspond au cas où les

deux variables X et Y sont indépendantes. Cette copule vérifie bien les conditions énumérées au Théorème 1.1. Il est aussi possible de coupler les fonctions de survie. Il existe en effet une fonction ¯C : [0, 1]2 → [0, 1] telle que

P [X > x, Y > y] = ¯C (P [X > x], P [Y > y]) .

La fonction ¯C est appelée copule de survie et il est facile de démontrer que ¯C(u, v) = u + v− 1 + C(1 − u, 1 − v).

1.1.2

Propriétés des copules

Proposition 1.1 (Bornes de Fréchet-Hoeffding) Soit C une copule, alors pour tout (u, v)∈ [0, 1]2,

max(u + v− 1, 0) < C(u, v) < min(u, v).

Ces deux bornes sont elles mêmes des copules, elles sont souvent dénotées M(u, v) = min(u, v) et W (u, v) = max(u + v− 1, 0) et appelées bornes de Fréchet-Hoeffding. Elles correspondent respectivement aux cas extrêmes U = V et U = 1 − V .

Les copules sont aussi caractérisées par leur invariance aux transformations strictement croissantes des variables aléatoires. Soit CXY la copule associée à une paire (X, Y ) et

soient h1 et h2 deux fonctions strictement croissantes dans les domaines de définition

de X et Y respectivement, alors

(29)

1.1.3

Le tau de Kendall

Soit (X, Y ) une paire de variables aléatoires continues dont la dépendance est caracté-risée par la copule C. Le tau de Kendall (3) entre X et Y ne dépend pas des marges mais seulement de la copule C. En effet,

τ = 4 1 Z 0 1 Z 0

C(u, v)c(u, v)dudv− 1. (1.3)

Notons que l’intégrale ci-haut est égale à l’espérance de C(U, V ) où U, V ∼ U[0,1] de

fonction de répartition conjointe C. On a alors τ = 4E [C(U, V )] − 1. Le tau de Kendall associé à la copule d’indépendance est bien évidemment égal à 0. Pour les copules M et W le tau de Kendall est égal à 1 et −1 respectivement.

Grâce à la propriété d’invariance (1.2), le tau de Kendall est aussi invariant aux transfor-mations strictement croissantes des variables X et Y . Cette propriété n’est pas vérifiée par le coefficient de corrélation de Pearson.

1.2

Les copules Archimédiennes

Dans cette section on présente une classe importante des copules, soit la classe des copules Archimédiennes. Cette classe de copules est largement utilisée dans différents domaines d’application de la statistique. D’abord parce que les copules appartenant à cette classe sont définies explicitement, dans le sens où elles sont des fonctions explicites de (u, v) ∈ [0, 1]2. Mais aussi parce que cette classe rassemble des familles de copules très

variées en terme de structure de dépendance. Voir Genest et MacKay (1986a, 1986b), Joe (1997) et Nelson (2006).

1.2.1

Copules Archimédiennes bidimensionnelles

Définition 2 Soit φ une fonction continue, strictement décroissante de [0, 1] → [0, ∞] telle que φ(1) = 0. Le pseudo-inverse de φ est une fonction φ[−1] : [0,∞] → [0, 1] donnée

par

φ[−1]= (

φ−1(t) si 0≤ t ≤ φ(0),

(30)

Théorème 1.2 Soit φ une fonction continue, strictement décroissante de [0, 1] → [0,∞] telle que φ(1) = 0 et soit φ[−1] son pseudo-inverse. Soit C la fonction de [0, 1]2

[0, 1] donnée par

C(u, v) = φ[−1]{φ(u) + φ(v)} . (1.4)

Alors C est une copule si et seulement si φ est convexe.

Les copules de la forme (1.4) sont dites Archimédiennes et la fonction φ appelée géné-rateur de la copule. Si φ(0) = ∞ alors φ[−1] = φ−1. Dans ce cas la fonction φ est dite

générateur stricte et C(u, v) = φ−1{φ(u) + φ(v)} est dite copule Archimédienne stricte.

Dans cette thèse on ne traite que des copules Archimédiennes strictes, on les appellera alors Archimédiennes tout court. Les copules Archimédiennes sont indexées par un ou plusieurs paramètres appelés paramètres de dépendance. Nous limitons les applications aux familles indexées par un seul paramètre de dépendance qu’on note α. La copule d’in-dépendance C0 est une copule Archimédienne générée par φ(t) = − log(t). Le tableau

1.1 présente quelques exemples additionnels de familles de copules Archimédiennes. Table 1.1: Quelques familles de copules Archimédiennes

Copule φα(t) Cα(u, v) α

Clayton t−α−1

α (u

−α+ v−α− 1)−1

α α > 0

Gumbel (− log t)α+1 expn− [(− log u)α+1+ (− log v)α+1]α+11

o

α≥ 0

Frank − logexp −αt−1

exp −α−1



−1

αlog

n

1 + (exp −αu−1)(exp −αv−1)exp −α−1 o α6= 0

Outre les propriétés énumérées dans la section 1.1.2, les copules Archimédiennes véri-fient les deux propriétés suivantes :

• la symétrie : Cα(u, v) = Cα(v, u),∀ u, v ∈ [0, 1],

• l’associativité : Cα{u, Cα(v, w)} = Cα{Cα(v, u), w}, ∀ u, v, w ∈ [0, 1]

Ces deux propriétés sont importantes, surtout pour la construction de généralisations des copules Archimédiennes à des dimensions supérieures à 2. Voir la section 1.2.2. Dans la proposition suivante, nous introduisons une fonction caractéristique des copules Archimédiennes.

(31)

Proposition 1.2 Soit (U, V ) une paire de variables aléatoires uniformes sur [0, 1] dont la fonction de répartition conjointe est une copule Archimédienne C de générateur φ. Alors la fonction de répartition de la variable aléatoire C(U, V ) est donnée par

Kα(t) = 1−

φα(t)

φ′ α(t)

, ∀t ∈ [0, 1]. (1.5)

La fonction K définie par (1.5) est connue dans la littérature sous le nom de "probability integral transformation". C’est une fonction caractéristique de la copule dans le sens où le générateur peut être retrouvé par transformation inverse,

φα(t) = exp    t Z t0 1 s− Kα(s) ds    ,

pour une constante arbitraire t0 ∈ [0, 1], voir Genest et Rivest (1993).

L’espérance de C(U, V ) est alors donnée par E [C(U, V )] = R1

0

t dK(t). Il s’en suit que pour les copules Archimédiennes,

τ = 1 + 4 1 Z 0 φ(t) φ′(t)dt. (1.6)

Cette relation permet d’écrire le tau de Kendall en fonction du paramètre de dépendance de la copule Archimédienne. Pour les copules de Clayton, Gumbel et Frank, la fonction K et l’expression du tau de Kendall en fonction de α sont données dans le Tableau 1.2, où D1(α) = (1/α)

0 t/{exp (t) − 1} dt est une fonction de Debye de premier ordre.

Table 1.2: Fonction K et le tau de Kendall pour quelques copules Archimédiennes

Copule K(t) τ Clayton t(1−1−t−α α ) α α+2 Gumbel t 1 +α+1log t α α+1

Frank t−α exp (−αt)1−exp (αt) logn1−exp (−αt)1−exp (−α)o 1− 4D1(α)−1

α

1.2.2

Les copules Archimédiennes multidimensionnelles

Les copules Archimédiennes multidimensionnelles généralisent (1.4) en dimension d > 2. Cette généralisation nécessite d’abord la définition des notions de d-monotonicité et de monotonicité complète.

(32)

Définition 3 Une fonction g est dite d-monotone si elle est continue, différentiable jus-qu’à l’ordre d−2 vérifiant (−1)k dkg(t)

dtk ≥ 0, ∀ k = 0, 1, . . . , d−2 et telle que (−1)d−2 d d−2g(t)

dtd−2

est décroissante et convexe.

Définition 4 Une fonction g est dite complètement monotone si elle est continue, admettant des dérivées de tout ordre vérifiant (−1)k dkg(t)

dtk ≥ 0, ∀ k = 0, 1, . . . , ∞.

Soit φα un générateur de copule Archimédienne de paramètre de dépendance α et Cα,d

la fonction de [0, 1]d→ [0, 1] donnée par

Cα,d(u1, . . . , ud) = φ−1α {φα(u1) + . . . + φα(ud)} , (u1, . . . , ud)∈ [0, 1]d. (1.7)

McNeil et Ne˜slehová (2009) ont prouvé que la fonction Cα,d est une copule si et

seule-ment si φ−1 est d-monotone. Elle est alors appelée copule Archimédienne de dimension

d. La copule Cd ainsi construite est une fonction de répartition conjointe de d

va-riables aléatoires uniformément distribuées dans [0, 1] et échangeables. En effet, les co-pules Archimédiennes multidimensionnelles sont échangeables : pour toute permutation uπ(1), . . . , uπ(d)

des entiers {1, . . . , d}, Cα,d(u1, . . . , ud) = Cα,d(uπ(1), . . . , uπ(d)).

Il existe une présentation alternative à (1.7) basée sur le résultat suivant. Soit Ψ la transformée de Laplace d’une variable aléatoire positive, alors d’après le théorème de Bernstein (Feller, 1971, p. 439), Ψ est complètement monotone et Ψ(0) = 1 alors φ = Ψ−1 permet d’engendrer une copule Archimédienne de dimension d, ∀d ≥ 2.

Plusieurs auteurs retiennent alors cette notation pour définir les copules Archimédiennes multidimensionnelles

Cα,d(u1, . . . , ud) = ΨαΨ−1α (u1) + . . . + Ψ−1α (ud) , (u1, . . . , ud)∈ [0, 1]d. (1.8)

C’est aussi la notation utilisée dans le chapitre 3 de cette thèse.

1.2.3

Les copules Archimédiennes hiérarchiques

Les copules Archimédiennes totalement imbriquées

Les copules Archimédiennes hiérarchiques sont une généralisation des copules Archi-médiennes multidimensionnelles qui permet de contourner l’échangeabilité totale, c-à-d entre toutes les variables. Une généralisation des copules Archimédiennes multidimen-sionnelles introduite par Joe (1997) et discutée dans Embrechts, Lindskog and McNeil

(33)

(2003) et Whelan (2004) est les copules Archimédiennes totalement imbriquées. La gé-néralisation peut se faire de manière équivalente à partir de (1.7) ou de (1.8). Une copule Archimédienne totalement imbriquée de dimension d ≥ 3 nécessite d − 1 générateurs (associés aux d − 1 niveaux d’imbrication) et est construite en ajoutant de manière récursive une dimension pour chaque niveau d’imbrication :

C (u1, . . . , ud; Ψ1, . . . , Ψd−1) = Ψd−1Ψ−1d−1(ud) + Ψ−1d−1{C (u1, . . . , ud−1; Ψ1, . . . , Ψd−2)} ,

(1.9) pour tout (u1, . . . , ud) ∈ [0, 1]d. D’après Joe (1997), la fonction définie par (1.9) est

une copule si Ψi, i = 1, . . . , d− 1 et Ψ−1i ◦ Ψi−1

′

, i = 2, . . . , d− 1 sont complètement monotones.

Par exemple, une copule Archimédienne totalement imbriquée de dimension d = 4 s’écrit

C (u1, . . . , u4; φ1, . . . , φ3) = φ−13 φ3(u4) + φ3 φ−12 [φ2(u3) + φ2{φ1(u1) + φ1(u2)}] .

La structure en arbre de cette copule est représentée dans la figure 1.1.

φ

3

u

4

φ

2

u

3

φ

1

u

2

u

1

Figure 1.1: Structure en arbre d’une copule Archimédienne totalement imbriquée de dimension 4.

Les copules Archimédiennes partiellement imbriquées

Une copule Archimédienne totalement imbriquée de dimension d capture d − 1 dis-tributions bidimensionnelles différentes. Toutefois, certaines structures de dépendance hiérarchiques n’en possèdent pas autant. C’est particulièrement vrai quand les don-nées sont structurées sous forme d’arborescence avec différents sous-groupes imbriqués

(34)

dans un ensemble de groupes. Si on suppose de plus que les unités à l’intérieur d’un même sous-groupe sont échangeables et que les sous-groupes d’un même groupe le sont aussi, il existe alors seulement 2 distributions bidimensionnelles différentes : la distri-bution conjointe de deux variables associées à deux unités d’un même sous-groupe et la distribution conjointe de deux variables associées à deux unités provenant de deux sous-groupes différents d’un même groupe. Dans ce cas, il est suffisant de combiner (1.8) et (1.9). Les copules obtenues sont appelées copules Archimédiennes partielle-ment imbriquées. C’est à cette classe de copules Archimédiennes hiérarchiques qu’on s’intéresse dans le chapitre IV de cette thèse. Dans ce dernier, on utilise les copules Ar-chimédiennes partiellement imbriquées pour modéliser la dépendance quand les données présentent des sous-groupes imbriqués dans des groupes. Chaque groupe i contient ni

sous-groupes tels que le sous-groupe j du groupe i est de taille mij. Les copules

Archi-médiennes partiellement imbriquées permettent de modéliser la dépendance à l’intérieur de chaque sous-groupe par une copule Archimédienne multidimensionnelle et de com-biner ces copules par une copule Archimédienne globale associée à chaque groupe. Sa construction nécessite alors deux générateurs Ψ1,α1 et Ψ2,α2 associées aux groupes et aux

sous-groupes, respectivement. McNeil (2008) démontre que la fonction Cα1,α2 donnée

par Cα1,α2 (ui11, . . . , uinimin, mi) = Ψ2,α2Ψ −1 2,α2 ◦ Ψ1Ψ −1 1,α1(ui11) + . . . + Ψ −1 1,α1(ui1mi1) + . . . + Ψ−12,α2 ◦ Ψ1,α1Ψ −1 1,α1(uini1) + . . . + Ψ −1 1,α1(uinimini) , (1.10)

est une copule si Ψi,αi, i = 1, 2 et Ψ

−1

2,α2 ◦ Ψ1,α1

′

sont complètement monotones. Si les générateurs Ψ1,α1 et Ψ2,α2 appartiennent à la même famille Archimédienne alors la

condition Ψ2,α2 ◦ Ψ

−1 1,α1

′

est complètement monotone implique certaines restrictions aux paramètres de dépendance α1 et α2. Pour la plupart des copules Archimédiennes

la condition α1 ≥ α2 est suffisante pour la faisabilité d’une copule Archimédienne

hié-rarchique. Ceci est particulièrement vrai pour les copules de Clayton, de Frank et de Gumbel, voir McNeil (2008). Il est possible de généraliser (1.10) au cas d’une struc-ture à plusieurs niveaux hiérarchiques. La construction de la copule nécessitera alors autant de générateurs que de niveaux d’imbrication et captera autant de distributions bidimensionnelles différentes.

Donnons comme exemple la copule Archimédienne hiérarchique avec dans chaque groupe 3 sous-groupes de 2 observations chacun

(35)

Cα1,α2(ui11, . . . , ui33) = φ −1 2,α2φ2,α2 ◦ φ −1 1 {φ1,α1(ui11) + φ1,α1(ui12)} + φ2,α2 ◦ φ −1 1,α1{φ1,α1(ui21) + . . . + φ1,α1(ui22)} + φ2,α2 ◦ φ −1 1,α1{φ1,α1(ui31) + φ1,α1(ui32)} .

La structure en arbre de cette copule associée au groupe i, est représentée dans la figure 1.2.

φ

2

φ

1

u

i11

u

i12

φ

1

u

i21

u

i22

φ

1

u

i31

u

i32

Figure 1.2: Structure en arbre d’une copule Archimédienne partiellement imbriquée

1.3

Les copules Meta-elliptiques

Les distributions elliptiques forment une famille de distributions multidimensionnelles très riche partageant certaines propriétés de la loi normale multidimensionnelle, mais permettant de modéliser des structures de dépendance non normales. Voir Kelker (1970), Fang, Kotz, et Ng (1987) et Cambanis, Huang, et Simons (1981). Les copules meta-elliptiques sont simplement les copules sous-jacentes aux distributions elliptiques multidimensionnelles, c-à-d extraites, pour des marges données, de ces distributions moyennant le théorème de Sklar ; voir Embrechts, Lindskog, et McNeil (2003).

1.3.1

Les distributions elliptiques

Définition 5 Soient µ un vecteur de Rd, A une matrice d×k telle que Σ = AAT est de

rang k, R une variable aléatoire non négative et U une variable aléatoire, indépendante de R, uniformément distribuée sur l’hypersphère unité de Rk. Alors

X= µ + RAU (1.11)

(36)

À partir de (1.11) on a Cov(X) = AE [R2] Cov(U)AT. Puisque Cov(U) = I

d/d, où Id

est la matrice identité d × d, alors Cov(X) = AATE [R2] /d. Si R est normalisée de

sorte à avoir E [R2] = d, alors Cov(X) = Σ.

Si Σ est de plein rang et que la variable R a une densité, alors la densité de (1.11) existe et s’écrit en tout point z ∈ R :

|Σ|−1

2g(z − µ)TΣ−1(z− µ) ,

où g est uniquement déterminée pas la distribution de R.

Notons que si X suit une loi elliptique multidimensionnelle, alors ses lois marginales sont elliptiques de la même famille que X.

Exemple 1 La loi normale multidimensionnelle : Soit µ ∈ Rk et A une matrice

d× k telle que AAT = Σ est définie positive alors la variable X ∼ N

d(µ, Σ) a une

distribution elliptique puisqu’elle est distribuée comme µ +√BAU, où B ∼ χ2

k et U uniformément distribuée sur l’hypersphère unité de Rk avec B et U

indépendantes.

Si Σ est de plein rang alors la densité de X existe et s’écrit 2π−d/2|Σ|−1 2 exp  −1 2(x− µ) TΣ−1(x− µ)  .

Exemple 2 La loi de Student multidimensionnelle : Si X a la même distribution

que

ν √

BZ, où B ∼ χ2

ν et Z ∼ Nd(0, Σ), avec B et Z indépendantes, alors X est distribuée selon la

loi t de dimension d à ν degrés de liberté et de matrice de covariance ν

ν−2Σ si ν > 2.

Si, de plus, Σ est de plein rang alors la densité de X existe et s’écrit

Γ ν + d 2  n Γν 2 o−1 (πν)−d/2|Σ|−12  1 + 1 ν(x− µ) TΣ−1(x − µ) −ν+d2 , où Γ dénote la fonction gamma définie par Γ(s) =

R

0

(37)

Distributions elliptiques échangeables

Soit X = (X1, . . . , Xd) un vecteur aléatoire de loi elliptique multidimensionnelle de

paramètres µ = 0 et Σ de la forme Σ =       σ2 σ 12 . . . σ12 σ12 σ2 σ12 ... ... ... σ12 σ12 . . . σ2       (1.12) avec −σ2/(d− 1) < σ

12 < σ2. La matrice Σ est alors dite matrice d’équicovariance.

Notons que (1.12) peut aussi s’écrire Σ = (σ2− σ

12)Id+ σ121d1Td,

où 1d est un vecteur d × 1 avec des 1 partout. Dans ce cas, toutes les distributions

marginales de X sont identiques et tout vecteur aléatoire Xπ = (Xπ(1), . . . , Xπ(d)), où

{π(1), . . . , π(d)} est une permutation des entiers {1, . . . , d}, a la même distribution que X. C’est la propriété d’échangeabilité des distributions elliptiques associées à des matrices d’équicovariance.

1.3.2

Les copules Meta-elliptiques

Une copule associée à une distribution elliptique multidimensionnelle est appelée meta-elliptique. En effet, contrairement aux distributions elliptiques dont les marges sont forcément de cette famille, les copules meta-elliptiques peuvent modéliser la dépen-dances entre des marges non elliptiques. Dans cette thèse on s’intéresse aux copules extraites de distributions elliptiques échangeables c-à-d associées à des matrices d’équi-covariance de la forme (1.12). Les copules meta-elliptiques échangeables de dimension d sont souvent définies par rapport à une matrice d’équicorrélation

Σ(ρ, d) = (1− ρ)Id+ ρ1d1Td,

où ρ est le coefficient de corrélation commun à toutes les paires de composantes. En utilisant les notations de (1.12) ce coefficient est donné par ρ = σ12/σ2.

La copule normale

La copule associée à la distribtuion normale de dimension d , d’espérance µ = 0 et de matrice d’équicorrélation Σ(ρ, d) est appelée copule normale de paramètre de

(38)

dépen-dance ρ. Cette copule est alors donnée par

Cρ,d(u1, . . . , ud) = ΦΣ(ρ,d)Φ−1(u1), . . . , Φ−1(ud) , (1.13)

où ΦΣ(ρ,d)est la fonction de répartition conjointe de la distribution normale de dimension

d, de moyenne 0 et de matrice d’équicorrélation Σ(ρ, d) et Φ−1 l’inverse de la fonction de

répartition de la loi normale unidimensionnelle standard. Plus explicitement, la copule normale de dimension d et de paramètre ρ s’écrit

Cρ,d(u1, . . . , ud) = Z Φ−1(u1) −∞ · · · Z Φ−1(ud) −∞ exp−zTΣ(ρ, d)−1z /2 (2π)n/2|Σ(ρ, d)|1/2 dzd. . . dz1. (1.14) La copule t

De même que pour la copule normale, la copule t à ν degrés de liberté et de paramètre ρ est donnée par

Cν,ρ,d(u1, . . . , ud) = tν,Σ(ρ,d)t−1ν (u1), . . . , t−1ν (ud)

(1.15) où tν,Σ(ρ,d) est la fonction de répartition conjointe de la loi t de dimension d à ν degrès

de liberté et de matrice d’équicorrélation Σ(ρ, d) et t−1

ν l’inverse de la fonction de

répartition de la loi t unidimensionnelle de ν degrés de liberté. Le tau de Kendall

Pour les copules meta-elliptiques, il existe une expression explicite reliant le tau de Kendall et le coefficient de corrélation ρ (voir Hult et Lindskog, 2002) :

τ = 2

πarcsin(ρ). (1.16)

En présence de censure à gauche fixe due à l’existence de seuils de détection, Nie, Chu et Kororstyshevskiy (2008) ont démontré que dans le cas d’une copule normale bidimensionnelle, la limite quand n tend vers l’infini de l’estimateur du tau de Kendall τc donné par (5) s’écrit en fonction de ρ comme

A {1 − Φ2(L x)} {1 − Φ2(Ly)} , où A = 2 ∞ Z Lx ∞ Z Ly f (x)f (y){Φ(z1) [1− 2Φ(z2) + Φ(z2c)]− Φ(z1c)Φ(z2c)} dxdy +2 ∞ Z Lx Ly Z −∞ f (x)f (y) [2Φ(z1)− 1] [1 − Φ(z2c)] dxdy

(39)

avec z1 = (x− ρy)/p1 − ρ2, z1c = (Lx− ρy)/p1 − ρ2, z2 = (y− ρx)/p1 − ρ2, z1c =

(Ly − ρx)/p1 − ρ2, Lx et Ly les seuils de détection respectifs de X et Y et f est la

densité de la loi normale standard.

1.3.3

Copules meta-elliptiques hiérarchiques

Il est possible d’imposer une structure hiérarchique directement sur la matrice de corré-lation d’une copule meta-elliptique. Dans le chapitre IV on s’intéresse au cas de données présentant des sous-groupes imbriqués dans un ensemble de groupes. Soit ρ1 le

coeffi-cient de corrélation associé aux sous-groupes et ρ2 le coefficient de corrélation associé

aux groupes. Dans le chapitre IV nous expliquons comment construire une matrice de corrélation permettant de générer la structure hiérarchique voulue et noterons que ρ1 > ρ2 est une condition suffisante pour la construction de cette copule.

(40)
(41)

Chapitre 2

Étude de l’association entre deux

variables avec seuils de détection

Résumé

Dans ce papier nous définissons une version conditionnelle τb du tau de Kendall

permettant de mesurer l’association dans une paire(X, Y ) de variables aléatoires sujettes à une censure à gauche fixe due à l’existence de seuils de détection

infé-rieurs connus. Nous proposons un estimateur non paramétrique deτb et étudions

ses propriétés asymptotiques. Nous supposons, ensuite, un modèle de copule Ar-chimédienne pour(X, Y ) et déduisons une écriture de τben fonction du paramètre

α de la copule mais aussi du taux de censure. Des estimateurs pour α et le tau de Kendall global sont déduits. Un test d’ajustement de copules à ce type de données est développé. La performance à taille finie des méthodes proposées est évaluée par simulations et leur utilisation illustrée sur un vrai jeu de données sur les charges virales du plasma et de la salive.

Abstract

In this paper, we define a conditional version τb of Kendall’s tau to measure the

association in a pair (X, Y ) of random variables subject to fixed left-censoring

due to known lower detection limits. We provide a nonparametric estimator of

τb and investigate its asymptotic properties. We then assume an Archimedean

copula for (X, Y ) and express τb in terms of the copula parameter α and the

(42)

A goodness-of-fit test for the assumed copula is developed. The finite-sample performance of the proposed methods is evaluated by simulations and their use illustrated with a real data set on plasma and saliva viral loads.

2.1

Introduction

Investigating the association between different viral loads is the primary purpose of many HIV studies (see Barroso et al., 2000). Typically, a proportion of these load measurements fall below detection limits due to the intensive use of highly active an-tiretroviral therapy. Such observations are said to be left-censored. Several examples of data with lower detection limits exist in the literature; see Nie, Chu, and Kororsty-shevskiy (2008) and the references therein. For instance, detection limits of liquid chro-matography tandem mass spectrometry yield left-censored measurements of phthalate metabolites in environmental health studies.

Let X and Y denote the two continuous random variables corresponding to the measure-ments with known lower detection limits LX and LY, respectively. Due to left censoring,

one may only observe n independent replications of ( ˜X, ˜Y ), where ˜X = max(X, LX)

and ˜Y = max(Y, LY). Some attempts have been made to provide nonparametric

mea-sures of association between X and Y under this setting. Typically, these are based on Kendall’s tau, equal to τ = E [ψ12] , where ψ12 = sign{(X1−X2)(Y1−Y2)}, sign(u) = −1

if u < 0 and 1 if u > 0 and (X1, Y1) and (X2, Y2) are two independent replications of

(X, Y ). In the presence of fixed left-censoring, the relationship between X and Y is completely missing if X ∈ [0, LX] or Y ∈ [0, LY] and therefore it is impossible to

esti-mate τ nonparametically. However, one may estiesti-mate conditional versions of Kendall’s tau. Chu, Nie and Zhu (2008) and Nie, Chu, and Kororstyshevskiy (2008) adapted the estimator of τ with correction for ties (Gibbons and Chakraborti 2003) to estimate the association by ˆ τc = 2P i<jI(ξij)ψij q Q2 k=1[n(n− 1) − mk(mk− 1)] , (2.1)

where m1 = Pni=1I( ˜X = LX), m2 = Pni=1I( ˜Y = LY), I(·) is the indicator function

and ξij the event {max(Xi, Xj) > LX, max(Yi, Yj) > LY}. Unfortunately, E[ˆτc] does

not converge to a well defined quantity. Furthermore, the asymptotic properties of ˆτc

are not easy to derive and therefore, a resampling procedure is required to estimate its asymptotic variance.

(43)

The first purpose of this paper is to propose an alternative nonparametric measure of association in the presence of lower detection limits, based on an adaptation of the estimator of τ presented by Oakes (2008) to the current setting. The resulting estimator converges to τb = E[ψij|ξij] and its asymptotic properties are derived using standard

U-statistics theory.

Several parametric and semi-parametric models have been proposed in the literature to assess the association when a significant proportion of the measurements fall below the detection limits. Lyles, Williams, and Chuachoowong (2001) assumed a bivariate normal distribution. Chu et al (2005) and Chu, Nie and Zhu (2008) considered mixtures of distribution and Wang (2007) and Nie, Chu, and Kororstyshevskiy (2008) modeled the association via a Clayton and a normal copulas, respectively. The second purpose of this paper is to investigate this association under an arbitrary Archimedean copula for (X, Y ). We express τb in terms of the copula parameter α and the censoring fractions,

px = Pr(X < LX) and py = Pr(Y < LY), respectively. Estimators ˆα and ˆτ of α and

τ , respectively and of their asymptotic variances are deduced and a goodness-of-fit test for the assumed copula is developed.

This paper is organized as follows. In Section 2.2, we discuss the nonparametric ap-proach. In Section 2.3, we present inference procedures under an Archimedean copula for (X, Y ). The finite-sample performance of the proposed methods are evaluated with simulation studies and their use illustrated with a data set on HIV viral loads in Section 2.4. Concluding remarks and final thoughts are presented in Section 2.5.

2.2

Nonparametric approach

In the presence of censoring, it may not be possible to compute ψij for some pairs of

points, making the estimation of τ more difficult; such pairs are called non-orderable, while pairs that can be ordered are orderable. In the context of observations with lower detection limits, one can show that ξij denotes the orderability event. We adapt

the methodology of Oakes (2008) to the current setting and average the ψij’s over the

orderable pairs. The resulting estimator ˆ τb = P i<jI(ξij)ψij P i<jI(ξij) , (2.2)

is the empirical version of τb. This parameter has all the properties of an association

(44)

are positively correlated and τb = 1 if Y is an increasing linear function of X with

probability one.

A first-order Taylor expansion of √ n ( n 2 −1P i<jI(ξij)ψij n 2 −1P i<jI(ξij) −E[ψ12I(ξ12)] P (ξ12) ) yields √ n{ˆτb− τb} = n−3/2 X i<j Qij + op(1), (2.3) where Qij = 2 P (ξ12) I(ξij){ψij − τb}. (2.4)

Therefore, by the one-sample U-statistics theorem (Hoeffding, 1948),√n{ˆτb− τb}

con-verges to N (0, Γ), with Γ consistently estimated by ˆΓ = 2n−3P

k<l<mn ˆQklQˆkm+ ˆQkl

ˆ

Qlm+ ˆQlmQˆkm

o

and ˆQij obtained from (2.4) by plugging in estimators for the unknown

quantities.

Note that a pair of points (i, j) is non-orderable if at least one of the events { ˜Xi =

˜ Xj = LX} or { ˜Yi = ˜Yj = LY} holds. Therefore, X i<j I(ξij) = n 2  −m1 2  −m2 2  +m3 2  ,

where m3 =Pni=1I( ˜Xi = LX; ˜Yi = LY) and ˆτb can be expressed as

2P

i<jI(ξij)ψij

n(n− 1) − m1(m1− 1) − m2(m2− 1) + m3(m3− 1)

, which is comparable to (2.1) in some sense.

2.3

A copula model approach

2.3.1

Model and properties

In the recent years, copula models have become a popular tool to model the dependency in a pair (X, Y ) of continuous random variables. Fields of application include hydrology, finance, actuarial science and health research. According to Sklar (1959), there exists a unique copula such that the joint cumulative distribution function π(x, y) = Pr(X ≤

(45)

x; Y ≤ y) is expressed in terms of the margins FX(x) = Pr(X ≤ x) and FY(y) =

Pr(Y ≤ y) as

π(x, y) =C{FX(x), FY(y)}.

Let U = FX(X) and V = FY(Y ). The cumulative distribution function of C(U, V ) is

known as the integral probability transformation K(t) = Pr{C(U, V ) ≤ t}, 0 ≤ t ≤ 1. Copula families are indexed with a parameter α, which measures the dependency be-tween X and Y . Typically, α = 0 corresponds to the independence copula C0(u, v) =

uv. The parameter α is related to Kendall’s tau by τ = 4R1

0

R1

0 Cα(u, v)cα(u, v)dudv−

1, where cα is the density function associated to Cα. In this paper, we focus on

Archimedean copulas, that is, copulas satisfying

Cα(u, v) = φ[−1]α {φα(u) + φα(v)}, 0 ≤ u, v ≤ 1,

where the generator φα is a convex decreasing function [0; 1] → [0; ∞] such φα(1) = 0

and its generalized inverse defined by φ[−1](t) = φ−1(t) if t ≤ φ(0) and 0 otherwise.

For this class of copulas, the integral probability transformation, expressed as Kα(t) =

t−φα(t)/φ′α(t), characterizes the copula model as one may recover the generator through

φα(t) = exp Z t t0 1 s− Kα(s) ds 

for an arbitrary constant t0 ≥ 0. Furthermore, Kendall’s tau is τ = 4

R1

0 φα(t)/φ′α(t)dt−

1. Examples of such multivariate models include the Clayton and the Gumbel copulas, corresponding to φα(t) = (tα − 1)/α, α > −1 and φα(t) = {− log(v)}α+1, α ≥ 1,

respectively. For these families, Kα(t) is equal to t(1 + α− tα)/α and t{α − log(t)}/α,

0≤ t ≤ 1 and Kendall’s tau to α/(α + 2) and (α − 1)/α, respectively.

In the presence of lower detection limits, only τb is identifiable nonparametically. This

association measure depends on the margins FX and FY only through px = FX(LX)

and py = FY(LY). In Appendix A, we show that, under an Archimedean copula model

for (X, Y ), τb is expressed as τb = C 2 α(px, py)− 4(px+ py)Cα(px, py) + 4(px+ py)− p2x+ p2y + 1 +I(px, py) 1− p2 x− p2y+Cα2(px, py) , (2.5)

(46)

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 Tau relativ e bias p1=p2=0.75 p1=p2=0.5 p1=p2=0.25

Figure 2.1: Relative bias of τb.

where

I(a, b) = 4 × {h1(a, b) + h1(b, a)− h2(a, b) + h3(a, b) + h3(b, a)} ,

h1(a, b) = Z φα(a) 0 φ[−1]α {t + φα(b)} φ′ α{φ[−1](t)} dt, h2(a, b) = Z φα(a) 0 Z φα(b) 0 1 [φ′ α{φ [−1] α (s + t)}]2 dsdt, h3(a, b) = Z φα(a) 0 φ[−1]α (t) φ′ α[φ [−1] α {t + φ(b)}] dt.

Tedious but straightforward computations show that, for the Clayton copula, τb = τ for

all 0 ≤ px, py < 1. It is well known that this family already has other invariance

prop-erties. For instance, Manatunga and Oakes (1996) noticed that E[ψ12|max(Xi, Xj) ≤

px; max(Yi, Yj)≤ py] also equals τ for all 0≤ px, py ≤ 1.

For the Gumbel copula, the expression of τb is complex. In Figure 1, we present the

relative bias (τb− τ)/τ for various values of (px, py). This figure shows that the relative

difference between τb and τ increases for the Gumbel copula with small values of τ and

large values of (px, py).

2.3.2

Estimation of

α

Writing (2.5) as τb = g(α, px, py), one may estimate α by the root of ˆτb = g(α, ˆpx, ˆpy),

(47)

g( ˆα, ˆpx, ˆpy)− g(α, px, py), along with (2.3), yields √n( ˆα− α) = n−3/2Pi<jRij + op(1), where Rij = 2 g100(α, px, py)  1 P (ξ12) I(ξij)(ψij− τb)− g010(α, px, py)  γi+ γj 2 − px  −g001(α, px, py)  βi + βj 2 − py  ,

γk = I(Xk > LX), βk = I(Yk > LY) and glkm(a, b, c) = ∂l+k+mg(a, b, c)/∂al∂bk∂cm.

The asymptotic normality and an estimator for the asymptotic variance of √n( ˆα− α) follow.

A copula-based estimator of τ is then given by 4 R01R1

0 Cαˆ(u, v)cαˆ(u, v)dudv− 1. Its

variance can be consistently estimated using the delta method. However, it turns out that the resulting estimator is quite sensitive to the choice of copula. A misspecification of the dependence structure may lead to biased results. Therefore, there is a need for copula goodness-of-fit tests in the presence of lower detection limits. Such a test is discussed in the next section.

2.3.3

Goodness-of-fit test

With complete observations {(Xi, Yi), i = 1,· · · , n}, Genest, Quessy and Rémillard

(2006) proposed a goodness-of-fit test based on the integral probability transformation. They derived a nonparametric estimator for K as the empirical distribution of the pseudo-observations ˆ Ti = 1 n− 1 X j6=i I(Xj < Xi; Yj < Yi).

Their testing procedure consists of a comparison between ˆK and Kαˆ, where ˆα is a

consistent estimator of α. In the presence of lower detection limits, Wang (2007) developed a procedure for testing a specific dependence structure, e.g., the Clayton survival model. His procedure is based upon a specific preservation property fulfilled only by the tested copula and therefore cannot be generalized to other copula families. In this section, we adapt the methodology of Genest, Quessy and Rémillard (2006) to test the adequacy of an arbitrary Archimedean copula to a data set of observations with lower detection limits. Similarly to τ, K is not identifiable nonparametically under this setting because the missing information is not recoverable. Therefore, our procedure is based on a conditional version of K, somewhat analogous to τb.

The spirit of the pseudo-observations is to provide nonparametric estimators for {π(Xi,

(48)

be estimated only if Xi and Yi are observed, e.g. only if the event {Xi > LX; Yi > LY}

holds and the pseudo-observation is then ˆ Ti = 1 n− 1 X j6=i I( ˜Xj < Xi; ˜Yj < Yi).

Note that for such an index i, the set {( ˜Xj, ˜Yj) : ˜Xj < Xi; ˜Yj < Yi} contains all m3

points satisfying I( ˜Xj = LX; ˜Yj = LY) and therefore, m3/(n− 1) ≤ ˆTi ≤ 1.

The empirical distribution of these pseudo-observations ˆ

K(t) = Pn

i=1I(Xi > LX; Yi > LY)I( ˆTi ≤ t)

Pn

i=1I(Xi > LX; Yi > LY)

. (2.6)

is a non-decreasing step function such that ˆK(t) = 0 for all t < m3/(n − 1) and

ˆ

K(1) = 1. This function is a nonparametric estimator of the conditional integral probability transformation

Kα,px,py(t) = Pr{π(X, Y ) ≤ t|X > LX; Y > LY} = Pr{Cα(U, V ) ≤ t|U > px; V > py}.

In Appendix B, we show that√n{ ˆK(t)− Kα,px,py(t)} converges to a zero mean normal

distribution for all t ∈ [0, 1]. Furthermore, under an Archimedean copula model for (X, Y ), we show in Appendix C that

Kα,px,py(t)× d =            0 if t < a φα(t)−φα(b)−φα(c) φ′ α(t) − t + a if a ≤ t < b −φα(c) φ′ α(t) − b + a if b ≤ t < c t− φα(t) φ′ α(t) − b − c + a if t ≥ c, (2.7)

where a = Cα(px, py), b = min(px, py), c = max(px, py) and d = 1 + a− b − c. This is

a non-decreasing function such that Kα,px,py(t) = 0 for t≤ Cα(px, py) and Kα,px,py(1) =

1. A copula-based estimator of the conditional integral probability transformation is obtained from (2.7) by plugging in estimators for the parameters px, py and α.

Given a data set, one may conduct a goodness-of-fit test based on a comparison of ˆ

K given by (2.6) and Kα,ˆˆpx,ˆpy. Several metrics can be used to measure the distance

between these curves. In the sequel, we shall reject the null hypothesis for large values of Sn = max0≤t≤1| ˆK(t)− Kα,ˆˆpx,ˆpy(t)|. The limiting distribution of this test statistic is

difficult to derive analytically. However, it is possible to use the parametric bootstrap to approximate the associated p-value. This procedure works as follow:

(49)

Step 1. Compute ˆα, ˆpx and ˆpy following the previous section, Kα,ˆˆpx,ˆpy by (2.7) and the

corresponding Sn.

Step 2. Generate B random samples of size n from Cαˆ with uniform margins and lower

detection limits ˆpx and ˆpy and for b = 1, . . . , B, compute ˆα, ˆpx, ˆpy and Kα,ˆˆpx,ˆpy

based on the bth sample, and the corresponding statistics Sn(b).

Step 3. The p-value is PB

b=1I(S (b)

n > Sn)/B.

This algorithm requires the generation of pairs following Cαˆ with lower detection limits

ˆ

px and ˆpy . Such a pair is given by {max(X, ˆpx), max(Y, ˆpy)} where (X, Y ) is generated

from Cαˆ with uniform margins.

2.4

Numerical investigations

2.4.1

Simulations

A first set of simulations was conducted to assess the performance of ˆτb, ˆα and ˆτ .

Bivariate samples of size 50 and 200 were generated following a Clayton and a Gumbel copula with uniform margins and a Kendall’s tau equal to 0.25, 0.50 and 0.75. These values of τ correspond to a copula parameter equal to 2/3, 2, and 6 for the Clayton copula and 4/3, 2 and 4 for the Gumbel copula, respectively. The lower detection limits were set to (0.25, 0.25), (0.25, 0.50) and (0.50, 0.50). For the Clayton copula, one has τb = τ . For the Gumbel copula, the values of τb corresponding to those chosen for τ,

px and py are given in Table 2.1.

Table 2.1: Value of τb under a Gumbel copula.

τ

(px, py) 0.25 0.50 0.75

(0.25, 0.25) 0.273 0.536 0.781 (0.25, 0.50) 0.309 0.588 0.825 (0.50, 0.50) 0.344 0.625 0.841

For each combination of the parameters above, 1000 samples were generated and for each sample, we computed ˆτb, ˆα and ˆτ , along with their estimated variances. Empirical

averages and variances of the estimators, as well as the empirical averages of their estimated variances, are reported in Table 2.2.

Figure

Figure 1.1: Structure en arbre d’une copule Archimédienne totalement imbriquée de dimension 4.
Figure 1.2: Structure en arbre d’une copule Archimédienne partiellement imbriquée
Figure 2.1: Relative bias of τ b . where
Table 2.2: Empirical averages and variances ( × 10 3 ) of τ ˆ b , α ˆ and τ ˆ , along with the empirical averages of their estimated variances ( × 10 3 ) based on 1000 simulated samples
+7

Références

Documents relatifs

Il est nécessaire de faire remarquer que l’on Il est nécessaire de faire remarquer que l’on ne s’intéresse ici qu’aux molécules libres ne s’intéresse ici qu’aux

La méthode SAPI (Statistical Analysis of Propagation of Incidents) a été développée originale- ment pour résoudre le problème de réordonnancement du trafic ferroviaire en

[r]

Ordre d’un élément.. d'ordre infini

L’inventaire consiste à dresser une liste des Hyménoptères parasitoïdes des pucerons associés aux plantes ornementales dans un milieu urbain (ville de Biskra). Cette

Dans ce dernier cas, deux causes essentielles peuvent être évoquées : soit que les méthodes analytiques sont peu précises, soit qu’un ou plusieurs éléments en solutions

Cette empreinte n’est pas parfaite et il peut être nécessaire de traiter par recoupement les informations obtenues par plusieurs méthodes différentes pour acquérir une

Les échantillons sont découpés dans le matériau à l’état de réception, puis ils sont réduit d’un taux ε par laminage sur un laminoir manuel à la température ambiante, avec