• Aucun résultat trouvé

Les distributions elliptiques forment une famille de distributions multidimensionnelles très riche partageant certaines propriétés de la loi normale multidimensionnelle, mais permettant de modéliser des structures de dépendance non normales. Voir Kelker (1970), Fang, Kotz, et Ng (1987) et Cambanis, Huang, et Simons (1981). Les copules meta-elliptiques sont simplement les copules sous-jacentes aux distributions elliptiques multidimensionnelles, c-à-d extraites, pour des marges données, de ces distributions moyennant le théorème de Sklar ; voir Embrechts, Lindskog, et McNeil (2003).

1.3.1

Les distributions elliptiques

Définition 5 Soient µ un vecteur de Rd, A une matrice d×k telle que Σ = AAT est de

rang k, R une variable aléatoire non négative et U une variable aléatoire, indépendante de R, uniformément distribuée sur l’hypersphère unité de Rk. Alors

X= µ + RAU (1.11)

À partir de (1.11) on a Cov(X) = AE [R2] Cov(U)AT. Puisque Cov(U) = I

d/d, où Id

est la matrice identité d × d, alors Cov(X) = AATE [R2] /d. Si R est normalisée de

sorte à avoir E [R2] = d, alors Cov(X) = Σ.

Si Σ est de plein rang et que la variable R a une densité, alors la densité de (1.11) existe et s’écrit en tout point z ∈ R :

|Σ|−1

2g(z − µ)TΣ−1(z− µ) ,

où g est uniquement déterminée pas la distribution de R.

Notons que si X suit une loi elliptique multidimensionnelle, alors ses lois marginales sont elliptiques de la même famille que X.

Exemple 1 La loi normale multidimensionnelle : Soit µ ∈ Rk et A une matrice

d× k telle que AAT = Σ est définie positive alors la variable X ∼ N

d(µ, Σ) a une

distribution elliptique puisqu’elle est distribuée comme µ +√BAU, où B ∼ χ2

k et U uniformément distribuée sur l’hypersphère unité de Rk avec B et U

indépendantes.

Si Σ est de plein rang alors la densité de X existe et s’écrit 2π−d/2|Σ|−1 2 exp  −1 2(x− µ) TΣ−1(x− µ)  .

Exemple 2 La loi de Student multidimensionnelle : Si X a la même distribution

que

ν √

BZ, où B ∼ χ2

ν et Z ∼ Nd(0, Σ), avec B et Z indépendantes, alors X est distribuée selon la

loi t de dimension d à ν degrés de liberté et de matrice de covariance ν

ν−2Σ si ν > 2.

Si, de plus, Σ est de plein rang alors la densité de X existe et s’écrit

Γ ν + d 2  n Γν 2 o−1 (πν)−d/2|Σ|−12  1 + 1 ν(x− µ) TΣ−1(x − µ) −ν+d2 , où Γ dénote la fonction gamma définie par Γ(s) =

R

0

Distributions elliptiques échangeables

Soit X = (X1, . . . , Xd) un vecteur aléatoire de loi elliptique multidimensionnelle de

paramètres µ = 0 et Σ de la forme Σ =       σ2 σ 12 . . . σ12 σ12 σ2 σ12 ... ... ... σ12 σ12 . . . σ2       (1.12) avec −σ2/(d− 1) < σ

12 < σ2. La matrice Σ est alors dite matrice d’équicovariance.

Notons que (1.12) peut aussi s’écrire Σ = (σ2− σ

12)Id+ σ121d1Td,

où 1d est un vecteur d × 1 avec des 1 partout. Dans ce cas, toutes les distributions

marginales de X sont identiques et tout vecteur aléatoire Xπ = (Xπ(1), . . . , Xπ(d)), où

{π(1), . . . , π(d)} est une permutation des entiers {1, . . . , d}, a la même distribution que X. C’est la propriété d’échangeabilité des distributions elliptiques associées à des matrices d’équicovariance.

1.3.2

Les copules Meta-elliptiques

Une copule associée à une distribution elliptique multidimensionnelle est appelée meta- elliptique. En effet, contrairement aux distributions elliptiques dont les marges sont forcément de cette famille, les copules meta-elliptiques peuvent modéliser la dépen- dances entre des marges non elliptiques. Dans cette thèse on s’intéresse aux copules extraites de distributions elliptiques échangeables c-à-d associées à des matrices d’équi- covariance de la forme (1.12). Les copules meta-elliptiques échangeables de dimension d sont souvent définies par rapport à une matrice d’équicorrélation

Σ(ρ, d) = (1− ρ)Id+ ρ1d1Td,

où ρ est le coefficient de corrélation commun à toutes les paires de composantes. En utilisant les notations de (1.12) ce coefficient est donné par ρ = σ12/σ2.

La copule normale

La copule associée à la distribtuion normale de dimension d , d’espérance µ = 0 et de matrice d’équicorrélation Σ(ρ, d) est appelée copule normale de paramètre de dépen-

dance ρ. Cette copule est alors donnée par

Cρ,d(u1, . . . , ud) = ΦΣ(ρ,d)Φ−1(u1), . . . , Φ−1(ud) , (1.13)

où ΦΣ(ρ,d)est la fonction de répartition conjointe de la distribution normale de dimension

d, de moyenne 0 et de matrice d’équicorrélation Σ(ρ, d) et Φ−1 l’inverse de la fonction de

répartition de la loi normale unidimensionnelle standard. Plus explicitement, la copule normale de dimension d et de paramètre ρ s’écrit

Cρ,d(u1, . . . , ud) = Z Φ−1(u1) −∞ · · · Z Φ−1(ud) −∞ exp−zTΣ(ρ, d)−1z /2 (2π)n/2|Σ(ρ, d)|1/2 dzd. . . dz1. (1.14) La copule t

De même que pour la copule normale, la copule t à ν degrés de liberté et de paramètre ρ est donnée par

Cν,ρ,d(u1, . . . , ud) = tν,Σ(ρ,d)t−1ν (u1), . . . , t−1ν (ud)

(1.15) où tν,Σ(ρ,d) est la fonction de répartition conjointe de la loi t de dimension d à ν degrès

de liberté et de matrice d’équicorrélation Σ(ρ, d) et t−1

ν l’inverse de la fonction de

répartition de la loi t unidimensionnelle de ν degrés de liberté. Le tau de Kendall

Pour les copules meta-elliptiques, il existe une expression explicite reliant le tau de Kendall et le coefficient de corrélation ρ (voir Hult et Lindskog, 2002) :

τ = 2

πarcsin(ρ). (1.16)

En présence de censure à gauche fixe due à l’existence de seuils de détection, Nie, Chu et Kororstyshevskiy (2008) ont démontré que dans le cas d’une copule normale bidimensionnelle, la limite quand n tend vers l’infini de l’estimateur du tau de Kendall τc donné par (5) s’écrit en fonction de ρ comme

A {1 − Φ2(L x)} {1 − Φ2(Ly)} , où A = 2 ∞ Z Lx ∞ Z Ly f (x)f (y){Φ(z1) [1− 2Φ(z2) + Φ(z2c)]− Φ(z1c)Φ(z2c)} dxdy +2 ∞ Z Lx Ly Z −∞ f (x)f (y) [2Φ(z1)− 1] [1 − Φ(z2c)] dxdy

avec z1 = (x− ρy)/p1 − ρ2, z1c = (Lx− ρy)/p1 − ρ2, z2 = (y− ρx)/p1 − ρ2, z1c =

(Ly − ρx)/p1 − ρ2, Lx et Ly les seuils de détection respectifs de X et Y et f est la

densité de la loi normale standard.

1.3.3

Copules meta-elliptiques hiérarchiques

Il est possible d’imposer une structure hiérarchique directement sur la matrice de corré- lation d’une copule meta-elliptique. Dans le chapitre IV on s’intéresse au cas de données présentant des sous-groupes imbriqués dans un ensemble de groupes. Soit ρ1 le coeffi-

cient de corrélation associé aux sous-groupes et ρ2 le coefficient de corrélation associé

aux groupes. Dans le chapitre IV nous expliquons comment construire une matrice de corrélation permettant de générer la structure hiérarchique voulue et noterons que ρ1 > ρ2 est une condition suffisante pour la construction de cette copule.

Chapitre 2

Étude de l’association entre deux

variables avec seuils de détection

Résumé

Dans ce papier nous définissons une version conditionnelle τb du tau de Kendall

permettant de mesurer l’association dans une paire(X, Y ) de variables aléatoires sujettes à une censure à gauche fixe due à l’existence de seuils de détection infé-

rieurs connus. Nous proposons un estimateur non paramétrique deτb et étudions

ses propriétés asymptotiques. Nous supposons, ensuite, un modèle de copule Ar- chimédienne pour(X, Y ) et déduisons une écriture de τben fonction du paramètre

α de la copule mais aussi du taux de censure. Des estimateurs pour α et le tau de Kendall global sont déduits. Un test d’ajustement de copules à ce type de données est développé. La performance à taille finie des méthodes proposées est évaluée par simulations et leur utilisation illustrée sur un vrai jeu de données sur les charges virales du plasma et de la salive.

Abstract

In this paper, we define a conditional version τb of Kendall’s tau to measure the

association in a pair (X, Y ) of random variables subject to fixed left-censoring

due to known lower detection limits. We provide a nonparametric estimator of

τb and investigate its asymptotic properties. We then assume an Archimedean

copula for (X, Y ) and express τb in terms of the copula parameter α and the

A goodness-of-fit test for the assumed copula is developed. The finite-sample performance of the proposed methods is evaluated by simulations and their use illustrated with a real data set on plasma and saliva viral loads.

2.1

Introduction

Investigating the association between different viral loads is the primary purpose of many HIV studies (see Barroso et al., 2000). Typically, a proportion of these load measurements fall below detection limits due to the intensive use of highly active an- tiretroviral therapy. Such observations are said to be left-censored. Several examples of data with lower detection limits exist in the literature; see Nie, Chu, and Kororsty- shevskiy (2008) and the references therein. For instance, detection limits of liquid chro- matography tandem mass spectrometry yield left-censored measurements of phthalate metabolites in environmental health studies.

Let X and Y denote the two continuous random variables corresponding to the measure- ments with known lower detection limits LX and LY, respectively. Due to left censoring,

one may only observe n independent replications of ( ˜X, ˜Y ), where ˜X = max(X, LX)

and ˜Y = max(Y, LY). Some attempts have been made to provide nonparametric mea-

sures of association between X and Y under this setting. Typically, these are based on Kendall’s tau, equal to τ = E [ψ12] , where ψ12 = sign{(X1−X2)(Y1−Y2)}, sign(u) = −1

if u < 0 and 1 if u > 0 and (X1, Y1) and (X2, Y2) are two independent replications of

(X, Y ). In the presence of fixed left-censoring, the relationship between X and Y is completely missing if X ∈ [0, LX] or Y ∈ [0, LY] and therefore it is impossible to esti-

mate τ nonparametically. However, one may estimate conditional versions of Kendall’s tau. Chu, Nie and Zhu (2008) and Nie, Chu, and Kororstyshevskiy (2008) adapted the estimator of τ with correction for ties (Gibbons and Chakraborti 2003) to estimate the association by ˆ τc = 2P i<jI(ξij)ψij q Q2 k=1[n(n− 1) − mk(mk− 1)] , (2.1)

where m1 = Pni=1I( ˜X = LX), m2 = Pni=1I( ˜Y = LY), I(·) is the indicator function

and ξij the event {max(Xi, Xj) > LX, max(Yi, Yj) > LY}. Unfortunately, E[ˆτc] does

not converge to a well defined quantity. Furthermore, the asymptotic properties of ˆτc

are not easy to derive and therefore, a resampling procedure is required to estimate its asymptotic variance.

The first purpose of this paper is to propose an alternative nonparametric measure of association in the presence of lower detection limits, based on an adaptation of the estimator of τ presented by Oakes (2008) to the current setting. The resulting estimator converges to τb = E[ψij|ξij] and its asymptotic properties are derived using standard

U-statistics theory.

Several parametric and semi-parametric models have been proposed in the literature to assess the association when a significant proportion of the measurements fall below the detection limits. Lyles, Williams, and Chuachoowong (2001) assumed a bivariate normal distribution. Chu et al (2005) and Chu, Nie and Zhu (2008) considered mixtures of distribution and Wang (2007) and Nie, Chu, and Kororstyshevskiy (2008) modeled the association via a Clayton and a normal copulas, respectively. The second purpose of this paper is to investigate this association under an arbitrary Archimedean copula for (X, Y ). We express τb in terms of the copula parameter α and the censoring fractions,

px = Pr(X < LX) and py = Pr(Y < LY), respectively. Estimators ˆα and ˆτ of α and

τ , respectively and of their asymptotic variances are deduced and a goodness-of-fit test for the assumed copula is developed.

This paper is organized as follows. In Section 2.2, we discuss the nonparametric ap- proach. In Section 2.3, we present inference procedures under an Archimedean copula for (X, Y ). The finite-sample performance of the proposed methods are evaluated with simulation studies and their use illustrated with a data set on HIV viral loads in Section 2.4. Concluding remarks and final thoughts are presented in Section 2.5.

Documents relatifs