• Aucun résultat trouvé

Estimation du paramètre d'une copule archimedienne en présence de censure dépendante

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation du paramètre d'une copule archimedienne en présence de censure dépendante"

Copied!
130
0
0

Texte intégral

(1)

ESTIMATION DU PARAMÈTRE D’UNE

COPULE ARCHIMEDIENNE EN PRÉSENCE

DE CENSURE DÉPENDANTE

Mémoire

Mondji Herbert Monwanou

Maîtrise en statistique

Maître ès sciences (M.Sc.)

Québec, Canada

(2)
(3)

Résumé

Les méthodes classiques d’analyse de survie notamment la méthode non paramétrique de Kaplan et Meier (1958) supposent l’indépendance entre les variables d’intérêt et de censure. Mais, cette hypothèse d’indépendance n’étant pas toujours soutenable, plusieurs auteurs ont élaboré des méthodes pour prendre en compte la dépendance. La plupart de ces méthodes émettent des hypothèses sur cette dépendance.

Dans ce mémoire, nous avons proposé une méthode d’estimation de la dépendance en pré-sence de censure dépendante qui utilise le copula-graphic estimator pour les copules archimé-diennes (Rivest et Wells, 2001) et suppose la connaissance de la distribution de la variable de censure. Nous avons ensuite étudié la consistance de cet estimateur à travers des simulations avant de l’appliquer sur un jeu de données réelles.

(4)
(5)

Abstract

Conventional methods of survival analysis including non-parametric Kaplan-Meier (1958) assume independence between time to death and time to censoring. But this independence assumption is not always sustainable. Thus, several authors have developed methods to take into account the dependence by making assumptions about the relationship between the two times. In this paper, we proposed a method to estimate the dependence in case of compet-ing risk data uscompet-ing the copula-graphic estimator for Archimedean copula (Rivest and Wells, 2001) and assuming knowledge of the distribution of censoring time. Then we studied the consistency of this estimator through simulations and applied to a real dataset.

(6)
(7)

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures xi

Remerciements xiii

Introduction 1

1 Durées de vie, censure, dépendance et copules 7

1.1 Notion de durées de vie . . . 7

1.2 Notion de censure . . . 9

1.3 La dépendance . . . 11

1.4 Les copules . . . 14

2 Estimation du paramètre de la copule et de la fonction de survie 23 2.1 Le Copula-Graphic estimator . . . 23

2.2 Le copula-graphic estimator pour les copules archimédiennes . . . 26

2.3 Nouvelle méthode d’estimation du Paramètre de la copule archimédienne et test d’indépendance entre les variables d’intérêt de censure . . . 28

3 Simulations 33 3.1 Détermination des taux de censure . . . 33

3.2 Estimation du paramètre de la copule et de la survie de la variable d’inté-rêt T lorsque la copule est bien spécifiée . . . 34

3.3 Effet d’une mauvaise spécification de la copule sur l’estimation du tau de Kendall et de la survie . . . 51

3.4 Mise en œuvre et étude de la puissance du test d’indépendance par simu-lation . . . 56

(8)

4 Application à un jeu de données réelles : estimation de l’âge d’occurrence

de l’appendicite en Australie en 1980 61

4.1 Description des jeux de données . . . 61 4.2 Quelques analyses préliminaires sur les données . . . 63 4.3 Estimation de la survie de la variable d’intérêt et de sa variance . . . 66

Conclusion 75

A Estimation du paramètre de la copule lorsque la copule est une copule de Clayton dont la vraie valeur du paramètre est fixée tour à tour à 0.5 (τ = 0.2), 2 (τ = 0.5) et 8 (τ = 0.8) et la loi exponentielle est spécifiée pour la

distribution de T et U 77

A.1 Quelques valeurs estimées du paramètre de la copule de Clayton et du tau de Kendall lorsque T et U suivent une même loi (soit 50% de censure)

exponentielle de paramètre 0.5 . . . 78 A.2 Quelques valeurs estimées du paramètre de la copule de Clayton et du

tau de Kendall lorsque T suit une loi exponentielle(0.5) et U suit une loi

exponentielle(1) (soit entre 70% et 92% de censure) . . . 79 A.3 Quelques valeurs estimées du paramètre de la copule de Clayton et du

tau de Kendall lorsque T suit une loi exponentielle(1) et U suit une loi

exponentielle(0.5) (soit entre 8% et 30% de censure) . . . 80 B Estimation du paramètre de la copule lorsque la copule est une copule de

Frank dont la vraie valeur du paramètre est fixée tour à tour à 1.86 (τ = 0.2), −5.74 (τ = −0.5) et 18.2 (τ = 0.8) et la loi exponentielle est spécifiée

pour la distribution de T et U 81

B.1 Quelques valeurs estimées du paramètre de la copule de Frank et du tau de Kendall lorsque T et U suivent une même loi (soit 50% de censure)

exponentielle de paramètre 0.5 . . . 82 B.2 Quelques valeurs estimées du paramètre de la copule de Frank et du tau

de Kendall lorsque T suit une loi exponentielle(0.5) et U suit une loi

ex-ponentielle(1) (soit entre 62% et 94% de censure) . . . 83 B.3 Quelques valeurs estimées du paramètre de la copule de Frank et du tau

de Kendall lorsque T suit une loi exponentiellle(1) et U suit une loi

expo-nentielle(0.5) (soit entre 6% et 38% de censure) . . . 84

C Programmes informatiques utilisés 85

C.1 Les fonctions . . . 85 C.2 Les codes R utilisés pour les simulations . . . 102 C.3 Les codes R utilisés pour l’application avec le jeu de données réelles . . . 106

(9)

Liste des tableaux

1.1 Caractéristiques des copules des sous-familles de Clayton, Frank et Gumbel . 21 3.1 Quelques valeurs estimées du paramètre de la copule de Clayton et du tau

de Kendall lorsque T et U suivent une même loi (soit 50% de censure) de

Weibull de paramètre de forme α = 4 et de paramètre d’échelle β = 2 . . . . 36 3.2 Quelques valeurs estimées du paramètre de la copule de Clayton et du tau de

Kendall lorsque T suit une loi de Weibull(1.5, 1.6) et U suit Weibull(4, 2)

(soit entre 19% et 32% de censure) . . . 37 3.3 Quelques valeurs estimées du paramètre de la copule de Clayton et du tau de

Kendall lorsque T suit une loi de Weibull(4, 2) et U suit Weibull(1.5, 1.6)

(soit entre 68% et 82% de censure) . . . 38 3.4 Quelques valeurs estimées du paramètre de la copule de Frank et du tau de

Kendall lorsque T et U suivent une même loi (soit 50% de censure) de

Wei-bull de paramètre de forme α = 4 et de paramètre d’échelle β = 2 . . . 40 3.5 Quelques valeurs estimées du paramètre de la copule de Frank et du tau de

Kendall lorsque T suit une loi de Weibull(1.5, 1.6) et U suit Weibull(4, 2)

(soit entre 18% et 36% de censure) . . . 41 3.6 Quelques valeurs estimées du paramètre de la copule de Frank et du tau de

Kendall lorsque T suit une loi de Weibull(4, 2) et U suit Weibull(1.5, 1.6)

(soit entre 64% et 82% de censure) . . . 42 3.7 Résultat de l’estimation du tau de Kendall selon les copules utilisées pour

générer les données et celles utilisées pour l’estimation . . . 51 4.1 répartition par tranche d’âges de 5 ans des femmes en Australie en 1980 (en

millier) . . . 62 4.2 Fonction de hasard par tranche d’âges de la distribution de l’âge des femmes

en Australie en 1980 . . . 64 4.3 Valeurs estimées de la survie pour quelques âges . . . 74

(10)
(11)

Liste des figures

3.1 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Clayton de paramètre 0.5 (τ = 0.2), T et U suivant une

même loi Weibull(4, 2) . . . 44 3.2 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à partir d’une copule de Clayton de paramètre 2 (τ = 0.5), T et U suivant une

même loi Weibull(4, 2) . . . 44 3.3 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à partir d’une copule de Clayton de paramètre 8 (τ = 0.8), T et U suivant une

même loi exponentielle(0.5) . . . 45 3.4 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Frank de paramètre 5.74 (τ = 0.5), T et U suivant une

même loi exponentielle(0.5) . . . 45 3.5 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Frank de paramètre -1.86 (τ = −0.2), T et U suivant une

même loi exponentielle(0.5) . . . 46 3.6 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Frank de paramètre -5.74 (τ = −0.5), T et U suivant une

même loi Weibull(4, 2) . . . 46 3.7 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Frank de paramètre -0.0001 (T et U indépendantes), T et

U suivant une même loi Weibull(4, 2) . . . 47 3.8 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Clayton de paramètre 0.00002 (T et U indépendantes), T

(12)

3.9 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Frank de paramètre 5.74 (τ = 0.5), T suivant

exponen-tielle(1) et U suivant exponentielle(0.5) . . . 48 3.10 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Clayton de paramètre 0.5 (τ = 0.2), T suivant Weibull(1.5,

1.6) et U suivant Weibull(4, 2) . . . 49 3.11 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Frank de paramètre 5.74 (τ = 0.5), T suivant

exponen-tielle(0.5) et U suivant exponentielle(1) . . . 49 3.12 Vraies survies, survies moyennes estimées par notre méthode et survies moyennes

estimées par Kaplan-Meier sur 1000 échantillons de taille 1000 générés à par-tir d’une copule de Clayton de paramètre 0.5 (τ = 0.2), T suivant Weibull(4,

2) et U suivant Weibull(1.5, 1.6) . . . 50 3.13 Vraies survies et survies moyennes estimées avec la copule de Frank sur des

données générées à partir d’une copule de Clayton avec τ = 0.5 . . . 53 3.14 Vraies survies et survies moyennes estimées avec la copule de Gumbel sur

des données générées à partir d’une copule de Clayton avec τ = 0.5 . . . 53 3.15 Vraies survies et survies moyennes estimées avec la copule de Clayton sur

des données générées à partir d’une copule de Frank avec τ = 0.5 . . . 54 3.16 Vraies survies et survies moyennes estimées avec la copule de Gumbel sur

des données générées à partir d’une copule de Frank avec τ = 0.5 . . . 54 3.17 Vraies survies et survies moyennes estimées avec la copule de Clayton sur

des données générées à partir d’une copule de Gumbel avec τ = 0.5 . . . 55 3.18 Vraies survies et survies moyennes estimées avec la copule de Frank sur des

données générées à partir d’une copule de Gumbel avec τ = 0.5 . . . 55 3.19 QQ-plot comparant la distribution des p-values pour le test d’indépendance

lorsque les variables d’intérêt T et de censure U sont indépendantes et suivent

une même loi à celle d’une loi uniforme standard . . . 57 3.20 QQ-plot comparant la distribution des p-values pour le test d’indépendance

lorsque les variables d’intérêt T et de censure U sont dépendantes (ici τ = 0.2)

et suivent une même loi à celle d’une loi uniforme standard . . . 58 3.21 Évolution de la puissance du test d’indépendance suivant la force de la

dé-pendance entre les deux variables T et U (avec la copule de Frank et n=200 . 59 3.22 Évolution de la puissance du test d’indépendance suivant la taille

d’échan-tillon (avec la copule de Frank et τ = 0.25) . . . 60 4.1 Vraie survie de la variable U (âge en 1980 des femmes de 17 ans et plus) et

survie estimée par l’estimateur de Kaplan-Meier . . . 65 4.2 Évolution de la somme des carrés des écarts des survies estimées de la

(13)

4.3 Survie de l’âge d’occurrence de l’appendicite estimée avec prise en compte de la dépendance avec la variable de censure et celle estimée par la méthode

de Kaplan-Meier . . . 68 4.4 histogramme des 5000 estimés du paramètre de la copule de Frank à partir

des échantillons bootstrap . . . 70 4.5 : QQ-plot des 5000 estimés du paramètre de la copule de Frank à partir des

échantillons bootstrap . . . 71 4.6 : Estimé prenant en compte la dépendance, bande de confiance par bootstrap

et estimé Kaplan-Meier de la survie de l’âge d’occurrence de l’appendicite

(14)
(15)

Remerciements

Au terme de ce mémoire je tiens à adresser mes sincères remerciements à Mr M’hamed Lajmi Lakhal Chaieb, mon directeur de recherche, professeur au département de mathématiques et de statistique de l’université Laval. Merci pour l’encadrement, la disponibilité et la sympathie que tu as manifestée à mon égard durant mon séjour à l’université Laval.

Je remercie également tous les autres enseignants du département de mathématiques et de statistique ainsi que tout le personnel du service de consultation statistique notamment Gaétan Daigle et Hélène Crépeau.

C’est le lieu pour moi d’exprimer toute ma gratitude au gouvernement du Canada à travers le programme canadien de bourses de la francophonie (PCBF) qui m’a permis de venir étudier au Canada. J’adresse mes remerciements à l’ancienne et à la nouvelle équipe de gestion du PCBF notamment aux mesdames Jeanne Gallagher et Diane Cyr.

Mes remerciements vont aussi à l’endroit de mes collègues au Bénin qui m’ont appuyé de n’importe quelle manière dans le processus ayant conduit à ma sélection pour la bourse du PCBF. Je remercie aussi Mme Édith Élégbédé de la coopération canadienne au Bénin pour sa sympathie et sa disponibilité.

(16)
(17)

Introduction

Une durée de survie désigne le temps écoulé à partir d’une origine jusqu’à la survenue d’un certain évènement. C’est donc le temps écoulé entre une date origine t0et la date t de survenu

de l’évènement (souvent appelé décès ou défaillance et noté D). L’évènement en question peut ainsi correspondre à la survenue d’une maladie, à une rechute, à une guérison (dans le domaine médical), à une panne d’une machine (dans le domaine de la machinerie), à la survenue d’un sinistre (dans le domaine actuariel). L’origine t0 peut correspondre à une

naissance ou au début d’un traitement.

L’analyse des survies est une branche de la statistique qui cherche à modéliser le délai T avant la survenue de cet évènement. Cette modélisation peut consister à rechercher la distribution de la survie T , la valeur médiane de T , la probabilité que T soit supérieure à une valeur t, les facteurs associés à T et leurs impacts etc. La modélisation de la survie peut se baser sur des données où la survie est connue pour tous les individus. Dans ce cas on parle de série complète. Mais souvent, la survie n’est connue que pour une partie des individus en raison de la fin d’étude, du retrait de l’étude ou de la perte de suivi. Dans ce cas, on parle de données incomplètes et les observations de survie inconnues sont dites censurées. La modélisation de la survie a connu des améliorations depuis son apparition au XVIIèmesiècle.

La méthode actuarielle (tables de survie) a été la première méthode d’analyse de survie (uti-lisée en actuariat et en démographie) et a été appliquée en médecine pour la première fois en 1950 (Berkson et Gage, 1950). Deux importantes variantes de la méthode actuarielle méritent d’être soulignées ici.

Harris et al. (1950) ont anticipé beaucoup de travaux plus récents dans leur généralisation de l’estimateur de la table de survie à des cas où les temps de décès et de censure ne sont connus que sur de larges intervalles irréguliers.

Ederer et al. (1961) ont développé un « taux de survie relative » comme le rapport entre le taux de survie observé dans un groupe de patients et le taux de survie attendu dans un groupe

(18)

similaire aux patients.

La deuxième importante méthode est celle dite de Kaplan-Meier qui est apparue en 1958 (Kaplan et Meier, 1958). Il s’agit d’une méthode non paramétrique qui repose sur l’hypothèse cruciale d’indépendance entre les variables de survie T et de censure U . L’estimateur de survie obtenu par cette méthode, encore appelé estimateur du produit-limite de Kaplan-Meier, pour des données observées {(Xi, δi), i = 1, 2, · · · , n} avec Xi= min(Ti,Ui) et δi= 1(Ti< Ui)

est : ˆ S(t) = Π ti≤t yi− di yi , où : — yi = n ∑ j=1

1(Xj≥ ti) est le nombre de personnes encore à risque au temps ti (ou juste

avant le temps ti) et

— diest le nombre de décès au temps ti.

Sous l’hypothèse d’indépendance entre T et U , cet estimateur est l’estimateur non paramé-trique du maximum de vraisemblance de la fonction de survie S(t) et possède d’intéressantes propriétés. En effet, il est asymptotiquement normal de moyenne S(t). Sa variance peut être estimée par la formule de Greenwood :

ˆ

σ2 S(t) = ˆS(t)ˆ 2

ti≤t

di yi(yi− di)

Lorsque le temps T est continu, la fonction de hasard cumulé H(t) = − log (S(t)) peut être estimée par l’estimateur de Nelson-Aalen et est donnée par :

ˆ

H(t) =

ti≤t

di yi.

Hormis ces modèles non paramétriques, d’importantes contributions à l’analyse de survie sont basées sur des modèles paramétriques simples comme l’estimateur du maximum de vraisemblance utilisé entre autres par Boag (1949), Littell (1952), Armitage (1959), Feigl et Zelen (1965).

Par la suite, le modèle semi-paramétrique de régression de Cox (Cox, 1972) a révolutionné l’analyse de survie. Ce modèle qui postule aussi l’indépendance entre les variables de survie et de censure prend en compte d’autres variables susceptibles d’influencer la survie appelées covariables. Il s’agit d’un modèle à risques proportionnels qui peut s’écrire :

h(t, z) = h0(t)ez 0 β ⇔ log h(t, z) h0(t)  = z0β où :

(19)

— h(.) désigne la fonction de risque ou fonction de hasard instantané ; — h0(t) désigne le risque de base non connu a priori ;

— z est le vecteur de covariables et

— β = (β1, β2, · · · , βp) est le vecteur des paramètres.

Comme on le voit, le rapport des risques h(t,z)h

0(t) est constant dans le temps ; il ne dépend que

de z (lorsque les covariables sont indépendantes du temps).

Des variantes du modèle de régression de Cox existent pour prendre en compte les cas de risques non proportionnels et les covariables dépendantes du temps.

Sous l’hypothèse d’indépendance entre les variables de survie et de censure, il est connu que les données observées {(Xi, δi)i = 1, 2, · · · , n} contiennent l’information suffisante pour

déter-miner de façon unique la distribution de la variable de d’intérêt T (Miller, 1977; Peterson Jr, 1977) et l’estimateur du produit-limite de Kaplan-Meier présenté ci-dessus est l’estimateur classique de la fonction de survie dans ce cas. Mais l’hypothèse cruciale d’indépendance entre les variables d’intérêt et de censure sur laquelle reposent les modèles précédents n’est pas toujours vraie. Par exemple, si l’événement d’intérêt est le décès dû à une maladie donnée et la variable de censure le décès dû à d’autres maladies, il n’est pas raisonnable de penser que les deux variables sont indépendantes. De même, si l’événement d’intérêt est le temps de rémission des patients soumis à un type de traitement et la censure inclut les patients retirés du traitement pour cause de dégradation de leur état de santé, l’hypothèse d’indépen-dance entre l’événement d’intérêt et la censure n’est pas soutenable. Ainsi plusieurs auteurs ont développé des modèles ou techniques d’estimation en présence de dépendance entre les variables d’intérêt et de censure.

Slud et Rubinstein (1983) ont construit un estimateur non paramétrique de la fonction de sur-vie marginale ST(t) basée sur la connaissance d’une fonction de dépendance particulière ρ

qui dépend des dérivées premières de la distribution jointe des variables de survie T et de cen-sure U et de la forme des distributions marginales non observées. La fonction de dépendance ρ utilisée est donnée par :

ρ (t) = lim

∆→0

 P(T > t,U > u)P(t < T < t + ∆,U < t) P(T > t,U < u)P(t < T < t + ∆,U > t)



Fisher et Kanarek (1974) ont construit des estimateurs non paramétriques basés sur un modèle où la durée de vie résiduelle potentiellement inobservée de la variable d’intérêt T est, soit contractée, soit étendue par une quantité fixe après la censure.

(20)

Link (1989) a proposé un modèle dans lequel la censure dépendante ne se produit que dans une sous-population définie par une distribution de la fragilité et obtenu un estimateur convergent de la distribution des temps de défaillance.

Emoto et Matthews (1990) ont proposé un modèle de Weibull bivarié et en ont déduit que les estimateurs du maximum de vraisemblance pour les paramètres de la distribution conjointe sont convergents.

Klein et Moeschberger (1988) ont construit un estimateur non paramétrique de forme fermée pour la fonction de survie marginale basée sur un modèle gamma de fragilité.

Une fonction naturelle permettant de modéliser la dépendance entre des variables aléatoires est la copule. La caractéristique spécifique de la copule est qu’elle sépare la structure de dépendance des distributions marginales. Ainsi, la relation de dépendance peut être étudiée sans spécifier les distributions marginales. Plusieurs modèles de survie prenant en compte la dépendance entre les variables de censure et d’intérêt se basent sur les copules. Ces modèles sont de la forme :

STU(t, u) = C {ST(t), SU(u)} ,

où :

— STU représentante la fonction de survie conjointe du couple (T,U ) ;

— ST et SU sont respectivement les fonctions de survie marginales des variables d’intérêt

T et de censure U .

Récemment, Zheng et Klein (1995) ont proposé un estimateur non paramétrique de la fonc-tion de survie marginale qu’ils ont appelé «copula-graphic estimator» en assumant la connais-sance de la copule représentant la distribution conjointe des variables d’intérêt et de censure. Ils ont établi quelques propriétés intéressantes du «Copula-Graphic estimator» en montrant notamment qu’il s’agit d’un estimateur du maximum de vraisemblance convergent.

Une classe particulière de copule très utilisée pour la modélisation de la dépendance est la classe des copules archimédiennes. Pour cette classe de copule, la fonction de survie conjointe est de la forme :

STU(t, u) = ϕ−1[ϕ {ST(t)} + ϕ {SU(u)}] ,

où ϕ est une fonction décroissante et convexe définie de [0, 1] vers [0, ∞) telle que ϕ(1) = 0.

Rivest et Wells (2001)) ont proposé une expression explicite puis une écriture en termes de martingales et étudié les propriétés asymptotiques du «copula-graphic estimator» dans le cas où la copule assumée pour la distribution jointe est une copule archimédienne.

(21)

Wang (2014) a étudié l’identifiabilité des fonctions de survie marginales en présence de cen-sure dépendante étant donné un échantillon observé (Xi, δi)i = 1, 2, · · · , n avec Xi= min(Ti,Ui)

et δi= 1(Ti< Ui) et montré que si la distribution jointe de T et U est une copule

archimé-dienne inconnue respectant certaines conditions de régularité, alors la connaissance de l’une des fonctions de survies marginales (celle de T ou celle de U ) permet d’identifier la copule. Toutefois, Antai Wang n’a pas fourni un estimateur explicite du paramètre de la copule. Dans ce mémoire, nous supposons d’une part une copule archimédienne à un paramètre in-connu pour la distribution conjointe des variables d’intérêt et de censure et une distribution marginale connue pour la variable de censure. Partant de ces hypothèses et des observations (Xi, δi) avec δi= 1(Ti< Ui), T et U désignant respectivement les variables d’intérêt et de

censure, nous proposons un estimateur du paramètre de la copule, ensuite, nous estimons la fonction de survie.

Le premier chapitre de ce mémoire est consacré à la présentation des notions de survie, de censure, de dépendance et de copule. Dans le deuxième chapitre, nous proposons un estima-teur du paramètre de la copule archimédienne et un test d’indépendance entre les variables d’intérêt et de censure. Au troisième chapitre, nous étudions la consistance de ce estimateur et les performances du test d’indépendance à partir des données simulées. Enfin le quatrième chapitre présente une application de notre méthode à un jeu de données réelles.

(22)
(23)

Chapitre 1

Durées de vie, censure, dépendance et

copules

Dans ce chapitre, nous présentons les définitions et les résultats établis concernant les notions de durées de vie, de censure, de dépendance et de copules.

1.1

Notion de durées de vie

La durée de survie désigne le temps écoulé jusqu’à la survenue d’un certain évènement. Il s’agit du temps écoulé entre une date origine t0 et la date t de survenue de l’évènement qui

peut correspondre à une maladie, à une rechute, à une guérison, à une panne d’une machine, à un sinistre etc. L’origine t0peut être définie comme la naissance lorsque l’évènement D est la

survenue d’une maladie ou le début du traitement lorsque l’évènement est la guérison. Dans l’analyse de survie (branche de la statistique qui s’occupe de la modélisation des durées de vie), on cherche à étudier la distribution de la variable d’intérêt. Cette distribution, lorsque la variable d’intérêt T est continue, peut être définie ou spécifiée au moyen de l’une des cinq fonctions équivalentes que sont :

— la fonction de répartition F ; — la fonction de survie S ;

— la fonction de densité de probabilité f ; — la fonction de hasard instantané h et — la fonction de hasard cumulé H.

Dans l’analyse de survie, on peut également être intéressé par la connaissance de la valeur moyenne de la survie, de la valeur médiane de la survie ou de l’espérance de vie résiduelle à

(24)

chaque instant t. La fonction d’espérance de vie résiduelle est définie par : g(t) = E(T /T > t)

1.1.1

Fonction de survie

La fonction de survie souvent notée S est, pour un temps t fixé, la probabilité que l’évènement se produise après t. Elle est donnée par :

S(t) = P(T > t), t ≥ 0 Remarquons que :

— S(t) est une fonction non croissante ; — S(t) = 1 pour t = 0 et

— lim

t→∞S(t) = 0.

1.1.2

Fonction de répartition de la survie

La variable de survie comme toute variable aléatoire continue, admet une fonction de répar-tition. Cette dernière, notée F, est à un temps t, la probabilité que l’évènement ait lieu avant la date t. Elle est donnée par :

F(t) = P(T ≤ t) = 1 − S(t)

Il est bien connu que F(t) est une fonction croissante telle que F(0) = 0 et lim

t→∞F(t) = 1

1.1.3

Fonction de densité de probabilité

En tant que variable aléatoire continue, le temps de survie admet une fonction de densité f(t). C’est la probabilité de survenue de l’évènement dans un petit intervalle de temps après l’instant t. Elle est définie par :

f(t) = lim ∆t→0 P[t ≤ T < t + ∆t)] ∆t On a également : f(t) = F0(t) = −S0(t) F(t) = t Z 0 f(x)dx

(25)

En pratique, la fonction de densité est estimée par le rapport du nombre d’évènements surve-nus dans un intervalle de temps donné au produit du nombre total de sujets par la longueur de l’intervalle.

1.1.4

Fonction de hasard

La fonction de hasard ou risque instantané est, pour un instant t fixé, la probabilité de surve-nue de l’évènement dans un petit intervalle de temps après t conditionnellement au fait qu’il n’ait pas lieu jusqu’à t. Elle est souvent notée h(t) et est donnée par :

h(t) = lim

∆t→0

P[t ≤ T < t + ∆t|T ≥ t] ∆t

Cette fonction est égale à :

h(t) = f(t) S(t) = −S0(t) S(t) = d[− ln(S(t))] dt

1.1.5

Fonction de hasard cumulé

La fonction de hasard cumulé, souvent notée H(t) est l’intégrale du risque instantané et est donnée par : H(t) = Z t 0 h(x)dx = − ln[S(t)]

Ainsi, on peut déduire l’expression de la fonction de survie en fonction de de la fonction de hasard (instantané ou cumulé) :

S(t) = e−H(t)= e−

Rt 0h(x)dx

Il s’en suit que :

f(t) = h(t)e−H(t)= h(t)S(t)

1.2

Notion de censure

En analyse des durées de vie, la censure intervient lorsque la survie T n’est connue que pour une partie des individus. Les données pour lesquelles la survie est inconnue sont dites censurées. La censure peut être causée par la fin d’étude, le retrait de l’étude, la perte de suivi, etc. On distingue dans la littérature trois sortes de censures. Pour un individu i, on considère :

(26)

— son temps de survie Ti;

— son temps de censure Ui;

— la durée réellement observée Xi.

1.2.1

Données censurées à droite

La durée de vie est dite censurée à droite lorsque l’individu ne subit pas l’évènement d’intérêt à sa dernière observation. Cela peut advenir dans les cas suivants :

• On décide d’observer la survie jusqu’à un temps C fixé puis d’arrêter. Pour un individu i, la survie Ti n’est donc observée que lorsque Ti est inférieure à C. c’est le cas par

exemple dans le domaine industriel lorsqu’on observe la durée de vie d’un composant électronique sur un intervalle de temps [0,C]. ce genre de censure à droite est dite de type I.

• On décide d’observer n individus jusqu’à ce qu’un nombre k parmi eux ait l’évènement d’intérêt puis d’arrêter. Ainsi, seuls les k premiers plus faibles temps de survie sont observés. On parle dans ce cas de censure à droite de type II.

• Mais contrairement aux deux points précédents, la censure n’est généralement pas contrôlée et constitue elle aussi une variable aléatoire. Ainsi, pour un individu i, on a ce qui est réellement observé Xi et une indicatrice qui vaut 1 si l’évènement est

ob-servé et 0 s’il s’agit d’une donnée censurée. Dans un essai thérapeutique par exemple, cette censure peut être causée par la perte de vue, le décès, etc. Ce type de censure à droite est dit aléatoire.

1.2.2

Données censurées à gauche

La durée de vie est dite censurée à gauche lorsque l’individu a déjà subi l’évènement avant d’être observé. Dans ce cas on ne connait pas la durée de vie mais on sait seulement qu’elle est inférieure à une certaine date connue. Un exemple de ce type de censure connu dans la littérature s’intéresse à l’horaire auquel les babouins descendent des arbres pour aller manger. L’évènement d’intérêt (descente de l’arbre) est observé pour les babouins qui sont descendus après l’arrivée des observateurs et est censuré pour ceux qui sont descendus avant l’arrivée des observateurs. Ce type de censure se rencontre également lorsqu’on s’intéresse au moment d’atteinte d’une certaine faculté chez les enfants.

(27)

1.2.3

Données censurées par intervalles

On parle de données censurées par intervalles lorsqu’au lieu d’observer avec certitude la sur-vie, on sait seulement qu’elle est comprise entre deux dates connues. Lors du suivi d’une cohorte par exemple, les individus sont suivis non pas en continu mais par intermittences. Ainsi, on sait simplement que l’évènement d’intérêt s’est produit entre deux temps d’obser-vation.

Dans ce mémoire, nous nous intéressons uniquement au cas de données censurées à droite aléatoires. Pour ces types de données, les modèles classiques d’analyses de survie postulent l’indépendance entre les variables d’intérêt T et de censure U . C’est une hypothèse très utile puisque c’est la plus simple pour rendre la survie facilement identifiable, donc estimable. Toutefois, elle s’avère non soutenable et limitative dans plusieurs cas. Ainsi des modèles plus généraux ont été élaborés pour prendre en compte la dépendance entre les variables d’intérêt et de censure.

1.3

La dépendance

La dépendance entre les variables aléatoires joue un rôle important en analyse de survie lorsque les variables d’intérêt et de censure ne peuvent être considérées indépendantes. La notion de dépendance est une notion largement abordée par de multiples auteurs en statistique et en probabilité. Étudier la dépendance entre deux ou plusieurs variables, c’est appréhender l’intensité de la liaison qui peut exister entre ces variables. Pour ce faire, trois mesures de dépendance sont généralement proposées dans la littérature. Il s’agit de la corrélation linéaire de Pearson (1896), du tau de Kendall (1938) et du rho de Spearman (1904).

1.3.1

Le coefficient de corrélation de Pearson

On doit ce coefficient à Pearson (1896). Il mesure la corrélation linéaire entre deux variables aléatoires. C’est un indicateur facile à calculer. Pour deux variables aléatoires X et Y ayant chacune une variance finie, le coefficient de corrélation de Pearson noté ρ est donné par :

ρ (X ,Y ) = p Cov(X ,Y ) Var(X )Var(Y ) où

• Cov(X,Y ) désigne la covariance entre les variables aléatoire X et Y ; • Var(X) et Var(Y ) désignent respectivement les variances de X et de Y .

(28)

Par construction, l’existence du coefficient de corrélation de Pearson entre les variables X et Y est déterminée par celle des variances de X et de Y . Lorsqu’il existe, c’est un indicateur sans unité et toujours compris entre -1 et 1. Une valeur de -1 ou 1 indique une dépendance linéaire parfaite positive ou négative entre X et Y . Il est aussi invariant (au signe près) par des transformations linéaires strictement monotones. En effet :

ρ (aX + b, cY + d) = signe(ac)ρ (X ,Y ) avec (a, b, c, d) ∈ R4, a 6= 0 et c 6= 0. Outre le fait qu’il n’est pas toujours défini, ce indicateur présente d’autres limites :

− Un coefficient de Pearson nul indique simplement une absence de dépendance linéaire et non l’indépendance ;

− La dépendance parfaite n’a pas forcement une corrélation linéaire de -1 ou 1 ;

− Il n’est pas toujours invariant au signe près par une transformation non linéaire stricte-ment monotone. Par exemple ρ(X ,Y ) 6= ρ {exp(X ), exp(Y )}.

1.3.2

Le rho de Spearman et le tau de kendall

Ces deux indicateurs sont associés à la loi H des variables aléatoires (supposées continues) X et Y de fonction de répartition respective F et G et sont basés sur la notion de concordance.

Deux réalisations (x1, y1) et (x2, y2) du couple de variables aléatoires continues (X ,Y ) sont

dites concordantes [respectivement discordantes] lorsque (x1− x2)(y1− y2) > 0 c’est-à-dire

(x1< x2et y1< y2) ou (x1> x2et y1> y2) [respectivement (x1− x2)(y1− y2) < 0].

Le rho de Spearman

Le rho de Spearman dû à Spearman (1904) entre les variables aléatoires X et Y de lois res-pectives F et G, noté ρSpeut être défini comme le coefficient de corrélation de Pearson entre

les variables aléatoires F(X ) et G(Y ) (Pupion et Pupion, 1998).

ρS(X ,Y ) = ρ (F(X ), G(Y ))

ρSadmet les propriétés suivantes :

− Il est compris entre -1 et 1 et contrairement au coefficient de corrélation de Pearson, il est toujours défini ;

− ρS(X ,Y ) = 1 [respectivement -1] si et seulement si il existe une fonction ψ strictement

croissante [respectivement strictement décroissante] telle que Y = ψ(X ) ; − Si les variables aléatoires X et Y sont indépendantes, alors ρS(X ,Y ) = 0 ;

(29)

− Il est invariant au signe près sous des transformations strictement monotones. En effet, si u et v sont des fonctions strictement croissantes alors ρS(u(X ), v(Y )) = ρS(X ,Y ).

Pour un échantillon de n couples de valeurs (x1, y1), · · · , (xn, yn) prises par le vecteur aléatoire(X ,Y ),

un estimé noté ρS,n de ρS(X ,Y ) est donné par :

ρS,n=

Cov(r, s) p

Var(s)Var(r) où

− r = r1, . . . , rnreprésente les rangs de x1, · · · , xnet

− s = s1, · · · , snles rangs de y1,· · · , yn.

Cet estimé permet en général de tester H0« X et Y sont indépendants » contre H1« les valeurs

prises par X et Y ont tendances à être concordantes » [respectivement discordantes]. Notons qu’il s’agit d’un estimateur convergent mais biaisé de ρS(X ,Y ) (Pupion et Pupion,1998). En

effet ρS,n pr

−−−−→

n→+∞ ρ (X ,Y ) et E(ρS,n) = ρS(X ,Y ) + 3[τ(X ,Y ) − ρS(X ,Y )]/(n + 1) où τ(X ,Y )

désigne le tau de Kendall entre X et Y .

Le tau de Kendall

Développé par Kendall (1938), le tau de Kendall noté τ mesure le degré de concordance (τ(X ,Y ) > 0) ou de discordance (τ(X ,Y ) < 0) entre les variables aléatoires X et Y . Il est donné par :

τ (X ,Y ) = P [(X2− X1)(Y2−Y1) > 0] − P [(X2− X1)(Y2−Y1) < 0]

= 2P [(X2− X1)(Y2−Y1) > 0] − 1

(X1,Y1) et (X2,Y2) sont des réalisations aléatoires indépendantes de même loi que (X ,Y ).

Les quatre propriétés précédemment énoncées pour le rho de Spearman sont aussi valables pour le taux de Kendall. Pour un échantillon {(X1,Y1), · · · , (Xn,Yn)}, un estimateur du tau de

Kendall est donné par :

τn=

4Cn

n(n − 1)− 1 où

Cnest le nombre de paires concordantes parmi les n(n−1)/2 paires de couples (Xi,Yi), (Xj,Yj)

possibles avec 1 ≤ i < j ≤ n.

Notons que τn est un estimateur convergeant et non biaisé de τ(X ,Y ). En effet, τn pr

−−−−→

n→+∞

(30)

On montre que sous l’hypothèse nulle d’indépendance entre X et Y , τnsuit asymptotiquement

une loi normale de moyenne 0 et de variance 2(2n+5)9n(n−1).

Ces trois indicateurs permettent de mesurer la dépendance et non de la modéliser. Pour mo-déliser la dépendance, on a de plus en plus recourt à des outils innovants que constituent les copules.

1.4

Les copules

Le terme copule a été utilisé pour la première fois par Abé SKlar en 1959 (Sklar, 1959). Les copules sont des fonctions de répartition multidimensionnelles dont les marges sont des uni-formes sur [0, 1]. Si la distribution conjointe permet de décrire la dépendance entre deux ou plusieurs variables, la copule elle permet de distinguer les comportements des distributions marginales de la structure de dépendance (Fadhila, 2011). Aussi, l’ajustement des distribu-tions conjointes peut s’avérer difficile lorsqu’on modélise le comportement conjoint de deux phénomènes dont les marges ne sont pas normales (Chaieb, 2006). Nous nous intéressons uniquement aux copules bivariées dans la suite.

1.4.1

Définition et propriétés élémentaires

Définition

Idésigne l’intervalle [0, 1].

Une copule bivariée est une fonction C de I2→ I telle que : • ∀ (u, v) ∈ I2,C(0, v) = C(u, 0) = 0 ;

• ∀ (u, v) ∈ I2,C(u, 1) = u et C(1, v) = v ;

• C est 2-croissante c’est-à-dire ∀ (u1, u2, v1, v2) ∈ I4, avec u1≤ u2et v1≤ v2, on a :

C(u1, v1) −C(u1, v2) −C(u2, v1) +C(u2, v2) ≥ 0.

Ainsi définie, la copule bivariée est une fonction de répartition bivariée sur I2dont les marges sont uniformes sur I.

Exemple :

Les fonctions M(u, v) = min(u, v), m(u, v) = max(u + v − 1, 0) et ∏(u, v) = uv définissent des copules sur I2.

En effet, pour tout (u, v) ∈ I2et pour tout (u1, u2, v1, v2) ∈ I4tel que u1≤ u2et v1≤ v2, on a :

(31)

• M(u, 1) = min(u, 1) = u et M(1, v) = min(1, v) = v, • — Si u1≤ v1et u2≤ v2alors :

min(u1, v1) − min(u1, v2) − min(u2, v1) + min(u2, v2) ≥ u2− u2= 0

— Si u1≤ v1et u2≥ v2alors :

min(u1, v1) − min(u1, v2) − min(u2, v1) + min(u2, v2) ≥ v2− v1≥ 0

— Si u1≥ v1et u2≤ v2alors :

min(u1, v1) − min(u1, v2) − min(u2, v1) + min(u2, v2) ≥ −u1+ u2≥ 0

— Si u1≥ v1et u2≥ v2alors :

min(u1, v1) − min(u1, v2) − min(u2, v1) + min(u2, v2) ≥ −v2+ v2= 0 D’où M(u, v) est une copule.

On montre de même que m(u, v) et ∏(u, v) sont des copules.

U désignant une variable aléatoire de loi uniforme sur I on a : M(u, v) = P(U ≤ u,U ≤ v) et m(u, v) = P(U ≤ u, 1 −U ≤ v)

Propriétés élémentaires

Pour tout copule C de [0, 1]2→ [0, 1] on a :

1. |C(u1, v1) −C(u2, v2)| ≤ |u2− u1| + |v2− v1| pour tout (u1, u2, v1, v2) ∈ [0, 1]4. Cela

im-plique que toute copule est uniformément continue sur [0, 1]2;

2. m(u, v) ≤ C(u, v) ≤ M(u, v) pour tout (u, v) ∈ [0, 1]2 (pour la démonstration voir Rü-schendorf, 1981).

Les copules m(u, v) et M(u, v) sont appelées bornes de Fréchet-Hoeffding (Maurice, 1951). Elles correspondes aux cas d’extrêmes dépendances induites respectivement par U = −V et U = V . M(u, v) est appelée copule du maximum et m(u, v) est appelée copule du minimum ;

3. Pour tout (u, v) ∈ [0, 1]2, les dérivées partielles ∂C(u,v)

∂ u et

∂C(u,v)

∂ v existent presque

sur-ement et sont toujours comprises entre 0 et 1 (0 ≤ ∂C(u,v)

∂ u ≤ 1 et 0 ≤ ∂C(u,v)

∂ v ≤ 1). Par

ailleurs, les fonctions u 7→ ∂C(u,v)

∂ v et v 7→ ∂C(u,v)

∂ u sont définies et non décroissantes sur

[0, 1] presque surement ; 4. Si ∂C(u,v)

∂ v et

∂2C(u,v)

∂ u∂ v sont continues sur [0, 1] 2

et ∂C(u,v)

∂ u existe quel que soit u ∈ (0, 1)

quand v = 0, alors ∂2C(u,v)

∂ u∂ v et ∂2C(u,v) ∂ v∂ u existent dans (0, 1) 2 et ∂2C(u,v) ∂ u∂ v = ∂2C(u,v) ∂ v∂ u (voir

(32)

1.4.2

Théorème de Sklar

Le théorème de Sklar (Sklar, 1959) est probablement le plus important théorème dans la théo-rie des copules. Il est la base de la plupart des applications de cette branche de la statistique. Il permet d’élucider le rôle que joue la copule dans la relation entre une distribution conjointe et les distributions marginales (Roger, 2006).

Définition

Une fonction de distribution bivariée est une fonction FXY de R2telle que :

• FXY est 2-croissante ;

• lim

x→−∞FXY(x, y) = limy→−∞FXY(x, y) = 0 ;

• lim

x→∞,y→∞FXY(x, y) = 1

Lorsque le vecteur aléatoire (X ,Y ) admet FXY pour fonction de distribution jointe alors les

distributions marginales de X et Y sont respectivement donnée par FX(x) = lim

y→∞FXY(x, y) et

FY(y) = lim

x→∞FXY(x, y).

Théorème de Sklar

Soit FXY une fonction de distribution bivariée ayant comme fonctions de distribution

margi-nale FX et FY. Alors il existe une copule C telle que pour tout (x, y) ∈ R2,

FXY(x, y) = C[FX(x), FY(Y )] (1.1)

Si les fonctions de répartition FX et FY sont continues, alors la copule C est unique ; sinon

elle est définie de façon unique sur FX(R) × FY(R).

Inversement, si FX et FY sont des fonctions de répartition et C une copule, alors la fonction

FXY définie par (1.1) est une fonction de distribution bivariée dont les marginales sont FX et

FY.

1.4.3

Autres propriétés des copules

Dans cette partie, X et Y désignent des variables aléatoires de fonctions de répartition respec-tives FX et FY et de fonction de distribution jointe FXY. La copule définie par le théorème de

Sklar est notée CXY.

Théorème 1.4.3.1 Si X et Y sont des variables aléatoires continues, alors X et Y sont indé-pendantes si et seulement si CXY = π ; avec π(u, v) = uv pour tout (u, v) ∈ [0, 1]2.

(33)

Théorème 1.4.3.2 Si X et Y sont des variables aléatoires continues et a et b des fonctions strictement croissantes respectivement sur les domaines de définitions de X et de Y , alors Ca(X )b(Y )= CXY. Ainsi les variables aléatoires(X ,Y ) et (a(X ), b(Y )) sont régis par la même

copule.

La copule est donc une modélisation de la structure de dépendance qui est indépendante des marges.

Théorème 1.4.3.3 X et Y sont des variables aléatoires continues et a et b des fonctions définies respectivement sur les domaines de définitions de X et de Y . Posons u= FX(x) et

v= FY(y).

1. Si a est strictement croissante et b strictement décroissante, alors Ca(X )b(Y ) = u − CXY(u, 1 − v) ;

2. Si a est strictement décroissante et b strictement croissante, alors Ca(X )b(Y ) = v − CXY(1 − u, v) ;

3. Si a et b sont strictement décroissantes, alors Ca(X )b(Y )= u + v − 1 +CXY(1 − u, 1 − v).

1.4.4

Copules et dépendance

Nous avons vu précédemment que la copule permet de modéliser la dépendance entre deux variables aléatoires X et Y indépendamment des marges. Elle permet aussi de retrouver les principaux indicateurs de dépendance.

Copule et coefficient de corrélation de Pearson

L’une des limites énumérées plus haut pour le coefficient de corrélation de Pearson est qu’il n’est pas invariant par des transformations non linéaires strictement croissantes contrairement à la copule qui est invariante par toute paire de transformations strictement croissantes. Ainsi, deux vecteurs aléatoires peuvent avoir la même copule mais des corrélations différentes. La corrélation dépend donc non seulement de la copule mais aussi des lois marginales. Par exemple, pour une paire de variables aléatoires continues (X ,Y ) de fonction de répartition (FX, FY), les vecteurs aléatoires (U = FX(X ),V = FY(Y )) et (U2,V2) ont la même copule

mais des coefficients de corrélation différents.

Copules et rho de Spearman

Soient X et Y deux variables aléatoires continues de fonction de distribution jointe FXY, de

(34)

avons définie précédemment le rho de Spearman entre X et Y par ρS(X ,Y ) = ρ(FX(X ), FY(Y )).

Or,

ρ (FX(X ), FY(Y )) = ρ(U,V )

=p Cov(U,V ) Var(U )Var(V ) =E(U,V ) − E(U )E(V )p

Var(U )Var(V ) =E(U,V ) − 1/ 4 1/ 12 = 12E(U,V ) − 3 = 12 Z I2uvdC(u, v) − 3

Ainsi le rho de Spearman est donné par :

ρS(X ,Y ) = 12

Z

I2uvdC(u, v) − 3

Copules et tau de Kendall

Soient X et Y deux variables aléatoires continues de copule C, alors le tau de Kendall de la paire (X ,Y ) est donné par :

τ (X ,Y ) = 4

Z

I2C(u, v)dC(u, v) − 1

= 4E[C(U,V )] − 1

On peut également montrer (voir Roger, 2006) que :

τ (X ,Y ) = 1 − 4 Z I2 ∂ ∂ uC(u, v) ∂ ∂ vC(u, v)dudv

1.4.5

Copules et survie

Soient X et Y deux variables aléatoires continues de fonctions de répartition respectives FX et

FY, de fonction de distribution conjointe FXY, de copule C et de fonctions de survie respectives

SX et SY.

La fonction de survie conjointe de X et Y est donnée par :

¯

(35)

Cette expression équivaut à :

SXY(x, y) = P(X > x) − P(X > x,Y < y)

= P(X > x) − P(Y < y) + P(X < x,Y < y) = 1 − FX(x) + 1 − FY(y) − 1 + FXY(x, y)

= SX(x) + SY(y) − 1 +C [1 − SX(x), 1 − SY(y)]

Soit ¯Cla fonction définie de [0, 1]2vers [0, 1] par : ¯

C(u, v) = u + v − 1 +C(1 − u, 1 − v)

On a :

SXY(x, y) = ¯C[SX(x), SY(y)]

¯

Cest une copule et est appelée copule de survie associée à C.

1.4.6

Les copules archimédiennes

Une classe particulière de copule utilisée dans ce mémoire est la classe des copules archi-médiennes. Elle a été introduite par Genest et Mackay (Genest et MacKay, 1986a,b). Les copules archimédiennes sont très utilisées en pratique en raison de leur diversité, de leurs intéressantes propriétés et de la facilité avec laquelle elles peuvent être construites pour mo-déliser diverses structures de dépendance (Roger, 2006).

Définition

Une copule bivariée C est dite archimédienne lorsqu’elle possède la représentation :

C(u, v) = ϕ[−1][ϕ(u) + ϕ(v)] où,

• ϕ est une fonction décroissante et convexe définie sur [0, 1] telle que ϕ(1) = 0. Cette fonction est appelée générateur de la copule ;

• ϕ[−1]est la pseudo-inverse de ϕ définie par :

ϕ[−1](t) = ( ϕ−1(t) si 0 ≤ t ≤ ϕ(0) 0 si t ≥ ϕ(0) Si lim t→0ϕ (t) = ∞ alors ϕ [−1]= ϕ−1

(36)

La principale source de générateurs de copules archimédiennes est l’inverse de la transfor-mée de Laplace des fonctions de répartition. Ceci facilite la construction des copules archi-médiennes.

Si (X ,Y ) est un couple de variables aléatoires dont la copule est une copule archimédienne de générateur ϕ, alors le taux de Kendall entre X et Y est donné par :

τ = 1 + 4

Z 1

0

ϕ (t) ϕ0(t) Exemples de copules archimédiennes

Parmi les copules archimédiennes les plus utilisées, nous avons :

• La couple d’indépendance ∏ définie par π(u, v) = uv et ayant pour générateur

ϕ (t) = − log(t)

• La famille des copules de Clayton, introduite par Clayton (1978) et étudiée par Oakes (1982) qui a pour générateur

ϕθ(t) =

t−θ − 1 θ où θ ∈ [−1, ∞)\0 est le paramètre de la copule.

θ mesure le degré de dépendance puisqu’il est relié au tau de Kendall par :

τθ =

θ θ + 2

Les copules du minimum m, d’indépendance ∏ et du maximum M correspondent res-pectivement à θ = −1, θ → 0 et θ → ∞.

• La famille des copules de Frank, introduite par Frank (1979) et étudiée par Genest (1987) qui a pour générateur

ϕθ(t) = − log

e−θt− 1 e−θ− 1 avec θ ∈ R∗.

Le tau de Kendall est donné par :

τθ = 1 −

4 θ



1 − D(1)(θ ) où D(k)est la fonction de Debye définie par :

D(k)(x) = k xk Z x 0 tk et− 1dt

(37)

Le rho de Spearman pour cette sous-famille de copule est donné par :

ρSθ = 1 −

12 θ [D

(1)(θ ) − D(2)(θ )]

La copule du minimum m correspond à θ → −∞, la copule d’indépendance Π corres-pond à θ → 0 et la copule du maximum M correscorres-pond à θ → ∞.

Remarque 1.4.6.1 les copules de Frank sont les seules copules de la classe des co-pules archimédiennes égales à leurs coco-pules de survie correspondantes (C(u, v) =

¯ C(u, v)).

• La famille des copules de Gumbel, introduite par Gumbel (1960), il a pour générateur

ϕθ(t) = [− log(t)]θ avec θ ≥ 1.

Le tau de Kendall pour cette sous-famille est donné par :

τθ = 1 − 1 θ

La copule d’indépendance correspond à θ = 1 et celle du Maximun correspond à θ → ∞.

Remarque 1.4.6.2 Les copules de Gumbel sont les seules copules archimédiennes vé-rifiant une propriété de max-stabilité c’est-à-dire C(un, vn) = Cn(u, v).

Ces trois familles de copules archimédiennes font partir de la classe des copules archimé-diennes à un paramètre. Ce sont les seules abordées dans ce mémoire. Le tableau suivant récapitule leurs principales propriétés.

Famille Générateur

Domaine du para-mètre

Expression de la copule Cθ(u, v) Tau de Kendall τθ

Clayton t−θ−1 θ [−1, ∞]\0 [max(0, u−θ+ v−θ− 1)]−1/θ τθ =θ +2θ ]0, ∞[ (u−θ+ v−θ − 1)−1/θ Frank − loge−θt−1 e−θ−1 R\0 −1 θ ln  1 +(e−θ u−1)(e−θ v−1) e−θ−1  1 −θ4  1 − D(1)(θ )  Gumbel (− log(t))θ [1, ∞) exp −[(− ln u)θ+ (− ln v)θ] 1 θ ! 1 −θ1 Tableau 1.1 – Caractéristiques des copules des sous-familles de Clayton, Frank et Gumbel

(38)
(39)

Chapitre 2

Estimation du paramètre de la copule et

de la fonction de survie

Les méthodes d’estimation les plus populaires de la fonction de survie notamment la méthode non paramétrique de Kaplan-Meier supposent l’indépendance entre les variables de censure et d’intérêt. Et c’est dans ce cas d’indépendance que les estimateurs obtenus à partir de ces méthodes ont de bonnes propriétés (estimateur convergent de la fonction de survie margi-nale). Dans ce chapitre, nous considérons que les variables d’intérêt T et de censure U ne sont pas forcément indépendantes, mais ont une distribution jointe modélisée par une copule archimédienne. Nous supposons que la famille de copule archimédienne et la distribution de la variable de censure sont connues. Nous proposons une technique d’estimation de la valeur du paramètre de la copule. Cette valeur estimée du paramètre de la copule sera enfin utili-sée pour estimer la fonction de survie de la variable d’intérêt en utilisant le «copula-graphic estimator». Nous considérons les copules de Clayton, de Frank et de Gumbel.

2.1

Le Copula-Graphic estimator

Le copula-graphic estimator est un estimateur des fonctions de survies marginales des va-riables d’intérêt T et de censure U à partir des données observées (Xi, δi)i=1,··· ,n avec Xi=

min(Ti,Ui) et δi = 1(Ti < Ui) établi par Zheng et Klein (1995). Cet estimateur suppose la

connaissance de la copule représentant la distribution jointe des variables T et U .

Sous l’hypothèse d’indépendance entre T et U , il est établi que la distribution marginale de T est déterminée de façon unique par la connaissance des probabilités :

(40)

k(x) = P(T > x,U > x), p1(x) = P(T ≤ x, T < U ) et p2(x) = P(U ≤ x,U < T )

Avec 0 ≤ x < ∞

Ces probabilités sont directement estimables à partir des données observées (Xi, δi)i=1,··· ,n.

Le théorème suivant et ses corollaires ont été énoncés et prouvés par Zheng et Klein.

Théorème 2.1.1 Supposons que les distributions marginales respectives FT et FU de T et

U sont continues et strictement croissantes sur(0, ∞), que la copule C du couple (T,U ) est connue avec C(E) > 0 pour tout ouvert E de [0, 1] × [0, 1]. Alors les distributions marginales FT et FU sont déterminées de façon unique par les quantités k(x), p1(x) et p2(x) avec x > 0.

Corollaire 2.1.1 Soit c la fonction de densité de C. Si c(t, u) > 0 pour tout (t, u) ∈ [0, 1] × [0, 1], alors le résultat du théorème précédent s’applique.

Corollaire 2.1.2 dans le théorème précédant, s’il existe des temps x1et x2tels que FT(x1) =

1 et FU(x2) = 1 et FT et FU sont strictement croissantes respectivement sur(0, x1) et (0, x2)

alors FT et FU sont déterminées de façon unique sur(0, min(x1, x2)).

Pour tout x, on a les deux relations :

c(Ax) = P(T > x,U > x) = k(x)

c(Bx) = P(T ≤ x, T < U ) = p1(x)

Avec

Ax= {(t, u)|FT(x) < t ≤ 1, FU(x) < u ≤ 1)} et Bx= {(t, u)|0 ≤ t ≤ FT(x), FUFT−1(x) ≤ u ≤ 1)}

Zheng et Klein (1995) ont montré que ces deux relations déterminent de façon unique FT et

FU. Les estimateurs ˆFT et ˆFU de FT et FU qui préservent ces propriétés sont obtenus sur un

ensemble de m points sélectionnés tels que 0 < x1< x2< · · · < xm< max{Xi, i = 1, · · · , n}.

Pour construire leur estimateur, Zheng et Klein (1995) ont utilisé ˆAx = {(t, u)| ˆFT(x) < t ≤ 1, ˆFU(x) < u ≤ 1)}, ˆBx= {(t, u)|0 ≤ t ≤ ˆFT(x), ˆFUT−1(x) ≤ u ≤ 1)} et les estimateurs em-piriques ˆP(T > x,U > x) = n−1∑ 1(Xi> x) et ˆP(T ≤ x, T < U ) = n−1∑ 1(Xi≤ x, δi= 1) de

(41)

Ensuite, ˆFT(xi) est obtenu comme racine de l’équation

c( ˆBxi) − P(T ≤ xi, T < U ) = 0 (2.1)

Alors que ˆFU(xi) est obtenu en résolvant l’équation

c( ˆAxi) − P(T > xi,U > xi) = 0 (2.2)

ˆ

FT et ˆFU étant constantes par intervalle (ti,ti+1).

L’algorithme de construction de ˆFT et ˆFU est le suivant :

Étape 1 : Pour i = 1, étant donné un estimé initial ˆFT(1)(x1) de ˆFT(x1), rechercher ˆF

(1) U (x1) en résolvant (2.2) Étépe 2 : Si ce couple FˆT(1)(x1), ˆF (1) U (x1) 

vérifie (2.1), on passe à l’étape 4. Sinon, il faut utiliser (2.1) pour décider si le prochain estimé ˆFT(2)(x1) est supérieur ou inférieur à ˆF

(1)

T (x1)

puis utiliser le milieu de l’intervalle  ˆ FT(1)(x1), 1  ou celui de l’intervalle  0, ˆFT(1)(x1)  selon le cas comme valeur de ˆFT(2)(x1).

Étape 3 : Répéter les étapes 1 et 2 en utilisant les estimés courants de ˆFT(x1) et ˆFU(x1).

Après i itérations, la nouvelle valeur de ˆFT(x1) est le milieu de l’intervalle

 ai, ˆFT(i)(x1)  ou celui de  ˆ FT(i)(x1), bi 

selon le cas avec

ai= max{ ˆFT(k)(x1)|k < i, ˆFT(k)(x1) < ˆFT(i)(x1)} et

bi= min{ ˆFT(k)(x1)|k < i, ˆFT(k)(x1) > ˆFT(i)(x1)} Ce processus continue jusqu’à la convergence.

Étape 4 : Répéter les étapes 1 à 3 pour i = 1, · · · , m. Pour x > max(Xi), prendre ˆFT(x) =

ˆ

FT(xm) et ˆFU(x) = ˆFU(xm).

Concernant le choix de l’ensemble des points avec lesquels calculer ces estimateurs, Zheng et Klein proposent de prendre x1, · · · , xmcomme les différents temps auxquels un décès ou une

censure a été enregistré. Avec ces m différents points et des fonctions constantes par intervalle (xi, xi+1), ces estimateurs sont facilement calculables. Si δi= 0 alors FT(xi) = FT(xi−1) et si

δi= 1 alors FU(xi) = FU(xi−1).

(42)

Pour δi= 1,

c( ˆAxi) = 1 − ˆFT(xi) − ˆFU(xi−1) +C{ ˆFT(xi), ˆFU(xi−1)} = ˆP(T > xi,U > xi) (2.3)

et pour δi= 0,

c( ˆAxi) = 1 − ˆFT(xi−1) − ˆFU(xi) +C{ ˆFT(xi−1), ˆFU(xi)} = ˆP(T > xi,U > xi) (2.4)

La résolution itérative des équations (2.3) ou (2.4) permet de trouver ˆFT(xi) et ˆFU(xi).

Zheng et Klein (1995) ont mentionné et démontré quelques propriétés intéressantes du copula-graphic estimator :

Théorème 2.1.2 Le copula-graphic estimator est un estimateur du maximum de vraisem-blance.

Théorème 2.1.3 Pour la copule d’indépendance C(t, u) = tu, lorsque x ≤ xnoù xnreprésente

la plus grande valeur du temps observée, le copula-graphic estimator des fonctions de survie marginales équivaut à l’estimateur de Kaplan-Meier.

Zheng et Klein (1995) ont estimé la variance du copula-graphic estimator en utilisant l’esti-mateur de variance de Jackknife (Efron, 1982)

Var( ˆˆ ST(x)) = n− 1 n n

i=1 { ˆST(i)(x) − ˆST(.)(x)} 2

Où ˆST(i)(x) est le copula graphic estimator de ST(x) obtenu en excluant l’observation (Xi, δi)

des données et ˆST(.) est la moyenne des n ˆST(i).

2.2

Le copula-graphic estimator pour les copules

archimédiennes

Rivest et Wells (2001) ont donné une expression explicite du copula-graphic estimator et en ont étudié les propriétés asymptotiques lorsque la distribution jointe des variables d’intérêt et de censure est modélisée par une copule archimédienne.

Considérons les données observées (Xi, δi) avec δi= 1(Ti< Ui) où T et U désignent

respecti-vement les variables d’intérêt et de censure. Pour des raisons de simplicité, on suppose égale-ment que T et U sont des variables continues donc la probabilité d’avoir des décès multiples

(43)

à un instant donné est nulle. La distribution jointe de T et U est une copule archimédienne donc leur fonction de survie conjointe est de la forme :

STU(t, u) = ϕ−1[ϕ(ST(t)) + ϕ(SU(u))]

Où ϕ est le générateur de la copule (fonction décroissante et convexe définie sur [0, 1] telle que ϕ(1) = 0 ).

Les copula-graphic estimator des fonctions de survie ST et SU sont des fonctions en escaliers

décroissantes vérifiant ˆST(0) = 1 et ˆSU(0) = 1 avec des sauts respectivement aux points Xi

où δi= 1 et aux points Xioù δi= 0.

La fonction de survie de X est donnée par :

SX(x) = P(X > x) = P[min(T,U ) > x] = P(T > x,U > x) = STU(x, x)

= ϕ−1[ϕ(ST(x)) + ϕ(SU(x))]

Donc

ϕ [SX(x)] = ϕ(ST(x)) + ϕ(SU(x))

L’estimateur ˆSX de SX vérifie donc

ϕ [ ˆSX(x)] = ϕ( ˆST(x)) + ϕ( ˆSU(x)) (2.5)

où ˆSX désigne l’estimateur empirique de SX donné par :

ˆ

SX(x) =1

n

i 1(Xi> x)

Considérons un point Xitel δi= 1. Cela signifie que ˆSU(Xi) = ˆSU(Xi−) puisque ˆSU n’a pas de

saut au point Xi. On a donc d’après (2.5) ( ϕ [ ˆSX(Xi)] = ϕ[ ˆST(Xi)] + ϕ[ ˆSU(X − i )] ϕ [ ˆSX(Xi−)] = ϕ[ ˆST(Xi−)] + ϕ[ ˆSU(Xi−)] Soit ϕ ( ˆST(Xi−)) − ϕ( ˆST(Xi)) = ϕ( ˆSX(X − i )) − ϕ( ˆSX(Xi)) Or ˆ SX(Xi−) = ˆSX(Xi) +1 n

(44)

Donc

ϕ ( ˆST(Xi−)) − ϕ( ˆST(Xi)) = ϕ( ˆSX(Xi) +

1

n) − ϕ( ˆSX(Xi)) (2.6)

En sommant les deux membres de l’égalité (2.6) sur tous les Xiinférieurs ou égaux à t et pour

lesquels δi= 1, on a : −ϕ( ˆST(t)) =

Xi≤t,δi=1 ϕ ( ˆSX(Xi) +1n) − ϕ( ˆSX(Xi)) Ou encore ˆ ST(t) = ϕ−1 " −

Xi≤t,δi=1 ϕ ( ˆSX(Xi) +1n) − ϕ( ˆSX(Xi)) # (2.7)

(2.7) est l’expression explicite du copula-graphic estimator de la fonction de survie de la variable d’intérêt lorsque la copule considérée est archimédienne proposée par Rivest et Wells (2001).

Ces auteurs ont également donné une écriture sous forme de martingale du copula-graphic estimator lorsque la copule de dépendance est une copule archimédienne à un paramètre et fait ressortir d’autres propriétés de cet estimateur. Ils ont notamment montré que sous cer-taines conditions supplémentaires, il converge asymptotiquement vers un processus gaussien non biaisé.

La spécification du degré de dépendance entre les variables d’intérêt et de censure et par ri-cochet de la copule archimédienne et de son paramètre reste le problème majeur à résoudre pour l’implémentation du copula-graphic estimator lorsque la copule archimédienne est as-sumée. Récemment, Wang (2014) a montré que si l’une des fonctions de survie marginales est connue, alors le paramètre de la copule devient identifiable, sans toutefois développer de méthode particulière d’estimation du paramètre. Dans la prochaine section, nous proposons une telle procédure.

2.3

Nouvelle méthode d’estimation du Paramètre de la

copule archimédienne et test d’indépendance entre les

variables d’intérêt de censure

Dans cette section, nous supposons que la fonction de survie de la variable de censure est connue. Sous cette hypothèse, nous présentons un nouvel estimateur du paramètre de la co-pule archimédienne et un test d’indépendance entre les variables d’intérêt et de censure.

(45)

2.3.1

Estimation du paramètre de la copule et de la survie de la

variable d’intérêt

Étant donnée la copule archimédienne, nous pouvons pour chaque valeur possible θ du paramètre de cette copule, au moyen du copula-graphic estimator, estimer la fonction de survie ˆSU

θ correspondante de la variable de censure. Avec les données (Xi, δi)i=1,··· ,n où

Xi= min(Ti,Ui) et δi= 1(Ti< Ui), nous estimons les n1= n − n

i=1

δi survies correspondant

aux valeurs de la variable de censure dans notre jeu de données pour chaque valeur fixée du paramètre de la copule. Les vraies valeurs de la survie de la variable de censure étant connues, nous calculons la somme des carrés des écarts des valeurs estimées de survie de la variable de censure aux vraies valeurs correspondantes. Soit

g(θ ) =

1≤i≤n δi=0

[SU(Xi) − ˆSUθ j(Xi)]2

L’estimateur ˆθ du paramètre θ est celui qui minimise cette somme des carrés des écarts des survies estimées aux vraies survies. Soit

ˆ

θ = Argmin

θ ∈R

[g(θ )]

Pour estimer la variance de cet estimateur, nous utilisons la méthode du Bootstrap (Efron, 1979) qui consiste à tirer B échantillons avec remise des données puis calculer les B esti-mateurs ˆθb∗ correspondants. Ensuite, on calcule la variance empirique de ces B estimateurs. Soit ∧ Var1( ˆθ ) = 1 B− 1 B

b=1 ( ˆθb∗− ¯ˆθ ∗ )2 Avecθ¯ˆ ∗

la moyenne arithmétique des ˆθb∗;θ¯ˆ

∗ =B1 B ∑ b=1 ˆ θb∗.

Une fois le paramètre de la copule estimé, ce dernier est utilisé pour estimer la fonction de survie de la variable d’intérêt. L’estimateur utilisé est le copula-graphic estimator pour les copules archimédiennes.

Pour l’estimation de la variance de la fonction de survie, nous utilisons également l’estima-teur de variance du Bootstrap précédemment présenté.

(46)

2.3.2

Test d’indépendance entre les variables d’intérêt T et de censure

U

La technique d’estimation du paramètre de la copule et par ricochet de la survie que nous avions développée ne suppose pas l’indépendance entre les variables d’intérêt et de censure. Il s’agit ici de faire un test pour vérifier la dépendance entre les variables d’intérêt et de censure pour une utilisation judicieuse de notre méthode d’estimation.

Étant donné les observations {(Xi, δi)i = 1, · · · , n} avec δi= 1(Ti<Ui), nous pouvons estimer

pour la variable de censure U la fonction de survie SU avec l’estimateur de survie de

Kaplan-Meier et la fonction de hasard cumulé HUavec l’estimateur de Nelson-Aalen. Ces estimateurs

sont reconnus satisfaisants lorsque les variables de censure et d’intérêt sont indépendantes. La distribution de la variable de censure étant connue, sa vraie fonction de hasard hU0 l’est

également. Si l’hypothèse d’indépendance entre les variables T et U est vraie, on s’attend à ce que la fonction de hasard observée au niveau de l’échantillon soit proche de la vraie fonction de hasard.

La stratégie du test consiste donc à comparer la fonction de hasard observée et la vraie fonc-tion de hasard hU0(t).

Les hypothèses du test sont :

(

H0: hU(t) = hU0(t), ∀ t ≤ τ

H1: ∃ un intervalleA ⊂ [0,τ] tel que P(U ∈ A ) ≥ 0 et ∀ t ∈ A , hU(t) 6= hU0(t)

où :

• hU(t) désigne la fonction de hasard inconnue caractérisant la distribution de

prove-nance de l’échantillon observé ;

• hU0(t) désigne la vraie fonction de hasard connue ;

• τ désigne la plus grande valeur du temps (X) observée au niveau de l’échantillon ;

• A désigne un ensemble de mesure de Lebesgue ;

• P(U ∈A ) désigne le probabilité que la variable aléatoire de censure U prenne une valeur dans l’ensembleA .

(47)

Z(τ) = O(τ) − E(τ) = Z τ 0 W(s)d ˆHU(s) − dHU0(s)  Où :

• O(τ) désigne ce qui est observé sur [0, τ] ;

• E(τ) ce qui est espéré sous l’hypothèse nulle H0et

• W (t) une fonction de poids telle que W (t) = 0 si Y (t) = 0 ; Y (t) désignant le nombre d’individus encore à risque juste avant le temps t.

Grâce à l’estimateur de la fonction de hasard cumulée de Nelson-Aalen, cette statistique de test peut s’écrire :

Z(τ) = n

i=1 W(ti) di Y(ti) − Z τ 0 W(s)hU0(s)ds Où didésigne le nombre d’évènements survenus au temps ti.

Nous considérons ici le test du log-rang (Mantel, 1966; Peto et Peto, 1972) qui considère W(s) = Y (s). La statistique du test devient alors :

Z(τ) = n

i=1 di− Z τ 0 Y(s)hU0(s)ds = n

i=1 di− Z τ 0 n

i=1 1{0≤s≤ti}hU0(s)ds = n

i=1 di− n

i=1 Z ti 0 hU0(s)ds = n

i=1 di− n

i=1 HU0(ti)

Sous l’hypothèse nulle, Z(τ) suit asymptotiquement une loi normale de moyenne nulle et de variance : var[Z(τ)] = n

i=1 HU0(ti) Soit X2= Z 2(τ) var[Z(τ)]

X2suit asymptotiquement une loi de Khi deux à 1 degré de liberté. On rejette H0au seuil α si XObs2 ≥ χ1,α2 .

(48)

Figure

Tableau 1.1 – Caractéristiques des copules des sous-familles de Clayton, Frank et Gumbel
Tableau 3.1 – Quelques valeurs estimées du paramètre de la copule de Clayton et du tau de Kendall lorsque T et U suivent une même loi (soit 50% de censure) de Weibull de paramètre de forme α = 4 et de paramètre d’échelle β = 2
Tableau 3.2 – Quelques valeurs estimées du paramètre de la copule de Clayton et du tau de Kendall lorsque T suit une loi de Weibull(1.5, 1.6) et U suit Weibull(4, 2) (soit entre 19% et 32% de censure)
Tableau 3.3 – Quelques valeurs estimées du paramètre de la copule de Clayton et du tau de Kendall lorsque T suit une loi de Weibull(4, 2) et U suit Weibull(1.5, 1.6) (soit entre 68% et 82% de censure)
+7

Références

Documents relatifs

• Déf: mode de passage de paramètre = lien qui existe entre le paramètre formel et le paramètre actuel.. • Normallement le choix du mode de passage se fait indépendamment pour

Montrer que F est de classe C ∞ sur R et vérie une équation diérentielle linéaire du second ordre..

Dans ce travail, la m´ ethode des moments pond´ er´ es (PWM) est utilis´ ee pour estimer les param` etres de second ordre qui permettent d’affiner cette approximation : en

3- A l’aide de vos connaissances et des documents, développer un argumentaire pour convaincre l’agriculteur producteur de pommes de terre de fertiliser différemment

D’une part, nous construisons un mod`ele semi-param´etrique g´en´erique pour d´ecrire la statistique du logarithme des coefficients dominants de processus multifractals, construits

Remarquer que la suite des valeurs prises par les variables R N est croissante et déduire des questions précédentes qu'elle converge presque sûrement vers 1.. Nombre de tentatives

A l'aide d'un test que l'on précisera, au seuil de risque de 5%, déterminer la valeur minimale de n qui permet au chercheur de conclure que les résultats avec le nouveau traitement

Université Paris-Dauphine Licence de Mathématiques Appliqués. Intégrale de Lebesgue et Probabilités