• Aucun résultat trouvé

Mise en œuvre et étude de la puissance du test d’indépendance par simu-

3.4.1

Mise en œuvre du test d’indépendance sur des échantillons

simulés

Nous simulons chaque fois N = 5000 échantillons de taille n = 400 à partir de diverses co- pules, de diverses valeurs pour le tau de Kendall (τ ' 0, τ = 0.2, et τ = 0.5) et de diverses lois pour les variables T et U . Nous calculons ensuite la proportion de rejet de l’hypothèse d’indépendance et nous construisons le QQ-plot des seuils observés. À l’indépendance, nous nous attendons à une proportion de rejet autour de 5% et une distribution uniforme sur [0, 1] pour les seuils observés. Nous testons enfin l’hypothèse nulle selon laquelle les seuils obser- vés proviennent d’une distribution uniforme sur [0, 1] avec le test de Kolmogorov Smirnov.

Cas où les variables d’intérêt T et de censure U sont indépendantes (τ = 0.0001 ' 0) Lorsque les variables d’intérêt T et de censure U sont indépendantes et suivent une même loi (50% de censure), nous avons obtenu 4.9% de rejet de l’hypothèse d’indépendance. Quant au test de Kolmogorov-Smirnov sur la distribution des N = 5000 p-values, elle ne rejette pas l’hypothèse que ces probabilités proviennent de la distribution uniforme sur [0, 1] (p- value=0.95). De même, lorsque T et U ne suivent plus la même loi (taux de censure différent de 50%), nous arrivons à des résultats similaires. Le graphique suivant montre le QQ-plot des 5000 p-values. En observant ce graphique, on remarque que les quantiles de la distribu- tion des p-values ne s’écartent pas de ceux d’une loi uniforme standard et restent toujours à l’intérieur de l’intervalle de confiance à 95%.

Graphique 3.19 – QQ-plot comparant la distribution des p-values pour le test d’indépendance lorsque les variables d’intérêt T et de censure U sont indépendantes et suivent une même loi à celle d’une loi uniforme standard

Cas où les variables d’intérêt T et de censure U ne sont plus indépendantes

Lorsque les variables T et U sont dépendantes (τ = 0.2 par exemple) , le taux de rejet de l’hy- pothèse d’indépendance est largement supérieur à 5%. Par exemple lorsque T et U suivent une même loi (50% de censure), on obtient environ 55% de rejet et le test de Kolmogorov- Smirnov rejette avec conviction (p-value = 0.000) l’uniformité sur [0,1] de la distribution des seuils observés. Voici QQ-plot comparant la distribution des seuils observés à la loi uni- forme standard (voir figure 3.20). Il apparait clairement sur ce graphique une distribution qui s’écarte totalement d’une loi uniforme standard.

Graphique 3.20 – QQ-plot comparant la distribution des p-values pour le test d’indépendance lorsque les variables d’intérêt T et de censure U sont dépendantes (ici τ = 0.2) et suivent une même loi à celle d’une loi uniforme standard

3.4.2

Puissance du test d’indépendance entre les variables d’intérêt T

et de censure U suivant les valeurs du tau de Kendall et selon la

taille d’échantillon

Nous étudions ici la puissance du test d’indépendance entre les variables d’intérêt T et de censure U c’est-à-dire la capacité de notre test à détecter la présence de dépendance entre les variables T et U . En effet, en statistique, la puissance d’un test désigne la probabilité de rejeter l’hypothèse nulle du test sachant que cette hypothèse nulle est bien fausse. Dans notre cas, la puissance sera estimée sur un nombre N d’échantillons de taille n par la proportion de rejet de l’hypothèse nulle.

Nous avons étudié premièrement l’évolution de la puissance estimée de notre test suivant la force de la dépendance entre les deux variables. Sans surprise, la puissance estimée est d’autant plus élevée qu’il y a une forte dépendance (tau de Kendall élevé) entre les deux variables. Ainsi, comme le montre le graphique 3.21 ci-dessous, pour N = 5000 échantillons de taille n = 200 où les variables T et U suivent la même loi [Weibull(4, 2)], générés à partir

d’une copule de Frank, la puissance estimée tant vers 0 lorsque le tau de Kendall tend vers 0 (presque pas de dépendance) et croit avec le tau de Kendall pour atteindre sa valeur maximale (1) à un tau de Kendall d’environ 0.75.

Ensuite, nous avons étudié l’évolution de la puissance en fonction de la taille d’échantillon. Comme on s’y attendait, la puissance est d’autant plus élevée que la taille d’échantillon est grande. Ainsi (voir graphique 3.22 ci-dessous), pour 5000 échantillons où T et U suivent une même loi Weibull(4,2), générés à partir d’une copule de Frank avec un tau de Kendall de 0.25, la puissance estimée tend vers zéro lorsque n est trop petit (n<=30) et croit avec la taille d’échantillon pour atteindre presque son maximum (1) à une taille d’échantillon autour de 1300.

Graphique 3.21 – Évolution de la puissance du test d’indépendance suivant la force de la dépendance entre les deux variables T et U (avec la copule de Frank et n=200

Graphique 3.22 – Évolution de la puissance du test d’indépendance suivant la taille d’échan- tillon (avec la copule de Frank et τ = 0.25)

Chapitre 4

Application à un jeu de données réelles :

estimation de l’âge d’occurrence de

l’appendicite en Australie en 1980

Dans ce chapitre, nous disposons d’un jeu de données réelles (Xi, δi)i=1,··· ,noù Xi= min(Ti,Ui)

et δi = 1(Ti < Ui). Nous appliquons notre méthode d’estimation de survie qui prend en

compte la dépendance entre les variables d’intérêt T et de censure U à ces données pour estimer la survie de la variable d’intérêt. Nous estimons ensuite la variance de notre esti- mateur avec la méthode du bootstrap. Toutes les estimations sont réalisées avec le logiciel R.

4.1

Description des jeux de données

Le jeu de données principal que nous utilisons provient d’une enquête sur l’occurrence de l’appendicite réalisée en 1980 auprès d’un échantillon de femmes âgées de 17 ans et plus en Australie (Voir Duffy et al. (1990) pour plus de détails sur cette enquête) . Au total, n = 3906 femmes ont fourni les informations dont nous avons besoin. Ce qui nous intéresse ici, ce sont les données (Xi, δi)i=1,··· ,n, où Xiest l’âge à laquelle la participante i a eu l’appendicite lorsque

δi = 1 et l’âge de la participante au moment de l’étude lorsque δi = 0 . Ainsi, la variable

d’intérêt qui est l’âge d’occurrence de l’appendicite n’est observée chez une participante que lorsqu’elle a eu cette maladie avant la date de l’étude (1980). Autrement dit, notre variable d’intérêt est censurée par l’âge en 1980. Nous avons donc la variable d’intérêt T qui est l’âge d’occurrence de l’appendicite et la variable de censure U qui est l’âge en 1980 chez les femmes de 17 ans et plus. Il s’agit d’une censure à droite puisque nous n’observons que le

minimum entre ces deux variables.

Sur les n = 3906 participantes, seulement 926 ont déjà souffert de l’appendicite. Soit un taux de censure de 76.3%. La moyenne échantillonnale des âges observés (variable aléatoire X) vaut ¯X = 30.64 ans et l’écart-type échantillonnal vaut ˆσX = 14.47 ans. Par contre, l’âge

moyen d’occurrence de l’appendicite observé est 19.75 ans avec un écart-type échantillonnal de 9.24 ans.

Puisque notre technique d’estimation suppose la connaissance de la distribution c’est-à-dire la survie de la variable de censure, il nous faut connaître ici, la distribution de l’âge des femmes âgées de 17 ans et plus en 1980 en Australie en supposant que l’échantillon de femmes concernées ici est représentatif de la population globale des femmes de 17 et plus dans la population australienne. La distribution de l’âge des femmes en 1980 en Australie nous est donnée par la répartition par âge des femmes en Australie en 1980. La révision 2015 des perspectives démographiques mondiales (United Nations, 2015) nous fournit la répartition par groupe d’âges de 5 ans (voir tableau 4.1). Cette répartition par groupe d’âges nous permettra d’obtenir la distribution de l’âge en 1980 des femmes de 17 ans et plus en Australie.

Tableau 4.1 – répartition par tranche d’âges de 5 ans des femmes en Australie en 1980 (en millier)

Borne inférieure de la tranche d’âges Effectif de la tranche d’âges

0 554 5 637 10 625 15 640 20 626 25 599 30 582 35 465 40 396 45 362 50 379 55 369 60 311 65 282 70 216 75 152 80 171 Total 7366

En 1980, la population féminine totale en Australie est de 7 366 000. Parmi elles, 554 000 ont moins de 5 ans, 396 000 ont entre 40 et 44 ans alors que 171 000 ont 80 ans et plus.

4.2

Quelques analyses préliminaires sur les données

4.2.1

Détermination de la distribution de l’âge en 1980 des femmes de

17 ans et plus en Australie

Pour avoir la répartition par âge à partir de la répartition par tranche d’âge, nous supposons la fonction de hasard constante au niveau de chaque tranche d’âges. Cela voudrait dire que, lorsque nous prenons par exemple la tranche d’âges de 20 à 24 ans, la probabilité pour une femme parmi celles âgées de 20 ans et plus d’avoir 20 ans, la probabilité pour une femme parmi celles de 21 ans et plus d’avoir 21 ans, la probabilité pour une femme parmi celles de 22 ans et plus d’avoir 22 ans, la probabilité pour une femme parmi celles de 23 ans et plus d’avoir 23 ans et la probabilité pour une femme parmi celles de 24 ans et plus d’avoir 24 ans sont égales. Cette probabilité (valeur de la fonction de hasard) est donnée pour chaque tranche d’âges [u, u + ∆u) par le taux d’évènements dans l’intervalle par unité d’âge parmi les femmes encore à risque au début de l’intervalle :

h(u) = nombre de femmes dans la tranche d’âges [u, u + ∆u) (nombre de femmes âgées de u ans et plus) × ∆u

Le tableau 4.2 ci-dessous présente les valeurs constantes de la fonction de hasard pour les différentes tranches d’âges.

Nous avons donc supposé que l’âge des femmes en Australie en 1980 suit sur chaque inter- valle d’âges j de 5 ans une loi exponentielle de paramètre λj. La distribution globale de l’âge

est alors le « Piecewise constant hazards (Pch)». Avec la librairie « eha » de R, nous obte- nons, à partir des valeurs de la fonction de hasards constante par intervalle, les différentes fonctions caractéristiques notamment la fonction de survie de la distribution de l’âge en 1980 des femmes en Australie.

Tableau 4.2 – Fonction de hasard par tranche d’âges de la distribution de l’âge des femmes en Australie en 1980 Borne inférieure de la tranche d’âge Effectif de la tranche d’âges Effectif d’âges supérieurs ou égaux à la borne inférieure Valeur de la fonction de hasard constante de la tranche d’âges 0 554 7 366 0.01504219 5 637 6 811 0.01869639 10 625 6 174 0.02024315 15 640 5 549 0.02307775 20 626 4 909 0.02549854 25 599 4 283 0.02799458 30 582 3 683 0.031603 35 465 3 101 0.02997822 40 396 2 637 0.0300295 45 362 2 241 0.03227272 50 379 1 879 0.04034402 55 369 1 500 0.04920539 60 311 1 131 0.05491816 65 282 820 0.06868577 70 216 539 0.08004574 75 152 323 0.09433824 80 171 171 0.2

âgées de 17 ans et plus, nous nous servons de la loi des probabilités conditionnelles. Soit

SU(u) = P [U > u|U ≥ 17]

= P[U > u;U ≥ 17] P[U ≥ 17] = P[U > u]

P[U ≥ 17]

4.2.2

Test d’indépendance entre les variables d’intérêt (âge

d’occurrence de l’appendicite) et de censure (âge en 1980)

Comparaison des courbes de la vraie survie et celle estimée par l’estimateur de Kaplan-Meier pour la variable de censure U

Notre technique d’estimation n’est préférable à l’estimateur de survie de Kaplan-Meier que si les variables d’intérêt et de censure (ici l’âge d’occurrence de l’appendicite et l’âge des femmes de 17 ans et plus en 1980) ne sont pas indépendantes. La survie de la variable âge en 1980 chez les femmes de 17 ans et plus étant connue, une façon d’explorer l’indépendance

entre cette variable et la variable d’intérêt est de comparer ces vraies survies à celles estimées par la méthode de Kaplan-Meier. En effet, en cas d’indépendance entre les deux variables, nous nous attendons à ce que les valeurs de la survie estimées par la méthode de Kaplan- Meier soient très proches des vraies valeurs de la survie. L’échantillon considéré étant de grande taille (n = 3906) avec un faible taux de censure (23.7% de censure lorsque la variable de censure est considérée comme celle d’intérêt), l’approximation par Kaplan-Meier devrait être de très bonne qualité si l’hypothèse d’indépendance est vérifiée.

Le graphique 4.1 suivant montre la courbe de la survie estimée par l’estimateur de Kaplan- Meier et celle de la vraie survie pour la variable de censure U (âge en 1980 des femmes de 17 ans et plus en Australie)

Graphique 4.1 – Vraie survie de la variable U (âge en 1980 des femmes de 17 ans et plus) et survie estimée par l’estimateur de Kaplan-Meier

En observant ce graphique (graphique 4.1, il ressort clairement que l’estimateur de Kaplan- Meier sous-estime très largement la vraie survie puisque cette dernière se situe au-dessus et bien distante de la bande de confiance de l’estimateur de Kaplan Meier. Cette analyse

exploratoire permet de douter de l’indépendance entre l’âge des femmes de 17 ans et plus en 1980 et l’âge d’occurrence de l’appendicite chez ces mêmes femmes.

Test d’indépendance formel

Pour tester de façon formelle l’indépendance entre les variables de censure et d’intérêt, nous utilisons le test d’indépendance décrit au chapitre 2 dont la statistique X2 = var[Z(τ)]Z2(τ) suit asymptotiquement une loi de Khi deux à 1 degré de liberté. Dans notre cas, après calcul on a :

Z(τ) = Z(88) = 2980 − 1680.58 = 1299.42

XObs2 =1299.42

2

1680.58 = 1004.71

Soit un seuil observé presque nul.

On rejette donc avec grande conviction l’hypothèse d’égalité entre la vraie fonction de hasard de l’âge des femmes de 17 et + en 1980 et celle de provenance des âges de ces mêmes femmes dans l’échantillon observé en supposant l’indépendance entre les variables de censure et d’in- térêt. Les variables de censure (âge des femmes de 17 ans et plus en 1980) et d’intérêt (âge d’occurrence de l’appendicite chez ces mêmes femmes) ne sont donc pas indépendantes.

4.3

Estimation de la survie de la variable d’intérêt et de sa

variance

4.3.1

Estimation de la survie de la variable d’intérêt

La survie de la variable de censure étant connue, nous pouvons appliquer notre technique d’estimation afin d’estimer la survie de la variable d’intérêt. La dépendance entre les variables de censure et d’intérêt étant avérée eu égard ce qui précède, notre méthode d’estimation qui prend en compte cette dépendance devrait produire un meilleur résultat que l’estimateur de Kaplan-Meier.

Il nous faut donc postuler une copule archimédienne dont nous allons estimer le paramètre avec notre échantillon. La variable d’intérêt étant l’âge auquel la participante a eu l’appendi- cite et celle de censure l’âge de la participante en 1980, nous nous attendons à une dépendance négative entre les deux variables. En effet, considérant que l’hygiène et les techniques de prévention de la maladie s’améliorent et deviennent de plus en plus efficaces avec la moder-

nisation donc le temps, les participantes les plus âgées ont plus de chance d’avoir développé la maladie au cours de leur jeune âge que les participantes les moins âgées.

Afin de pouvoir prendre en compte simultanément toutes les formes de dépendances pos- sibles et surtout une dépendance négative, nous postulons une copule de Frank.

Puisque notre technique d’estimation suppose que notre échantillon provient d’une loi conti- nue, nous avons ajouté un bruit blanc uniforme sur [−0.001, 0.001] aux données (Xi)i=1,··· ,3906

originales afin d’éviter les ex aequo. Après application de notre méthode, nous obtenons comme valeur estimée du paramètre de la copule de Frank ˆθ = −14.52 ; soit un tau de Ken- dall estimé de ˆτ = −0.756. Cette dépendance estimée est conforme à notre conjecture. Le graphique 4.2 montre la fonction optimisée pour obtenir l’estimation de thêta en fonction des différentes valeurs de thêta.

Graphique 4.2 – Évolution de la somme des carrés des écarts des survies estimées de la variable âge en 1980 à leurs vraies valeurs en fonction de thêta

Le graphique 4.3 montre la survie de la variable d’intérêt estimée par notre méthode et celle estimée par la méthode de Kaplan-Meier. En observant ce graphique, il ressort qu’après 25

ans, l’estimation par Kaplan-Meier sous-estime la survie de l’âge d’occurrence de l’appen- dicite chez les femmes en Australie. En effet, la courbe de la survie estimée en prenant en compte la dépendance avec l’âge des femmes de 17 ans et plus en 1980 est au-dessus de la bande de confiance de l’estimateur de Kaplan-Meier pour les âges supérieurs à 25 ans. Le fait que la différence entre les deux estimations de survie apparaît clairement après 25 ans est normal puisque la censure n’intervient qu’à partir de 17 ans. En effet, toute femme de l’échantillon ayant développé l’appendicite avant 17 ans n’a aucune chance d’être censurée. Donc jusqu’à 17 ans, notre estimateur et celui de Kaplan-Meier sont presque équivalents. La différence ne pourrait alors s’observer qu’après 17 ans.

Graphique 4.3 – Survie de l’âge d’occurrence de l’appendicite estimée avec prise en compte de la dépendance avec la variable de censure et celle estimée par la méthode de Kaplan-Meier

4.3.2

Détermination de la variance et d’un intervalle de confiance du

paramètre de la copule de Frank et de la survie estimée par

bootstrap

Avec la technique du bootstrap décrite au chapitre 2 et en nous basant sur B = 5 000 échan- tillons, de même taille n = 3 906 que le jeu de données original, obtenus par tirage avec re- mise, nous obtenons comme estimation du paramètre θ de la copule de Frankθ¯ˆ∗= −14.57.

Cette valeur estimée est très proche de celle estimée à partir du jeu de données original ( ˆθ = −14.52).

L’estimation obtenue pour la variance de ce paramètre est v ˆar( ˆθ∗) = 1.2828.

L’histogramme des 5000 valeurs ˆθ∗ j ( j = 1, · · · , 5000) estimées (voir graphique 4.4) montre

une distribution qui semble symétrique et centrée à ˆθ = −14.52. De plus, le QQ-plot de ces estimés ˆθ∗ j (voir graphique 4.5) ne permet pas de rejeter l’hypothèse de normalité de

la distribution bootstrap. Nous pouvons alors construire un intervalle de confiance bootstrap pour le paramètre θ de la copule de Frank.

Au niveau 95% de confiance, l’intervalle considéré ici est celui délimité par les quantiles d’ordres 0.025 et 0.975 des 5 000 valeurs ˆθ∗ j (où j = 1, 2, · · · , 5000). Cet intervalle vaut

ICθ= (−16.96, −12.52) et est très proche de celui obtenu en considérant que l’estimateur du paramètre de la copule suit une distribution normale de moyenne ˆθ = −14.52 et de variance v ˆar( ˆθ∗) = 1.2828. Soit (−16.74, − 12.30) comme intervalle de confiance à 95%.

Afin d’estimer la variance de la survie de l’âge d’occurrence de l’appendicite, nous utilisons chaque estimé ˆθ∗ j du paramètre θ de la copule de Frank avec le jeu de données original pour

estimer la survie ˆST∗ j correspondante. Pour chaque âge t (t ≥ 0), la variance de la survie

ST(t) est estimée par la variance échantillonnale des 5000 estimés ˆST∗ j(t) correspondants.

Quant à l’intervalle de confiance, il est donné par les quantiles d’ordre 0.025 et 0.975 des 5000 estimés ˆST∗ j(t). Le graphique 4.6 montre les survies estimées ˆST ainsi que la bande de

confiance correspondante.

Il ressort du graphique 4.6 que pour des âges âges supérieurs ou égaux à 30 ans, l’estimation par Kaplan-Meier sous-estime la survie. En effet, la courbe de la survie estimée en prenant en compte la dépendance est au-dessus de celle de la survie estimée par Kaplan-Meier et les bandes de confiance correspondantes sont disjointes.

Le tableau 4.3 présente les survies estimées en tenant compte de la dépendance, les bornes de l’intervalle de confiance correspondant et les survies estimées par Kaplan-Meier pour

Graphique 4.4 – histogramme des 5000 estimés du paramètre de la copule de Frank à partir des échantillons bootstrap

Graphique 4.5 – : QQ-plot des 5000 estimés du paramètre de la copule de Frank à partir des échantillons bootstrap

Graphique 4.6 – : Estimé prenant en compte la dépendance, bande de confiance par bootstrap et estimé Kaplan-Meier de la survie de l’âge d’occurrence de l’appendicite chez les femmes de 17 ans et plus en Australie

En observant le tableau 4.3, on remarque qu’à partir de 30 ans, l’estimateur de Kaplan-Meier sous-estime la survie de l’âge d’occurrence de l’appendice chez les femmes de 17 ans et plus en Australie et se situe en dehors de l’intervalle de confiance de la survie estimée en prenant en compte la dépendance de l’âge d’occurrence de l’appendicite (variable d’intérêt) avec l’âge des femmes de 17 ans et plus en 1980 en Australie. Ainsi, pour une femme ayant 17 ans et plus en Australie en 1980, en prenant en compte la dépendance, la probabilité qu’elle ait eu l’appendicite après 30 ans est estimée à 0.797. Cette probabilité se situe 95% du temps entre 0.783 et 0.809 alors que l’estimation par la méthode de Kaplan-Meier prévoit une valeur de 0.771 pour cette probabilité. De même, une femme de cette population à 76.1% de chance de ne pas développer l’appendicite avant 70 ans et cette valeur se situe 95% du temps entre 74.6% et 77.4% alors que l’estimateur de Kaplan-Meier prévoit 66.6% de chance.

Tableau 4.3 – Valeurs estimées de la survie pour quelques âges

Âge

Survie estimée avec prise en compte de la dépendance

Intervalle de confiance Bootstrap

Survie estimée par Kaplan-Meier 0 1.0000000 (1.0000000, 1.0000000) 1.0000000 5 0.9971838 (0.9951357, 0.9984639) 0.9971838 10 0.9687660 (0.9636457, 0.9743984) 0.9687660 15 0.9208909 (0.9129544, 0.9301075) 0.9208909 20 0.8617511 (0.8509983, 0.8727598) 0.8606159 25 0.8205294 (0.8074720, 0.8315403) 0.8091856 30 0.7969535 (0.7833708, 0.8089974) 0.7713082 35 0.7794260 (0.7663502, 0.7925319) 0.7338675 40 0.7686415 (0.7547795, 0.7815994) 0.7038549 45 0.7661847 (0.7521504, 0.7789697) 0.6954565 50 0.7644359 (0.7507171, 0.7776645) 0.6881491 55 0.7621325 (0.7480344, 0.7755130) 0.6763781 60 0.7616436 (0.7476520, 0.7752975) 0.6729962 65 0.7616436 (0.7474986, 0.7751549) 0.6729962 70 0.7608154 (0.7465551, 0.7742548) 0.6662662 75 0.7608154 (0.7465551, 0.7742548) 0.6662662 80 0.7608154 (0.7465551, 0.7742548) 0.6662662

Conclusion

Dans ce mémoire, nous avons proposé un estimateur du paramètre de la copule archimé- dienne (et par ricochet de la dépendance) en présence de dépendance censurée. Nous avons considéré le cas où la survie de la variable de censure est connue. Notre estimateur du para- mètre de la copule utilise le copula-graphic estimator developpé par Zheng et Klein (1995) qui est un estimateur de survie lorsque la copule régissant la distribution jointe des variables

Documents relatifs