• Aucun résultat trouvé

L’estimateur non paramétrique de Turnbull sert à estimer une fonction de survie d’après des données de durées de maintien en service. Une fonction de survie donne la probabilité de survivre au- delà d’un certain âge, notée :

S(t) = P(T>t)

La courbe de survie a pour valeur de départ S(0)= 1, est décroissante et tend vers 0 quand t tend vers l’infini.

L’estimation non paramétrique de courbe de survie est une fonction en escalier décroissante qui saute vers le bas à chaque valeur de durée de maintien en service observée (quand un ou plusieurs individus « meurent » [ou sont mis hors service]), tout en restant constante (horizontale) entre deux valeurs successives de durée de maintien en service (Cf. Figure 78). En bref, la méthode non paramétrique de Turnbull consiste à estimer la hauteur des sauts. Une présentation plus formelle de la procédure de ce calcul nécessite d’établir des conventions de notation spécifiques.

Notons alors T la variable aléatoire durée de maintien en service, observée sur un ensemble de N tronçons du réseau, divisé en n groupes. Chaque groupe est constitué d’un nombre de tronçons 𝑒𝑖

(avec N =∑𝑖∈{1,…,𝑛}𝑒𝑖) observés dans l'intervalle d'âge [𝑎𝑖,𝑏𝑖]; la variable aléatoire c prend la valeur 𝑐𝑖= 0 si les segments du groupe 𝑖 ont été mis hors service à l’âge 𝑏𝑖, sinon la valeur 𝑐𝑖 = 1 si les

segments du groupe 𝑖 n'ont pas encore été mis hors service lorsque leur observation s'est arrêtée à l’âge 𝑏𝑖. Le premier cas 𝑐𝑖 = 0 signifie l'observation exacte T = 𝑏𝑖, alors que le second cas 𝑐𝑖= 1

signifie censurés à droite et nous observons T > 𝑏𝑖. Sur l'ensemble des valeurs observées 𝑏𝑖, on note m

le nombre de valeur distincte de 𝑏𝑖 non censurées. Ces valeurs sont triées dans l'ordre croissant pour construire l'ensemble {tj, j = 1, ... m}. Posons, 𝑎 = 𝑚𝑖𝑛𝑖∈{1,…,𝑛}𝑎𝑖 et 𝑏 = 𝑚𝑎𝑥𝑖∈{1,…,𝑛}𝑏𝑖.

La fonction de survie non paramétrique 𝑆𝑁(𝑡|𝑎) est une estimation empirique de la probabilité

conditionnelle 𝑆(𝑡|𝑎) = 𝑃{𝑇 > 𝑡|𝑇 ≥ 𝑎} comme aucune information n'est disponible sur la durée de maintien en service des tronçons en service avant a. Aucune information n'est disponible au-delà de l'âge b non plus. Comme illustré par la Figure 78, S(t) est alors définie sur l'intervalle d'âge [𝑎, 𝑏] par le vecteur de sauts s = (s1, s2,…, sm+1) avec

Figure 78 : Fonction de survie non paramétrique ∑𝑗∈{1,…,𝑚+1}𝑠𝑗= 1 : 𝑆𝑁(𝑡|𝑎) = 1, quand 𝑡 ∈ [𝑎, 𝑡1] 𝑆𝑁(𝑡|𝑎) = 1 − 𝑠1, quand 𝑡 ∈ [𝑡1, 𝑡2] 𝑆𝑁(𝑡|𝑎) = 1 − ∑ 𝑠𝑘 𝑘∈{1,…,𝑗} , quand 𝑡 ∈ [𝑡𝑗, 𝑡𝑗+1] 𝑆𝑁(𝑡|𝑎) = 𝑠𝑚+1, quand 𝑡 ∈ [𝑡𝑚, 𝑏]

L'estimation du vecteur s repose sur les travaux de pivotement de (Turnbull 1976). Cette méthode consiste au calcul de deux matrices de n × (m + 1) termes:

𝛼𝑖𝑗= 𝑐𝑖𝐼(𝑡𝑗> 𝑏𝑖) + (1 − 𝑐𝑖)𝐼(𝑡𝑗= 𝑏𝑖) Eq. 57

𝛽𝑖𝑗 = 𝐼(𝑡𝑗≥ 𝑎𝑖) Eq. 58

Puis de deux matrices de n × (m + 1) termes: 𝜇𝑖𝑗(𝒔) = 𝛼𝑖𝑗𝑠𝑗 𝛼 𝑖𝑘𝑠𝑘 𝑘𝜖{1,…,𝑚+1} Eq. 59 𝑣𝑖𝑗(𝒔) = (1 − 𝛽𝑖𝑗)𝑠𝑗 ∑𝑘𝜖{1,…,𝑚+1}𝛽𝑖𝑘𝑠𝑘 Eq. 60

Et finalement d’un vecteur de taille m + 1 :

𝜋𝑗(𝒔) = ∑ 𝑒𝑖(𝜇𝑖𝑗(𝒔) + 𝑣𝑖𝑗(𝒔)) 𝑖𝜖{1,…,𝑛} / (∑ ∑ 𝑒𝑖(𝜇𝑖𝑘(𝒔) + 𝑣𝑖𝑘(𝒔)) 𝑖𝜖{1,…,𝑛} 𝑘𝜖{1,…,𝑚+1} ) Eq. 61

Initialisons 𝒔(0), tel que 𝑠

𝑗(0)= 1/(𝑚 + 1) pour tout j. Calculons alors 𝑠𝑗(1) = 𝜋𝑗(𝒔(0)) pour

tout j, et réitérons r fois jusqu'à ce que 𝒔(𝑟)≈ 𝒔(𝑟−1). Il est prouvé par (Turnbull 1976) qu'une

Annexe 12 : Validation des méthodes de Kaplan-Meier et de Turnbull,

démonstration en effectif

Dans cette partie nous allons démontrer l’efficacité des modèles utilisés (Kaplan-Meier et Turnbull). Pour cela nous supposons que la courbe de survie réelle d’un échantillon est connue. Ensuite, un échantillon de tronçons est créé avec des âges à la mise hors service simulés selon cette survie réelle. Puis nous tronquons à gauche et censurons à droite l’échantillon dans le but de se retrouver dans la même situation que pour nos données du SEDIF. Enfin nous évaluons l’estimateur de Kaplan-Meier et de Turnbull. Ceux-ci doivent alors s’ajuster à la courbe de survie réelle initiale.

Dans un premier temps, nous créons 40 000 âges aléatoires à la mise hors service, dérivant d’une loi uniforme entre 0 et 1. Notons 𝑈𝑖, avec 𝑖 = {1, … ,40 000} ces aléas uniformes.

Nous construisons ensuite 𝑆𝑅é𝑒𝑙𝑙𝑒(𝑡) une survie de Weibull à deux paramètres (Cf. IV.5.1.1), en fixant arbitrairement les paramètres de forme et d’échelle de cette loi, avec 𝛿 = 1.5 et 𝜆 = 6.2.

𝑆𝑅é𝑒𝑙𝑙𝑒(𝑡) = 𝑒−𝑡1.5×𝑒−6.2 Eq. 62

Pour générer des âges à la mise hors service distribués selon la survie théorique (Weibull) il est nécessaire d’isoler 𝑡 en calculant la réciproque de 𝑆𝑅é𝑒𝑙𝑙𝑒−1 (𝑡)

𝑈 = 𝑆𝑅é𝑒𝑙𝑙𝑒(𝑡) Eq. 63 𝑈 = 𝑒−𝑡1.5×𝑒−6.2 Eq. 64 ln (𝑈) = −𝑡1.5× 𝑒−6.2 Eq. 65 ln(𝑈) 𝑒−6.2 = −𝑡1.5 Eq. 66 (−ln(𝑈) 𝑒−6.2) 1 1.5 = 𝑡 = 𝑆𝑅é𝑒𝑙𝑙𝑒−1 (𝑈) Eq. 67

Calculons alors 𝑆𝑅é𝑒𝑙𝑙𝑒−1 (𝑈) pour obtenir 40 000 âges à la mise hors service de tronçons qui suivent la survie réelle initiale.

Figure 79 : Courbe de survie réelle

Dans un second temps, afin de reconstituer un échantillon type, nous tirons au sort par tirage aléatoire simple 40 000 dates de pose dans notre base de données « Caractéristiques des tronçons » (Cf. Figure 80). Il est alors possible de construire les dates à la mise hors service de chacun de ces tronçons, en ajoutant aux dates de pose, les âges à la mise hors service calculés précédemment (Cf. Figure 80, la répartition des dates à la mise hors service). Pour se retrouver dans les conditions d’expérience, nous décidons d’observer ces dates à la mise hors service sur une fenêtre qui s’étend de 1995 à 2015. Ainsi, il est possible de reproduire une troncature à gauche et une censure à droite. Nous pouvons alors construire une variable censure, avec 𝑐𝑖 qui prend les valeurs 0 si la date de mise hors service est comprise dans la fenêtre d’observation, 1 si la date de mise hors service est supérieure à 2015. Il en résulte que 9 613 tronçons sont totalement tronqués, 22 895 tronçons sont censurés à droite et nous observons l’évènement d’intérêt (=mis hors service) pour 7 492 tronçons.

Figure 80 : Date de pose des 40 000 tronçons constituant l’échantillon (en effectif)

Figure 81 : Répartition des dates à la mise hors service (en effectif) des 40 000 tronçons

Il est maintenant possible d’appliquer les méthodes de Turnbull et de Kaplan-Meier élargi (en effectif) à cet échantillon tronqué, censuré et simulé.

Figure 82 : Courbes de survie estimées (en effectif) et intervalle de confiance

En observant la Figure 82 : Courbes de survie estimées (en effectif) et intervalle de confiance, il est possible d’affirmer que les méthodes de Kaplan-Meier et de Turnbull sont efficaces. En effet, elles se superposent presque à l’identique avec la survie réelle initiale. Il a donc été démontré que ces deux méthodes pouvaient être utilisées quant à l’estimation de courbes de survie pour des données tronquées et censurées. Notons aussi que la survie brute n’est pas fiable car elle ne prend pas en compte la censure, elle n’est donc pas interprétable. De plus, la relation de Turnbull est satisfaite par Kaplan-Meier élargi. En effet, les méthodes de Turnbull et de Kaplan-Meier sont identiques. Pour des questions de temps de calcul il sera préférable d’utiliser la méthode de Kaplan-Meier, en effet l’algorithme de Turnbull tourne pendant environ 30 min alors que la méthode de Kaplan-Meier nous donne des résultats quasi immédiatement (< 5 sec). Pour voir la démonstration en linéaire cf. Annexe 5.

Dans la suite du rapport certains graphiques de courbe de survie de Kaplan-Meier ou de survie brute ne sont pas en escalier, même si nous savons que la représentation correcte est une courbe en escalier nous avons fait le choix dans certains cas de lisser les courbes.

Annexe 13 : Validation des méthodes de Kaplan-Meier et de Turnbull,