• Aucun résultat trouvé

surmortalité des jeunes adultes

4.1.4 Traitement des séries temporelles

Au cours du chapitre précédent, nous avons sélectionné deux méthodes de cal-cul de l’espérance de vie perdue à cause de la surmortalité des jeunes adultes. Les deux fonctionnent sur le principe de l’interpolation conjointe de la force de mor-talité et du rythme de vieillissement. Ce qui les différencie est l’usage, dans un cas d’une estimation paramétrique (modèle HPK), et dans l’autre d’une estimation non-paramétrique (P-splines) du risque de décès. Nous avons donc accès à deux estimations du même phénomène sous-jacent de surmortalité des jeunes adultes, qui forment des séries temporelles indiquant l’évolution de la perte d’espérance de vie due à la surmortalité des jeunes adultes au cours du temps. Plusieurs points doivent cependant être encore réglés avant de pouvoir utiliser ces séries dans une analyse comparative et diachronique, à savoir :

1. Est-ce pertinent et utile de conserver, voire de combiner, les deux séries (pa-ramétrique et non-pa(pa-ramétrique) ?

2. Un lissage des séries est-il nécessaire ?

3. Si oui, quelle méthode adopter ? En particulier, comment adapter le niveau de lissage à la variabilité des séries ?

4. Comment éviter que quelques valeurs aberrantes (outliers) ne perturbent la lecture de la série ?

Figure 4.5 – Projection des cohortes non-éteintes des hommes suisses nés entre 1921 et 1981

0 20 40 60 80

−9

−8

−7

−6

−5

−4

−3

−2

âge

ln(µ)

Cohortes obs 1921 proj 1921

obs 1981 proj 1981

Choix entre les méthodes paramétrique et non-paramétrique

Une solution intuitive et naïve pour trancher entre méthode paramétrique et non-paramétrique reviendrait à prendre simplement la moyenne des deux valeurs, partant du principe que les erreurs de mesure de l’une compenseraient en moyenne celles de l’autre. Mais s’agissant pour les deux de séries temporelles, nous avons à disposition leur ordonnancement chronologique afin de pousser plus loin la réflexion.

Cette dimension temporelle permet notamment d’observer le degré de proximité des deux séries au cours du temps. Prenons l’exemple des hommes suisses afin d’illustrer cette question.

Dans ce cas (figure 4.6), les deux séries évoluent de manière relativement pa-rallèle comme le montre le niveau de corrélation moyen de 0.3 sur l’ensemble de la période 1876-2011. Cette concordance n’est toutefois pas stable au cours du temps.

Figure4.6 – Espérance de vie perdue, hommes suisses 1876-2011

1880 1900 1920 1940 1960 1980 2000

0.0 0.5 1.0 1.5 2.0 2.5 3.0

temps

eh

par non−par

Jusque vers 1950, l’écart relatif entre les deux séries est important et les séries évoluent même de manière opposée. La série paramétrique est systématiquement plus élevée que la série non-paramétrique, avec un écart important avant 1950 et minimal entre 1950 et 1990. Dès le début des années 1990, les deux séries suivent une tendance parallèle mais à des niveaux différents.

Ces variations dans la concordance des deux mesures sont surprenantes et néces-sitent une meilleure compréhension de ce qui fait leurs différences. Rappelons que les modèles paramétriques du type Heligman-Pollard ont été développés dans les années 1980 sur des données des années 1950 à 19705. Cela explique probablement pourquoi ces modèles conviennent particulièrement bien à la période 1950-1990.

Pendant ces décennies, la bosse de surmortalité des jeunes adultes était

particuliè-5. Dans le cas du modèle deHeligman and Pollard(1980), les auteurs appliquent leur modèle aux données australiennes des années 1946-48, 1960-62 et 1970-72.

rement symétrique et se prêtait donc à la forme fonctionelle définie par Heligman et Pollard. Avant et après cette période, la bosse était clairement asymétrique, en-gendrant plus d’incertitude dans l’interprétation du début et de la fin de la bosse de surmortalité. Même en ajoutant le paramètre supplémentaire du modèle de Kostaki, de manière à pouvoir modéliser une bosse asymétrique, ces modèles paramétriques ont tendance à aplatir la fin de la bosse là où un modèle non-paramétrique est plus souple et permet de mieux saisir les faibles variations qui marquent la fin de la bosse.

Reprenons l’exemple des hommes suisses en 2005 pour nous en convaincre (fi-gure 4.7). La comparaison des deux méthodes illustre à quel point le modèle pa-ramétrique a tendance à négliger certaines variations subtiles mais importantes du niveau de mortalité entre 20 et 30 ans. Parce que ces âges sont dilués dans la ten-dance générale de la sénescence, et parce qu’ici les paramètres destinés à estimer la fin de la bosse de surmortalité chevauchent ceux destinés à estimer le rythme de la sénescence (problème d’identification des paramètres), la deuxième partie de la bosse prend une apparence aplatie et la fin de la surmortalité est estimée à 60 ans.

Lorsqu’un modèle non-paramétrique est estimé sur les mêmes données, la bosse de surmortalité retrouve un aspect plus traditionnel et la fin de la bosse se situe cette fois plus raisonnablement à 40 ans. Cette comparaison illustre la difficulté rencontrée par les modèles paramétriques pour s’adapter à une bosse de surmorta-lité asymétrique, situation courante avant 1950 et après 1990. Voilà pourquoi, en dehors de la période 1950-1990, l’estimation paramétrique surestime systématique-ment la perte d’espérance de vie.

Figure4.7 – Estimation paramétrique et non-paramétrique de la surmortalité des hommes suisses en 2005

0 20 40 60 80

−8

−6

−4

−2

âge

ln(q)

qx HP HPK HPS

11.27 59.9

eh: 0.89 dh: 1056 vh: 44.63

0 20 40 60 80

−8

−6

−4

−2

âge

ln(q)

8.78 39.53

eh: 0.35 dh: 292 vh: 55.21

On peut donc conclure de cette comparaison que la série paramétrique semble superflue puisque, lorsqu’elle s’adapte le mieux aux données, elle est totalement reflétée par la série non-paramétrique, alors qu’elle surestime la perte d’espérance de vie lorsque ce n’est pas le cas. Nous baserons donc entièrement nos analyses sur

la méthode d’estimation non-paramétrique du poids de la bosse de surmortalité des jeunes adultes.

Lissage et traitement de la variabilité des séries

La série non-paramétrique retenue connait une variabilité inconstante au cours du temps. En effet, avant 1950 la variabilité est beaucoup plus forte que dans la seconde moitié du XXe siècle. On peut donc se demander si cette variabilité est justifiée par de réelles conditions (épidémiologiques) instables ou reflète plutôt une instabilité du modèle, causée par exemple par une sensibilité trop grande aux pe-tites variations aléatoires des données annuelles.

En l’occurrence, si la variabilité de la série non-paramétrique était due à une variabilité stochastique liée à un nombre faible de décès, alors nous devrions obser-ver une même instabilité de la série au cours des dernières années. En effet, malgré l’augmentation de la population entre le début et la fin du XXe siècle - il y avait en 1900 près de 500’000 hommes de 15 à 30 ans contre 700’000 en 2000 - la baisse du taux de mortalité a engendré un recul du nombre de décès dans ces ages-là d’environ 2’500 à 600 par an. Par conséquent, si la variabilité stochastique était la cause de l’instabilité de l’estimation de la surmortalité, alors cette dernière devrait être beaucoup plus instable actuellement qu’elle ne l’était il y a cent ans. Or, c’est l’inverse qui se produit. L’instabilité est donc directement liée aux conditions im-pactant sur la surmortalité des jeunes adultes. Cette constation est un signe que les causes de décès à l’origine de la surmortalité des jeunes adultes ne sont pas les mêmes tout au long de la période observée, différentes causes de décès ayant différents niveaux de variabilité annuelle.

En l’état, la série non-paramétrique ne peut être utilisée pour des comparaisons entre pays en raison de sa trop forte turbulence, car au-delà des variations annuelles, ce sont les tendances générales qui sont les plus instructives dans une perspective comparative et diachronique. Il est donc nécessaire d’introduire un certain niveau de lissage des données. Cependant, en raison de l’évolution de la variabilité de la série au cours du temps, l’usage d’un même degré de lissage est problématique.

Reprenons notre exemple suisse pour mieux comprendre le problème.

Toutes les méthodes de lissage (splines, loess, moyenne mobile,...) comprennent un paramètre contrôlant le degré de lissage, choisi en fonction du niveau de tur-bulance initial de la série et du niveau de lissage visé. Toutes ces techniques sont donc limitées lorsque la turbulence de la série varie et qu’il est dès lors impossible de fixer un degré de lissage constant. Prenons le cas de la moyenne mobile, un outil simple et courant qui consiste à prendre pour chaque point la moyenne des valeurs voisines. Le niveau de lissage dépend de la taille de l’intervalle utilisé pour calculer cette moyenne autour de chaque point. Sur la série non-paramétrique des hommes suisses entre 1876 et 2011, une moyenne mobile sur trois ans permet un lissage adéquat sur la période post-1950, mais clairement insuffisant avant cette date. Au contraire, lorsque l’on augmente l’intervalle à 19 ans pour obtenir un lissage

suf-fisamment puissant avant 1950, l’évolution de la série est dénaturée entre 1980 et 2000.

Figure4.8 – Différentes méthodes de lissage appliquées aux hommes suisses (1876-2011)

1880 1900 1920 1940 1960 1980 2000

0.0 0.2 0.4 0.6 0.8 1.0

temps

eh

eh MM3 MM19 ad.spline

Pour résoudre ce problème, une solution consiste à adapter la largeur de l’inter-valle sur lequel est calculé la moyenne mobile en fonction de la variabilité locale de la série. Un exemple d’une telle technique a été proposé en finance dans l’analyse du mouvement des prix sous le nom de "variable-length moving average" (Arrington 1991). Cette méthode ne permet toutefois pas d’atteindre un réel lissage puisqu’il ne produit pas une courbe différentiable. En d’autres termes, le lissage ne s’effectue que sur la série et non sur sa dérivée, ce qui lui fait conserver un aspect "rugueux".

Le lissage par spline, au contraire, garantit une continuité de la série ainsi que de ses premières dérivées (les deux premières dans une spline cubique classique).

Les P-splines, proposées il y a déjà trente ans (O’Sullivan 1986) mais popularisées seulement progressivement (Eilers and Marx 1996), consistent à estimer le niveau de lissage (λ) en utilisant un critère de sélection du type AIC. De plus, les splines peuvent également être définies de manière à adapter le niveau de lissage en fonc-tion de la variabilité locale de la série, c’est-à-dire de son hétéroscédasticité. Ce type de splines adaptives (adaptive splines), plus récent (Pintore et al. 2006; Ruppert and Carroll 2000;Wood et al. 2002), consiste globalement à pénaliser le coefficient λdifféremment pour chaque intervalle.

Pour lisser les séries d’espérance de vie perdue à cause de la surmortalité des jeunes adultes (eh), avons utilisé la librairie RApaptFit basée sur une variante de spline adaptive proposée parKrivobokova et al.(2008), ainsi que la fonction gam de la librairie R mgcv (Wood 2015). Ces deux fonctions produisent des résultats quasi-identiques, mais la première produisant parfois des erreurs, nous avons uti-lisé essentiellement la seconde. Afin d’éviter que les valeurs extrêmes rencontrées pendant les deux guerres mondiales ainsi qu’en 1918-1919 à cause de la grippe dite

"espagnole" ne perturbent trop la procédure, nous les avons exclues dans un premier temps, puis réintroduites après le lissage effectué. Exceptionnellement, nous avons également exclu certaines observations abérantes (outliers) manifestement dues à des erreurs de mesures. Le résultat de ce lissage par spline adaptive est relative-ment concluant en ce qui concerne la séries des hommes suisses (figure 4.8), quant aux autres séries lissées elles sont présentées en annexe (figures B.1, B.2, B.3 et B.4).