• Aucun résultat trouvé

Déterminer l’existence de la surmortalité des jeunes

2.1 Modèles de mortalité

2.1.5 Choix des modèles concurrents

Une table de mortalité compte habituellement entre 500 et 1000 valeurs dis-tinctes, cinq fois moins si l’on utilise des classes d’âges de cinq ans. En réalité, nombre de ces informations sont redondantes et il est possible de reconstituer la plupart des éléments à partir d’une seule des colonnes. Autrement dit, il suffit de caractériser l’évolution d’une seule variable, par exemple le taux de mortalité, pour décrire l’ensemble de la table. Cela étant, même une seule des colonnes de la table de mortalité compte entre 20 et 100 valeurs, ce qui revient à décrire un modèle comportant 20 à 100 dimensions. Il est donc particulièrement important de réduire cette information à un nombre plus restreint de dimensions. Ainsi, le but de tout modèle de mortalité est de diminuer la complexité d’une table de mortalité, en réduisant son nombre de dimensions à quelques paramètres.

La solution la plus extrême est celle desmodel life tables dont le principe est de proposer un jeu fermé de tables de mortalité qu’il s’agit ensuite de comparer avec les valeurs observées dans une population donnée. Cette technique permet de réduire la complexité d’une table de mortalité à une seule dimension consistant sim-plement à indiquer l’idéal-type dont la population observée se rapproche le plus. A l’opposé, le modèle de Lee-Carter estime, dans une première phase du moins, autant de paramètres que de taux de mortalité par âge observés. Entre ces deux extrêmes figurent les modèles paramétriques tels que ceux que nous avons rencontré jusqu’ici.

Ils sont souvent non-linéaires et utilisent la plupart du temps des polynômes ou des fonctions exponentielles, dont le nombre de paramètres varie entre 2 et une dizaine.

Mais comment faire le bon choix dans la pléthore de modèles à disposition ? Nous n’en avons en effet mis en évidence jusqu’ici qu’un nombre restreint parmi la trentaine de modèles les plus connus (Wunsch et al. 2002, 144). Plusieurs revues plus ou moins exhaustives ont été tentées (Keyfitz 1982;Tabeau et al. 2002;Vallin and Caselli 2006), bien que tous leurs auteurs reconnaissent l’impossibilité de cou-vrir la totalité de la littérature, qui parfois peine à se diffuser au-delà des frontières disciplinaires. Parmi cette trentaine de modèles, seuls quelques-uns sont fréquem-ment utilisés dans des études empiriques. Parmi eux, ceux de Gompertz, Makeham, Siler et Heligman et Pollard sont probablement les plus largement connus et ap-pliqués. D’autres sont généralement réservés à des usages spécifiques, comme les projections avec le modèle de Lee et Carter ou celui de Brass (Lee and Carter 1992; Brass 1975), les populations à données incomplètes avec les tables de Coale et Demeny (Coale et al. 1983), la mortalité des centenaires avec le modèle de Kan-nisto (Thatcher et al. 1998). La cohabitation de ces différents modèles illustre le fait que, loin d’être exclusifs, ils ont chacun des qualités spécifiques qui les font s’adapter plus ou moins bien aux différents objectifs pour lesquels les chercheurs les mobilisent.

La question que doit se poser le démographe cherchant à modéliser une table de mortalité est celle du compromis entre simplicité et qualité de représentation.

Autrement dit, il doit viser à la parcimonie. Il est évident qu’il est toujours possible d’améliorer la qualité d’approximation en ajoutant des paramètres. La question est de savoir où s’arrêter en fonction des buts fixés. Or, ces objectifs peuvent être de nature très différente. Dans un article traitant de cette question, Nathan Keyfitz identifie six motivations invoquables par les démographes pour tenter de réduire la dimension d’une table de mortalité :

1. Lisser les données de manière à les débarrasser des irrégularités dues aux variations aléatoires, particulièrement dans le cas de petites populations.

2. Mettre en évidence le processus sous-jacent de génération des données, si l’on part de l’hypothèse que les valeurs observées sont en fait la réalisation discrète d’un processus continu.

3. Construire des tables de mortalité grâce à l’inférence permise entre les points connus, c’est-à-dire en construisant une hypothèse sur le comportement de la courbe de mortalité à l’intérieur des intervalles observés.

4. Permettre le calcul de tables complètes dans le cas de données incomplètes.

5. Faciliter la comparaison entre différentes populations, en réduisant la courbe de mortalité à quelques paramètres la décrivant.

6. Projeter l’évolution future de la mortalité en mettant en évidence la progres-sion des paramètres au cours du temps.

Il est évident que suivant le(s)quel(s) de ces objectifs sont considérés comme prioritaires par le chercheur, certains modèles plus ou moins complexes seront fa-vorisés. Par exemple, s’il s’agit de reconstruire une table de mortalité complète sur la base de quelques données à peine (par exemple la survie à 10 ans), les tables de Coale et Demeny paraissent constituer un outil suffisant. Dans le cas qui nous occupe, trois des six motivations paraissent centrales (ci-dessus numérotées 1, 2, et 5). Premièrement, la population de certains pays étant relativement réduite, le calcul des taux de mortalité est sujet à des variations aléatoires importantes, par-ticulièrement aux jeunes âges où très peu de décès interviennent6. La modélisation permet donc un lissage de ces irrégularités et une application à un large spectre de situations. Deuxièmement, le modèle devrait refléter les forces sous-jacentes qui façonnent la force de mortalité observée qui n’en est que l’expression empirique.

Pour cette raison, chaque paramètre doit avoir une interprétation théorique. Troi-sièmement, il est primordial d’obtenir la description la plus précise possible de la bosse de surmortalité des jeunes adultes pour qu’on puisse en faire une compaison temporelle et transnationale. Puisque cet objectif est central dans notre question-nement, il est naturel de favoriser un modèle qui propose la meilleure description de la bosse de surmortalité des jeunes adultes, quitte à accepter un nombre plus élevé de paramètres.

Comme nous l’avons vu, il existe plusieurs modèles paramétriques permettant de capter la spécificité de la mortalité des jeunes adultes. La modèle de Thiele est

6. Il arrive même que pour certaines années et à certains âges, aucun décès ne soit comptabilisé.

C’est le cas notamment en Suisse pour les fillettes de 7 ans en 2008.

clairement inférieur à celui d’Heligman et Pollard dans sa qualité d’approximation de la mortalité infantile (figure 2.4). Les modèles de Mode et Busby, et Mode et Jacobson, eux, en plus d’être peu pratiques à estimer, ne permettent pas une interprétation explicite de chaque paramètre. En définitive, le modèle de Heligman et Pollard semble offrir une bonne base de départ pour l’analyse de la mortalité des jeunes adultes, et ceci pour plusieurs raisons. Premièrement, il s’applique à une variable pratique à manipuler, q(x)p(x), qui peut même être remplacée simplement par q(x) si l’on applique une formulation asymptotique au troisième terme. Deuxième-ment, son estimation reste plus simple que celle de ses concurrents directs, malgré le nombre relativement élevé de paramètres. Troisièmement, chacun de ses para-mètres est facilement interprétable. Quatrièmement, il permet une bonne qualité d’approximation, particulièrement autours des âges qui nous intéressent le plus.

En plus de celui d’Heligman et Pollard (HP), nous aurons besoin d’avoir à dis-position un second modèle qui ne capture pas la bosse de surmortalité des jeunes adultes. De cette manière, il sera possible d’utiliser cette solution plus simple comme point de comparaison afin de juger de l’utilité des paramètres modélisant la bosse de surmortalité. Le modèle de Siler est un bon point de départ, à condition d’adap-ter le premier d’adap-terme capturant la mortalité enfantine pour qu’il corresponde à celui utilisé dans le modèle HP. Nous disposerons ainsi de modèles emboîtés (nested), qui ne diffèrent que dans la portion dont on désire tester la pertinence. Ce nouveau modèle, fusion entre celui de Heligman et Pollard, et celui de Siler, nous le baptise-rons HPS. Les modèles HP et HPS sont identiques à l’exception du terme central, qui est remplacé chez le second par une constante destinée à capturer les causes de décès qui s’expriment de manière relativement constante au cours de la vie.

De plus, les faiblesses mises en évidence par Kostaki dans le second terme de Heligman et Pollard suggèrent d’employer un troisième modèle capable de s’adapter à une bosse de surmortalité asymétrique. Là aussi, afin de conserver une compa-rabilité maximale avec les deux autres modèles, nous retiendrons une formulation identique à celle de Heligman et Pollard, à l’exception du paramètre d’asymétrie k. Ce nouveau modèle, très proche de celui de Kostaki, sera nommé HPK par la suite. Les trois modèles à comparer seront donc7

HP : q(x)=A(x+B)C +De−E·(ln(x)−ln(F))2+1+GHGHxx

HPS : q(x)=A(x+B)C+D+1+GHGHxx

HPK : q(x) =

( A(x+B)C +De−E·(ln(x)−ln(F))2+1+GHGHxx pourxF A(x+B)C +De−k·E·(ln(x)−ln(F))2+1+GHGHxx pourx > F

7. Le modèle HP correspond exactement à celui publié parHeligman and Pollard(1980). Le modèle HPK est une reformulation du modèle publié parKostaki(1992). Le modèle HPS est un modèle formulé par nos soins en s’inspirant des modèles deHeligman and Pollard(1980) etSiler (1979).