• Aucun résultat trouvé

Chapitre 2 Modélisation de la mortalité

2.3. Modèles de la population générale

Cette section présente les modèles finaux de la mortalité de la population générale (BDLC) des femmes et des hommes. Uniquement les résultats finaux obtenus en suivant la méthodologie précédemment expliquée font partie de cette section. Les résultats détaillés de chaque étape permettant d’arriver à ces modèles finaux sont présentés à l’Annexe C.

Femme

Pour la population générale des femmes, le modèle retenu, présenté au Tableau 711, contient un terme capturant la tendance générale de la mortalité en fonction de l’âge et 2 termes non linéaires d’âge-période capturant différentes tendances temporelles en fonction de l’âge.

Tableau 7 : Modèle pour la mortalité de la population générale, femme

Formule AIC AICc BIC Déviance Degrés de liberté

 

 

 

 

   

 

  1 2 2 , 3 3 ˆ ln x t t t f x f x f x       27 909 27 922 28 644 5 000 2 417

Le modèle est sujet aux contraintes suivantes pour assurer l’unicité des paramètres :

 2

 

 2  3

 

 3

1 t 0 1 t 0

x t x t

f x

f x

(2.37)

Les paramètres du modèle sont illustrés à la Figure 16. Les graphiques de la première rangée sont pour les paramètres en fonction de l’âge, les

f x 

, et ceux de la deuxième rangée sont pour les paramètres en fonction des années, les

t. La première colonne est pour  1

 

f

x

, la seconde est pour

f

 2

 x

t 2 et la

troisième est pour  3

 

 3

t

f

x

.

11 L’AIC, l’AICc et le BIC ne sont d’aucune utilité statistique dans ce tableau puisqu’on n’y retrouve qu’un seul modèle. Ils ne sont présentés que pour faciliter la lecture entre cette section et l’Annexe C.

Figure 16 : Paramètres du modèle pour la mortalité de la population générale, femme

Le premier terme sur les âges,  1

 

f

x

, est de type Gompertz et capture la courbe générale de la mortalité

en fonction de l’âge. Le terme d’âge-période suivant,  2

 

 2

t

f

x

, est une tendance de réduction de la

mortalité s’appliquant uniformément à chaque âge. Ensuite, le terme d’âge-période  3

 

 3

t

f

x

vient capturer le fait que la mortalité n’a pas réellement eu une réduction uniforme à chaque âge. La fonction lisse

 3

 

f

x

illustre qu’entre 60 et 70 ans, la mortalité a diminué plus rapidement que les autres âges.

Mathématiquement, pour y parvenir, ce terme vient avoir un effet à la hausse sur la mortalité dans le temps, de 50 à 60 ans et de 70 à 90 ans. Tout de même, l’effet combiné de  2

 

 2

t

f

x

et de  3

 

 3

t

f

x

produit une diminution générale de la mortalité. On remarque que l’ordre de grandeur de la première tendance temporelle (axe des y entre -20 et 20) est beaucoup plus élevé que pour la deuxième tendance temporelle (-3 à 3). Cela informe que la première tendance a un plus fort impact sur le niveau de la mortalité dans le temps que la deuxième tendance.

On peut analyser l’apport de chacun des termes en reconstituant la log-mortalité ajustée du modèle en ajoutant successivement les trois termes. Cela est fait à la Figure 17 où la log-mortalité de 50 à 90 ans, par saut de 10 ans, est présenté. On y remarque que  1

 

 2

 

 2

t

f

x

f

x

modélise principalement bien la

structure de la mortalité entre 50 et 70 ans. L’ajout de  3

 

 3

t

les âges près de 50 ans et au-delà de 80 ans. Notons que malgré la décomposition de ces termes dans cette figure, tous ces termes doivent se voir conjointement puisque leur présence (ou leur absence) vient influencer la valeur des autres paramètres.

Figure 17 : Modèle pour la mortalité de la population générale, femme, illustration de l’effet de l’inclusion successive des différents termes

Dans le but de vérifier si le modèle retenu s’ajuste correctement à l’ensemble des données, la Figure 18 présente une matrice des résidus en fonction de l’âge et de l’année. Les carrés blancs sont des erreurs positives (sous-estimation du modèle par rapport aux données) et les carrés noirs sont des erreurs négatives (surestimation du modèle par rapport aux données). Certaines grappes de résidus sont visibles dans cette figure, notamment de 70 à 80 ans de 1950 à 1965 environ ou autour de 85 ans de 1950 à 2011. Cependant, une analyse plus approfondie a permis de constater que chercher à faire disparaître ces grappes de résidus ne ferait que mener à un modèle surajusté aux données et que les sous-ensembles de données présentant des grappes de résidus sont très erratiques. En ce sens, ces grappes ne présentent donc pas de problème majeur quant à l’ajustement du modèle aux données. La Figure 21, présentée plus loin, compare la surface de mortalité observée à la surface de mortalité du modèle et permet de réaliser que le modèle reproduit bien les tendances des données tout en restant relativement lisse.

Figure 18 : Modèle pour la mortalité de la population générale, femme, résidus selon l’âge et l’année

De plus, on peut analyser les résidus en fixant une dimension à la fois, soit celle sur les années, les âges et les cohortes. La Figure 19 présente les résidus sous cet angle. On y remarque que les résidus sont généralement distribués normalement autour de zéro, bien que les plus anciennes années de données soient plus volatiles.

Figure 19 : Modèle pour la mortalité de la population générale, femme, résidus âge-période-cohorte

La Figure 20 analyse les résidus sans considérer les dimensions d’année, d’âge ou de cohorte. L’ensemble des résidus est trié, normalisé et comparé aux quantiles d’une loi normale centrée. Si les résidus suivaient exactement cette loi normale, les cercles longeraient la diagonale pointillée. Pour le modèle à l'étude, seulement les extrêmes (± 2 écarts-types) ne suivent pas la loi normale centrée. On rappelle qu’on ne veut pas obtenir un modèle surajusté alors cette caractéristique n’est pas critique et permet de conclure que l’ajustement aux données est satisfaisant.

Figure 20 : Modèle pour la mortalité de la population générale, femme, résidus normalisés

Globalement, on peut conclure que les résidus sont approximativement normaux, ce qui est attendu puisqu’on approxime, en ayant recourt à la quasi-vraisemblance, une loi Poisson sur les décès auxquels on applique la loi des grands nombres.

Finalement, la Figure 21 présente la surface de mortalité des données observées et du modèle retenu, pour les femmes de la BDLC. Le résultat est représentatif des données, tout en présentant un lissage sur les âges. Figure 21 : Modèle pour la mortalité de la population générale, femme, surface de mortalité observée et ajustée

.

On rappelle qu’à ce stade, on n’inclut pas de variable de cohorte pour notre modèle final sur la population de référence, car on veut comparer son importance relative avec les variables de revenu et de région de nos données du RPC et RRQ.

Homme

Pour la population générale des hommes, le modèle retenu, présenté au Tableau 812, contient un terme capturant la tendance générale de la mortalité en fonction de l’âge et trois termes non linéaires d’âge-période capturant différentes tendances temporelles en fonction de l’âge.

Tableau 8 : Modèle pour la mortalité de la population générale, homme

Formule AIC AICc BIC Déviance Degrés de liberté

 

 

 

 

   

 

   

 

  1 2 2 , 3 3 4 4 ˆ ln x t t t t f x f x f x f x

    27 938 27 968 29 034 4 126 2 354

Le modèle est suivant aux contraintes suivantes pour assurer l’unicité des paramètres :

 

 

   

 

   

 

  2 2 3 3 4 4 1 0 1 0 1 0 t t x t x t t x t f x f x f x

     

(2.38)

Les paramètres du modèle sont illustrés à la Figure 22. Les graphiques de la première rangée sont pour les paramètres en fonction de l’âge, les

f x 

, et ceux de la deuxième rangée sont pour les paramètres en fonction des années, les

t. La première colonne est pour  1

 

f

x

, la seconde est pour  2

 

 2

t

f

x

, la troisième est pour  3

 

 3

t

f

x

et la quatrième colonne est pour  4

 

 4

t

f

x

.

12 L’AIC, l’AICc et le BIC ne sont d’aucune utilité statistique dans ce tableau puisqu’on n’y retrouve qu’un seul modèle. Ils ne sont présentés que pour faciliter la lecture entre cette section et l’Annexe C.

Figure 22 : Paramètres du modèle pour la mortalité de la population générale, homme

Le premier terme sur les âges,  1

 

f

x

, est de type Gompertz et capture la courbe générale de la mortalité en fonction de l’âge. Le terme d’âge-période suivant,  2

 

 2

t

f

x

, est une tendance de réduction de la mortalité s’appliquant uniformément à chaque âge. Ensuite, le terme d’âge-période  3

 

 3

t

f

x

vient capturer le fait que la mortalité n’a pas réellement eu une réduction uniforme à chaque âge. Les plus jeunes âges de la plage de données ont eu une réduction de leur mortalité plus rapide que les âges plus élevés. Mathématiquement, pour y parvenir, ce terme vient avoir un effet à la hausse sur la mortalité dans le temps, du moins de 1980 à 2011, de plus en plus important à mesure que l’âge augmente. Tout de même, l’effet combiné de  2

 

 2

t

f

x

et de  3

 

 3

t

f

x

produit une diminution de la mortalité. Enfin, le dernier terme,

 4

 

 4

t

f

x

, vient capturer une tendance démographique bien particulière. Nonobstant ce qui vient d’être dit sur la mortalité aux âges avancés, qui a diminué plus lentement qu’aux jeunes âges, ce dernier terme capture une évolution de la mortalité de 70 à 90 ans ayant entamé une diminution marquée de 1990 à 2011, venant effacer des reculs des années passées. On remarque que l’ordre de grandeur de la première tendance temporelle (axe des y entre -30 et 10) est beaucoup plus élevé que la deuxième (-4 à 8), lui-même plus élevé que la troisième (-2 à 2). Cela informe que l’impact sur le niveau de la mortalité dans le temps est de moins en moins important à mesure que les tendances temporelles ont été ajoutées au modèle.

On peut analyser l’apport de chacun des termes en reconstituant la log-mortalité ajustée du modèle en ajoutant successivement les quatre termes non linéaires. Cela est fait à la Figure 23 où la log-mortalité de 50 à 90 ans, par saut de 10 ans, est présenté. On y remarque que  1

 

 2

 

 2

t

f

x

f

x

modélise

principalement bien la structure de la mortalité entre 50 et 60 ans. L’ajout de  3

 

 3

t

diminution de la mortalité pour les âges au-delà de 60 ans puis  4

 

 4

t

f

x

permet de capturer une tendance récente de diminution plus marquée de la mortalité entre 70 et 90 ans. Malgré la décomposition de ces termes dans cette figure, tous ces termes doivent se voir conjointement puisque leur présence (ou leur absence) vient influencer la valeur des autres paramètres. L’illustration du bas, la log-mortalité à 90 ans, vient montrer l’important du dernier terme d’âge-période pour obtenir un bon ajustement à la mortalité à cet âge.

Figure 23 : Modèle pour la mortalité de la population générale, homme, illustration de l’effet de l’inclusion successive des différents termes

Dans le but de vérifier si le modèle retenu s’ajuste correctement à l’ensemble des données, la Figure 24 présente une matrice des résidus en fonction de l’âge et de l’année. Les carrés blancs sont des erreurs positives (sous-estimation du modèle par rapport aux données) et les carrés noirs sont des erreurs négatives (surestimation du modèle par rapport aux données). Certaines grappes de résidus sont visibles dans cette figure, notamment de 70 à 80 ans de 1950 à 1965 environ. Cependant, une analyse plus approfondie a permis de constater que chercher à faire disparaître ces grappes de résidus ne ferait que mener à un modèle

surajusté aux données et que les sous-ensembles de données représentant les grappes de résidus sont très erratiques. En ce sens, ces grappes ne présentent donc pas de problème majeur quant à l’ajustement du modèle aux données. La Figure 27, présentée plus loin, compare la surface de mortalité observée à la surface de mortalité du modèle et permet de réaliser que le modèle reproduit bien les tendances des données tout en restant relativement lisse.

Figure 24 : Modèle pour la mortalité de la population générale, homme, résidus selon l’âge et l’année

De plus, on peut analyser les résidus en fixant une dimension à la fois, soit celle sur les années, les âges et les cohortes. La Figure 25 présente les résidus sous cet angle. On y remarque que les résidus sont généralement distribués normalement autour de zéro, bien que les plus anciennes années de données sont plus volatiles.

Figure 25 : Modèle pour la mortalité de la population générale, homme, résidus âge-période-cohorte

La Figure 26 analyse les résidus sans considérer les dimensions d’année, d’âge ou de cohorte. L’ensemble des résidus est trié, normalisé et comparé aux quantiles d’une loi normale centrée. Si les résidus suivaient exactement cette loi normale, les cercles longeraient la diagonale pointillée. Pour le modèle à l'étude, seulement les extrêmes (± 2 écarts-types) ne suivent pas la loi normale centrée. On rappelle qu’on ne veut pas obtenir un modèle surajusté alors cette caractéristique n’est pas critique et permet de conclure que l’ajustement aux données est satisfaisant.

Figure 26 : Modèle pour la mortalité de la population générale, homme, résidus normalisés

Globalement, on peut conclure que les résidus sont approximativement normaux, ce qui est attendu puisqu’on approxime, en ayant recourt à la quasi-vraisemblance, une loi Poisson sur les décès auxquels on applique la loi des grands nombres.

Finalement, la Figure 27 présente la surface de mortalité des données observées et du modèle retenu, pour les hommes de la BDLC. Le résultat est représentatif des données, tout en présentant un lissage sur les âges. Figure 27 : Modèle pour la mortalité de la population générale, homme, surface de mortalité observée et ajustée

.

On rappelle qu’à ce stage, on n’inclut pas de variable de cohorte pour notre modèle final sur la population de référence, car on veut comparer son importance relative avec les variables de revenu et de région de nos données du RPC et RRQ.

2.4.

Modèles relatifs finaux pour les données du RPC et du