• Aucun résultat trouvé

Modèles relatifs finaux pour les données du RPC et du RRQ

Chapitre 2 Modélisation de la mortalité

2.4. Modèles relatifs finaux pour les données du RPC et du RRQ

Comme décrite à la section 2.2, la méthodologie de modélisation des données du RPC et du RRQ repose sur une analyse des différences entre ces données et une population de référence. Pour avoir une mortalité de référence relativement lisse à travers les âges et les années, un modèle pour les femmes et un modèle pour les hommes ont été estimés à la section 2.3. La section actuelle se concentrera sur la mise en pratique d’un modèle relatif (Villegas & Haberman, 2014), voir section 2.2, utilisant ces résultats.

La revue de la littérature présentée à la section 2.1 se concentrait sur des modèles appliqués à un seul ensemble de données. Pour modéliser simultanément les 6 sous-groupes de données du RPC et du RRQ, on fait référence à une modélisation de la mortalité sur plusieurs populations. Cette méthode permet de capturer des dynamiques communes et distinctes afin d’éviter des projections de mortalité divergentes qui pourraient survenir si chaque sous-groupe était modélisé séparément (Hyndman, Booth, & Yasmeen, 2013; Zhou, Wang, Kaufhold, & Li, 2014) ou pour quantifier des différences socioéconomiques de mortalité (Villegas & Haberman, 2014) à l’intérieur d’un pays. On parle de projections divergentes lorsque l’extrapolation de tendances à court terme mène une situation projetée en contradiction avec l’historique ou les attentes futures. Par exemple, une projection qui estimerait que la mortalité des hommes devienne inférieure à celle des femmes d’ici 20 ou 30 ans divergerait du fait que la mortalité des femmes est restée inférieure à celle des hommes au cours des 50 dernières années dans les pays occidentaux.

À titre d’exemple, à partir du modèle des hommes pour la population de référence, on peut extraire le niveau de la mortalité de 65 à 90 ans et de 1990 à 2011, soit la même plage que les données du RPC et du RRQ. La Figure 28 présente la surface de la log-mortalité ajustée des hommes pour cette plage de données.

Figure 28 : Surface de mortalité ajustée du modèle final pour les hommes de la population générale, 65 à 90 ans, 1990 à 2011

De là, on peut se questionner à savoir si différents groupes socio-économiques expérimentent la même mortalité ou si elle est distincte. Si elle est distincte, cela signifie que certains groupes ont une mortalité plus faible et que d’autres en ont une supérieure, qui, en moyenne, produit le résultat de la Figure 28. Ce sont ces différences entre groupes qui seront d’intérêt pour la présente sous-section.

On estimera un modèle pour les données du RPC et du RRQ qui capture les différences entre ces données et celles de la population générale. Pour faire le lien entre le modèle de la population générale et celui qui sera construit pour les sous-groupes, rappelons qu’il a été montré à la section 2.2 que le modèle relatif revient à

; ; ; ; ; ; ln ln x t g ref , ,... x t g ref x t x t E D D h x t E       (2.39)

Évidemment, l’estimation du modèle relatif est intimement liée aux résultats du modèle sur la population de référence. Le Chapitre 1 a permis de démontrer que les données de la BDLC, du RPC et du RRQ sont comparables, justifiant l’utilisation de ces données dans un contexte de modèle relatif. La modélisation des données de la BDLC avant celles du RPC et du RRQ amène cependant deux possibilités, soit un mauvais ou un bon ajustement aux données du RPC et du RRQ. Pour ces deux situations, on a les implications suivantes :

 Le modèle de la population de référence (BDLC) ne capture pas les mêmes tendances d’âge et d’année que celles des données des sous-populations (RPC et RRQ). Dans ce cas, soit plusieurs termes additionnels sur les âges et les années devront être ajoutés pour obtenir un bon ajustement aux données des sous-populations, soit la structure de base provenant de la population de référence

sera trop différente de celle des sous-populations ce qui rendra impossible l’obtention d’un modèle satisfaisant;

 Le modèle de la population de référence capture les mêmes tendances d’âge et d’année que celles des données des sous-populations. Dans ce cas, certains termes seront nécessaires pour capturer des caractéristiques additionnelles (par exemple : effet du revenu, de la région, de cohorte, …) provenant des données des sous-populations et permettront d’obtenir un modèle satisfaisant. Les résultats présentés ci-dessous permettront de constater que le modèle retenu à la section 2.3, basé sur les données de la BDLC, est pertinent et soutient la deuxième implication ci-dessus.

Dans l’analyse des différences entre les sous-groupes et la population de référence, la nature des données du RPC et du RRQ permet d’explorer l’influence de nombreuses variables, individuellement et conjointement, sur le niveau de la mortalité :

 L’âge;

 Le temps;

 L’année de naissance, dite la cohorte;

 La classe de revenu;

 La région.

De Adam (2013b) et tel que présenté à la section 1.1, plusieurs constats majeurs de la mortalité des retraités canadiens ressortent :

 À l’intérieur d’une région, le niveau et l’évolution dans le temps de la mortalité change en fonction de la classe de revenu;

 À l’intérieur d’une classe de revenu, le niveau et l’évolution dans le temps de la mortalité change en fonction de la région;

 L’hétérogénéité de la mortalité en fonction de la classe de revenu diminue à mesure que l’âge augmente;

 L’hétérogénéité de la mortalité en fonction de la région diminue à mesure que l’âge augmente. Il est fort probablet que ces constats soient observés dans les données et que des termes les quantifiant ressortent comme nécessaires au modèle relatif. Toutefois, on portera une attention particulière afin que ces informations a priori ne biaisent pas notre analyse, mais l’alimente. En plus de ces constats, on se questionnera sur la pertinence de l’effet de cohorte au Canada, notamment sur son importance relative comparativement à la région et à la classe de revenu.

Une variable sur les classes de revenu aura une influence identique, pour une même classe, que celle-ci soit du RPC ou du RRQ. De manière équivalente, une variable sur la région aura une influence identique, pour une même région, que la classe de revenu soit 1, 2 ou 3. Également, on peut tester l’hypothèse que chaque sous-groupe présente des caractéristiques uniques. Par exemple, le niveau et les tendances de la mortalité pour les hommes de la classe de revenu 1 pourraient être différents dans le RPC et dans le RRQ, même en considérant leur effet commun de la classe de revenu et distinct de leur région respective. Ainsi, une variable sera testée afin d’évaluer la pertinence de considérer chaque sous-groupe comme une entité indépendante. Afin de garder une cohérence dans la notation précédemment utilisée, on adopte la convention suivante pour les modèles à venir :

 Un terme

x réfère à un effet sur l’âge;

 Un terme

t réfère à un effet sur le temps;

 Un terme

c réfère à un effet de cohorte;

 Un terme

I

class réfère à un effet de la classe de revenu (Income class);

 Un terme

R

data source réfère à un effet de la source de données (Region);

 Un terme

S

group réfère à un effet par sous-groupe.

De là, le Tableau 9 contient les différentes variables candidates qui seront utilisées pour la construction des modèles relatifs des femmes et des hommes.

Tableau 9 : Variables candidates pour la modélisation relative de la mortalité, leur symbole et définition associée

Variable Symbole Formule Définition

Ordonnée à

l’origine c c

Valeur de départ pour toutes les données.

L’âge

A

A x

Changement associé à l’âge. Son effet est multiplié par l’âge d’augmenter d’âge est la même en passant de 65 à 66 ans que de 89 à 90 x. L’influence ans.

Par âge

x

Changement associé aux âges. Chaque âge est une variable distincte à estimer. Son effet n’est pas multiplié par l’âge x. L’influence d’augmenter d’âge n’est pas la même en passant de 65 à 66 ans que de 89 à 90 ans.

L’année

(period)

P

P t

Changement associé à l’année. Son effet est multiplié par l’année

t

. L’influence d’augmenter d’année est la même en passant de 1990 à 1991 que de 2009 à 2010. Une telle tendance serait considérée déterministe pour une projection.

Par année

t

Changement associé aux années. Chaque année est une variable distincte à estimer. Son effet n’est pas multiplié par l’année

t

. L’influence d’augmenter d’année n’est pas la même en passant de 1990 à 1991 que de 2009 à 2010. Une telle tendance pourrait être projetée stochastiquement comme une série chronologique.

Par cohorte

c

Changement associé aux années de naissance, ou cohorte. Chaque cohorte est une variable distincte à estimer. L’influence d’augmenter de cohorte n’est pas la même en passant de 1920 à 1921 que de 1940 à 1941. Une telle tendance pourrait être projetée stochastiquement comme une série chronologique.

Par classe

de revenu

I

I

class

Changement associé à la classe de revenu. Chaque classe de revenu est une variable distincte à estimer. L’influence d’augmenter de classe de revenu n’est pas la même en passant de la classe 1 à 2 que de 2 à 3.

Par région

R

Rregion

Changement associé à la source de données, ou région. Chaque région est une variable distincte à estimer. L’influence de passé d’une région A à une région B n’est pas la même que de passer de B à C.

Par sous-

groupe

S

S

g

Changement associé aux sous-groupes de données. Chaque sous-groupe, CPP-1, CPP-2, CPP-3, QPP-1, QPP-2 et QPP-3, est une variable distincte à estimer. L’influence de passé du sous-groupe CPP-1 à CPP-2 n’est pas la même que de passer de QPP-2 à QPP-3.

Par âge/sous-

groupe

x g,

Changement associé aux âges pour chacun des sous-groupes. Chaque âge de chaque sous-groupe est une variable distincte à estimer. L’influence de passer de

65,CPP1 à

66,CPP1 n’est pas lae même que de passer de

65,QPP 1

à

66,QPP1 . Ces variables combinent l’effet de l’âge et des sous-groupes sans distinctions.

Par année/sous-

groupe

t, g

Changement associé aux années pour chacun des sous-groupes. Chaque année de chaque sous-groupe est une variable distincte à estimer. L’influence de passer de

2000,CPP1 à

2001,CPP1 n’est pas le même que de passer de

2000,QPP1 à

2001,QPP1 . Ces variables combinent l’effet de l’année et des sous-groupes sans distinctions.

À partir de cette banque de variables potentiellement pertinentes, des modèles pour les femmes et les hommes sont estimés. Les sous-sections suivantes présentent les modèles finaux tandis que les résultats détaillés ayant mené aux modèles finaux sont présentés à l’Annexe D.

Femme

Pour les données des femmes du RPC et du RRQ, le Tableau 10 présente le modèle relatif final retenu. Il contient un premier terme différentiant le niveau général de la mortalité pour chacun des sous-groupes et un deuxième terme venant moduler linéairement cette différenciation des sous-groupes en fonction de l’âge. Tableau 10 : Modèle relatif pour la mortalité du RPC et du RRQ, femme

Formule AIC AICc BIC Déviance Degrés de liberté

A

ln

x t g; ;

lnˆ

x tref;

S

g 1

S

g 2

A x

26 576 26 576 26 655 3 618 3 420 Ce modèle nécessite des contraintes additionnelles pour assurer l’unicité des paramètres

        2 2 2 2 g g g g g g S S A A S S  

(2.40)

L’effet combiné des paramètres additionnels est illustré à la Figure 29. L’écart de mortalité entre les sous- groupes est à son maximum à 65 ans, mais tend vers 0 à mesure que l’âge augmente. La classe de revenu 1, CPP-1 et QPP-1, a une mortalité supérieure à celle de la population de référence et CPP-1 est systématiquement le groupe avec la mortalité la plus élevée. La classe de revenu 2, CPP-2 et QPP-2, a une mortalité plus faible que la population de référence. QPP-2 a une mortalité plus faible que CPP-2 à 65 ans, mais le différentiel de mortalité diminue plus rapidement pour QPP-2 faisant que ce groupe rejoint le niveau de CPP-2 à 90 ans. La classe de revenu 3, CPP-3 et QPP-3, a le niveau de mortalité le plus faible, les données du RRQ étant systématiquement plus faibles, maintenant un écart sur tous les âges.

Figure 29 : Différentiel de mortalité en fonction de l’âge, modèle relatif final des femmes

La Figure 30 présente les résidus du modèle. Les carrés blancs sont des erreurs positives (sous-estimation du modèle par rapport aux données) et les carrés noirs sont des erreurs négatives (surestimation du modèle par rapport aux données). Certaines grappes de résidus sont présentes, mais des tests sur l’ajout de terme additionnel n’a pas permis de corriger cet aspect. Somme toute, sur les 6 sous-groupes, l’ajustement général est satisfaisant.

Figure 30 : Résidus, modèle relatif final des femmes

Figure 31 : Log-mortalité observée et ajustée pour le RPC, modèle relatif des femmes, final

Figure 32 : Log-mortalité observée et ajustée pour le RRQ, modèle relatif des femmes, final

Homme

Pour les données du RPC et du RRQ, le Tableau 11 présente le modèle relatif final retenu. Il contient un premier terme différenciant le niveau général de la mortalité pour chaque sous-groupe, un deuxième terme venant moduler linéairement cette différenciation des sous-groupes en fonction de l’âge et un troisième capturant des tendances temporelles pour certains sous-groupes seulement.

Tableau 11 : Modèle relatif pour la mortalité du RPC et du RRQ, homme

Formule AIC AICc BIC Déviance Degrés de liberté

D    

; ; ; † , 1 2

ˆ

ln

ln

*

ref x t g x t t g g g

S

S

A x

29 437 29 442 29 932 3 918 3 357

* : Maintien de l’homogénéité en fonction de l’âge, lorsqu’atteint. † : Pour certains sous-groupes seulement

 2

1

g g

S

(2.41)

L’inconvénient avec ce modèle est que  2

g

S

A x

peut faire passer, pour un sous-groupe, l’ajustement en fonction de l’âge de valeurs négatives à des valeurs positives à cause de l’extrapolation de la tendance linéaire. Or, comme on l’a vu au chapitre 1, il y a une tendance de l’hétérogénéité de la mortalité à 65 ans vers une homogénéité qui se maintient à mesure que l’âge augmente. Ainsi, en respect avec cette tendance, on va maintenir l’homogénéité (différentiel en fonction de l’âge égal à 0) lorsqu’atteinte dans les paramètres. On a donc modifié  2

g

S

A x

afin d’éviter que les paramètres s’inversent de signe, qu’on identifie par  2

* g A x

S  . La Figure 33 présente les paramètres du modèle avec cette modification. Sur la gauche, on a

le différentiel de mortalité en fonction de l’âge,  1  2

* g g

SS A x , et, sur la droite, on a les tendances

temporelles

t g, †. Le † est pour spécifier que ce ne sont pas tous les sous-groupes qui ont une tendance temporelle différente de 0.

Figure 33 : Illustration des paramètres du modèle relatif final des hommes

Pour le différentiel en fonction de l’âge, l’écart de mortalité entre les sous-groupes est à son maximum à 65 ans, mais tend vers 0 à mesure que l’âge augmente. La classe de revenu 1, CPP-1 et QPP-1, a une mortalité supérieure à celle de la population de référence et QPP-1 est systématiquement le groupe avec la mortalité la plus élevée. La classe de revenu 2, CPP-2 et QPP-2, a une mortalité plus élevée que la population de référence, mais de façon moins importante que la classe de revenu 1. Spécifiquement, CPP-2 et QPP-2 sont

pratiquement identiques sur cette figure. La classe de revenu 3, CPP-3 et QPP-3, a le niveau de mortalité le plus faible et la seule inférieure à la population de référence. Ce sont les seuls sous-groupes pour lesquels l’ajustement sur

A x

contraint le différentiel à 0, juste avant d’atteindre 90 ans.

Pour les tendances temporelles, seulement CPP-1, CPP-2 et QPP-3 ont des évolutions temporelles significatives. On rappelle que la mortalité de la population générale a déjà des termes temporels amenant une diminution de l’ensemble de la mortalité. Ces tendances additionnelles viennent différencier les sous- groupes de la population générale. Par rapport à la population générale, CPP-1 a une diminution plus rapide de la mortalité de 2001 à 2011. QPP-3 a une diminution marquée sur toutes les années. Pour CPP-2, on a une augmentation de la mortalité, mais dans les faits cette augmentation a un impact moins important que la diminution de la population générale. Il faut donc interpréter la tendance de CPP-2 comme une diminution moins rapide pour ce groupe.

La Figure 34 présente les résidus en fonction de l’âge et de l’année. Les carrés blancs sont des erreurs positives (sous-estimation du modèle par rapport aux données) et les carrés noirs sont des erreurs négatives (surestimation du modèle par rapport aux données). Certaines tendances semblent restées, notamment pour CPP-3 et QPP-3, mais de nombreuses options ont été testées sans permettre une amélioration significative. Somme toute, sur les 6 sous-groupes, l’ajustement général est satisfaisant.

Figure 34 : Résidus du modèle D, troisième ajout de variable, modèle relatif des hommes

La Figure 35 présente les données observées et ajustées pour les données du RPC et la Figure 36 présente les données observées et ajustées pour les données du RRQ. Le modèle produit des surfaces relativement lisses et permet de distinguer les différents sous-groupes.