Pallier aux décès manquants : La procédure d’Heckman

1.3 Objectifs de recherche

2.2.4 Pallier aux décès manquants : La procédure d’Heckman

En analyse de données, il est plutôt rare de travailler avec des données complètes, c’est-à-dire avec des données dont aucune observation n’est manquante aussi bien sur la variable dépendante (dans notre cas, la durée de vie) que sur les variables explicatives. L’eﬀet potentiel des observations manquantes est cependant souvent ignoré et les modèles de régression sont fréquemment interprétés en supposant que les données sont représen- tatives de l’ensemble de la population à l’étude. Une particularité des données employées dans cette thèse est l’incomplétude des observations sur la variable d’intérêt. En eﬀet, l’observabilité d’une valeur sur la variable durée de vie dépend de notre capacité à avoir trouvé le décès ou non. Dans le but de vérifier si la probabilité de vivre jusqu’à un âge élevé est associée aux chances de trouver un acte de décès et afin de nous assurer que les facteurs expliquant la présence d’un acte de décès dans les registres et la longévité ne soient pas les mêmes, nous nous sommes intéressés aux individus pour lesquels l’acte de décès est demeuré introuvable.8_{Nous voulions être assurés que le retrait de ces derniers de}

nos analyses ne biaiserait pas les résultats obtenus. Si seulement 58% des dates de décès 8. Fait à noter toutefois, les valeurs manquantes sont de même nature dans tous les échantillons, c’est-à-dire que les raisons pour lesquelles un acte de décès est manquant sont les mêmes quel que soit

des individus ont été retrouvées (67% pour les conjoints et 56% pour la population de référence), c’est en grande partie pour trois raisons. Premièrement, les individus décédés avant 1926, année correspondant à l’instauration de l’état civil québécois, n’ont généra- lement pas été retrouvés. Deuxièmement, certains décès n’ont pu être retrouvés dans la base de données, soit parce qu’il y avait des erreurs dans le prénom ou le nom, soit parce qu’il y avait des erreurs dans la date de naissance. Troisièmement, si l’on considère les mouvements migratoires de l’époque, il est possible qu’un certain nombre d’individus nés au Québec et qui se retrouvent dans notre échantillon initial aient migré hors Québec.

Il existe plusieurs méthodes pour remédier à l’absence de certains actes de décès. L’une d’entre elles est de censurer les individus sans décès à la date de la dernière observation dans les registres. Or, comme il a été mentionné précédemment, nous n’observons pas ces individus après leur apparition dans les recensements ou après leur mariage qui a lieu dans la très grande majorité des cas avant l’âge de 40 ans et avant le début de l’observation. Une seconde méthode serait de consulter les registres paroissiaux année après année, paroisse après paroisse, dans le but d’identifier tous les décès ou du moins, de retracer l’individu dans un acte de mariage d’un de ses enfants ou d’un de ses frères et soeurs. Cette méthode s’avère toutefois coûteuse en termes de temps pour des résultats incertains. Une troisième méthode serait de comparer les caractéristiques des individus sélectionnés à ceux dont nous ne retrouvons pas les décès ou encore de saisir l’eﬀet de ces omissions sur les paramètres de la régression. L’hypothèse selon laquelle l’eﬀet serait minimal ou inexistant est raisonnable.

À des fins exploratoires, nous avons décidé d’employer la méthode d’estimation en deux étapes de Heckman qui introduit dans la régression un facteur de correction, l’inverse du ratio de Mills, qui permet de prendre en compte l’eﬀet des variables omises (Heckman,

1979). La première étape est d’estimer un modèle de sélection Probit pour obtenir la pro- babilité d’entrer dans l’échantillon, c’est-à-dire, ici, de retrouver un acte de décès ou non. En plus des variables explicatives habituelles, deux nouvelles variables ont été introduites dans l’équation de sélection, soit la fréquence du patronyme et le fait de résider près de la frontière. Ces variables ont été incluses non pas par hasard, mais bien parce qu’il semblait y avoir une relation entre ces variables et le fait de trouver un acte de décès. D’une part, l’appariement des actes de décès s’est avéré plus complexe et plus diﬃcile lorsque le nom de l’individu était fréquent. Par exemple, il est possible de trouver dans les registres de décès plusieurs dizaines de sujets portant le nom de Joseph Tremblay ou encore Joseph Gagné. Dès lors, une variable mesurant la fréquence du patronyme a été créée de manière

à distinguer les individus ayant un patronyme très répandu, soit l’un des quinze noms de famille les plus courants à l’époque, et les autres. En ce qui concerne le lieu de résidence, nous faisons l’hypothèse que le fait de vivre près d’une frontière augmente la probabilité de migrer à l’extérieur du Québec, engendrant ainsi des diﬃcultés dans l’enregistrement du décès. Dans la pratique,Gagnon et Bohnert (2012) ont démontré à partir de données similaires que ces deux variables instrumentales demeurent de bons déterminants de la probabilité de trouver un décès ou non. Au terme de cette première étape, les probabili- tés prédites estimées par le modèle Probit sont utilisées dans la construction d’un terme de correction pour la sélection, calculé pour chaque individu, soit l’inverse ratio de Mills ( ).9

C’est au coefficient de l’inverse ratio de Mills, lorsqu’introduit dans le modèle d’intérêt, que l’on doit l’indication, ou non, d’un biais de sélection, un coefficient statistiquement significatif révélant la présence d’un biais de sélection. Inversement, il est néanmoins difficile d’affirmer quoi que ce soit lorsque ce même coefficient n’est pas significatif, si ce n’est qu’il ne semble pas y avoir de biais en se basant sur le modèle de sélection construit (Bushway et al., 2007). Il est par ailleurs important de noter que les deux instruments capturent une partie seulement de l’ensemble des processus liés à la sélection ou au fait de ne pas trouver de décès, soit la difficulté de jumelage (par la fréquence du patronyme) et la migration hors Québec (par la résidence près de la frontière). Ces instruments ne capturent pas la mortalité avant 40 ans, et donc la santé inobservée, élément qui est plutôt capturé par l’inverse ratio de Mills.

Le modèle de Heckman est largement employé dans la littérature économique où il permet de résoudre les problèmes associés aux biais de sélection lors de la modélisation du salaire des femmes, sachant que bon nombre d’entre elles ont fait le choix de ne pas travailler. Il est fondé sur l’idée que les femmes sur le marché du travail, et donc qui possèdent un salaire, ne forment pas un échantillon aléatoire de toutes les femmes. Le choix de participer au marché du travail et l’offre de travail représentent ainsi deux décisions différentes qu’il faut modéliser séparément. Dans cette thèse, il est plutôt facile de donner une justification intuitive à ce modèle dont l’utilité est mise en évidence par la nature sélective de nos données : il est en effet impossible d’estimer les risques de mortalité pour

9. L’inverse ratio de Mills ( ) est obtenu par

ˆ_i₌ ( , ‘zit)

( , ‘zit) (2.12)

des individus dont nous n’avons pas trouvé le décès. Le fait de trouver un décès et le risque de mortalité représentent ainsi deux équations différentes qu’il faut estimer séparément. Le recours au modèle de Heckman semble intéressant ici pour isoler l’effet sur la longévité des conditions de vie dans l’enfance et à l’âge adulte de celui du mode de collecte de données. En revanche, il devient plutôt difficile de justifier son application théorique et de nombreux auteurs lui ont déjà reproché de ne pas être approprié dans le cas où le modèle à estimer n’est pas linéaire (Greene, 2010). Certains auteurs ont développé des modèles de sélection dans le contexte de l’analyse des durées de vie (Prieger,2002;Boehmke et al.,

2006), mais aucun ne permet de modéliser les durées de vie suivant une distribution de Gompertz. De plus, l’application de ces modèles n’est pas accessible par le biais de logiciels statistiques standard. Faute d’une meilleure méthode, plusieurs auteurs ont eu recours à la méthode de Heckman pour modéliser les risques de mortalité dans un échantillon non- aléatoire (Gagnon et al., 2009; Gagnon et Bohnert, 2012; Grundy et Tomassini, 2005). L’utilisation de ce modèle s’inscrit ainsi dans une démarche d’analyse exploratoire de la sélection et les résultats devront être interprétés avec discernement.10

10. Il est à noter que l’erreur n’est en revanche probablement pas très grande, car les résultats du modèle de Heckman dont la seconde équation est modélisée avec une régression linéaire sont pratiquement

Chapitre 3

L’avantage de survie des frères,

soeurs et conjoints de centenaires

québécois

Ce chapitre a fait l’objet d’un article intitulé Survival advantage of siblings and spouses of centenarians in 20th century Quebec écrit en collaboration avec A. Gagnon et R. Bour- beau et publié dans Canadian Population Studies. 2012.

Survival advantage of siblings and spouses of

centenarians in 20th century Quebec

VALÉRIE JARRY

Département de demographie, Université de Montréal, C.P. 6128, Succ. centre ville, Montréal, Québec, Canada. H3C 3J7

ALAIN GAGNON

Département de démographie, Université de Montréal

ROBERT BOURBEAU

Département de démographie, Université de Montréal

Abstract

Longevity runs in families, either through genetic or environmental influences. Using Que- bec civil registration and historical Canadian censuses, we compared the longevity of siblings and spouses of 806 centenarians to a group of controls, all born in Quebec at the turn of the 20th century. Our results show that siblings of centenarians, who share half of their genes and a common childhood environment, lived 3–4 years longer than their birth cohort. However, husbands and wives of centenarians lived 4 and 2.5 years longer than their counterparts of the same sex, respectively, suggesting that longevity is also modulated by shared environment in adulthood.

Keywords :mortality, longevity, centenarians, siblings, aging, oldest old, genetics, spousal environment, familial environment

3.1 Introduction

The dramatic increase in life expectancy during the last century is unprecedented in human history. Many of the early gains in life expectancy can be attributed to decisive victories against childhood infectious diseases, but in the second part of the 20th century,

gains shifted to chronic diseases that essentially aﬀected the elderly (Oeppen et Vaupel,

2002). Reduction of death rates above age 65 played a larger role, accounting for 30% of the improvements (Bourbeau et Smuga, 2003). Overall, data from various countries indicate that progress has been greater for women than for men, and more rapid in recent than in earlier decades citepVaupelAl1998. As mortality rates began to plunge at older ages, centenarians became the fastest growing segment of many industrialized populations (Vaupel et Jeune, 1995;Robine et Caselli,2005). In Canada, 151 death certificates indi- cated an age over 100 in 1959, which is two times the 1921 count. In 2003, 1,597 deaths of centenarians were recorded, ten times the 1959 count (Bourbeau et Desjardins,2006). Verified data from the Canadian Human Mortality Database (CHMD) show a similar trend for Quebec, with 64 centenarian deaths in 1975 and 425 in 2005. As elsewhere, the elderly now benefit from a deceleration in mortality (Thatcher et al.,1998;Vaupel et al.,

1998), and recent cohorts of centenarians are surfing on a mortality plateau. A fascinating phenomenon itself, the emergence of centenarians also holds major implications for our society. It is therefore important to understand the conditions predisposing individuals to exceptional survival.

Despite spectacular advances, we still have limited knowledge of old-age survival (Christensen et Vaupel, 1996). In addition to genes and biological robustness, lifestyle (e.g., smoking or diet), physical and mental activity, exposure to pathogens or chemicals, and access to medical care and social support are all important determinants of longevity. The general presumption is that adult lifestyle and socioeconomic position give rise to chronic health conditions, which develop over the life course (Elo et Preston, 1996). However, as the family of origin generally sets the stage for adult life achievement, re- search on aging and health is increasingly turning to childhood, where the earliest gains in life expectancy were achieved. An important part of longevity thus comes from early life familial influences. The family unit is the primary source of transmission of social, environmental, cultural, biological, and genetic factors that may underlie diﬀerences in health and mortality. Parents can indeed increase their children’s potential for a long life through favourable genetic endowment or through the provision of beneficial economic resources very early in life (Smith et al.,2009). Siblings also share 50% of their genes on average (Gagnon et al., 2005) and, to a large extent, the same environmental and social conditions during childhood. They may also influence each other’s health and longevity through mutual support in old ages (Mazan et Gagnon,2007).

Dans le document Analyse des facteurs biodémographiques, sociéconomiques et familiaux de la longévité exceptionnelle (Page 82-89)