• Aucun résultat trouvé

Choix occupationnels et espérance de vie : une analyse par l'approche des données massives

N/A
N/A
Protected

Academic year: 2021

Partager "Choix occupationnels et espérance de vie : une analyse par l'approche des données massives"

Copied!
75
0
0

Texte intégral

(1)

Choix occupationnels et espérance de vie: Une analyse

par l'approche des données massives

Mémoire

Jasmine Pageau

Maîtrise en économique - avec mémoire

Maître ès arts (M.A.)

(2)

Choix occupationnels et espérance de vie : Une

analyse par l’approche des données massives

Mémoire

Jasmine Pageau

Sous la direction de:

Guy Lacroix, directeur de recherche Luc Bissonnette, co-directeur de recherche

(3)

Résumé

Dans ce mémoire, nous tentons d’évaluer si le choix de profession a un effet sur l’espérance de vie à l’aide de techniques d’apprentissage automatique. Nous utilisons des arbres d’in-férence conditionnelle (CTree) afin d’obtenir des courbes de survie Kaplan-Meier qui per-mettent de prédire des taux de mortalité en fonction des déterminants sociodémographiques qui ont le plus grand pouvoir explicatif. À l’aide des données ontariennes et québécoises du recensement de 1991 couplées aux enregistrements de la base canadienne de données sur la mortalité de 1991 à 2006 nous avons pu déterminer qu’il existe une corrélation entre le choix occupationnel et l’espérance de vie d’un individu pour certains groupes. Tel qu’attendu, l’al-gorithme a identifié le sexe de l’individu comme principal prédicteur de l’espérance de vie. Nous obtenons que l’éducation et le statut de natif sont, respectivement, les variables plus influentes chez les hommes et chez les femmes des deux provinces.

(4)

Abstract

In this thesis, we try to assess the impact of occupational choice on life expectancy using machine learning techniques. We use Conditional Inference Trees (CTree) to obtain Kaplan-Meier survival curves that enable us to predict mortality rates regarding the influential socio-demographic features. Using the Québec and Ontario data from the 1991 census merged with the Canadian Mortality Database from 1991 to 2006, we observe a correlation between occu-pational choice and life expectancy for particular groups. As it was expected, we find that the primary predictor of life expectancy is the person’s sex. Education and Canadian-born status are respectively the most influential variable for men and women of both provinces.

(5)

Table des matières

Résumé iii

Abstract iv

Table des matières v

Liste des tableaux vii

Liste des figures viii

Remerciements x 1 Introduction 1 2 Revue de la littérature 3 2.1 Scolarité . . . 3 2.2 Préférences intertemporelles . . . 4 2.3 Occupation. . . 5 3 Méthodologie 7 3.1 CTree . . . 7

3.2 Avantages et limite de la méthode . . . 9

4 Données et statistiques descriptives 10 4.1 Recensement de 1991 . . . 10

4.2 Base canadienne de données sur la mortalité . . . 11

4.3 Préparation des données . . . 11

4.4 Variables explicatives . . . 12

4.5 Limites . . . 14

5 Résultats 15 5.1 Prédicteurs du revenu . . . 15

5.2 Prédicteurs de l’espérance de vie . . . 18

5.3 Tests statistiques. . . 24

6 Conclusion 26 A Courbes de survie Kaplan-Meier lissées 28 A.1 Hommes du Québec . . . 28

(6)

A.2 Hommes de l’Ontario. . . 36 A.3 Femmes du Québec . . . 45 A.4 Femmes de l’Ontario . . . 53

(7)

Liste des tableaux

4.1 Nombre d’observations utilisées dans la formation des arbres . . . 12 4.2 Identification des variables catégorielles.. . . 13 5.1 Tests statistiques entre la variable natif et les autres variables explicatives

in-fluentes ches les femmes . . . 25 5.2 Tests statistiques entre la variable éducation universitaire et les autres variables

(8)

Liste des figures

5.1 Prédicteurs du revenu total d’un individu . . . 16

5.2 Prédicteurs du revenu total d’un homme . . . 17

5.3 Prédicteurs du revenu total d’une femme . . . 17

5.4 Prédicteurs de l’espérance de vie d’un homme québécois . . . 19

5.5 Prédicteurs de l’espérance de vie d’un homme ontarien . . . 20

5.6 Prédicteurs de l’espérance de vie d’une femme québécoise . . . 21

5.7 Prédicteurs de l’espérance de vie d’une femme ontarienne . . . 22

A.1 Hommes - Québec - Noeud 5 . . . 28

A.2 Hommes - Québec - Noeud 6 . . . 29

A.3 Hommes - Québec - Noeud 8 . . . 29

A.4 Hommes - Québec - Noeud 9 . . . 30

A.5 Hommes - Québec - Noeud 12. . . 30

A.6 Hommes - Québec - Noeud 13. . . 31

A.7 Hommes - Québec - Noeud 15. . . 31

A.8 Hommes - Québec - Noeud 16. . . 32

A.9 Hommes - Québec - Noeud 20. . . 32

A.10 Hommes - Québec - Noeud 21. . . 33

A.11 Hommes - Québec - Noeud 23. . . 33

A.12 Hommes - Québec - Noeud 24. . . 34

A.13 Hommes - Québec - Noeud 26. . . 34

A.14 Hommes - Québec - Noeud 28. . . 35

A.15 Hommes - Québec - Noeud 29. . . 35

A.16 Hommes - Ontario - Noeud 5 . . . 36

A.17 Hommes - Ontario - Noeud 6 . . . 37

A.18 Hommes - Ontario - Noeud 8 . . . 37

A.19 Hommes - Ontario - Noeud 9 . . . 38

A.20 Hommes - Ontario - Noeud 12 . . . 38

A.21 Hommes - Ontario - Noeud 13 . . . 39

A.22 Hommes - Ontario - Noeud 15 . . . 39

A.23 Hommes - Ontario - Noeud 16 . . . 40

A.24 Hommes - Ontario - Noeud 20 . . . 40

A.25 Hommes - Ontario - Noeud 21 . . . 41

A.26 Hommes - Ontario - Noeud 23 . . . 41

A.27 Hommes - Ontario - Noeud 24 . . . 42

A.28 Hommes - Ontario - Noeud 27 . . . 42

(9)

A.30 Hommes - Ontario - Noeud 30 . . . 43

A.31 Hommes - Ontario - Noeud 31 . . . 44

A.32 Femmes - Québec - Noeud 5 . . . 45

A.33 Femmes - Québec - Noeud 6 . . . 46

A.34 Femmes - Québec - Noeud 8 . . . 46

A.35 Femmes - Québec - Noeud 9 . . . 47

A.36 Femmes - Québec - Noeud 12 . . . 47

A.37 Femmes - Québec - Noeud 13 . . . 48

A.38 Femmes - Québec - Noeud 14 . . . 48

A.39 Femmes - Québec - Noeud 18 . . . 49

A.40 Femmes - Québec - Noeud 19 . . . 49

A.41 Femmes - Québec - Noeud 21 . . . 50

A.42 Femmes - Québec - Noeud 22 . . . 50

A.43 Femmes - Québec - Noeud 25 . . . 51

A.44 Femmes - Québec - Noeud 26 . . . 51

A.45 Femmes - Québec - Noeud 28 . . . 52

A.46 Femmes - Québec - Noeud 29 . . . 52

A.47 Femmes - Ontario - Noeud 5 . . . 53

A.48 Femmes - Ontario - Noeud 6 . . . 54

A.49 Femmes - Ontario - Noeud 8 . . . 54

A.50 Femmes - Ontario - Noeud 9 . . . 55

A.51 Femmes - Ontario - Noeud 12 . . . 55

A.52 Femmes - Ontario - Noeud 13 . . . 56

A.53 Femmes - Ontario - Noeud 15 . . . 56

A.54 Femmes - Ontario - Noeud 16 . . . 57

A.55 Femmes - Ontario - Noeud 20 . . . 57

A.56 Femmes - Ontario - Noeud 21 . . . 58

A.57 Femmes - Ontario - Noeud 23 . . . 58

A.58 Femmes - Ontario - Noeud 24 . . . 59

A.59 Femmes - Ontario - Noeud 27 . . . 59

A.60 Femmes - Ontario - Noeud 28 . . . 60

A.61 Femmes - Ontario - Noeud 30 . . . 60

(10)

Remerciements

J’aimerais tout d’abord remercier mon directeur de recherche, M. Guy Lacroix, pour sa dis-ponibilité, son encadrement et son soutien financier. Merci pour ce beau projet qui a su me passionner du début à la fin. Je tiens également à remercier mon codirecteur, M. Luc Bisson-nette, pour son support, sa confiance en moi et l’ensemble des opportunités offertes qui font toute la différence en début de carrière. Je n’aurais pu demander une meilleure équipe de direction. Merci infiniment pour votre temps, votre gentillesse et votre enthousiasme dans le projet qui a permis de cultiver mon désir d’apprendre.

Un merci particulier à Claudia Gosselin, tu es ma plus grande source de motivation. Je peux tout accomplir avec toi à mes côtés. Merci à mes parents et à l’ensemble de ma famille pour vos encouragements de la maternelle à la dernière session de maîtrise. Je vous remercie du fond du cœur.

Je souhaite aussi remercier la Chaire de recherche Industrielle Alliance sur les enjeux écono-miques des changements démographiques pour la bourse qui m’a permis de me concentrer sur la réussite de ce mémoire. Je suis également reconnaissante envers Statistique Canada pour l’accès aux données confidentielles utilisées dans ce projet.

(11)

Chapitre 1

Introduction

Depuis le siècle dernier, l’espérance de vie de la population a grandement augmenté. Cela est dû entre autres aux avancées de la médecine, aux politiques sociales et aux modifications des comportements pour adopter un mode de vie sain. Ces facteurs ont permis de réduire la mortalité infantile et le taux de mortalité des personnes âgées. Cette augmentation de l’espé-rance de vie est cependant hétérogène au sein d’une même population. Plusieurs chercheurs ont tenté d’expliquer cette variation par divers facteurs socioéconomiques. L’identification de ces facteurs permet de mieux prédire l’évolution de l’espérance de vie. Cela peut influen-cer les politiques publiques, car plusieurs programmes sociaux sont basés sur des seuils d’âge minimum qui peuvent être ajustés afin de maintenir leur solvabilité.

Certains auteurs ont associé la hausse de l’espérance de vie à l’augmentation de la scola-rité de la population (Lleras-Muney,2005;Clark et Royer,2013;Buckles et al.,2016). Afin de vérifier leur hypothèse, ils ont utilisé des expériences naturelles telles que la mise en place de réformes qui repoussent l’âge minimal d’instruction ou les impacts de guerres sur la scola-rité pour mesurer les changements dans l’éducation en évitant les problèmes d’endogénéité. Ainsi, aux États-Unis,Lleras-Muney(2005) a trouvé qu’une année supplémentaire d’instruc-tion obligatoire réduit la chance de mourir après l’âge de 35 ans de 3 % etOreopoulos(2006a) a observé qu’une année de scolarité additionnelle obligatoire réduit les chances de déclarer souffrir d’une limitation physique ou mentale de 1,7 point de pourcentage. Toutefois, ces études ne tenaient pas compte de l’occupation et du mode de vie au niveau individuel et il est probable que ce soit par ces mécanismes que l’éducation influence l’espérance de vie. Au Canada, nous disposons de peu de preuves empiriques quant à l’effet du niveau d’édu-cation sur le taux de mortalité. Cela nous pousse à élargir notre champ d’investigation et à considérer d’autres facteurs explicatifs. Nous considérons l’emploi en tant que prédicteur potentiel de l’espérance de vie puisqu’il influence la richesse de l’individu et les risques aux-quels il fait face au travail. Par ailleurs,Bell et al.(2004);Monden(2005);Cambois(2004) ont

(12)

observé des relations entre l’occupation et la mortalité. Notamment,Cambois(2004) a révélé qu’un changement d’emploi positif pour un travailleur, telle une promotion au sein de l’en-treprise, est associé à une diminution du risque de décès en comparaison aux travailleurs qui ont conservé leur emploi initial.

Dans ce mémoire, nous tentons de déterminer s’il existe une relation entre le choix occu-pationnel et l’espérance de vie. La méthode choisie pour y parvenir est différente de l’ap-proche économétrique classique puisque nous utilisons des techniques d’apprentissage au-tomatique. Plus précisément, nous avons recours aux arbres décisionnels de type Condi-tional Inference Trees. Selon nos connaissances, aucune autre étude n’a utilisé cette tech-nique pour déterminer la corrélation entre l’emploi et la survie des individus. Nous avons choisi cette méthode en raison de sa capacité à traiter une quantité importante de données et de sa performance en réduction de dimensionnalité. Cette technique nous permet d’iden-tifier les facteurs les plus fortement corrélés avec l’espérance de vie d’un individu parmi les nombreuses variables explicatives proposées. Outre le sexe d’un individu, nos résultats sug-gèrent que l’éducation est la variable la plus influente chez les hommes alors qu’il s’agit du statut de natif chez les femmes. Nous relevons également d’autres variables d’importance pour la prédiction de l’espérance de vie, notamment l’occupation, l’état matrimonial et le revenu.

Dans un premier temps, nous présentons au chapitre 2 un survol de la littérature des fac-teurs socioéconomiques qui influencent l’espérance de vie en se concentrant sur la scolarité, les préférences intertemporelles et l’occupation. Puis, le chapitre 3 aborde la méthodologie préconisée pour déterminer les prédicteurs de l’espérance de vie. Le fonctionnement ainsi que les avantages et la principale limite de CTree sont présentés. Ensuite, la base de données utilisée est définie et expliquée au chapitre 4. Finalement, le chapitre 5 met en lumière les faits saillants des résultats. Ils sont présentés selon le sexe et la province de résidence des indivi-dus, ce qui permet de distinguer les différences et similitudes entre ces groupes. Ce chapitre est suivi d’une conclusion qui inclut des avenues à explorer pour de futurs travaux.

(13)

Chapitre 2

Revue de la littérature

Plusieurs chercheurs ont tenté de déterminer les facteurs qui influencent l’espérance de vie, car elle est une mesure importante du bien-être d’une population. Des études menées par Lleras-Muney(2005);Buckles et al.(2016);Feinstein et al.(2006) ont ciblé l’éducation comme l’un de ses principaux déterminants d’ordre socioéconomique. La relation entre l’éducation et la santé est attrayante pour les décideurs publics. Si elle est de nature causale, des poli-tiques éducationnelles ciblant certains groupes à risque permettraient d’améliorer leur état de santé sans augmenter les dépenses en soins de santé dont les retours sur investissement sont incertains (Weinstein et Skinner,2010). Dans ce chapitre, nous tentons d’illustrer l’in-fluence de la scolarité, des préférences intertemporelles et de l’occupation sur l’espérance de vie en présentant les principaux travaux sur le sujet.

2.1

Scolarité

Des chercheurs ont observé une relation entre l’éducation et le taux de mortalité. Par exemple, Buckles et al. (2016) ont tenté de déterminer l’impact de l’éducation universitaire sur l’es-pérance de vie aux États-Unis en utilisant le fait que des jeunes hommes se sont inscrits à l’université afin d’éviter d’être sélectionnés aléatoirement pour participer à la guerre du Vietnam. Ils ont classé les États en fonction du niveau de scolarité, de celui où le nombre moyen d’années universitaires complétées est le plus faible au plus élevé. Puis, ils ont es-timé qu’une augmentation de 0,49 année universitaire complétée ferait passer un État du 25e au 75e percentile de ce classement et réduirait de 8 à 10 % le taux de mortalité de la cohorte étudiée par rapport à la moyenne. De son côté, Lleras-Muney (2005) a étudié les impacts sur le taux de mortalité des lois américaines mises en place entre 1915 et 1939 qui ont repoussé l’âge minimal autorisé pour quitter les bancs d’école. L’auteure a trouvé une relation causale entre l’éducation et la mortalité. Une année supplémentaire d’instruction obligatoire réduirait la chance de mourir après l’âge de 35 ans de 3 %. Cette étude est en-core largement utilisée comme référence malgré les critiques de Mazumder(2008) etBlack

(14)

et al.(2008) qui ont respectivement démontré que les résultats ne sont pas robustes à l’inclu-sion de tendances linéaires spécifiques aux états et que les erreurs standards de la relation entre les lois sur la scolarité minimale et le niveau d’éducation sont erronées. Finalement, selonOreopoulos(2006a), une année de scolarité additionnelle obligatoire réduit les chances de déclarer souffrir d’une limitation physique ou mentale de 1,7 point de pourcentage aux États-Unis et diminue la probabilité de déclarer être en mauvais état de santé de 3,2 points de pourcentage au Royaume-Uni.

Clark et Royer(2013) etMeghir et al.(2018) ont également tenté d’isoler l’effet de l’éducation sur la mortalité en considérant les réformes sur l’âge de fréquentation scolaire obligatoire. Contrairement à l’étude américaine, ils ne trouvent pas d’effets significatifs des réformes scolaires britanniques et suédoises sur l’espérance de vie. Toutefois,Meghir et al.(2018) ob-servent une forte corrélation entre le nombre d’années d’éducation et l’état de santé etClark et Royer(2013) ont trouvé que ces réformes ont eu un impact sur l’éducation et les salaires des individus concernés. Pour ce qui est du Canada, il est possible que l’on n’observe pas la même relation entre le niveau d’éducation et le taux de mortalité qu’aux États-Unis puisque plusieurs éléments distinguent les deux pays. Le Canada possède un système d’assurance maladie universel, de plus faibles inégalités de revenus et un taux de mortalité moins im-portant qu’aux États-Unis (Baker et al.,2017).

Il est probable que la scolarité influence l’espérance de vie grâce à des mécanismes inter-médiaires. Par exemple, Lemieux et Card (2001) ont montré que l’éducation influence le revenu en étudiant les effets des programmes de réadaptation des vétérans qui ont permis d’augmenter la scolarité des combattants ontariens de la Deuxième Guerre mondiale. Ils ont observé un taux de rendement de l’éducation de 15 %. Ensuite, des études menées par Oreo-poulos(2006b) etOreopoulos(2006a) ont montré qu’une année supplémentaire d’éducation obligatoire au Canada diminue la probabilité qu’un individu soit au chômage et qu’il se situe en deçà du seuil de faible revenu. PuisMonden(2005) a démontré lors d’une étude menée aux Pays-Bas que les hommes moins scolarisés occupent généralement des emplois avec de moins bonnes conditions de travail que ceux des hommes plus scolarisés. Cela expliquerait le tiers de l’écart entre leurs niveaux de santé. Il est possible que l’éducation affecte l’es-pérance de vie par l’entremise des choix intertemporels et occupationnels (Feinstein et al., 2006).

2.2

Préférences intertemporelles

Les résultats sont mitigés quant à la causalité entre l’éducation et les préférences intertem-porelles. Il est possible que ce soit les individus qui ont un taux d’actualisation plus faible qui décident de s’instruire plus longtemps. Pour ces individus, le coût associé à l’éducation

(15)

est plus faible puisqu’ils valorisent davantage le futur (Fuchs,1982). Il est aussi possible que ce soit l’éducation qui influence les préférences. Le système scolaire valorise les préférences fortes pour le futur en encourageant le raisonnement à long terme et le développement de compétences qui peuvent être perçues elles-mêmes comme des investissements (Feinstein et al., 2006). Toutefois, que ce soit l’éducation qui module les choix intertemporels ou bien que ce soit le contraire, plusieurs recherches supportent l’hypothèse que les choix intertem-porels influencent la probabilité de mourir par le mode de vie choisi. En théorie, les gens qui ont des préférences fortes pour le futur adoptent un mode de vie sain, car ils ont conscience des conséquences futures de leurs actions (Farrell et Fuchs,1982;Komlos et al.,2004; Fein-stein et al.,2006).

Tout d’abord, la diminution des taux de mortalité observée parBuckles et al.(2016), lorsque le niveau de scolarité augmente est principalement due à une diminution du nombre de dé-cès liés aux maladies cardio-vasculaires ou aux cancers. Près du tiers de ces cancers sont des cancers du poumon. Les auteurs proposent que les individus plus scolarisés consomment moins de cigarettes puisqu’elle est la principale cause de ce type de cancer. Toutefois,Farrell et Fuchs (1982) ont montré que le nombre d’années de scolarité n’influence pas significa-tivement la probabilité de fumer. Ils suggèrent plutôt l’existence d’une autre variable qui serait liée à ces deux éléments. Selon eux, il s’agirait du niveau de préférence pour le présent puisque l’atteinte d’un haut niveau d’éducation et le fait de ne pas consommer de cigarette peuvent être considérés comme des investissements. Komlos et al. (2004) avancent égale-ment que les gens adoptent un comporteégale-ment qui reflète leurs préférences intertemporelles. Ils supposent que les individus plus impatients ont un taux d’épargne plus faible et une pro-babilité plus élevée d’être obèses, car ils accordent moins d’importance aux bénéfices futurs. À l’aide de données américaines, ils observent aux États-Unis qu’une diminution dans le taux d’épargne est corrélée à une augmentation du taux d’obésité.

2.3

Occupation

En ce qui a trait au choix occupationnel, il est possible qu’il influence l’espérance de vie par deux canaux, soit le type d’emploi et le revenu. Premièrement, le type d’emploi peut avoir d’importantes répercussions sur la santé d’un individu (Bell et al.,2004;Monden,2005; Cambois,2004;Nakata et al.,2004). Des occupations manuelles comportent plus de risques d’accidents de travail. Selon la commission des normes, de l’équité, de la santé et de la sécu-rité du travail (CNESST,2016), 81 765 travailleurs ont subi un accident en milieu de travail au Québec en 2015 et 69 en sont décédé.

Par ailleurs, des changements d’emplois favorables pour le travailleur au sein d’une entre-prise sont associés à une réduction du risque de décès comparativement aux travailleurs qui

(16)

ont conservé le même poste (Cambois,2004). Il semble également que la probabilité de dé-cès d’un travailleur augmente à la suite d’une perte d’emploi soudaine due à la fermeture de l’entreprise (Bloemen et al.,2018). L’effet de la perte d’emploi sur la mortalité est semblable pour les hommes et les femmes, mais il est plus important pour les travailleurs à faibles re-venus et pour ceux qui travaillaient depuis longtemps pour l’entreprise. Selon les auteurs, cette perte d’emploi peut augmenter le stress et la consommation d’alcool et de cigarettes des individus, ce qui entraîne une hausse dans le taux de mortalité de ces travailleurs. Ensuite, les chercheurs de l’étudeBell et al. (2004) ont démystifié la croyance populaire se-lon laquelle ce sont les travailleurs de haut statut qui sont le plus à risque de développer des maladies cardio-vasculaires. Ce sont plutôt les emplois très exigeants, mais qui n’ac-cordent qu’un niveau d’autonomie faible, qui augmentent la probabilité que le travailleur soit malade. Un déséquilibre entre l’effort demandé au travail et les récompenses attribuées serait également néfaste pour les travailleurs, car cela augmente la probabilité de dévelop-per des maladies cardio-vasculaires. Parallèlement, Nakata et al.(2004) ont observé que les travailleurs de type « col blanc » au Japon sont plus susceptibles de faire de l’insomnie lorsqu’ils ressentent du stress causé par une insatisfaction vis-à-vis leur emploi ou par des conflits en milieu de travail.

Le choix occupationnel peut également influencer l’espérance de vie grâce au revenu gé-néré par l’emploi. En effet, la richesse d’un individu peut avoir des répercussions sur son état de santé. Les gens plus aisés peuvent vivre dans de meilleurs quartiers où le taux cri-minalité est plus faible et leur exposition à la pollution est réduite. En Suède, les résidents des quartiers avec les plus hauts taux de chômage et de criminalité ont également plus de risques de développer des maladies cardiovasculaires (Sundquist et al., 2006). Du côté du Royaume-Uni, les gens qui demeurent 20 ans ou plus dans un quartier défavorisé ont des ratios plus élevés de maladies comparativement aux gens qui habitent les meilleurs quar-tiers. Ce ratio tend à diminuer lorsque le quartier s’améliore par rapport aux autres au fil des ans (Boyle et al.,2003). Par ailleurs,Abdalla et al.(1997) ont observé que les conducteurs écossais de régions à faibles revenus ont plus de chance de participer à un accident de la route que ceux des secteurs à revenus élevés.Shaw et al.(2000) ont démontré que 24 % des décès en Angleterre ne se seraient pas produits si l’ensemble de la population avait les taux de mortalité des mieux nantis.

(17)

Chapitre 3

Méthodologie

Dans ce chapitre, nous présentons le modèle utilisé pour déterminer si l’occupation est un bon prédicteur de l’espérance de vie. Nous avions besoin d’une méthode efficace en réduc-tion de dimensionnalité et qui peut traiter une quantité importante d’observaréduc-tions. C’est pourquoi nous utilisons des arbres décisionnels de type Conditional Inference Trees, une avenue peu explorée dans la littérature actuelle en sciences sociales. Il s’agit d’une technique d’apprentissage automatique qui possède un bon pouvoir prédictif et qui permet de résumer les relations entre les données (Varian,2014). En effet, cette méthode identifie les facteurs qui ont la corrélation la plus importante avec l’espérance de vie d’un individu parmi les nom-breuses variables explicatives proposées. Nous avons décidé d’utiliser des arbres de décision puisqu’il s’agit d’une méthode d’estimation non paramétrique qui ne nécessite pas d’hypo-thèse a priori sur la distribution des données. De plus, les variables explicatives proposées peuvent être de nature numérique et nominale. Par ailleurs, les arbres fonctionnent bien en présence de données aberrantes et leurs résultats sont facilement compréhensibles (Lior et Oded, 2014). Nous présentons le fonctionnement de l’algorithme utilisé de même que les avantages et les limites du modèle.

3.1

CTree

Les Conditional Inference Trees (CTree) ont été développés par Hothorn, Hornik et Zeileis (2015) et se trouvent dans le paquetage Partykit disponible en R. Cette technique d’appren-tissage automatique permet de trouver les meilleurs prédicteurs d’une variable réponse en utilisant un test de significativité pour sélectionner les variables explicatives et leurs seuils. Plus précisément, CTree procède en trois étapes :

1) L’algorithme teste l’hypothèse nulle que l’ensemble des variables explicatives sont indé-pendantes de la variable réponse. Si l’hypothèse nulle est rejetée, il sélectionne la variable dont la relation est la plus forte avec la variable réponse.

(18)

continue, il assigne les observations dans les groupes en fonction d’un seuil. Lorsque la va-riable est catégorielle, il ne tient pas compte de l’ordre des catégories et regroupe celles qui mènent à des conclusions semblables.

3) Il répète les deux étapes précédentes récursivement et s’arrête lorsqu’il ne peut plus reje-ter l’hypothèse nulle ou lorsqu’il satisfait un critère d’arrêt.

Tel que spécifié dans ctree : Conditional Inference Trees,Hothorn et al.(2015) mesurent l’associa-tion entre la variable dépendante Y et une variable explicative Xi à l’aide d’une statistique

linéaire de la forme suivante Tj(Ln, w) = vec n X i=1 wigj(Xji)h(Yi, (Y1, . . . , Yn))> ! ∈ Rpjq,

où gj : Xj → Rpj est une transformation non aléatoire de la variable indépendante Xj et

h : Y × Yn → Rq est la fonction d’influence de la variable réponse Y (Hothorn et al.,2015).

Lorsque les données sont censurées à droite, cette fonction est la statistique du logrank

h(Yi) = δi− rj(t) X j=1 δj n − rj(t) + 1 ,

où Yi = (ti, δi) est la variable réponse pour l’observation i, t est la période durant laquelle

l’événement ou la censure s’est produit et δ prend la valeur de 0 si l’événement est censuré et de 1 s’il est observé. rj(t) = Pni=1I{ti≤tj} est le nombre d’observations qui ont subi

l’évé-nement ou ont été censurées entre la période 0 et tj(Fu et Simonoff,2016).

La distribution de la statistique T dépend de la distribution jointe de Y et Xi qui est

in-connue. Toutefois, sous l’hypothèse nulle d’indépendance entre les variables explicatives et la variable réponse, ce problème peut être écarté en assignant des valeurs aux variables ex-plicatives et en conditionnant sur l’ensemble des valeurs possibles de la variable réponse (Hothorn et al., 2015). Ce principe a mené les auteurs à utiliser des tests de permutation basés sur le cadre théorique développé parStrasser et Weber(1999) pour segmenter les don-nées. L’algorithme calcule les statistiques tests et il sélectionne la variable avec la plus faible p-valeur. Dans le cas de ce mémoire, cela correspond à effectuer une séparation lorsque les distributions de longévité sont suffisamment distinctes.

Lorsque l’hypothèse nulle ne peut être rejetée ou un critère d’arrêt1est satisfait, la croissance de l’arbre est terminée. À la fin de chaque branche se trouvent les nœuds terminaux. Il est possible d’obtenir divers graphiques comme nœuds terminaux, tels que des histogrammes

1. Une séparation se produit si aucun critère d’arrêt n’est satisfait. C’est-à-dire que la variable explicative a une p-valeur inférieure au seuil de significativité demandé, que la taille des nouveaux sous-ensembles est supérieure au nombre d’observations minimal requis dans chaque nœud et que l’arbre n’a pas atteint le niveau de croissance maximal permis.

(19)

et des boîtes à moustaches, dépendamment de la variable réponse. En raison de la nature de notre variable d’intérêt, nous obtenons des courbes de survie de type Kaplan-Meier. Ces courbes nous informent de la probabilité qu’une personne décède en fonction de son âge et de la combinaison des caractéristiques présentent sur les branches de l’arbre. Ces courbes sont tracées à l’aide du paquetage Survival en R.

3.2

Avantages et limite de la méthode

Cette technique de partition des données constitue le principal avantage de cette méthode puisque l’algorithme évite le biais de sélection dont souffrent les arbres traditionnels (Ho-thorn et al., 2006). Le biais de sélection se produit lorsque les variables qui ont le plus de points de séparation ont plus de chance d’être sélectionnées. Ce problème est dû au critère de segmentation utilisé, souvent l’indice de diversité de Gini. Pour ces arbres traditionnels, l’indice est calculé pour chaque variable, à chaque point de séparation possible, et les obser-vations sont divisées au point associé au meilleur critère. Donc, les variables qui ont plus de points de séparations ont plus de chance de produire ce meilleur critère par hasard et donc plus de chance d’être sélectionnées (Strobl et al.,2007).

En utilisant l’algorithme CTree, nous évitons également le surapprentissage (overfitting), c’est-à-dire que l’arbre obtenu colle trop aux données de sorte que ses prédictions ne sont plus valides avec l’ajout de nouvelles observations. Pour ce faire, nous imposons un critère de significativité minimal. Ce paramètre d’arrêt est souvent de 0,05, mais il peut être réduit en fonction de l’ampleur de la base de données. Dans notre cas, il a été fixé à 0,01 puisque nous travaillons avec des mégadonnées. Cela signifie que l’algorithme effectue une sépara-tion supplémentaire seulement s’il estime à 99 % que les sous-ensembles mènent à différents taux de survie en fonction de l’âge. Dans le même ordre d’idées, nous avons restreint l’éten-due de l’arbre à 4 niveaux et les nœuds terminaux de l’arbre doivent contenir un minimum de 500 observations. Ainsi seulement les variables qui sont réellement corrélées avec la va-riable dépendante sont présentes dans l’arbre.

La principale limite de cette technique d’apprentissage automatique est qu’elle ne nous in-forme pas de la causalité des variables explicatives sélectionnées. Il n’est pas possible d’iden-tifier des relations cause à effet à partir des résultats obtenus. Toutefois, cette méthode per-met de départir les prédicteurs pertinents des autres. Ils peuvent ensuite être utilisés par d’autres techniques économétriques pour déterminer les liens causals.

(20)

Chapitre 4

Données et statistiques descriptives

Dans ce chapitre, nous présentons les données utilisées pour vérifier si le choix occupa-tionnel est réellement lié à l’espérance de vie. Ce chapitre est séparé en plusieurs sections. D’abord, nous introduisons les données, leur origine et leurs limites, puis nous présentons les variables indépendantes proposées à l’algorithme.

Le principal défi des arbres de décision est de trouver les informations pertinentes parmi les caractéristiques propres à l’échantillon de données. C’est pourquoi le choix de la base de données est crucial. Dans le cadre de ce mémoire, nous utilisons la cohorte santé et environ-nement du recensement canadien. Cela représente un atout, car les informations proposées à l’algorithme sont nombreuses et représentatives de la population. Cette base de données est constituée des enregistrements du recensement de 1991 couplés à ceux de la base canadienne de données sur la mortalité de 1991 à 2006. Ainsi, l’algorithme a accès aux caractéristiques des individus décédés et ceux qui sont toujours vivants en 2006. C’est pourquoi ces données permettent de déterminer si l’occupation est corrélée à l’espérance de vie d’un individu et, si elle ne l’est pas, nous pouvons cibler quelles variables le sont.

4.1

Recensement de 1991

Le recensement de 1991 est une enquête à participation obligatoire. L’ensemble des citoyens ont dû fournir leurs informations démographiques et un échantillon de 20 % des ménages canadiens a reçu le questionnaire détaillé du recensement. Ce questionnaire long recueille des informations supplémentaires sur plusieurs sujets, dont l’ethnicité, la scolarité, le revenu et l’emploi des gens. Nous avons accès à plus de 2 millions d’observations parmi lesquelles nous sélectionnons des échantillons qui respectent certains critères. Ainsi, nous ne conser-vons que les résidents du Québec et de l’Ontario âgés de 45 à 65 en 1991 en excluant les gens inactifs sur le marché du travail et les militaires puisque nous tentons d’observer l’ef-fet de l’occupation sur la mortalité. Nous nous concentrons sur les individus plus âgés, car

(21)

leurs taux de mortalité sont plus élevés et permettent de cibler les facteurs qui influencent la probabilité de décès. C’est pourquoi les résultats obtenus ne sont pas généralisables à la population entière, mais seulement à ceux qui possèdent ces caractéristiques. En raison du grand nombre d’observations, nous avons exclu toutes celles qui comportaient des valeurs manquantes. Nous étudions séparément les résidents du Québec et de l’Ontario afin de dé-celer les similitudes et les différences dans les déterminants de l’espérance de vie dans les deux provinces. Pour notre analyse, nous conservons 19 variables d’intérêt ainsi que 124 210 observations pour le Québec et 202 685 pour l’Ontario. Afin de préserver la confidentialité des répondants, les données sont pondérées au niveau individuel à l’aide de la variable créée à cet effet par Statistique Canada.

4.2

Base canadienne de données sur la mortalité

La base canadienne de données sur la mortalité est un registre des décès de résidents du Canada entre 1991 et 2006 développé dans le cadre de l’Étude canadienne de suivi de la mortalité et du cancer. Durant cette période, 15 320 individus d’intérêt sont décédés au Qué-bec et 26 180 sont décédés en Ontario. Cette base de données est cruciale pour la réalisation de ce mémoire puisqu’elle permet à CTree de savoir précisément quels individus sont dé-cédés, et ce à quel âge. Lorsque l’âge au décès est manquant, il est calculé en soustrayant l’année de naissance à celle du décès.

4.3

Préparation des données

Tout d’abord, nous avons utilisé Stata pour joindre le recensement de 1991 au registre de décès grâce aux identifiants uniques que possède chaque individu. Nous n’avons conservé que les gens âgés de 45 à 65 ans en 1991 de sorte que ces individus sont âgés de 60 à 80 ans en 2006, la dernière année pour laquelle les décès ont été enregistrés dans notre base de données. Nous avons exclu les gens inactifs sur le marché du travail, les militaires et les résidents des provinces autres que le Québec et l’Ontario. Ensuite, nous avons conservé les variables pertinentes à notre analyse et les observations sans valeurs manquantes. Nous avons créé une nouvelle variable qui représente les occupations agrégées au premier niveau des grandes catégories professionnelles de la Classification Type Profession (CTP ou SOC en anglais1) de 1991. Nous avons dû utiliser cette variable puisque l’algorithme ne permet que 31 catégories pour les variables catégorielles et la variable CTP initiale en possède beau-coup plus. Nous avons également regroupé des catégories d’autres variables explicatives afin d’obtenir des variables simplifiées qui permettent de distinguer si un individu est né au Canada, sa catégorie de travailleur et s’il appartient à une minorité visible.

1. La CTP a été remplacée par la Classification nationale des professions pour statistiques (CNP-S ou NOC-S) en 2001.

(22)

Tous les arbres sont produits à l’aide de sous-ensembles de données provenant de la même base de données initiale. Cette base comporte 326 895 observations. Elle est segmentée en fonction de la province de résidence et du sexe de l’individu pour les arbres de survie. Pour les hommes de l’Ontario, nous avons sélectionné un échantillon aléatoire de 85 000 obser-vations à partir de ce sous-ensemble puisque sa taille est trop importante pour être traitée par CTree. En ce qui concerne les arbres du revenu, un échantillon aléatoire est sélectionné à partir de la base initiale et il est divisé selon le sexe des individus seulement.

TABLE4.1 – Nombre d’observations utilisées dans la formation des arbres

Arbre Population Nombre d’observations 2

Survie Hommes Québec 76 440

Survie Femmes Québec 47 770

Survie Hommes Ontario 85 000

Survie Femmes Ontario 85 125

Revenu Hommes et femmes du Québec et de l’Ontario 300 000

Revenu Hommes du Québec et de l’Ontario 177 960

Revenu Femmes du Québec et de l’Ontario 122 040

4.4

Variables explicatives

Nous avons proposé les mêmes 14 variables suivantes à CTree pour construire les quatre arbres de survie : nombre d’enfants, revenu total et revenu du ménage, en plus des variables catégorielles présentées dans le tableau4.2. Nous avons également construit des arbres de revenu qui permettent d’obtenir les meilleurs prédicteurs du revenu afin de comparer les résultats de CTree avec ceux proposés dans la littérature économétrique et d’illustrer la cré-dibilité de la méthode. Pour ces arbres, nous n’avons pas séparé les observations en fonction de la province de résidence. Nous avons utilisé les mêmes variables que pour les arbres de survie à l’exception des variables directement liées au revenu total, tel que le revenu du ménage, et nous avons ajouté la province de résidence.

(23)

TABLE4.2 – Identification des variables catégorielles.

Variable Valeur Définition

sexe 1 Femme

2 Homme

natif 0 Non natif du Canada

1 Natif du Canada

minorité_visible 0 N’appartient pas à une minorité visible

1 Appartient à une minorité visible

indien 0 Non inscrit en vertu Loi sur les Indiens

1 Inscrit en vertu Loi sur les Indiens

état_matrimonial

1 Divorcé(e)

2 Légalement marié(e)

3 Légalement marié(e) et séparé(e)

4 Jamais marié(e) (célibataire)

5 Veuf ou veuve

seuil_faible_revenu 1 Au dessus du seuil de faible revenu

2 Au dessous du seuil de faible revenu

plein_temps 0 Travailleur à temps partiel

1 Travailleur à plein temps

catégorie_travailleur

0 Travailleur familial non rémunéré

1 Travailleur rémunéré

2 Travailleur autonome

lieu_travail

1 Travail à domicile

2 Sans lieu de travail habituel

4 Travail à l’extérieur du Canada

5 Lieu de travail habituel

diplôme

1 Aucun diplôme

2 Certificat d’études secondaires

3 Certificat de métier

4 Certificat d’études non universitaires

5 Certificat ou diplôme universitaire inférieur au baccalauréat

6 Baccalauréat

7 Certificat ou diplôme universitaire supérieur au baccalauréat

8 Diplôme en médecine, art dentaire, médecine vét. ou optométrie

9 Maîtrise

10 Doctorat acquis

occupation

1 Gestion

2 Affaires, finance et administration

3 Sciences naturelles et appliquées et professions apparentées

4 Secteur de la santé

5 Sciences sociales, enseignement, administration publique et religion

6 Arts, culture, sports et loisirs Arts, culture, sports et loisirs

7 Ventes et services

8 Métiers, transport et machinerie

9 Professions propres au secteur primaire

(24)

4.5

Limites

Les données utilisées possèdent deux particularités dont nous devons tenir compte. Tout d’abord, certaines observations de notre échantillon sont censurées, c’est-à-dire que l’événe-ment d’intérêt ne s’est pas produit, car plusieurs individus de l’échantillon sont toujours en vie en 2006, la dernière année pour laquelle nous avons accès aux enregistrements de décès. Toutefois, cela ne biaise pas les résultats obtenus, car les fonctions de type Kaplan-Meier prennent explicitement en compte la censure (Cameron et Trivedi,2005).

Ensuite, les données sont tronquées à gauche puisque les individus doivent avoir survécu jusqu’à 45 ans ou plus pour être inclus dans notre échantillon. Cela implique que tous ceux qui sont décédés au préalable sont automatiquement exclus. Les résultats obtenus sont donc conditionnels à avoir survécu jusqu’à 45 ans et ne sont pas généralisables à l’ensemble de la population. Toutefois, en 1991, seulement 4 % des gens sont décédés avant d’atteindre l’âge de 45 ans au Québec (Université de Montréal). Par ailleurs, la distribution de l’âge ne com-porte pas de discontinuité et la troncation à gauche est moins problématique que la censure à droite non prise en compte pour nos résultats (Fu et Simonoff,2016).

(25)

Chapitre 5

Résultats

Ce chapitre porte sur les résultats de l’algorithme CTree présenté plus tôt. Il nous permet d’obtenir les prédicteurs du revenu et de l’espérance de vie pour les hommes et les femmes du Québec et de l’Ontario.

Les résultats se présentent sous forme d’arbres décisionnels et ils s’interprètent de la ma-nière suivante. La variable située au premier niveau de l’arbre est celle dont l’association est la plus forte avec la variable réponse. Les ovales représentent les nœuds de l’arbre. Ils contiennent les prédicteurs de la variable dépendante, de même que leurs p-valeurs. Les critères de séparation sont sur les branches de l’arbre. Les nœuds terminaux sont les élé-ments qui se trouvent au dernier niveau de l’arbre, soit les boîtes contenant la moyenne et le nombre d’observations pondéré. Ce nombre est arrondi à un multiple de 5, à la demande de Statistique Canada.

Les arbres doivent être interprétés avec attention puisque l’algorithme ne permet pas d’iden-tifier de relations causales. Les variables identifiées sont celles qui se trouvent être fortement corrélées avec la variable dépendante. Par ailleurs, il est important de mentionner que l’en-semble des valeurs monétaires présentées sont en dollars de 1991.

5.1

Prédicteurs du revenu

Dans cette section, nous tentons d’illustrer la complémentarité des arbres d’inférence condi-tionnelle et des techniques économétriques classiques. Dans cette optique, nous utilisons CTree pour identifier les facteurs qui influencent le revenu afin de démontrer la capacité de l’algorithme à reproduire des résultats économétriques connus lorsqu’on s’intéresse aux liens corrélationnels entre plusieurs variables. Les variables proposées à CTree sont les mêmes que celles utilisées pour obtenir les arbres de survie, à l’exception des variables explicatives liées au revenu. En ce qui concerne la base de données, il s’agit d’un échantillon aléatoire

(26)

de 300 000 observations tiré de la base de données initiale développée pour les arbres de survie sans égard à la province de résidence. Les arbres obtenus sont compatibles avec la lit-térature actuelle et ils permettent également d’ordonner les variables explicatives selon leur importance. Les résultats de l’algorithme sont présentés à la figure5.1.

FIGURE5.1 – Prédicteurs du revenu total d’un individu

Les valeurs seuil ou les catégories des variables qui font partie du nœud suivant se trouvent sur les branches de l’arbre. Les catégories des variables sont rapportées au tableau4.2. Les revenus moyens et le nombre d’observations sont présentés dans les nœuds terminaux. Le revenu total est principalement associé au sexe de l’individu. Le revenu des femmes (1) est corrélé avec l’occupation et au travail à plein temps versus à temps partiel. Celui des hommes (2) est corrélé avec l’éducation (diplômes non universitaires versus universitaires) et avec l’occupation.

À chaque partition, l’algorithme choisit la variable qui a la plus forte association avec le re-venu total. Au premier niveau, il s’agit de la variable sexe. Par conséquent, nous scindons l’échantillon en fonction de ce prédicteur. En utilisant CTree sur ces nouveaux échantillons, nous obtenons les figures 5.2 et 5.3. On remarque que l’occupation peut être interprétée comme le meilleur prédicteur du revenu pour les femmes et que pour les hommes, il s’agit plutôt de l’éducation.

(27)

FIGURE5.2 – Prédicteurs du revenu total d’un homme

Les valeurs seuil ou les catégories des variables qui font partie du nœud suivant se trouvent sur les branches de l’arbre. Les catégories des variables sont rapportées au tableau4.2. Les revenus moyens et le nombre d’observations sont présentés dans les nœuds terminaux. Le revenu des hommes est corrélé avec l’éducation (diplômes non universitaires versus universitaires) et avec l’occupation. Pour certains individus, la catégorie de travailleurs (familial ou autonome versus rémunéré), le travail à plein temps versus à temps partiel, l’éducation (diplômes en médecine, art dentaire, médecine vétérinaire et optométrie versus les autres diplômes universitaires) ou l’appartenance à une minorité visible sont associés à des revenus différents.

FIGURE5.3 – Prédicteurs du revenu total d’une femme

Les valeurs seuil ou les catégories des variables qui font partie du nœud suivant se trouvent sur les branches de l’arbre. Les catégories des variables sont rapportées au tableau4.2. Les revenus moyens et le nombre d’observations sont présentés dans les nœuds terminaux. Le revenu des femmes est corrélé avec l’occupation et au travail à plein temps versus à temps partiel. Pour certains individus, l’éducation (aucun diplôme, diplôme secondaire ou de métier versus les autres diplômes dans un cas et diplômes non universitaires versus universitaires dans l’autre), l’état matrimonial (veuve versus les autres catégories) ou le lieu de travail (travail à domicile versus les autres catégories) sont associés à des revenus différents.

(28)

5.2

Prédicteurs de l’espérance de vie

Tel qu’attendu, CTree identifie le sexe de l’individu en tant que principal prédicteur de l’es-pérance de vie lorsqu’il est appliqué sur les données québécoises et ontariennes. Ainsi, pour les résidents des deux provinces, le sexe d’un individu est fortement corrélé avec l’espérance de vie et la première segmentation des données se fait à partir de cette caractéristique. Les femmes possèdent une espérance de vie plus élevée que celle des hommes en général. C’est pourquoi nous séparons les observations selon le sexe des individus et présentons les arbres séparément afin de distinguer clairement les résultats.

Toujours par souci de clarté, les courbes de survie des nœuds terminaux sont présentées sé-parément des arbres. Ces courbes sont lissées afin de respecter les normes de confidentialité de Statistique Canada et elles sont disponibles en annexe. Les « espérances de vie »obtenues sont présentées seulement pour fin de comparaison entre les différents nœuds terminaux. Cela permet de mieux comprendre comment les prédicteurs affectent les taux de survie. Nos résultats ne représentent pas l’espérance de vie réelle de la population. D’un côté, nous la surestimons puisqu’elle est conditionnelle à avoir survécu jusqu’à 45 ans. C’est pourquoi les courbes de survie ne commencent à descendre qu’à partir de 45 ans. De l’autre côté, nous sous-estimons l’espérance de vie puisque nous assignons la limite supérieure pour le calcul de l’espérance de vie moyenne à 80 ans, soit la dernière année pour laquelle nous possédons de l’information.

5.2.1 Hommes

L’arbre d’inférence conditionnelle pour les hommes du Québec est présenté dans la figure 5.4 et celui pour les hommes de l’Ontario est à la figure 5.5. Pour les hommes des deux provinces, on observe que l’éducation est la principale variable explicative identifiée par CTree. Toutefois, la séparation est différente pour la catégorie 4 (Certificat d’études non uni-versitaires) qui inclut le diplôme collégial. Au Québec, CTree regroupe cette catégorie avec celles des diplômes secondaires et professionnels, alors qu’en Ontario il la classe avec celles des diplômes universitaires. Cette séparation concorde avec les résultats présents dans la littérature (Lleras-Muney,2005; Buckles et al., 2016), les hommes plus scolarisés tendent à avoir une meilleure espérance de vie. Les revenus totaux, l’occupation et le statut de natif sont également de bons prédicteurs de l’espérance de vie selon l’algorithme.

(29)

FIGURE5.4 – Prédicteurs de l’espérance de vie d’un homme québécois

Les valeurs seuil ou les catégories des variables qui font partie du nœud suivant se trouvent sur les branches de l’arbre. Les catégories des variables sont rapportées au tableau4.2. Les « espérances de vie »moyennes et le nombre d’observations sont présentés dans les nœuds terminaux. L’espérance de vie des hommes québécois est corrélée avec l’éducation (diplômes non universitaires versus universitaires). Pour certains individus, être natif du Canada, l’éducation (doctorat ou diplôme en médecine, art dentaire, médecine vétérinaire ou optométrie versus les autres) de même que les autres variables présentes dans l’arbre correspondent à des espérances de vie différentes.

Si l’on considère la figure5.4, le nœud terminal 24 correspond à la plus haute espérance de vie pour les hommes au Québec. Les caractéristiques présentes sur les branches de l’arbre qui mènent à ce nœud illustrent le profil associé à cette espérance. Il correspond à un ni-veau d’éducation de catégorie 5 (Certificat ou diplôme universitaire inférieur au baccalauréat), 6 (Baccalauréat), 7 (Certificat ou diplôme universitaire supérieur au baccalauréat) ou 9 (Maîtrise), à un revenu supérieur à 77 454 $ et à un emploi appartenant à la catégorie 4 (Secteur de la santé), 5 (Sciences sociales, enseignement, administration publique et religion), 8 (Métiers, transport et machinerie) ou 10 (Transformation, fabrication et services d’utilité publique). À l’opposé, le pro-fil correspondant à la plus faible espérance de vie (noeud 5) est constitué d’individus qui n’ont aucun diplôme ou qui ne possèdent qu’un certificat d’études secondaires, qui ne sont pas natifs du Canada et qui sont divorcés ou qui n’ont jamais été mariés.

(30)

FIGURE5.5 – Prédicteurs de l’espérance de vie d’un homme ontarien

Les valeurs seuil ou les catégories des variables qui font partie du nœud suivant se trouvent sur les branches de l’arbre. Les catégories des variables sont rapportées au tableau4.2. Les « espérances de vie »moyennes et le nombre d’observations sont présentés dans les nœuds terminaux. L’espérance de vie des hommes ontariens est corrélée avec l’éducation (aucun certificat, diplômes secondaires ou de métier versus les autres). Pour certains individus, être natif du Canada, les revenus totaux de même que les autres variables présentes dans l’arbre correspondent à des espérances de vie différentes.

Pour les hommes de l’Ontario, un individu correspond au profil lié à l’espérance de vie la plus élevée (noeud 30) s’il possède un doctorat, s’il a un revenu supérieur à 60 324 $ et s’il occupe un poste appartenant aux catégories 1 (Gestion), 2 (Affaires, finance et administration), 3 (Sciences naturelles et appliquées et professions apparentées), 7 (Vente et services), 9 (Professions propres au secteur primaire) ou 10 (Transformation, fabrication et services d’utilité publique). Dans le même ordre d’idée, un individu correspond au profil lié à l’espérance de vie la plus faible (noeud 20), s’il a un niveau d’éducation supérieur au certificat de métier, des revenus totaux inférieurs à 24 275 $ et qu’il n’est pas marié.

5.2.2 Femmes

On peut remarquer que les prédicteurs de l’espérance de vie ne sont pas les mêmes pour les hommes que pour les femmes. En ce qui concerne les femmes du Québec et de l’Ontario, la première séparation est effectuée en fonction du statut de natif canadien. Il semble que les femmes non natives du Canada aient une espérance de vie plus élevée que les autres. Cela peut être un résultat du processus de sélection des immigrants qui priorise les indivi-dus qui ont un haut niveau d’éducation et des ressources financières suffisantes. Ce résultat concorde avec la recherche deSingh et Hiatt(2006). Ces derniers ont observé que les immi-grants aux États-Unis avaient une espérance de vie plus élevée que les natifs américains de même qu’un taux d’obésité et de consommation de cigarettes plus faible.

(31)

On retrouve les autres facteurs explicatifs d’importance dans les figures 5.6 et 5.7. On re-marque notamment que le nombre d’enfants, l’occupation, le seuil de faible revenu et l’état matrimonial sont les variables situées dans les premiers niveaux de l’arbre et fortement cor-rélées avec l’espérance de vie.

FIGURE5.6 – Prédicteurs de l’espérance de vie d’une femme québécoise

Les valeurs seuil ou les catégories des variables qui font partie du nœud suivant se trouvent sur les branches de l’arbre. Les catégories des variables sont rapportées au tableau4.2. Les « espérances de vie »moyennes et le nombre d’observations sont présentés dans les nœuds terminaux. Pour les femmes québécoises, être native du Canada (1) ou non (0) est corrélé avec l’espérance de vie. Pour certains individus, être sous le seuil de faible revenu, avoir plus de deux enfants de même que les autres variables présentes dans l’arbre correspondent à des espérances de vie différentes.

À première vue, les prédicteurs d’une espérance de vie élevée chez les femmes paraissent surprenants, car ils sont différents de ce qu’on trouve dans la littérature. Cela est possible puisque la majorité des études se concentre sur les hommes et il semble que les prédicteurs soient différents pour les deux sexes. Par ailleurs, les résultats ne sont pas applicables à l’en-semble des femmes québécoises, mais qu’à celles qui occupaient un emploi en 1991. Selon la figure5.6, l’espérance de vie la plus élevée (noeud 14) est associée aux femmes qui ne sont pas natives du Canada, qui sont sous le seuil de faible revenu et qui possèdent un diplôme appartenant aux catégories 3 (Certificat de métiers), 4 (Certificat d’études non universitaires), 5 (Certificat ou diplôme universitaire inférieur au baccalauréat), 8 (Diplôme en médecine, art dentaire, médecine vétérinaire ou optométrie), 9 (Maîtrise) ou 10 (Doctorat acquis). Il est étonnant de consta-ter que la meilleure espérance de vie est associée avec un faible revenu. Nous avons toutefois considéré deux explications potentielles. Il est possible que ces femmes travaillent à temps partiel ou qu’elles occupent un emploi moins rémunérateur que ce pour quoi elles avaient étudié si leurs diplômes ne sont pas reconnus au pays. Les femmes qui ont une espérance de vie plus faible (noeud 22) ont un profil différent. Elles sont natives du Canada, elles ont

(32)

deux enfants ou moins, leur emploi appartient au regroupement 3 (Sciences naturelles et ap-pliquées et professions apparentées), 7 (Vente et services) ou 8 (Métiers, transport et machinerie) et leur revenu est en deçà du seuil de faible revenu.

FIGURE5.7 – Prédicteurs de l’espérance de vie d’une femme ontarienne

Les valeurs seuil ou les catégories des variables qui font partie du nœud suivant se trouvent sur les branches de l’arbre. Les catégories des variables sont rapportées au tableau4.2. Les « espérances de vie »moyennes et le nombre d’observations sont présentés dans les nœuds terminaux. Pour les femmes ontariennes, être native du Canada (1) ou non (0) est corrélé avec l’espérance de vie. Pour certains individus, l’état matrimonial et l’occupation de même que les autres variables présentes dans l’arbre correspondent à des espérances de vie différentes.

Pour les femmes de l’Ontario, le profil associé à l’espérance de vie la plus élevée (noeud 5) est aussi surprenant. Il correspond aux femmes non natives du Canada, divorcées ou séparées, qui occupent un poste appartenant aux groupes 1 (Gestion), 3 (Sciences pures et appliquées), 4 (Secteur de la santé), 9 (Professions propres au secteur primaire) ou 10 (Transformation, fabrication et services d’utilité publique) et qui possèdent un diplôme de catégorie 1 (Aucun), 2 (Certificat d’études secondaires), 3 (Certificat de métiers ), 5 (Certificat ou diplôme universitaire inférieur au bac-calauréat), 8 (Diplôme en médecine, art dentaire, médecine vétérinaire ou optométrie) ou 9 (Maîtrise). En ce qui concerne le profil correspondant à l’espérance de vie la plus faible (noeud 24), il est constitué de femmes natives du Canada, dont l’occupation appartient aux catégories 1 (Gestion), 3 (Sciences pures et appliquées), 7 (Vente et services), 8 (Métiers, transport et machine-rie) ou 10 (Transformation, fabrication et services d’utilité publique), qui possèdent un diplôme, universitaire ou non, et qui se situent sous le seuil de faible revenu.

5.2.3 Ensemble de la population

On peut remarquer que le statut de natif, l’occupation et le diplôme sont des variables ex-plicatives qui se retrouvent dans les trois premiers niveaux de l’ensemble des arbres. Cela

(33)

suggère qu’ils sont de bons prédicteurs de l’espérance de vie. On constate également la pré-sence de l’état matrimonial à plusieurs endroits. Le revenu, représenté par deux variables dans les arbres, est aussi un facteur mis de l’avant par l’algorithme. Il semble que les reve-nus totaux aient une grande importance chez les hommes alors qu’il s’agit plutôt du seuil de faible revenu chez les femmes. Certains de ces prédicteurs sont présentés plus en détail dans les sections suivantes.

Occupation

Chez les hommes, l’occupation apparaît aux niveaux 3 et 4 des arbres du Québec et de l’On-tario. Lorsque l’algorithme sélectionne et partitionne cette variable, cela signifie que certains types d’occupation correspondent à des espérances de vie plus élevées que d’autres. Les ca-tégories de cette variable ne sont pas toujours regroupées de façon identique. Toutefois, la catégorie 9 (Professions propres au secteur primaire) est souvent associée à une espérance de vie plus élevée alors que les catégories 1 (Gestion), 6 (Arts, culture, sports et loisirs), 7 (Vente et services), 8 (Métiers, transport et machinerie) et 10 (Transformation, fabrication et services d’uti-lité publique) à une espérance de vie plus faible. On remarque que la catégorie 1 (Gestion) est toujours associée à une espérance plus faible au Québec et la catégorie 5 (Sciences sociales, enseignement, administration publique et religion) à une espérance plus élevée. Pour l’Ontario, la catégorie 9 (Professions propres au secteur primaire) est toujours corrélée à la meilleure espé-rance de vie.

L’occupation est un prédicteur plus important chez les femmes que chez les hommes puis-qu’il apparaît plus haut dans l’arbre. En général, les catégories 4 (Secteur de la santé), 5 (Sciences sociales, enseignement, administration publique et religion), 6 (Arts, culture, sports et loi-sirs) et 9 (Professions propres au secteur primaire) correspondent à une espérance de vie plus élevée tandis que les catégories 3 (Sciences pures et appliquées) et 7 (Vente et services) à une espérance de vie moins élevée. Comme pour les hommes québécois, les femmes québécoises qui occupaient un emploi de la catégorie 5 (Sciences sociales, enseignement, administration pu-blique et religion) en 1991 possèdent une meilleure espérance de vie en moyenne. En ce qui a trait aux femmes ontariennes, la catégorie 7 (Vente et services) est toujours liée à une plus faible espérance de vie alors que la catégorie 9 (Professions propres au secteur primaire) à une espérance plus élevée, comme pour les hommes ontariens.

On remarque une similitude chez les hommes et les femmes en ce qui concerne les catégories 7 (Vente et services) et 9 (Professions propres au secteur primaire). Elles sont respectivement asso-ciées à une espérance de vie plus faible et à une espérance plus élevée. Toutefois, la catégorie 6 (Arts, culture, sports et loisirs) mène à différentes conclusions pour ces deux groupes. Elle est corrélée avec une espérance de vie plus faible chez les hommes et plus élevée chez les femmes.

(34)

Éducation

Nous avons souligné précédemment que le diplôme est la principale variable explicative chez les hommes. Toutefois, l’éducation n’est pas un prédicteur de l’espérance de vie aussi important pour les femmes qu’il l’est pour les hommes. Il est possible que cela soit dû au faible niveau d’éducation chez les femmes de cette époque. Les femmes étudiées sont nées entre 1926 et 1946. Par ailleurs, chez les hommes, la variable diplôme est séparée en respec-tant l’ordre croissant des catégories (c’est-à-dire de 1 à 4 d’un côté et de 5 à 10 de l’autre par exemple) alors que ceci n’est pas observé chez les femmes. Cela signifie qu’obtenir un diplôme appartenant à une catégorie supérieure ne procure pas indubitablement de gain positif sur l’espérance de vie chez les femmes.

État matrimonial

En ce qui concerne l’état matrimonial, les individus mariés ont souvent une espérance de vie plus élevée que les autres. Cela concorde avec ce qui est observé dans la littérature. En effet, Kaplan et Kronick (2006) ont obtenu comme résultat que les individus qui n’ont ja-mais été mariés ont des taux de mortalité plus élevés que ceux qui sont mariés. Dans notre recherche, lorsque la variable de l’état matrimonial est sélectionnée par l’algorithme, la ca-tégorie Marié(e) se distingue des autres à elle seule dans la moitié des cas. Ce prédicteur est particulièrement important chez les femmes en Ontario où il se trouve au deuxième niveau de l’arbre.

5.3

Tests statistiques

Afin de vérifier que l’algorithme identifie bel et bien deux populations distinctes lors d’une partition des données, nous avons comparé les distributions des caractéristiques des sous-ensembles identifiés au premier nœud. Pour ce faire, nous avons utilisé un test du chi-2 pour les variables catégorielles alors que pour les autres variables nous avons opté pour un test t. Les résultats sont présentés dans les tableaux5.2et5.1.

Pour les femmes, CTree sépare les natifs des immigrants en premier lieu. Nous avons donc utilisé cette variable ainsi que les autres variables d’importance ciblées par l’algorithme et comparé ces résultats entre le Québec et l’Ontario. Nous avons effectué les mêmes opéra-tions chez les hommes en partitionnant les données selon le niveau d’éducation cette fois, car c’est cette variable qui a été définie comme principal prédicteur. Nous avons regroupé les catégories de la variable diplôme pour n’en obtenir que deux, qui distinguent les indivi-dus qui ont une éducation universitaire des autres. Cela correspond à la séparation originale pour le Québec et à celle de l’Ontario à une catégorie près.

(35)

cas à un degré de significativité très faible, à l’exception de la variable plein temps chez les hommes. Cela signifie que les deux sous-ensembles créés suite à la première séparation des données sont réellement différents l’un de l’autre.

TABLE5.1 – Tests statistiques entre la variable natif et les autres variables explicatives

in-fluentes ches les femmes

Québec Ontario

Statistique P-valeur Degrés de liberté Statistique P-valeur Degrés de liberté

Test du Chi-2

Diplôme 4798,36 0,00 9,00 3720,30 0,00 9,00 Occupation 14 174,36 0,00 9,00 16 333,27 0,00 9,00 État matrimonial 637,54 1,16 × 10−136 4,00 921,49 3,68 × 10−198 4,00 Seuil de faible revenu 1129,60 1,22 × 10−247 1,00 387,56 2,82 × 10−86 1,00 Plein temps 1451,12 1,63 × 10−317 1,00 2422,11 0,00 1,00 Minorité visible 59 364,22 0,00 1,00 65 344,75 0,00 1,00 Test de Student

Nombre d’enfants −9,21 3,41 × 10−20 45 538,53 −36,70 3,13 × 10−294 348 429,94 Revenus totaux 9,77 1,67 × 10−22 39 251,82 −15,43 1,12 × 10−53 372 773,62

TABLE5.2 – Tests statistiques entre la variable éducation universitaire et les autres variables explicatives influentes ches les hommes

Québec Ontario

Statistique P-valeur Degrés de liberté Statistique P-valeur Degrés de liberté

Test du Chi-2

Natif 2517,30 0,00 1,00 49,15 2,37 × 10−12 1,00

Occupation 134 866,34 0,00 9,00 190 960,45 0,00 9,00 État matrimonial 210,83 1,76 × 10−44 4,00 374,95 7,19 × 10−80 4,00

Seuil de faible revenu 1797,32 0,00 1,00 962,31 2,80 × 10−211 1,00

Plein temps 126,53 2,36 × 10−29 1,00 0,44 5,05 × 10−1 1,00

Minorité visible 5859,87 0,00 1,00 8498,40 0,00 1,00 Test de Student

Nombre d’enfants 68,80 0,00 113 948,56 68,75 0,00 194 063,87 Revenus totaux −136,51 0,00 73 232,01 −148,32 0,00 133 643,62

(36)

Chapitre 6

Conclusion

La majorité des études économiques qui tentent d’expliquer l’augmentation de l’espérance de vie se concentrent sur les effets de l’éducation. Elles utilisent généralement des techniques économétriques traditionnelles sur des données américaines. Dans ce mémoire, nous avons tenté d’élargir le champ d’investigation et d’évaluer si le choix de profession a un effet sur l’espérance de vie au Canada avec une approche novatrice de techniques d’apprentissage automatique. Nous avons proposé plusieurs prédicteurs potentiels à l’algorithme CTree afin d’obtenir des arbres d’inférence conditionnelle et des courbes de survie de type Kaplan-Meier en fonction des déterminants sociodémographiques qui ont le plus grand pouvoir explicatif.

Nous avons utilisé les données de la cohorte santé et environnement du recensement ca-nadien de Statistique Canada. Il s’agit du recensement de 1991 qui a été joint à la base cana-dienne de données de l’état civil — décès de 1991 à 2006. Ces données permettent d’identifier les individus décédés et leurs caractéristiques socioéconomiques. Nous avons conservé les résidents du Québec et de l’Ontario qui occupaient un emploi en 1991 et qui étaient âgés de 45 à 65 ans. Grâce à ces informations, nous avons pu déterminer qu’il existe une corrélation entre le choix vocationnel et l’espérance de vie d’un individu, mais ce facteur n’est pas le principal prédicteur. En effet, il se retrouve généralement au troisième ou quatrième niveau de l’arbre. Il n’affecte donc que certains sous-ensembles d’individus. Toutefois, nos résultats révèlent que l’occupation se situe au deuxième niveau de l’arbre des femmes de l’Ontario, la relation entre cette variable et l’espérance de vie étant donc la plus importante chez ce groupe.

Pour les données québécoises et ontariennes, le premier prédicteur identifié est le sexe de l’individu. Cela concorde avec ce qui est présenté dans la littérature sur la longévité. Puis, l’éducation et le statut de natif sont, respectivement, les variables plus influentes chez les hommes et chez les femmes. Ces deux variables, de même que l’occupation, l’état

(37)

matrimo-nial et le revenu, sont présentes à plusieurs endroits dans les arbres. Cela suggère qu’ils sont de bons prédicteurs de l’espérance de vie. La principale limite de notre modèle est que nos résultats ne sont pas généralisables à l’ensemble de la population en raison des données sé-lectionnées. En effet, ils sont conditionnels à avoir survécu jusqu’à 45 et à être en emploi en 1991.

Dans des travaux futurs, il serait intéressant de déterminer la causalité entre les variables identifiées et l’espérance de vie. L’évolution des déterminants de la mortalité identifiés pour-rait aussi être étudiée afin d’anticiper les variations futures de l’espérance de vie des diffé-rents groupes de la population pour mettre en place des politiques publiques adaptées.

(38)

Annexe A

Courbes de survie Kaplan-Meier

lissées

A.1

Hommes du Québec

FIGUREA.1 – Hommes - Québec - Noeud 5

50 55 60 65 70 75 80 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

(39)

FIGUREA.2 – Hommes - Québec - Noeud 6 50 55 60 65 70 75 80 0.5 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

FIGUREA.3 – Hommes - Québec - Noeud 8

45 50 55 60 65 70 75 80 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

(40)

FIGUREA.4 – Hommes - Québec - Noeud 9 50 55 60 65 70 75 80 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

FIGUREA.5 – Hommes - Québec - Noeud 12

45 50 55 60 65 70 75 80 0.5 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

(41)

FIGUREA.6 – Hommes - Québec - Noeud 13 45 50 55 60 65 70 75 80 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

FIGUREA.7 – Hommes - Québec - Noeud 15

45 50 55 60 65 70 75 80 0.5 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

(42)

FIGUREA.8 – Hommes - Québec - Noeud 16 45 50 55 60 65 70 75 80 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

FIGUREA.9 – Hommes - Québec - Noeud 20

45 50 55 60 65 70 75 80 0.6 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

(43)

FIGUREA.10 – Hommes - Québec - Noeud 21 50 55 60 65 70 75 80 0.7 0.8 0.9 1.0 Temps (années) Probabilité de sur vie

FIGUREA.11 – Hommes - Québec - Noeud 23

50 55 60 65 70 75 80 0.75 0.80 0.85 0.90 0.95 1.00 Temps (années) Probabilité de sur vie

Références

Documents relatifs

envisagées. Une première approche serait d'intégrer les données des durées de vie larvaire acquises dans cette thèse à des modèles courantologiques pour simuler

Les parcours de soins des enfants peuvent aussi dépendre de l’âge de l’enfant, la renommée de certains professionnels de santé, la reconnaissance de leurs

Nous présentons d’abord les résultats des participants du profil 1, dont le score initial est de 0. Les participants ayant obtenu un score initial faible, donc qui correspondent

Certains correspondent à des effectifs (nombre d’établissements de santé autorisés en psy- chiatrie…), des proportions (part de la population résidant dans une commune appartenant

La Figure 3 représente les différents objectifs et analyses de ces domaines en adaptant l arbre de décision proposé par Miner et al (9). Figure 3 : Arbre de décision représentant

Pour les entreprises étudiées, cette décision peut être liée, non seulement à la recherche des coûts les plus bas (Poppo et Zenger, 1998; Tondeur et Villarmois, 2003 ;

1 La cartographie des controverses en est un exemple (voir FORCCAST http://forccast.hypotheses.org/).. une série de questions théoriques et de définir de nouvelles méthodes

1 Logique et complétude de la construction scientifique : Toutes les idées clés attendues (toutes les grandes parties du sujet) sont présentes et organisées de façon logique?. 2