• Aucun résultat trouvé

Effets cumulés et santé : analyse des données

6.2.3 Variables indépendantes

Cette section décrit l’ensemble des variables qui seront utilisées comme va-riables indépendantes, ou explicatives, dans les modèles de régression à venir. Les variables ont été groupées en deux groupes : premièrement les variables dites socio-démographiques, deuxièmement les variables de position sociale, et troisièmement les variables dites de « parcours de vie ».

Variables socio-démographiques

Âge Avec des données de panel, on peut imaginer deux manières de prendre en compte le temps. La première manière serait de s’intéresser à la croissance d’une variable au fil des vagues du panel ; on s’intéresse alors à un effet de période, puisque le temps est ici le même pour tous. La deuxième manière de prendre en compte le temps, et c’est celle que nous choisirons ici, est de s’intéresser à l’évolution d’une variable en fonction de l’âge des individus ; étant donné que nous sommes en présence de données de panel, les individus sont interrogés à des âges différents et la croissance observée de la variable dépendante commence pour chaque individu à un âge différent.

Une des spécificités de ces données individuelles de panel, par opposition aux enquêtes expérimentales ou aux enquêtes de cohortes, est la grande diversité dans l’âge des répondants. Les individus présents dans la première vague des données sont âgés de 14 à 92 ans, avec un âge médian de 44 ans et une distribution légè-rement étalée à droite. Neuf années plus tard, en 2009, notre échantillon comporte des individus allant de 19 ans jusqu’à 95 ans, et un âge médian qui s’est décalé à 53 ans.

Pour faciliter l’interprétation des paramètres, nous avons fixé le temps 0, c’est-à-dire l’âge de référence, à 25 ans. De cette manière, les seuils du modèle représentent la santé à l’âge de 25 ans plutôt qu’à la naissance. De plus, pour faciliter le travail de l’algorithme de maximisation de la vraisemblance, l’âge a été divisé par 10.

Sur l’ensemble des observations, l’âge médian est de 47 ans et l’âge moyen de 48.5 ans, ce qui indique une distribution légèrement étalée à droite (cf. Figure 6.2).

Le creux observé autour de 18 ans est dû à la suppression des observations avec des données manquantes sur les variables traitant de la situation financière dans la jeunesse et la cohabitation avec les deux parents à l’âge de 15 ans et qui a éliminé, comme nous l’avons constaté à l’aide du tableau 6.2, principalement des individus jeunes.

Sexe L’échantillon est composé de 54.35% de femmes, soit un effectif de 3934 individus. En ce qui concerne la distribution de l’âge, les deux sexes semblent avoir plus ou moins la même distribution en 2000, avec une médiane à 43 ans pour les hommes et à 44 ans pour les femmes. En ce qui concerne le lien entre santé auto-évaluée et sexe, on peut déjà distinguer une dépendance entre ces deux variables à l’aide d’un tableau croisé. Le tableau 6.7 croise le sexe avec le niveau de santé auto-évaluée pour la vague 2000 recodé en quatre catégories. On remarque bien une sous-représentation des femmes dans les catégories de bonne et très bonne santé (3 et 4) et une sur-représentation dans les catégories de moyenne, mauvaise et très

Age

% du total

0.0 0.5 1.0 1.5 2.0 2.5

20 40 60 80

Figure6.2 – Distribution de l’âge (toutes les observations)

mauvaise santé (1 et 2). Cette association est confirmée par un test d’indépendance de Pearson (χ2de 42.2406 pour 3 degrés de liberté, p-valeur<0.01).

santé hommes femmes total

mauvaise 1 31 (1.01%) 58 (1.64%) 89

2 292 (10.37%) 550 (15.52%) 842 3 1629 (57.83%) 1965 (55.45%) 3594 très bonne 4 865 (30.71%) 971 (27.4%) 1836 total 2817 (100%) 3544 (100%) 6361 TABLEAU 6.7 – Tableau croisé entre santé auto-évaluée en 2000 et sexe

Etat civil L’état civil est considéré dans cette étude comme une variable variant dans le temps. Pour faciliter l’interprétation et l’estimation des modèles à venir, l’état civil a été recodé en deux catégories : d’un côté les personnes mariées et de l’autre les célibataires, les veufs, les divorcés et les séparés.

On constate une légère augmentation de la proportion de personnes mariées au travers des vagues (voir Tab. 6.8), mais il est difficile de déterminer s’il s’agit d’une tendance à se marier, qui compenserait par la même occasion les décès de conjoint et les divorces, ou d’un biais d’attrition qui ferait que les personnes non-mariées ont davantage tendance à ne plus répondre.

vague non-mariés mariés total

00 36.44 63.56 6364

01 35.78 64.22 5733

02 36.21 63.79 4955

03 36.87 63.13 4524

04 36.67 63.33 3752

05 36.29 63.71 3254

06 35.42 64.58 3351

07 35.82 64.18 3643

08 35.12 64.88 3454

09 34.98 65.02 3608

TABLEAU 6.8 – Proportion de personnes mariées à chaque vague

Nationalité Comme nous l’avons vu dans les sections concernant les données manquantes et l’attrition (sous-sections 6.2.1 et 6.2.1), la nationalité joue un rôle dans le risque de ne pas répondre. Il est par conséquent important d’inclure cette variable dans les modèles traitant de la santé. La variable que nous incluons est simplement dichotomique, avec une valeur de 0 pour les individus ayant déclaré comme première nationalité la nationalité suisse, et une valeur de 1 pour tous les autres. La proportion de personnes déclarant une première nationalité étrangère est de 11.3%.

Variables de position sociale

Afin d’évaluer la position d’un individu dans la hiérarchie sociale et d’opéra-tionnaliser ainsi une des dimensions du concept de statut socio-économique, trois indicateurs sont habituellement utilisés : le niveau d’éducation, la catégorie socio-professionnelle et le revenu. Bien que ces trois variables soient dépendantes l’une de l’autre, leur inclusion simultanée dans des modèles de régression permet tout de même d’identifier des effets propres à chacune d’entre elle. Les données à disposition dans le Panel suisse de ménages sont relativement détaillées sur ces trois caractéris-tiques des individus. Pour le niveau d’éducation et la catégorie socio-professionnelle, un regroupement des catégories des variables d’origine est indispensable si l’on veut les inclure dans un modèle en raison de leur nombre particulièrement élevé.

Niveau d’éducation Le tableau 6.9 décrit le recodage en trois catégories du niveau d’éducation le plus haut qui a été terminé.

Cette règle de recodage réduit beaucoup l’information contenue dans la variable originale, mais un compromis entre complexité et interprétabilité est inévitable.

La nouvelle variable recodée comporte trois catégories qui correspondent à trois niveaux largement définis : le premier niveau représente les formations les plus ba-siques, le deuxième niveau les formations intermédiaires à vocation professionnelle tandis que le dernier niveau contient à la fois les formations de type universitaire ainsi que les formations supérieures à vocation professionnelle, telles que les HES

Catégories Catégorie

d’origine recodée

Ecole obligatoire inachevée 1

Ecole obligatoire 1

Formation professionnelle élémentaire 1 Stage ménager,1 année d’école commerciale courte 1

Ecole de formation générale 1

Apprentissage (CFC) 2

Ecole prof. plein temps 2

Maturité prof. 2

Ecole normale 2

Baccalauréat/maturité (gymnase) 3

Formation prof. sup. avec maîtrise/brevet fédéral 3

Ecole technique ou supérieure ETS 3

Haute école pédagogique 3

Haute école spécialisée 3

Université, EPF 3

Doctorat 3

TABLEAU 6.9 – Recodage de la variable de niveau d’éducation

ou les ETS. Il convient de noter que la plupart des catégories de la variable de base contient des effectifs très réduits, rendant leur recodage d’autant plus indispensable.

L’inclusion de la variable d’éducation dans le modèle final comme une variable variant avec le temps, et capable de refléter l’évolution du niveau d’éducation de l’individu, aurait été envisageable. Nous avons cependant préféré une solution plus simple dans laquelle uniquement le niveau d’éducation atteint au début du ques-tionnaire, c’est-à-dire durant la vague 2000, est utilisé. Cette décision a été prise pour deux raisons. La première raison est que l’ajout de variables variant dans le temps dans ce type de modèles ajoute beaucoup de complexité lors de l’estimation, d’où notre préférence pour une solution plus simple. La deuxième raison est que, dans notre échantillon, très peu d’individus passent d’une catégorie d’éducation à l’autre au cours des vagues. Etant donné que certains individus n’ont pas répondu à la vague 2000, mais seulement à des vagues ultérieures, nous avons récupéré le premier niveau d’éducation déclaré dans les vagues subséquentes comme une ap-proximation du niveau en 2000. Le risque avec cette méthode serait d’avoir une confusion entre l’effet d’âge et l’effet du niveau d’éducation étant donné qu’une personne encore jeune en l’an 2000 aura plus de chances de se retrouver dans la première ou la deuxième catégorie d’éducation que dans la troisième. Ceci ne semble pas influencer les résultats, comme nous le verrons dans leur présentation.

La répartition des individus dans les trois catégories d’éducation est présentée à l’aide d’un tableau dans lequel nous avons divisé la population par sexe (voir Tab. 6.10). Comme on s’y attend pour la Suisse, et d’autant plus qu’il s’agit d’un échantillon dans lequel les générations de femmes ayant eu un accès plus large aux études, c’est-à-dire les cohortes les plus récentes, sont peu représentées, les

niveau d’éducation hommes femmes total bas 1725 (40.5%) 2524 (59.5%) 4249 (100%) moyen 854 (46.2%) 995 (53.8%) 1849 (100%) haut 725 (63.6%) 415 (36.4%) 1140 (100%)

total 3304 3934 6647

TABLEAU 6.10 – Tableau croisé entre niveau d’éducation en trois catégories et sexe

hommes sont largement sur-représentés dans la catégorie des études supérieures, et sous-représentés dans celles des études de base. Le χ2 du test des rangs de Kruskal-Wallis vaut 156.344 pour 1 degré de liberté, ce qui indique une association largement significative entre le sexe et le niveau d’éducation.

Catégorie socio-professionnelle La catégorie socio-professionnelle est une va-riable qui peut prendre un grand nombre de catégories suivant la finesse de la description que l’on souhaite. En suivant le même raisonnement que pour le niveau d’éducation, nous avons décidé de réduire à 4 grandes catégories toute la variété des catégories socio-professionnelles disponibles dans le Panel suisse de ménages.

Nous nous sommes basés sur la variable « European socio-economic classification » qui est déjà elle-même une recatégorisation standardisée à l’échelle européenne et basée sur la norme de classification internationale ISCO ; notre recodage est détaillé dans le tableau 6.11.

La variable de classification socio-économique européenne a déjà un nombre considérablement réduit de catégories par rapport à la classification ISCO et la décision de regrouper certaines catégories peut prêter à discussion. Dans ce cas précis, nous nous sommes basés particulièrement sur un critère d’autonomie dans le travail et sur un critère d’encadrement pour regrouper les catégories. Comme pour le niveau d’éducation, l’année de référence choisie est l’an 2000, c’est-à-dire la première vague. La plupart des données manquantes se trouvent dans la catégorie de réponse « inapplicable », signifiant que le répondant ne se trouvait pas sur le marché du travail ou qu’il était au chômage au moment du questionnaire. Le fait de ne pas être sur le marché du travail peut être la conséquence de plusieurs situations différentes : l’individu est trop jeune pour travailler, ou il est à la retraite, ou encore au bénéfice d’une pension versée par une assurance invalidité etc. Cette catégorie sera par conséquent délicate à interpréter, mais sa création évite de supprimer un trop grand nombre d’individus en raison d’une donnée manquante.

Le revenu net annuel Le revenu net est la seule variable de position sociale qui est considérée comme variant dans le temps : elle est mesurée à chaque vague, et pas uniquement à la première vague comme pour la catégorie socio-professionnelle ou le niveau d’éducation. Les questions sur le revenu dans les enquêtes par sondage sont souvent problématiques car elles contiennent beaucoup de données manquantes.

En l’état, peu importe le type d’estimation qui est utilisée, une donnée manquante pour un individu dans une variable exogène, c’est-à-dire une variable qui explique

Catégories Catégorie

d’origine recodée

Encadrants de niveau inférieur et professions

techniques de niveau inférieur 1

Professions de niveau inférieur dans le commerce

et les services 1

Professions techniques de niveau inférieur 1

Professions routinières 1

Agriculteurs sans salariés et chefs de petites

exploitations agricoles 2

Indépendants sans salariés et chefs de petites

entreprises 2

Professions intermédiaires 2

Cadres dirigeants et membres des professions libérales

de niveau inférieur, encadrants et techniciens de niveau supérieurs 3 Chefs de grandes entreprises, cadres dirigeants

et membres des professions libérales de niveau supérieur 3

Inapplicable 4

TABLEAU 6.11 – Recodage de la variable de classification socio-économique euro-péenne

une ou plusieurs variables mais qui n’est elle-même pas expliquée par au moins une variable, rend l’individu inutilisable dans la procédure d’estimation. La ligne dans le fichier de données qui lui correspond est alors supprimée, ce qui corres-pond à la procédure « listwise deletion » mentionnée plus haut. Dans notre cas, étant donné qu’il s’agit de données longitudinales et que nous utilisons un modèle linéaire généralisé multi-niveaux, chaque ligne correspond à une observation d’un individu ; un individu observé durant les dix vagues aura par conséquent dix lignes lui correspondant, une par vague. Avant d’utiliser une variable telle que le revenu, de plus en la considérant comme une variable pouvant varier dans le temps, il est indispensable d’envisager quelles seront les conséquences. En l’occurrence, dans notre jeu de données, l’utilisation de la variable de revenu telle qu’elle est fournie dans les données du Panel suisse de ménages conduirait à la suppression de 5709 observations pour cause de données manquantes. Pour éviter de perdre un si grand nombre d’observations, nous avons procédé, préalablement à l’estimation des mo-dèles incluant cette variable, à une imputation multiple des données manquantes en utilisant la méthode des chained equations (van Buuren et Groothuis-Oudshoorn, 2010). Comme nous l’avons mentionné plus haut, cette méthode génère plusieurs jeux de données avec plusieurs valeurs possibles pour la variable imputée prédite à partir d’un modèle explicatif. On conseille en général de générer entre cinq et dix fichiers de données avec les variables imputées, d’ajuster le modèle sur chacun de ces jeux de données, puis de calculer la moyenne des coefficients (Enders, 2010) ; ceci multiplie évidemment par cinq ou dix le temps nécessaire à l’analyse.

Il existe une raison supplémentaire pour le choix de l’imputation multiple, en

plus du problème de la suppression de 6051 observations. Pour l’instant, dans ce chapitre, nous nous intéressons à un modèle de type multi-niveaux, pour lequel les données sont organisées selon un format personne-période : chaque ligne du fichier correspond à une observation dans le temps pour un individu. En cas de données manquantes sur une variable qui varie dans le temps, c’est uniquement la ligne correspondante qui est supprimée. Dans le chapitre 8, nous présenterons un autre type de modélisation de la croissance dans le cadre des modèles d’équations structurelles. Ces modèles, que l’on nomme modèles de croissance latente, néces-sitent que les données soient présentées dans un format dit « large » (wide). Ceci implique qu’une seule donnée manquante parmi les variables qui représentent l’évo-lution d’une mesure dans le temps provoque l’élimination complète de la ligne, et par conséquent de l’individu. C’est pour cette raison qu’il est important d’y penser dès maintenant.

En utilisant la méthode des chained equations, il est possible de spécifier les variables qui seront utilisées pour prédire des valeurs plausibles pour une autre variable. Pour le revenu, nous avons utilisé comme variables prédictrices l’âge à la vague 2000, le sexe (variable femme), la catégorie socio-professionnelle et le niveau d’éducation à la vague 2000 ainsi que les valeurs précédentes du revenu. La spécifi-cation du modèle pour l’imputation se fait de manière intuitive lorsque les données se trouvent en format « large », c’est-à-dire que chaque ligne correspond à un in-dividu, et que les mesures répétées se trouvent dans des colonnes distinctes. Etant donné le fonctionnement séquentiel de la méthode d’imputation choisie, on peut garantir la chronologie des mesures en indiquant à l’algorithme l’ordre dans lequel il doit imputer les variables. Ceci se fait à l’aide d’une matrice des prédicteurs (voir tableau 6.12) : chaque ligne correspond à une variable imputée, et chaque colonne à une variable utilisée pour imputer la variable en ligne. La cellule à l’intersection des deux variables prend 1 lorsque la colonne prédit la ligne, et 0 sinon. Dans cet exemple, on voit que les variables utilisées uniquement comme prédicteurs, car elles ne comportent pas de données manquantes, ont toutes des lignes de zéro. La ligne

« inc00 », qui correspond au revenu pour la vague 2000, comporte quant à elle des 1 allant de age00 à edu3, signifiant que toutes ces variables seront utilisées pour prédire une valeur pour inc00. Pour éviter de prédire le revenu passé en fonction du revenu futur, nous avons mis une valeur de 0 pour toutes les variables de revenu postérieures à celle en train d’être imputée. La variable suivante, inc01, est quant à elle prédite par les prédicteurs allant de age00 à edu3 et par la variable qui vient d’être imputée, inc00. Ce processus continue jusqu’à la variable de revenu pour la vague 2009.

Le nombre d’observations pour lesquelles les individus n’ont pas répondu à la question sur le revenu est de 6051. Etant donné que certaines personnes n’ont pas répondu à l’enquête en 2000, leur âge à la première vague a été inféré à partir de l’âge donné lors de leur première réponse (un individu qui a 20 ans en 2005 avait donc 15 ans en 2000). Le principe de l’imputation multiple étant de créer plusieurs jeux de données avec des valeurs plausibles pour les données manquantes, il est délicat de proposer un résumé statistique unique de la variable de revenu. Le nombre de jeux de données recommandé se situe entre 5 et 10 (Little et Rubin, 1989) ; nous avons retenu la solution en 10 jeux de données. Nous proposons donc dans le tableau 6.13 la moyenne, la médiane et l’écart-type du revenu en milliers

age00 femme csp2 csp3 csp4 edu2 edu3 inc00 inc01 inc02 ...

age00 0 0 0 0 0 0 0 0 0 0 0

femme 0 0 0 0 0 0 0 0 0 0 0

csp2 0 0 0 0 0 0 0 0 0 0 0

csp3 0 0 0 0 0 0 0 0 0 0 0

csp4 0 0 0 0 0 0 0 0 0 0 0

edu2 0 0 0 0 0 0 0 0 0 0 0

edu3 0 0 0 0 0 0 0 0 0 0 0

inc00 1 1 1 1 1 1 1 0 0 0 0

inc01 1 1 1 1 1 1 1 1 0 0 0

inc02 1 1 1 1 1 1 1 1 1 0 0

... 1 1 1 1 1 1 1 1 1 1 0

TABLEAU 6.12 – Matrice des prédicteurs pour le modèle d’imputation

de francs pour chacun des dix jeux de données.

#i moyenne écart-type médiane

1 56.02 54.85 49.20

2 56.18 55.03 49.20

3 56.18 54.73 49.32

4 56.24 55.25 49.36

5 56.21 59.60 49.00

6 56.07 55.57 49.04

7 56.33 60.62 49.20

8 56.17 54.94 49.20

9 56.22 56.29 49.00

10 55.99 55.53 48.87

TABLEAU 6.13 – Résumés de la distribution du revenu net (milliers de francs) pour les 10 jeux d’imputation

Comme on peut le constater, la distribution du revenu entre les différents jeux de données d’imputation diffère très peu. Un test des rangs de Kruskal-Wallis ne décèle aucune différence significative entre les dix jeux. La distribution en elle-même est extrêmement étalée sur la droite, avec une très grande concentration dans les revenus annuels nets inférieurs à 50’000 francs, et quelques valeurs extrêmes dans les revenus supérieurs au million de francs suisses par an (voir Tab. 6.14). L’écart-type très élevé indique également une grande dispersion des revenus.

Variables « parcours de vie »

Comme nous l’avons déjà mentionné dans la partie introductive de ce chapitre, deux variables décrivant la situation de l’individu dans sa jeunesse ont été prises en compte afin de mesurer leur impact sur les trajectoires de santé. Nous nous sommes intéressés plus particulièrement à la situation de cohabitation à l’âge de 15 ans et aux problèmes d’argent dans la famille.

revenu N

<50 23218 50-80 12540 80-120 6953 120-240 2795 240-1000 361

>1000 8

TABLEAU 6.14 – Répartition du revenu annuel net en milliers de francs, toutes les observations

Problèmes d’argent dans la jeunesse Cette variable indique si la famille de l’individu a eu des problèmes financiers durant sa jeunesse. Nous nous conten-tons ici d’une information sur l’occurrence de problèmes financiers, mais pas sur leur fréquence ni sur leur gravité. Cette variable a été choisie comme un indi-cateur, relativement approximatif, de l’origine sociale de l’individu. L’utilisation de la catégorie socio-professionnelle des parents aurait évidemment été préférable, mais elle comportant un trop grand nombre de données manquantes. Dans notre échantillon, 22.2% des individus déclarent avoir vécu des problèmes d’ordre finan-cier durant leur jeunesse. Cette variable est significativement associée à la catégorie socio-professionnelle lors de la première vague (test d’indépendance duχ2, p-valeur

< 0.001). Pourtant, comme nous le verrons plus tard, elle a une influence signi-ficative sur la santé auto-évaluée, même lorsque l’on contrôle pour la catégorie

< 0.001). Pourtant, comme nous le verrons plus tard, elle a une influence signi-ficative sur la santé auto-évaluée, même lorsque l’on contrôle pour la catégorie