Régressions logistiques et modèles de durée pour isoler les facteurs déterminants de la remise en couple

DISPONIBILITÉ POUR UNE REMISE EN COUPLE EN

CHAPITRE 3 T RANSFORMATIONS DÉMOGRAPHIQUES LIÉES A LA MONTEE DES RUPTURES

2. Choix et hypothèses méthodologiques

2.2. Régressions logistiques et modèles de durée pour isoler les facteurs déterminants de la remise en couple

Au cours de nos analyses, nous serons amenés à utiliser plusieurs types de modélisation des événements rétrospectifs, dont nous comparerons l’efficacité et donnerons les limites. Les régressions logistiques seront les plus utiles pour estimer les rapports de risque (odds ratio) de connaître un événement et éventuellement les « proportions estimées » de personnes qui le vivent dans une population de référence. Les estimateurs des modèles de durée sont quant à eux les « risques relatifs » de vivre un événement d’ici la fin de la vie selon les caractéristiques de l’individu, en se basant plutôt sur l’occurrence d’un événement. Nous décrivons ici les deux modèles construits pour les analyses de la première partie ainsi que les « variables explicatives » que nous choisissons d’y introduire.

2.2.1. Les log-odds ratios de remise en couple

Dans les deux premières parties, nous utilisons des régressions logistiques qui modélisent les « rapports de risque » de remise en couple dans les x années après la rupture, où la durée x est choisie selon la problématique du chapitre. Nous nous référons au document de travail de Laurent Toulemon (1995a) sur l’utilisation et la syntaxe des modèles de régression logistique.

La régression logistique modélise le logarithme de l’odds ratio comme une combinaison linéaire des prédicteurs associés aux différentes variables introduites dans le modèle.

∑

= + =       − = n i i iX a b p p p 1 1 ln ) ( Logit 1

tout le monde n’est pas concerné par l’anticipation d’une remise en couple, puisqu’on peut également subir la rupture. Nous donnerons des indications sur le processus d’anticipation dans les études.

où p est une proportion, les X_ireprésentent les n variables introduites dans le modèle,

b est un terme constant, et ai est l’augmentation du logit imputable à une augmentation de

X_i d’une unité. Si les variables ont plusieurs catégories, on les décompose en variables binaires, et les indicatrices non introduites dans le modèle sont celles qui constituent la catégorie de référence, dont b constitue l’estimation. Les estimations des coefficients sont faites par la méthode du maximum de vraisemblance, c'est-à-dire en maximisant les probabilités que les coefficients estimés correspondent à la valeur observée.

Ce type de modélisation nécessite qu’il y ait le minimum de corrélation entre les variables, sinon d’une part les estimateurs des variables corrélées sont baisés, d’autre part les estimateurs des autres variables peuvent être eux-aussi biaisés par rapport aux catégories de référence.

Dans chaque chapitre, les études descriptives préalables sont notamment destinées à évaluer les erreurs d’approximation que l’on peut faire en se plaçant à une durée donnée plutôt qu’une autre. Nous verrons que dans la majorité des cas, les chances de connaître un événement sont proportionnelles cinq ou dix ans après la séparation dans la plupart des catégories des variables retenues. Par conséquent, la modélisation donnera des résultats équivalents que l’on se place 5 ou 10 ans après la rupture. Les paramètres de la régression varient d’ailleurs assez peu selon la durée choisie. Se limiter à cinq ans a quelques avantages, qui apparaissent sur le diagramme de Lexis (annexe 3.1). D’une part, en conservant la même période d’étude, on retient une population plus importante (séparée depuis plus de cinq ans) qu’avec une durée de dix ans. D’autre part, si on n’a pas de problème d’effectif, on peut ainsi étudier les événements sur des périodes plus récentes (en décalant de cinq ans la période retenue) : les erreurs de mémoire sont alors moins fréquentes, ainsi que les biais liés à la mortalité, qui deviennent de plus en plus importants en étudiant les populations les plus âgées à l’enquête. Cependant, limiter la période d’observation a également des inconvénients : les remises en couple sont moins nombreuses sur une durée plus courte, et d’autres types d’erreurs apparaissent, notamment la surreprésentation des relations de durée courte.

Nous retenons au total des populations de personnes dont la première union maritale ou consensuelle a été rompue par séparation plus de x années avant l’enquête, et nous ne tenons pas compte des unions rompues par décès du conjoint. C’est la date de séparation et non celle de divorce qui sert de repère pour la remise en couple.

2.2.2. Les « risques relatifs » de revivre une union

Nous utilisons un modèle de durée linéaire par morceau, qui modélise le risque de remise en couple par durée depuis la séparation de la première union. L’annexe 3.2 détaille les raisons de ce choix.

Pour chaque individu i, le risque instantané de remise en couple, h_i(t)s’écrit sous la forme : ) ( ln ) ( ln ₀ _ik k ik ij t h t X h = +

∑β

où y(t)=lnh₀(t), le logarithme du quotient instantané, varie avec la durée selon une fonction linéaire par morceau (i.e. linéaire entre des « nœuds »), et X_iest le groupe de variables retenues pour le modèle. La fonction y(t) est continue, et la durée entre la séparation et la remise en couple (= événement) ou la séparation et la date de l’enquête (= censure) est exprimée avec un détail mensuel. Les nœuds du risque de base sont fixés par tâtonnement afin de maximiser la vraisemblance du modèle vide (sans variables explicatives).

Nous préférons cette spécification à un modèle de Cox, pour plusieurs raisons. En premier lieu, l’hypothèse de proportionnalité nécessaire au modèle de Cox n’est pas strictement vérifiée pour toutes les variables explicatives (pas pour la catégorie socioprofessionnelle). De plus, l’hypothèse des risques proportionnels est réductrice pour les événements démographiques, puisque les différences de calendrier sont constitutives de certaines variables (par exemple le mariage et une naissance). Dans les modèles de durée linéaires par morceau, cette hypothèse n’est pas nécessaire à chaque durée, mais entre les nœuds. De plus, la possibilité de calculer des risques conditionnels lorsque l’hypothèse de proportionnalité n’est pas vérifiée (par exemple spline représentant le risque de remise en couple en cas de naissance, par durée depuis la naissance), peut apporter une meilleure précision à l’ensemble du modèle (amélioration de la vraisemblance).

Grâce au modèle linéaire par morceau nous représentons également des courbes précises de variation du « risque de base » de remise en couple selon la durée depuis la rupture. En effet, contrairement au modèle de Cox dans lequel le risque de base est figuré de manière semi-paramétrique, l’estimation est ici contrôlée en certains points et le risque est linéaire entre ces points. L’interaction du risque de base avec des variables permet également de représenter les variations des risques relatifs pour différentes caractéristiques des individus (par exemple selon la génération de naissance), et de

constater grâce aux graphiques si les caractéristiques de l’individu sont à l’origine d’un rythme ou d’un niveau de reconstruction conjugale différent.

Le domaine retenu pour le modèle de durée peut également être plus large que celui que nous avions pour la régression. Puisque la censure tient automatiquement compte de la sortie d’observation (par exemple parce qu’on a atteint la date de l’enquête), nous pouvons étudier des événements plus récents. De plus, grâce à l’introduction des contrôles type « horloge » (âge, génération…), le champ d’études retenu peut être assez large avec de moindres risques de biais.

Dans les modèles de durée, seules les variables représentant une situation en début de période étudiée peuvent être retenues comme variables explicatives, ainsi que des variables qui dépendent du temps (et représentent ainsi toujours la situation au moment de l’exposition au risque). Par exemple, si l’on souhaite étudier les remises en couples après une séparation, comme variable fixe il est possible d’utiliser le nombre d’enfants au moment de la séparation, mais pas au moment de la remise en couple ou de l’enquête. En effet, lorsque la personne est exposée au risque (c’est-à-dire entre la séparation et la remise en couple ou l’enquête), son nombre d’enfants peut être différent de celui de fin de période. Si on veut tenir compte des naissances qui ont lieu après la séparation (ou de tout autre événement qui a lieu entre la séparation et la remise en couple), on pourra cependant introduire une variable dépendante du temps qui aura pour valeur le nombre d’enfants à chaque durée depuis la séparation.

Ici, nous nous en tenons à un modèle simple dans lequel aucune variable ne dépend du temps, puisqu’entre la séparation et la remise en couple, peu de caractéristiques sont susceptibles de se modifier. Éventuellement, une naissance hors union peut avoir lieu, mais nous ne saurions pas à quel conjoint l’associer, donc nous ne pourrions l’interpréter. La catégorie socioprofessionnelle peut également varier avec le temps. La rigueur des modèles rétrospectifs (modèle de durée ou régression basée sur des événements du passé) ne peut être assurée lorsqu’on travaille avec les catégories observées au moment de l’enquête, surtout lorsque l’étude porte sur l’entrée à l’âge adulte. En travaillant sur des événements plus tardifs, les risques de changement sont moindres surtout en s’en tenant à des catégories larges. En utilisant la PCS actuelle, l’hypothèse introduite est la suivante : le nombre de changements de catégorie socioprofessionnelle de l’enquêté qui peuvent intervenir entre la séparation et l’enquête est négligeable par rapport à une absence totale de contrôle de la catégorie, ou par rapport à l’évolution qu’il y a eu entre le milieu d’origine et le milieu de la personne elle-même. Nous reprenons les arguments sur ce point dans la section suivante.

Dans le document Trajectoires conjugales et fécondes des hommes et des femmes après une rupture en France (Page 83-87)