Méthodes d’estimation alternatives - Inégalités sociales et effets cumulés au cours de la vie :

Les modèles de régression ordinale à cotes proportionnelles longitudinaux du chapitre 6 ont été estimés à l’aide du logiciel Mplus (Muthén et Muthén, 2010).

Ce logiciel utilise un algorithme EM pour la maximisation d’une fonction de vrai-semblance (Dempster et al., 1977). Contrairement aux modèles linéaires ou même logistiques binaires avec effets aléatoires, les modèles de régression ordinale avec ef-fets aléatoires sont moins bien représentés dans les logiciels « classiques ». En raison de leur grande complexité en terme d’estimation, en particulier lorsque plusieurs effets aléatoires sont inclus, la rapidité de l’algorithme joue un grand rôle dans la faisabilité d’une analyse ; c’est d’ailleurs ce critère qui nous a poussés à retenir Mplus pour les analyses du chapitre 6. Cependant, étant donné la complexité du problème et le fait qu’il existe plusieurs algorithmes d’estimation, on est en droit de se demander si le choix du logiciel aurait eu une grande influence sur les résul-tats obtenus précédemment. Ainsi, de manière à contrôler de manière empirique si les résultats obtenus par Mplus ne constituent pas une exception, nous proposons de les comparer avec ceux obtenus à l’aide de méthodes disponibles dans d’autres logiciels.

Ce chapitre est divisé en deux grandes parties. Dans la section 7.1, nous pro-posons une comparaison des approches basées sur des estimations du maximum de vraisemblance disponibles dans les logiciels Mplus, GLLAMM, SAS et MLwiN.

Chacun de ces logiciels propose un algorithme d’optimisation différent, ainsi que des méthodes d’intégration numérique différentes. Nous proposons d’estimer le même modèle dans chacun de ces logiciels et d’évaluer la flexibilité du logiciel en terme de spécification. Nous comparons ensuite d’une part les résultats obtenus, et d’autre part le temps nécessaire pour les obtenir. La rapidité d’exécution est très utile dans la phase de modélisation, en particulier si le chercheur souhaite comparer des modèles, ce qui nécessite à chaque fois une nouvelle estimation. Nous verrons que certaines solutions logicielles ne sont pas utilisables en pratique à cause d’une trop grande lenteur. Notons que le logiciel R ne fait pas partie des logiciels testés car la seule librairie R proposant d’estimer un modèle ordinal mixte, la librairie ordinal, n’accepte à l’heure actuelle qu’un seul effet aléatoire, alors que notre modèle en

possède deux.

Toujours dans l’optique de comparer les résultats obtenus en utilisant plusieurs méthodes, la deuxième partie de ce chapitre, la section 7.2, concerne une méthode d’estimation basée sur l’inférence bayésienne et les simulations par chaîne de Mar-kov Monte Carlo (MCMC). Cette partie commence par une introduction à la théorie de l’analyse bayésienne, avant de procéder à une description et à une comparaison des résultats obtenus d’une part avec le logiciel spécialisé d’inférence bayésienne WinBUGS (Lunn et al., 2000), d’autre part avec le module d’inférence bayésienne du logiciel MLwiN (Browne, 2009).

7.1 Comparaison des estimations par maximum de vraisemblance

Nous utiliserons dans cette section quatre logiciels différents mais qui produisent tous des estimations par maximum de vraisemblance. Cette approche « classique » en statistiques consiste à maximiser une fonction de vraisemblance L(x|θ), dans laquelle x représente les données observées et θ les paramètres du modèle que l’on cherche à estimer. Avec cette méthode, on cherche à trouver la combinaison des paramètres du modèle qui maximise cette fonction de vraisemblance, c’est-à-dire les paramètres θ qui rendent le plus vraisemblable que les données observées proviennent du modèle estimé. Pour une fonction de vraisemblance simple, la mé-thode la plus directe consiste à trouver le maximum de cette fonction à l’aide des outils classiques de l’analyse mathématique. En revanche, lorsque cette fonction est trop complexe pour que son maximum soit trouvé de manière analytique, les logiciels mettent en oeuvre des algorithmes d’optimisation pour trouver ce maxi-mum. A chaque itération de l’optimisation, l’algorithme se base sur des méthodes d’intégration numérique pour approximer la vraisemblance et fait varier la valeur des paramètres jusqu’à ce qu’un maximum soit atteint. Quand la variation de la vraisemblance entre deux itérations ne dépasse pas un seuil prédéfini, on dit que l’algorithme a convergé. Etant donné que les intégrations numériques produisent des approximations de la vraisemblance, ceci peut conduire à des divergences entre les logiciels suivant le type de méthode implémenté.

Dans Mplus, le logiciel utilisé dans le chapitre précédent, la maximisation de la vraisemblance se fait à l’aide d’un algorithme d’optimisation qui mélange des étapes utilisant la méthode EM, la méthode duFisher Scoring et la méthode de Quasi-Newton (Muthén et Muthén, 2010). Nous comparons les résultats obtenus par ce logiciel avec ceux obtenus à l’aide de trois autres logiciels : le module GL-LAMM (Rabe-Hesketh et al., 2005) de Stata, la procédure NLMIXED de SAS (SAS Institute Inc., 2008) et MLwiN (Rasbash et al., 2009).

Le module GLLAMM de Stata est réputé à la fois pour sa fiabilité et sa lenteur.

Il est issu directement des travaux de Rabe-Hesketh et al. (2002) sur l’estimation des modèles linéaires généralisés mixtes à variables latentes ; le nom GLLAMM est d’ailleurs l’acronyme de Generalized Linear Latent and Mixed Models. Ce logiciel utilise l’algorithme de Newton-Raphson pour la maximisation de la vraisemblance et une méthode d’adaptive quadrature pour l’intégration numérique (Skrondal et Rabe-Hesketh, 2004).

La procédure NLMIXED du logiciel SAS est quant à elle basée sur l’algorithme d’optimisation appelé dual quasi-Newton et elle utilise par défaut une méthode de Gauss-Hermite quadrature pour l’intégration numérique (SAS Institute Inc., 2008). Notons que NLMIXED propose une autre méthode d’intégration numérique appelée First order method (SAS Institute Inc., 2008, p. 4377), ce qui peut être utile dans le cas où la méthode par défaut ne converge pas.

En revanche, MLwiN, un logiciel spécialisé dans l’analyse multi-niveaux, utilise un algorithme nommé IGLS (pour iterative generalized least squares) ou RIGLS (reweighted iterative generalized least squares) pour l’estimation. Les détails tech-niques sont disponibles dans l’ouvrage de Goldstein (2003).

7.1.1 Spécification du modèle de test

Pour comparer les différents logiciels, nous nous sommes concentrés sur un mo-dèle concernant la santé auto-évaluée. Nous avons retenu le momo-dèle 2, qui contenait les variables socio-démographiques ; celui-ci est décrit plus en détail dans la section 6.4.1. Dans une écriture multi-niveaux, le modèle 2, qui nous servira de base tout au long de ce chapitre, est le suivant :

log

P ry(yit≤c P r(yit> c)

= θc−(γ_i^(int)+γ_i^(s)age_it)

γ_i^(int) = β2femmei+β3natetrangere_i+β4csp2_i +β5csp3_i+β6csp4_i+β7edu2i+ β₈edu3_i+ζ_i^(int)

γ_i^(s) = β1+ femmei+ζ_i^(s) ζ_i⁽ⁱ⁾ ∼ N(0, σ²⁽ⁱ⁾)

ζ_i^(s) ∼ N(0, σ^2(s))

c = 1,2,3 (7.1)

La variableyitreprésente la santé auto-évaluée en quatre catégories, de la plus mauvaise à la meilleure. La variable « nat » représente le fait d’être de nationalité étrangère, les variables « csp2 », « csp3 » et « csp4 » représentent respectivement le fait d’appartenir à la vague 2000 à une catégorie socio-professionnelle moyenne, haute ou à aucune catégorie. Les variables « edu2 » et « edu3 » indiquent un niveau d’éducation moyen ou élevé. La variable âge représente l’âge de l’individu centré sur 25 ans et divisé par 10.

Ce modèle est composé par conséquent de 8 effets fixes sur des variables qui ne varient pas dans le temps (de β2 à β9), de 1 effet fixe sur une variable qui varie dans le temps (β1), de 3 seuils (de θ1 à θ3) et de deux effets aléatoires, l’un sur une constante et l’autre sur une pente. Pour simplifier les comparaisons entre les logiciels, la pondération des observations a été omise. Tous les modèles sont estimés sur le même jeu de données provenant du Panel suisse des ménages et décrit de manière exhaustive dans le chapitre 6. Le nombre d’observations est de 42620, emboitées dans 7238 individus.

Nous présentons d’abord les particularités de chaque logiciel quant à la spécifi-cation du modèle de l’équation 7.1, puis nous comparons les résultats obtenus pour le premier modèle dans le tableau 7.6.

Spécification du modèle dans Mplus

Mplus est à l’origine un logiciel spécialisé dans l’analyse de modèles d’équation structurelle à variables latentes. Plus récemment, les modèles linéaires généralisés mixtes sont estimables et spécifiés comme des modèles à deux niveaux ; Mplus nomme ce type d’analyse « TWOLEVEL ». La syntaxe de ce modèle est disponible dans son intégralité dans l’annexe A (p. 245).

Les effets fixes concernant des variables qui varient dans le temps sont spé-cifiés à un niveau nommé %WITHIN% , car il contient les effets avec une variance intra-individuelle. Ce niveau est l’équivalent du niveau 1 d’une spécification multi-niveaux « classique ». Les effets fixes sur les variables qui ne varient pas dans le temps, et qui définissent donc une caractéristique globale de l’individu, sont placés dans le niveau%BETWEEN%. Ce niveau correspond au deuxième niveau d’un modèle multi-niveaux à deux niveaux. L’effet aléatoire sur la constante est défini automa-tiquement, tandis que l’effet aléatoire sur un coefficient, en l’occurrence ici l’âge, est défini à l’aide de l’opérateur | dans la définition du modèle de régression du premier niveau :s | health ON age définit un effet aléatoire sur le coefficient de l’âge.

Le fait que la variable dépendante soit déclarée comme une variable catégorielle (categorical) indique à Mplus qu’il s’agit d’une régression ordinale. Par défaut, Mplus utilise une fonction de lien ordinal logit, mais une fonctionordinal probit est également disponible. Notons que par défaut, Mplus ne calcule pas de covariance entre les effets aléatoires dans le type d’analyse TWOLEVEL, ce qui implique qu’elle est fixée à zéro. En testant différentes spécifications du modèle 7.1, nous avons remarqué que l’estimation convergeait beaucoup plus difficilement lorsque cette covariance était estimée. Dans Mplus, cette difficulté de convergence pose peu de problèmes, étant donné la rapidité générale avec laquelle il estime les modèles.

En revanche, pour pouvoir comparer les résultats de MPlus avec d’autres logiciels beaucoup plus lents, nous avons préféré garder un modèle sans covariance estimée.

La limitation principale de Mplus avec ce genre de modèles concerne le nombre de niveaux : comme son nom l’indique, le type d’analyse « TWOLEVEL » ne permet pas de prendre en compte plus de deux niveaux. Il n’existe pas pour l’instant de méthodes dans Mplus permettant d’estimer des modèles linéaires généralisés à plus de deux niveaux. Dans notre application, cela nous empêcherait par exemple de considérer que les individus sont imbriqués dans des ménages, ce qui impliquerait un niveau supplémentaire. La version de Mplus utilisée dans ce travail est la 6.1.

Spécification du modèle dans Stata/GLLAMM

Un des avantages de Stata est que la spécification d’un modèle multi-niveaux avec le module GLLAMM est particulièrement simple (voir la syntaxe dans l’annexe A, p. 246). Une équation par effet aléatoire est définie ; dans notre cas, un effet aléatoire multiplie une constante pour créer la constante aléatoire, et un deuxième effet aléatoire multiplie l’âge pour créer la pente aléatoire. Le modèle est ensuite

simplement spécifié en mettant la variable dépendante tout à gauche, suivie des variables indépendantes, quel que soit le niveau auquel elles appartiennent. Les niveaux sont quant à eux définis par les variables d’identification des groupes, en les mettant du plus petit au plus grand dans l’argumenti(); dans notre cas, la seule variable de groupe est l’identificateur de l’individu (IDPERS). Contrairement à Mplus, GLLAMM permettrait d’ajouter des niveaux supplémentaires, par exemple en imbriquant les individus dans des ménages. La covariance entre la constante et la pente aléatoires est fixé à 0 par l’argument nocor afin de garder la même spécification que Mplus.

GLLAMM propose trois fonctions de lien pour les modèles de régression ordi-nale : l’ordinal logit, l’ordinal probit et l’ordinal complementary log-log. La version que nous utilisons dans ce travail est Stata 11.2 avec le module GLLAMM dont la Distribution-date est : 20100917.

Spécification du modèle dans SAS/PROC NLMIXED

La procédure NLMIXED permet d’ajuster des modèles mixtes non-linéaires dans le logiciel SAS (SAS Institute Inc., 2008, p.4338). Cette procédure ne pro-pose pas directement une option pour les modèles de régression ordinale, mais elle permet de spécifier la distribution supposée de la variable dépendante à l’aide du langage de programmation de SAS. Pour spécifier le modèle de l’équation 7.1, nous nous sommes inspirés de la syntaxe proposée par Sheu (2002). Dans cet article, le modèle spécifié est un modèleordinal probit; la partie du code définissant la vrai-semblance a par conséquent été adaptée pour spécifier un modèleordinal logit à la place. La probabilité cumulée de se trouver dans une catégorie inférieure ou égale à c correspond à l’inverse du logit du seuil θc moins l’équation qui regroupe les variables explicatives (appelée Z dans la syntaxe) ; sachant cela, on peut définir la probabilité d’être dans chaque catégorie en prenant les différences des probabilités cumulées (pour plus de détails, voir l’équation 5.8). Cette manière de décomposer les probabilités cumulées pour chaque catégorie offre une flexibilité supplémentaire par rapport aux deux logiciels précédents, car cela permet de spécifier, pour la même variable, des effets différents en fonction de la catégorie. Le fait d’avoir des effets différents par catégorie serait un moyen de contourner l’hypothèse de pro-portionnalité des cotes, puisque l’influence d’une même variable pourrait changer suivant la catégorie de la variable dépendante.

Pour contraindre la covariance entre les effets aléatoires à 0, on spécifie que les deux effets aléatoires I et S (respectivement la constante aléatoire et la pente aléatoire) suivent une loi normale bivariée, avec comme moyenne un vecteur [0; 0], et comme variance la matrice de variance-covariance suivante :

Σ =

VARI 0

0 VARS

La syntaxe résultant de ces adaptations se trouve dans l’annexe A (p. 246). La version de SAS que nous avons utilisée dans ce travail est la 9.2.

Dans le document Inégalités sociales et effets cumulés au cours de la vie : concepts et méthodes (Page 196-200)