• Aucun résultat trouvé

Méthode d’analyse des relations entre l’environnement résidentiel et le Vieillissement en Santé

1) Intérêt de la régression logistique

Afin de déterminer les facteurs de risque d’une maladie et de mettre en place des mesures de prévention, la régression logistique est l’une des analyses statistiques multivariées les plus fréquemment utilisées. L’objectif de la régression logistique est de caractériser les relations entre une variable dépendante (𝑌) et une seule ou plusieurs variables indépendantes (𝑋𝑖) (El Sanharawi & Naudet, 2013). Elle consiste ici plus particulièrement à tester les relations entre l’état de santé ou le niveau de dépendance des personnes âgées et les caractéristiques de leur environnement résidentiel.

A la différence de la régression linéaire, la régression logistique s’applique lorsque la variable dépendante est qualitative. Les variables indépendantes sont qualitatives ou quantitatives et sont susceptibles d’influencer la variable dépendante. La régression logistique permet d’estimer un odds ratio (OR) (également appelé rapport des chances ou rapport des cotes) qui constitue une mesure statistique exprimant le degré de dépendance entre la ou les variables indépendantes (𝑋𝑖) et la variable dépendante (𝑌). Autrement dit, l’odds ratio donne une information sur la force et le sens de l’association entre ces variables. L’OR est une mesure de dépendance

111 entre deux variables. Lorsqu’il se rapproche de 1 les deux variables sont indépendantes l’une de l’autre. Au contraire, plus l’OR est proche de 0, plus les variables sont dépendantes l’une de l’autre. De plus, afin d’établir une meilleure évaluation de la relation entre la variable dépendante et les variables indépendantes, la régression logistique est une méthode permettant de contrôler l’effet de possibles facteurs de confusion. Elle individualise ainsi l’effet propre de chaque variable indépendante en tentant de supprimer l’effet d’autres variables également liées à la variable dépendante. L’ensemble des modèles de régression logistique testés dans le cadre de cette recherche est réalisé à l’aide du logiciel SPSS 24.0.

Même si la régression logistique est une méthode permettant de mesurer l’association entre la survenue d’un évènement et les facteurs susceptibles de l’influencer, il faut néanmoins rappeler que l’identification d’une association statistique entre deux variables ne témoigne pas forcément d’un lien de causalité. Il importe de garder une certaine prudence dans l’interprétation des résultats.

2) Définition du modèle de régression logistique binaire

Les modèles de régression logistique sont destinés à analyser le rôle des caractéristiques de l’environnement résidentiel des personnes âgées sur leur probabilité d’être en bonne ou mauvaise santé ou bien d’être limitées ou non dans les tâches de la vie quotidienne. Etant donné l’échantillon limité de l’enquête CURHA (N=471), le choix s’est porté sur une analyse de régression logistique binaire (la variable dépendante étant catégorisée en deux modalités), réduisant ainsi le risque d’une mauvaise estimation des paramètres statistiques.

Destinée à caractériser les liens entre une variable dépendante et une ou plusieurs variables indépendantes, la régression logistique consiste à modéliser la probabilité que la variable dépendante se réalise. Le modèle logistique (cf. Equation 1) exprime cette probabilité en fonction des variables indépendantes (El Sanharawi & Naudet, 2013). Soit 𝑌 la variable binaire dépendante et 𝑋𝑖 plusieurs variables indépendantes concourant à l’explication de 𝑌.

112

Équation 1 Modèle de régression logistique multiple

𝐿𝑛 ( 𝑝

1 − 𝑝) = 𝑙𝑜𝑔𝑖𝑡 (𝑝) = 𝛽0+ 𝛽1∗ 𝑋1+ 𝛽2∗ 𝑋2+ 𝛽3∗ 𝑋3+ ⋯ + 𝛽𝑛∗ 𝑋𝑛+ 𝜀

Le logit de la probabilité (𝑝) de la réalisation de la variable dépendante (𝑌) est

exprimé en fonction d’un intercept (𝛽0) c’est-à-dire l’ordonnée à l’origine, des variables

explicatives (𝑋𝑖) associées à leurs coefficients (𝛽𝑖) et d’un terme de bruit (𝜀). Si nous prenons maintenant pour exemple la variable dépendante 𝑌 correspondant à l’état de santé des personnes âgées (cf. Equation 2). La variable est binaire : bonne santé (𝑆 +) ou mauvaise santé (𝑆 −).

Équation 2 P(S-) : probabilité d’être en mauvaise santé (S-) si les variables Xi sont prises

en compte

𝑃(𝑆 − | 𝑋1… 𝑋𝑛) =

𝑒𝑥𝑝 {(𝛽0+ ∑ 𝛽𝑛1 𝑖𝑋𝑖)} + 𝜀 1 + 𝑒𝑥𝑝 {(𝛽0+ ∑ 𝛽𝑛1 𝑖𝑋𝑖)} + 𝜀

Soit P(𝑆 −) la probabilité (variant entre 0 et 1) d’avoir un mauvais état de santé lorsque les variables indépendantes (𝑋𝑖) – relatives aux caractéristiques de l’environnement résidentiel des personnes âgées – sont intégrées au modèle. L’OR lié à chaque variable indépendante 𝑋𝑖 correspond à l’exponentielle de chaque coefficient 𝛽𝑖 qui correspond à son tour au logarithme de l’odds ratio mesurant l’association entre chaque variable indépendante 𝑋𝑖 et la variable dépendante 𝑌.

3) Sélection des variables dans le modèle initial

Le choix des variables indépendantes à intégrer dans le modèle statistique initial repose sur les connaissances bibliographiques du problème étudié et sur les résultats d’analyses bivariées. L’analyse de la littérature a permis de faire une synthèse des facteurs de risque et de confusion déjà connus ou suspectés. Les analyses bivariées donnent une approche complémentaire fondée sur le matériau empirique. Les variables indépendantes 𝑋𝑖, qui apparaissent comme ayant une forte relation avec chaque variable dépendante 𝑌, sont conservées dans les analyses multivariées. D’une manière générale, toutes les variables dont le degré de significativité est égal ou inférieur à 0,10 lors des analyses bivariées seront incluses dans le modèle initial de

113 régression logistique multiple (c’est-à-dire dans le modèle initial de l’analyse multivariée). Le modèle initial correspond au premier modèle de la régression multiple comptant l’ensemble des variables indépendantes qui pourrait avoir un lien avec les variables dépendantes. Certaines variables non significatives en bivarié mais connues dans la littérature pour être associées à l’état de santé et/ou au niveau de dépendance des personnes âgées pourront également être incluses dans l’analyse multivariée. Un facteur de risque non significatif en bivarié peut en effet être un facteur de risque significatif en multivarié si les facteurs de confusion sont pris en compte (Gillaizeau & Grabar, 2011).

4) Sélection des variables dans le modèle final

L’étape de sélection des variables à intégrer dans le modèle final s’appuie sur plusieurs analyses destinées à pallier certaines limites attribuables à la régression multiple. Il convient d’abord de bien gérer l’ajustement du modèle. Un sous- ajustement (estimation d’un nombre de paramètres trop petit avec un modèle qui ne se rapproche pas assez de la fonction et qui est donc incapable de saisir la tendance sous-jacente des données) et un sur-ajustement (estimation d’un nombre de paramètres trop grand avec un modèle qui se rapproche tellement de la fonction qu’il s’adapte au bruit) sont en effet susceptibles de rendre les résultats d’un modèle peu interprétables (les coefficients de régression, les valeurs estimées de p et le R² risquent de devenir peu fiables). La qualité des résultats se détériore lorsque l’on cherche à obtenir trop d’informations à partir d’un échantillon de taille réduite. Un modèle sur-ajusté prend en compte les variations erratiques de l’échantillon et ne reflète plus la population générale alors que le modèle estimé devrait idéalement se rapprocher d’un modèle valable pour l’ensemble de la population. Il est donc important d’identifier et de garder uniquement les variables les plus importantes. Etant donné le nombre limité d’individus de l’enquête CURHA, le choix des variables à intégrer dans le modèle final dépend d’une procédure pas à pas ascendante au sens du critère d’Akaïke. Ce choix de stratégie s’explique justement par la recherche d’une certaine parcimonie afin d’éviter un risque de sur-ajustement aux données et de garantir une meilleure validité externe. En d’autres termes, l’objectif est de sélectionner le modèle

114 apportant le maximum d’informations sur la variable dépendante 𝑌 à partir du plus petit nombre de variables indépendantes 𝑋𝑖. La méthode ascendante consiste à inclure progressivement chacune des variables précédemment sélectionnées et à garder celles apportant suffisamment d’informations au modèle c’est-à-dire celles faisant baisser le critère d’AIC (Akaike Information Criterion). Ce critère mesure la qualité d’un modèle statistique selon le meilleur compromis entre l’ajustement aux données et le critère de parcimonie en pénalisant les modèles ayant un grand nombre de paramètres, l’AIC le plus faible indiquant un meilleur ajustement des données (Akaike, 1973). Ce critère se calcule selon la formule suivante : 𝐴𝐼𝐶 = 2𝑘 − 2ln (𝐿) où 𝑘 est le nombre de paramètres du modèle et 𝐿 le maximum de la log-vraisemblance. La procédure pas à pas s’arrête lorsque toutes les variables sont introduites ou lorsque le critère d’AIC ne décroît plus.

Ensuite, afin de tester la robustesse des résultats obtenus dans le modèle final, ce dernier est analysé à partir d’une méthode incrémentale : les principales variables indépendantes sont d’abord testées séparément ; les principales variables indépendantes sont ensuite testées simultanément ; les principales variables indépendantes sont finalement testées simultanément mais cette fois-ci avec un ajustement à partir des caractéristiques démographiques et socio-économiques. Des résultats stables à chacune de ces étapes attestent de leur robustesse et de leur stabilité.

Enfin, il convient de vérifier le risque de multi-colinéarité dans les données c’est-à-dire le risque que certaines variables indépendantes du modèle soient fortement corrélées et mesurent le même phénomène. L’existence d’une corrélation entre deux variables signifie que l’effet d’une variable est différent en fonction des modalités d’une autre variable et peut être responsable de résultats peu opérationnels. La multi-colinéarité n’a aucune incidence sur l’adéquation de l’ajustement ni sur la qualité de la prévision mais les coefficients individuels associés à chaque variable indépendante ne peuvent pas être interprétés de façon fiable.

115

B. Méthode d’analyse du rôle de médiation et de modération joué par les