• Aucun résultat trouvé

Chapitre 2. Construction de la recherche

2.4 Analyser les participations sociales : méthodes

Pour interroger statistiquement les divers indicateurs exposés ci-dessus, nous aurons recours à différentes méthodes et outils relevant globalement de l’analyse de régression. Dans un premier temps, nous rappellerons brièvement ses principes et buts et expliciterons plus particulièrement les méthodes sélectionnées au regard des variables analysées. Nous préciserons ensuite deux mécanismes observables à travers les analyses de régression, appelés effets modérateurs et médiateurs, ces derniers devant permettre d’approfondir notre questionnement notamment en termes de logique de genre56. Pour clore cette « boîte à outils », une méthode de présentation des résultats, en termes d’effets marginaux moyens (en anglais, Average Marginal Effect ou AME) sera présentée. Elle doit permettre une meilleure lecture et comparaison des différents résultats obtenus.

2.4.1 Analyses de régression

L’analyse de régression permet de comprendre les relations entre deux ou plusieurs variables et de décomposer les « effets » propres des différentes variables (appelées souvent variables indépendantes ou explicatives) par rapport à une variable cible (dite variable dépendante ou expliquée). Cette méthode est intéressante pour analyser des données par rapport auxquelles un ensemble d’explications et d’associations sont envisagées et questionnées. Elle permet alors de déterminer le rôle de chacune sous contrôle de l’effet des autres. Différents types d’analyse de régression existent selon la nature de la variable dépendante analysée (Martin, 2012, p. 114-116). Dans le cadre de cette thèse, nous en développerons trois : les régressions linéaire, logistique et de poisson.

Régression linéaire

La régression linéaire est la méthode classique de base, dont les deux autres modèles sont issus par une généralisation de ses principes à d’autres types de variables (on parle alors de Generalized Linear Models ou GLM). La régression linéaire s’applique à des variables continues (ou ordonnées à intervalle régulier).

On cherche à déterminer la relation, ici linéaire, entre variable dépendante (x) et indépendantes (yk) qui peut être pensée sous la forme de l’équation :

X= a +b1y1 + b2y2 + … + bkyk

L’objectif est de déterminer les coefficients de l’équation pour la droite de régression qui permettent la meilleure approximation possible des données observées. Souvent, la méthode des moindres carrés est utilisée pour calculer la droite et minimiser les erreurs de prédiction. Les variables indépendantes ou explicatives peuvent quant à elles être catégorielles ou continues, ceci étant valable pour nos trois types de régression. Les coefficients représentent alors le changement sur la variable dépendante lorsque la variable indépendante varie

56 Les effets modérateurs seront aussi essentiels afin d’évaluer l’évolution possible des facteurs de participation.

d’une unité (Petry, 2003, Chapitre 4). Nous utiliserons ce type de modèle dans notre dernière partie empirique qui interrogera une échelle de bien-être subjectif au regard de différentes variables.

Régression logistique

La régression logistique et la régression dite de poisson sont des modèles dérivés de la régression linéaire et adaptés à des variables non continues. La régression logistique s’applique quand la variable dépendante ou à expliquer est de type catégoriel binaire. Les coefficients estimés par ces analyses représentent des log-odds. Ces derniers étant difficilement interprétables, les résultats sont souvent exprimés en rapports de cotes (ou odds-ratio)57, par exemple, de participer activement à une association. Autrement dit (même si cela n’est pas tout à fait équivalent), ils indiquent les chances de participer selon les valeurs prises sur une autre variable (indépendante) toute chose égale par ailleurs (e.g. Dunteman & Ho, 2006; Menard, 2002; Pampel, 2000). Cette technique concernera une majorité de nos analyses : comme mentionné, les variables portant sur les pratiques de participation ont toutes été dichotomisées en participant vs. non-participant.

Régression de poisson

La régression dite de poisson est quant à elle une généralisation du modèle linéaire assumant une distribution des données selon la loi de poisson (centrée sur la gauche, lorsque le paramètre de la loi devient grand, la distribution se rapprochant d’une loi normale). Ce modèle de régression est particulièrement adapté aux variables de comptage comme nos deux variables de score de participation. Les résultats peuvent s’interpréter comme le changement attendu sur la variable dépendante (le compte) pour une unité de changement d’une variable indépendante sous contrôle des autres. A l’image des coefficients de la régression logistique, ces derniers renvoient aux différences dans les log-comptes attendus et sont difficilement interprétables. Dans ce cadre, on peut préférer une solution en termes de ratio du taux d’incidence (incidence rate-ratio) – par exemple « le taux d’incidence pour les femmes est 3 fois le taux d’incidence des hommes » (e.g. Dunteman & Ho, 2006).

Dans tous les cas, les coefficients issus des différentes analyses valent pour l’échantillon étudié. Pour pouvoir inférer ces résultats à la population, il faut se référer à un test statistique établissant ou non la significativité des résultats et donc leur valeur prédictive au regard de la population réelle.

2.4.2 Effets modérateurs et médiateurs

Les analyses de régression visent à isoler l’effet des différentes variables (indépendantes) sur une variable (dépendante). Tenons compte d’une relation entre deux variables (x et y) et intégrons-y une troisième variable (z) (y et z étant des variables « indépendantes ») : outre le rôle propre de y et z sur x, deux fonctions de la troisième variable peuvent être questionnées, ce sont les concepts de variables modératrice et médiatrice. Nous allons revenir ici sur ces

57 Un odds-ration de 1 exprime une égalité de risque, une valeur en dessous de 1 un risque négatif et au-dessus de 1 un risque positif.

deux notions sur la base d’un article de Baron et Kenny (1986) qui reste une référence en la matière (Jose, 2013, p. 20‑22). Ceci doit permettre d’en expliquer les enjeux empiriques et techniques qui seront utiles pour la suite de notre construction analytique.

Variables modératrices

Baron et Kenny (1986) définissent une variable modératrice comme« a qualitative (e.g., sex, race, class) or quantitative (e.g., level of reward) variable that affects the direction and/or stregth of the relation between an independent, or predictor, variable and a dependent, or crtierion, variable » (Baron & Kenny, 1986, p. 1174).

Figure 2.2 : modèle modérateur

Source : Baron & Kenny (1986, p. 1174)

Un effet de modération implique que la relation entre deux variables change en fonction de la valeur prise par une troisième variable dite variable modératrice.

La figure 2.2 illustre les trois relations à la variable dépendante qu’implique le questionnement en termes d’effet modérateur. Ce dernier est avéré dans le cas d’une interaction significative entre la variable indépendante (predictor sur la figure) et modératrice. Un effet principal significatif entre les variables prédictives ou modératrices et la variable dépendante (outcome variable) peut exister mais cela n’entre pas en compte pour juger de la validité de l’hypothèse modératrice.

Les analyses statistiques doivent donc déterminer si et dans quelle mesure l’effet de la variable indépendante sur la variable dépendante diffère en fonction de la variable modératrice. Pour cela, nous introduisons dans les modèles de régression une variable composée de la variable indépendante et de la variable modératrice qu’on aura lié par un terme d’interaction. Le coefficient estimé sur cette variable représente en quoi la relation de la variable dépendante à l’indépendante diffère selon la variable modératrice. Pour confirmer ou non l’effet modérateur (l’élément crucial ici), nous nous référons aux résultats de ce modèle et au test de significativité de l’effet de cette dernière variable (e.g.

Jaccard, 2001; Jaccard & Turrisi, 2003).

Variables médiatrices

Baron et Kenny (1986) définissent une variable médiatrice comme « accounts for the relation between the predictor and the criterion » et renseignant sur

« how and why such effects occurs » (Baron & Kenny, 1986, p. 1176).

Figure 2.3 : modèle médiateur

Source : Baron & Kenny (1986, p. 1176)

La figure 2.3 illustre le principe de l’effet de médiation dans le système composé de trois variables – dépendante (Outcome Variable), indépendante et médiatrice. Deux chemins de causalité se dessinent alors par rapport à la variable dépendante : (1) l’effet direct de la variable indépendante et (2) l’impact de la variable médiatrice. L’existence d’un effet médiateur est alors avérée s’il existe en outre un impact de la variable indépendante sur la variable médiatrice (a). Baron et Kenny (1986) définissent 3 conditions afin de déclarer une variable comme médiatrice :

1. La variable indépendante doit être liée significativement avec la variable médiatrice (a).

2. La variable médiatrice doit être liée significativement avec la variable dépendante (b).

3. Quand 1 et 2 sont contrôlés, une relation auparavant significative entre les variables dépendante et indépendante n’est plus significative (les auteurs nuançant que, plus réalistement, les variables médiatrices peuvent faire diminuer plutôt qu’annuler la relation entre variables indépendante et dépendante) (c).

Empiriquement parlant, tester un effet médiateur n’est pas toujours évident. Les auteurs proposent de procéder à trois régressions multiples: (1) La variable médiatrice par la variable indépendante ; (2) la variable dépendante par la variable indépendante ; (3) la variable dépendante par la variable indépendante et la variable médiatrice. Dans les deux premiers modèles, la variable indépendante doit affecter la variable médiatrice et la variable dépendante. Dans le troisième modèle, la variable médiatrice doit affecter la variable dépendante.

Ces conditions remplies, l’effet de la variable indépendante sur la variable dépendante doit être moindre dans le dernier modèle par rapport au deuxième.

Ces critères servent à juger de manière informelle de l’existence d’un effet de médiation. Certains auteurs considèrent cette approche comme insuffisante et proposent de recourir à des tests statistiques pour supporter l’hypothèse de médiation. Parmi ceux-ci le test de Sobel (1982, p. 56‑57) est déjà cité par Baron et Kenny. Nous utiliserons quant à nous le package « khb » du programme stata permettant de décomposer l’effet total d’une variable entre un

effet direct et un effet indirect en se basant sur la méthode du même nom. Celle-ci a été développée par Karlson, Holm, and Breen (2012). Elle s’applique aux modèles non-linéaires et permet d’éviter les biais dans la décomposition de l’effet total tout en offrant un test statistique dérivé de ces analyses (Karlson et al., 2012). En outre, comme nous allons maintenant l’exposer, l’utilisation des AME pour interpréter nos résultats de régression doit aussi permettre de lire de manière plus claire et précise les potentiels effets médiateurs et plus généralement de comparer les différents résultats.

2.4.3 Average Marginal Effects (AME)

Les résultats des différentes analyses de régression seront présentés sous la forme d’effets marginaux moyens (AME). Cette méthode d’interprétation des résultats se base sur le calcul des prédictions à partir des paramètres estimés dans les modèles de régression. Dans ce cadre, l’effet marginal d’une variable indépendante se définit alors comme le changement de prédiction de la valeur de variable dépendante selon la valeur prise par la variable indépendante.

Autrement dit, calculer l’effet marginal d’une variable revient à calculer de combien un changement dans celle-ci est associé à un changement dans le résultat prédit. Les prédictions comme les effets marginaux dépendent des valeurs spécifiques de toutes les variables indépendantes incluses dans le modèle : l’interprétation de l’effet marginal d’une variable dans un modèle impose de trouver une manière de résumer leur distribution dans l’échantillon (parce que l’effet de xi diffère pour chaque observation en fonction de valeurs prises sur les autres variables). Les effets marginaux moyens sont alors la moyenne des effets marginaux calculés à chaque valeur observée pour toutes les observations de l’échantillon de référence (Long, 2014).

Cette démarche a deux avantages dans le cadre de nos analyses, notamment au regard des modèles de régression non-linéaires dont l’interprétation des résultats est moins aisée, comme nous allons le voir. Les estimations issues des GLM comme la régression logistique ou de poisson sont en effet influencées par les variables omises (même si elles ne sont pas liées aux variables indépendantes). Cela implique que l’on ne peut pas strictement interpréter les odds ratios (ou les log-odds ratios) en tant que mesures de l’effet comme dans les analyses de régression linéaire (parce qu’ils reflètent également le degré d’hétérogénéité non-observé dans le modèle). Une autre conséquence importante est que l’on ne peut pas comparer les (log-)odds ratios de mêmes modèles entre différents groupes, échantillons, etc. ou entre différents modèles intégrant successivement d’autres variables explicatives (Mood, 2010). Dans ce cadre, les AME offrent tout d’abord une manière simple et parlante de résumer l’effet de différentes variables. Ceux-ci sont en effet faciles à comprendre et à expliquer : ils s’interprètent comme, par exemple, « en moyenne, le fait d’être une femme augmente la probabilité de participer de x % » (Long, 2014). Au delà, ils présentent l’avantage de permettre une comparaison des différents modèles plus fiable. En effet, les AME ne sont pas (ou trop peu) affectés par la variance non-observée puisque celle-ci n’est pas liée aux variables explicatives incluses dans le modèle. Ils peuvent dans ce cadre être comparés entre modèles, groupes ou échantillons (Mood, 2010).

2.5 Comprendre la participation à travers la mesure des