• Aucun résultat trouvé

L’avantage des modèles multiniveaux sur l’analyse par les Moindres Carrés Ordinaires

MODELISATION DES EFFETS DU CONTEXTE

5.2.2. L’avantage des modèles multiniveaux sur l’analyse par les Moindres Carrés Ordinaires

La nature multiniveau des interactions qui se tissent entre l’élève et le contexte scolaire ne peut, pour des raisons que nous allons brièvement exposer ici, faire l’objet d’analyses classiques fondées sur les Moindres Carrés Ordinaires (MCO).

Cette technique, qui sous-tend les modèles de régression les plus courants, repose sur un certain nombre de contraintes qui, jusque dans les années 1980, a laissé les chercheurs bien démunis.

5.2.2.1. Les contraintes imposées par les Moindres Carrés

Ordinaires

La première difficulté associée à cette technique d’analyse tient dans la nature des données auxquelles elle se limite. Se restreignant à des données de type mononiveau, elle ne permet pas de tester l’effet de variables explicatives situées à un niveau différent de celui de la variable expliquée. Or en éducation, et plus particulièrement dans les recherches visant à étudier l’influence du contexte sur les élèves, on est typiquement confronté à des données multiniveaux.

La seconde contrainte est quant à elle relative aux hypothèses statistiques sur lesquelles se fondent les MCO et qui, dans le cadre d’analyses contextuelles, ne peuvent être satisfaites. On ne peut en effet pas ignorer le fait que les élèves appartenant à un même groupe classe ou à un même établissement scolaire partagent une sorte de destin commun (Erbring & Young, 1979) qui les rend, de fait, plus semblables entre eux qu’entre élèves issus de classes différentes. Ainsi, dans les études faisant intervenir micro et macro-unités, l’hypothèse d’indépendance des erreurs ne peut être tenable.

Par ailleurs, du fait que l’on ne peut affirmer a priori que l’effet du contexte est identique pour tous les individus (Cronbach, 1957 ; Stodolsky, 1972, 1975), on ne peut se satisfaire de l’hypothèse d’homoscédasticité des résidus qui prévoit, quant à elle, des relations homogènes d’un groupe à l’autre.

S’en tenir à ces techniques classiques de modélisation impliquerait donc une violation de ces deux hypothèses fondamentales et entraînerait un certain nombre de biais dans l’estimation des paramètres du modèle (pour plus de détails sur ces biais : voir Bressoux, 2008).

En vue de dépasser de telles contraintes, notre choix s’est donc porté sur les modèles multiniveaux dont le principal avantage est de lever ces hypothèses et ainsi, de permettre la modélisation des effets de l’environnement de manière adéquate.

5.2.2.2. Les modèles multiniveaux : une technique plus flexible

Développés il y a maintenant une vingtaine d’années, cette technique (Aitkin & Longford, 1986 ; Goldstein, 1986 ; Mason, Wong &

Entwistle,

1983 ; Raudenbush & Bryk, 1986) a non seulement ouvert la voie aux études empiriques contextualisées mais a également permis d’enrichir les questions de recherche en éducation.

Avant de développer plus en détails cette technique, il s’agit de distinguer, au plan conceptuel, les deux types de variables communément envisagées dans l’étude des effets du milieu sur l’individu : variables agrégées et variables globales (Boudon, 1970).

Dans le premier cas, il s’agit fréquemment d’opérations (niveau moyen d’une classe, niveau socio-économique moyen) effectuées sur la base de données recueillies au niveau des individus. Dans le second cas au contraire, il s’agit de caractéristiques relevant strictement du groupe. En l’occurrence, il peut s’agir des stratégies pédagogiques utilisées par l’enseignant en classe. Contrairement à la première catégorie qui identifie le groupe en tant que tel, les variables globales indiquent quant à elles le traitement auquel le groupe est soumis (Bressoux

et al., 1997). Cette précision terminologique s’avérait nécessaire dans la mesure où notre

étude empirique fera appel à ces deux catégories de variables.

D’un point de vue méthodologique, les modèles multiniveaux offrent la possibilité de tester des hypothèses faisant intervenir des variables opérant au niveau de l’individu, du groupe ou des deux niveaux simultanément tout en respectant la structure imbriquée des données. Par ailleurs, la dépendance des résidus, considérée auparavant comme une nuisance, peut désormais être conçue comme un phénomène intéressant en soi. En effet, en décomposant la variance de la variable étudiée, il devient possible d’estimer la part de variance attribuable à chacun des niveaux pris en compte dans l’analyse et ainsi, de préciser empiriquement le niveau de contexte qu’il est pertinent de prendre en compte.

D’un point de vue technique, les modèles multiniveaux permettent d’étudier si le niveau moyen de la variable expliquée diffère d’un groupe à l’autre mais également d’envisager la question de l’hétérogénéité des relations et ainsi d’analyser comment la relation entre deux variables peut varier en fonction de caractéristiques contextuelles ou individuelles, chose qui, jusque là, demeurait impossible avec les techniques de régression classiques.

Cette dernière implication est particulièrement importante dans la mesure où « le constat

conditions présentes incline au doute quant à la recherche de lois ou de relations qui auraient un caractère général » (Bru, 2004, p. 68).

5.2.2.3. Le modèle multiniveau à constante aléatoire

D’un point de vue statistique, les modèles multiniveaux intègrent des effets aléatoires pouvant être associés, d’une part, à la constante de la droite de régression et, d’autre part, à la pente associée aux variables explicatives.

Dans le cas le plus simple d’une fonction linéaire, l’équation représentant le modèle multiniveau s’écrit de la façon suivante :

Au niveau 1 (élève)

Y

ij

= β0j+β1X

ij

+e

ij

Dans ce modèle, l’indice i représente les individus de niveau 1 (i.e., les élèves) et l’indice j, les groupes de niveau 2 (i.e., les classes). Par rapport à un modèle de régression classique, ce modèle présente la particularité d’autoriser la constante à varier d’un groupe à l’autre (l’indice

j étant associé à β0). Cette association apparaît plus explicitement si l’on décompose le modèle.

Au niveau 2 (classe)

En substituant les équations de niveau 2 au modèle de niveau 1, on obtient alors le modèle composite suivant :

Y

ij

= γ00+ γ10X

ij

+u

0j

+e

ij

où e

ij

~ N(0,

2 e σ

) et u

0j

~ N(0,

2 0 u σ

) (1)

β0j= γ00+ u

0j

β1= γ10

γ

00 représente la constante moyenne pour l’ensemble des groupes ;

γ

10 la pente moyenne pour l’ensemble des groupes ;

u

0j l’écart de chaque groupe à la constante (effet aléatoire associé à la constante) et

e

ij l’erreur associée à chaque individu

Ce modèle composite comprend deux parties distinctes : les effets fixes représentés par les

gamma et les effets aléatoires représenté par les termes u et e.

Un tel modèle permet de modéliser les variations du niveau moyen de la variable expliquée se situant non seulement entre les élèves d’une même classe, mais également entre les différentes classes (figure 6).

5.2.2.4. Le modèle multiniveau à constante et pente aléatoires

Si le modèle à constante aléatoire autorise le niveau moyen de la variable étudiée à varier d’un groupe à l’autre, il contraint néanmoins la relation entre la variables expliquée

Y

ij et la variable explicative

X

ij à être la même d’un groupe à l’autre (on obtient des droites de régression parallèles). Or, la spécificité des modèles multiniveaux et de traiter l’hétérogénéité des relations et ainsi de lever cette contrainte (figure 7).

La spécification du modèle autorisant les relations à varier d’un groupe à l’autre intègre, en plus des paramètres du modèle à constante aléatoire (1), un terme aléatoire associé à la pente de la variable explicative.

L’équation du modèle prend alors la forme suivante :

Au niveau 1 (élève)

Y

ij

= β

0j

+β

1j

X

ij

+e

ij

Concrètement, en associant l’indice

j

au coefficient

β1

,on autorise la relation entre

Y

ij et

X

ij à varier d’un groupe à l’autre.

Si l’on décompose cette équation au niveau de la classe

Au niveau 2 (classe) Modèle composite

Y

ij

= γ

00

+ γ

10

X

ij

+u

0j

+u

1j

X

ij

+e

ij

où e

ij

~ N(0,

2 e σ

), u

0j

~ N(0,

2 0 u σ

) et u

1j

~ N(0,

2 1 u σ

) (2)

Les paramètres du modèle gardent la même signification avec, en plus, un terme u1j qui représente l’écart de chaque groupe à la relation moyenne (effet aléatoire associé à la pente).

β

0j

= γ

00

+ u

0j

β1j= γ10+ u

1j

Figure 7: Droites de régression avec constantes et pentes aléatoires

5.2.2.5. Le modèle multiniveau à constantes et pentes aléatoires

avec variables explicatives de niveau 1 et 2.

Constatant que les variances associées à la constante et à la pente (σ2u0, σ2u1) sont significatives, l’intérêt sera alors de chercher les facteurs de niveau classe (notés

Z.

j) qui permettent d’expliquer ces différences de niveau moyen mais également de relations moyennes.

L’introduction de ces variables contextuelles (i.e., agrégées ou globales) s’effectue, d’une part, au niveau de la constante et, d’autre part, au niveau de la pente.

Au niveau 1 (élève)

Y

ij

= β0j+β1jX

ij

+e

ij Au niveau 2 (classe) Modèle composite

Y

ij

= γ00+ γ01Z

.j

+ γ10jX

ij

+

γ11

Z

.j

*X

ij

+e

ij

+u

0j

+u

1j

X

ij

où e

ij

~ N(0,

2 e σ

) (3)

u

0j

~ N(0,

2 0 u σ

)

et u

1j

~ N(0,

2 1 u σ

)

Avec ce modèle composite, on observe que

- l’explication de la constante par une variable de niveau classe (

Z

.j)se traduit par un effet principal de la variable (noté

γ01Z

.j) alors que

- l’explication de la pente génère un terme d’interaction (

γ11Z

.j

*X

ij) faisant intervenir des variables situées à différents niveaux de données (cross-level

interaction ) et qui permet ainsi d’expliquer l’hétérogénéité de la relation entre

Y

ij et

X

ij .

Si les modèles multiniveaux constituent une avancée statistique notoire et s’avèrent, sous certaines conditions (voir Bressoux, 2008), supérieurs aux modèles MCO dans l’analyse des données présentant une structure hiérarchisée, ils ne peuvent néanmoins être considérés comme la panacée à toutes les difficultés posées par l’étude de l’environnement.

Conscients que l’analyse des effets du contexte scolaire ne doit pas être réduite à des considérations purement techniques, les modèles mutliniveaux ont toutefois été exposés ici car ils représentent, dans le cadre de la problématique qui est la nôtre, une approche particulièrement adaptée.

β0j= γ00+ γ01Z

.j

+ u

0j

β1j= γ10+

γ11

Z

.j

+ u

1j

5.3.QUESTIONS DE RECHERCHE ET HYPOTHESES GENERALES