• Aucun résultat trouvé

CHAPITRE V: ANALYSE DES DONNÉES

V.2. L ES MODÈLES D ’ ANALYSE

V.2.1. Les analyses annuelles

V.2.1.2. Modélisation

En plus des données sur le redoublement, sur les scores aux tests sur les items d’ancrage, aux pré-tests et aux post-tests, l’enquête de suivi de cohorte a collecté un large éventail d'informations sur les élèves, les enseignants et les directeurs d'écoles. Avec la structure hiérarchique des données et les possibilités d’imbrication de certains facteurs explicatifs, une présélection parcimonieuse des variables explicatives les plus déterminantes (c’est-à-dire celles pour lesquelles la corrélation avec la variable à expliquer est statistiquement significative à 5%) a

95 Notre traduction: « Pour un parent, la question fondamentale est de savoir si, compte tenu des caractéristiques de son

enfant, aucune école particulière ne pourrait laisser envisager de meilleures réussites subséquentes que n'importe quelle autre (ou quelles autres) école(s) choisie(s). Si un facteur du niveau école est associé à la réussite, ceci fait strictement partie de l'effet mesuré et de ce fait, ne constitue pas quelque chose pour lequel un ajustement doit être effectué. C’est pour cette raison que nous examinons essentiellement l’effet de "type A" de Raudenbush et Willms».

été effectuée. Les variables présélectionnées sont présentées dans l’annexe 7. Comme on peut le voir dans cette annexe, ces variables couvrent quasiment l’ensemble des caractéristiques personnelles et scolaires des élèves ainsi que les informations disponibles sur leur contexte scolaire et sur les politiques et pratiques des écoles concernant le redoublement. Signalons par ailleurs que la plupart de ces variables se retrouvent dans des résultats de recherches provenant d'études similaires, notamment Duru-Bellat et Mingat (1993), Bressoux et collab. (1997), Bernard et collab. (2005), Bressoux (1995, 2008).

Le logiciel statistique utilisé pour les analyses est Stata (version 10.1). La méthodologie de modélisation, d’analyse et d’interprétation des résultats des modèles se base sur celle préconisée dans l’ouvrage de Rabe-Hesketh et Skrondal (2008).

a. Une modélisation en trois étapes

La première étape de la modélisation consiste à spécifier le modèle de base (dit modèle ‘nul’) afin de déterminer la contribution respective de chaque niveau de la hiérarchie à la variance totale observée (Bryk et Raudenbush, 1992 ; Raudenbush et Bryk, 2002; Snijders et Bosker, 1999). Le modèle de base contient seulement la variable dépendante. Aucune variable indépendante aux niveaux élève, école (classe/école) n’est ajoutée au modèle à cette étape.

Pour chaque niveau, le modèle de base se spécifie comme suit :

Modèle au niveau élève:

Modèle au niveau école:

α

0j =

β

00 + r0j (4)

Modèle aux deux niveaux combinés :

Yij =

β

00 + r0j + eij (5a)

où,

Yij est la valeur de la variable dépendante pour l’élève i fréquentant l’école

(classe/école) j;

α

0j est la moyenne pour la variable dépendante (variables sur l’apprentissage ou

sur la progression/redoublement) de l’école j;

eij est une variable aléatoire qui décrit l’« effet élève » c’est-à-dire l’écart entre la

valeur de l’élève et la valeur moyenne de l’école selon la variable dépendante;

β

00 est la moyenne de l’échantillon selon la variable dépendante;

r0j est une variable aléatoire qui décrit l’« effet école » c’est-à-dire l’écart entre la

valeur moyenne de l’école et la moyenne de l’échantillon;

Les indices i et j désignent respectivement les élèves et les écoles où il y a i = 1, 2, . . . , nj élèves dans l’école j et j = 1, 2,…, J écoles dans l’échantillon (J = 99) ;

eij

N(0,

σ

e2) et r0j

N(0,

σ

r2).

La contribution de chaque niveau de la hiérarchie à la variance totale peut être déterminée avec le coefficient de corrélation intra école

ρ

ij (intraclass correlation

coefficient, Snidjers et Boskers, 1999, p. 46 ; Bryk et Raudenbush, 1992, pp. 29-30 ; Rabe-Hesketh et Skrondal, 2008, pp. 94-104, 153-155) :

ρ

ij = (

σ

r2 )/ (

σ

r2 +

σ

e2) (5b)

La deuxième étape de la modélisation consiste à spécifier le modèle (3) c’est-à- dire le modèle au niveau élève (ou niveau 1). À ce niveau, seules les variables explicatives au niveau élève sont introduites dans le modèle. L’approche par étape est utilisée pour spécifier le modèle et examiner la contribution marginale des variables explicatives. Rabe-Hesketh et Skrondal (2008, p. 450) recommandent d’introduire dans le modèle, les variables par ordre croissant de niveau d’étude c’est-à-dire la variable à expliquer, puis les variables explicatives de niveau 1 (niveau élève), puis les variables explicatives de niveau 2 (niveau école), etc.

La troisième étape de la modélisation consiste à spécifier le modèle (5a) c’est-à- dire à ajouter dans le modèle précédent (modèle (3) ou modèle de niveau 1), les variables du niveau école toujours selon l’approche par étape.

Les variables ayant une contribution explicative significative à 5% sur la variable dépendante c’est-à-dire celles pour lesquelles la probabilité p associée à la valeur de la statistique du test est inférieure à 0,05, ont été retenues pour la suite de l’analyse. Comme indiqué plus haut, les deux variables dépendantes étudiées sont : le score aux tests sur les items d’ancrage (étude des apprentissages) et le redoublement (étude de la progression par grade).

b. Modélisation pour l’étude des apprentissages

Concernant l’étude des apprentissages, les modèles décrits aux trois étapes ci- dessus ont été spécifiés pour chaque grade c’est-à-dire pour les apprentissages de CP2 à CE1, de CE2 à CM1 et de CM1 à CM2. Le modèle pour les apprentissages de CE1 à CE2 n’a pu être spécifié en raison de données manquantes sur les scores aux tests sur les items d’ancrage en 1997/98. Comme les items d’ancrage

constituent la partie commune des tests pour les différents grades (contenus de programmes qui se chevauchent), les scores sur les items d’ancrage utilisés dans les modèles sont choisis pour correspondre aux apprentissages des grades visés. Par exemple, l’étude des apprentissages du CP2 à CE1 a utilisé le score au test de 1996/97. Le tableau 22a présente les variables dépendantes (score aux tests sur les items d’ancrage) utilisées dans l’étude.

Tableau 22a: Scores aux tests sur les items d’ancrage utilisés dans l’étude annuelle des progressions par grade

Score aux tests sur les items d’ancrage Description

stia9697 Score aux tests sur les items d’ancrage en 1997

stia9899 Score aux tests sur les items d’ancrage en 1999

stia9900 Score aux tests sur les items d’ancrage en 2000

Les modèles sur les apprentissages ont été spécifiés avec la commande xtmixed de Stata (Rabe-Hesketh et Skrondal, 2008). Selon Rabe-Hesketh et Skrondal (2008), cette commande, parmi celles disponibles dans Stata pour les modèles à effets mixtes, est efficiente et plus précise.

c. Modélisation pour l’étude de la progression par grade

Concernant l’étude de la progression par grade, les variables dépendantes sont les redoublements par année. Duru-Bellat et Mingat (1993, p. 159), dans une étude des effets du redoublement sur la carrière scolaire et l’orientation vers les filières d’enseignement des élèves du premier cycle du secondaire en France, mentionnent que

« l’analyse temporelle des redoublements présente une double dimension : (i) une dimension pédagogique, en ce sens que le redoublement est supposé compenser des acquis insuffisants pour poursuivre une carrière normale; (ii) une dimension stratégique, en

ce sens qu’il n’est sans doute pas indifférent de redoubler telle classe plutôt que telle autre pour la suite de la carrière ».

Dans le cadre de la présente recherche, l’étude du redoublement s’inscrit dans le cadre institutionnel scolaire. De ce fait l’analyse de la dimension stratégique du redoublement n’est pas envisagée. À cet égard, notre attention portera sur les effets pédagogiques du redoublement de façon transversale et longitudinale. Le tableau 22b présente les variables de redoublement disponibles dans la base de données sur la période de l’enquête. À partir de ces variables, il est possible, selon le nombre de redoublements enregistrés par chaque élève entre le CP2 et le CM1, de déterminer les progressions sans redoublement, avec un redoublement, deux redoublements (triplement) ou trois redoublements (quadruplement)96.

Habituellement, les triplements ou quadruplements sont très rares et ne se justifient que par des circonstances exceptionnelles comme par exemple, une absence prolongée du fait de maladies.

Tableau 22b: Variables redoublement disponibles dans la base de données

Variable redoublement Description

red1 Redoublement du CP1 l’année scolaire 1994/95

red29596 Redoublement du CP2 l’année scolaire 1995/96

red29697 Redoublement du CP2 l’année scolaire 1996/97

red39798 Redoublement du CE1 l’année scolaire 1997/98

red39899 Redoublement du CE1 l’année scolaire 1998/99 (triplement)

red39900 Redoublement du CE1 l’année scolaire 1999/2000 (quadruplement)

red49899 Redoublement du CE2 l’année scolaire 1998/99

red49900 Redoublement du CE2 l’année scolaire 1999/2000 (triplement)

red59900 Redoublement du CM1 l’année scolaire 1999/2000

La base de données du PASEC contient une variable « itinéraire de l’élève » qui retrace, pour chaque élève, les évènements sur la promotion et le redoublement intervenus durant son parcours du CP2 au CM1 entre 1995 et 2000. Cette variable aurait pu être utile dans l’étude transversale et surtout longitudinale de la

96 Comme l’indique le tableau 17 du chapitre IV, les quadruplements (redoubler la même classe trois fois de suite) ont été

progression des élèves par grade. Toutefois, la variable « itinéraire de l’élève » présente des contradictions avec les données de redoublements individuels. Nous pensons que ces incohérences résultent d’erreurs de saisie de données mais nous ne pouvons le prouver. De ce fait, la variable « itinéraire de l’élève » n’a pas été utilisée dans le cadre de cette étude.

Dans le tableau 22b, red1 renseigne sur les redoublements du premier grade (CP1) du primaire donc les redoublements intervenus avant le début de l’enquête de suivi de cohorte. Quant à red29596, il renseigne sur les élèves qui, au début de l’enquête, étaient déjà redoublants de CP2 (redoublants 1995/96). Pour des raisons méthodologiques, l’analyse de la progression par grade considère les redoublements enregistrés dans le cadre de l’enquête de suivi de cohorte. red29596 et red1 pourraient être utilisés pour examiner l’effet des redoublements précoces sur la progression de l’élève.

Dans la présente étude de la progression des élèves par grade, un modèle a été spécifié pour les redoublements au CP2 en 1996/97 (red29697), au CE1 en 1997/98 (red39798), au CE2 en 1998/99 (red49899) et au CM1 en 1999/2000 (red59900).

Le processus hiérarchique de spécification des modèles sur la progression par grade est le même que celui qui a été utilisé pour les modèles sur l’apprentissage. Les modèles sur la progression ont été spécifiés avec la commande xtmelogit de Stata (Rabe-Hesketh et Skrondal, 2008).

d. Modèles à ordonnées à l’origine aléatoires et modèles à pentes aléatoires

Pour l’étude des apprentissages et des progressions par grade, deux familles de modèles ont été examinées :

La première famille spécifie les modèles à ordonnées à l’origine aléatoires (« random intercept models »). De tels modèles supposent que les droites de régression spécifiques à chaque école sont parallèles (Snijders et Bosker, 1999 ; Raudenbush et Bryk, 2002; Rabe-Hesketh et Skrondal, 2008). La constante de la régression (_cons), si elle est incluse dans le modèle, représente la moyenne des ordonnées à l’origine.

La deuxième famille spécifie les modèles à pentes (coefficients) aléatoires (« random-effect parameters models »). Les coefficients aléatoires affichés par xtmixed incluent (Rabe-Hesketh et Skrondal, 2008):

• L’écart-type de la variance des ordonnées à l’origine entre les écoles (sd_cons) ;

• Et entre les écoles, l’écart-type estimé des résidus entre les droites de régression spécifiques à chaque école ( sd(residual) ).

Cette commande ne présente pas de termes de covariance (variance nulle pour les pentes aléatoires et covariance nulle pour les ordonnées à l’origine aléatoires et les pentes aléatoires).

Un test d’hypothèses du ratio de vraisemblance97 (Rabe-Hersketh et Skrondal,

2008, p. 159) permet ensuite de retenir la famille de modèles qui ajuste le mieux. Ce test porte sur la significativité de la variance de la pente des modèles : pente fixe pour les modèles à ordonnées à l’origine aléatoires et pente variable pour les modèles à pentes aléatoires. Le test d’hypothèses du ratio de vraisemblance est

recommandé par Rabe-Hersketh et Skrondal (2008) avant de procéder à l’interprétation des estimations des paramètres des modèles. La commande pour effectuer ce test est lrtest98.

Par ailleurs, une fois les modèles multiniveau spécifiés, il est nécessaire selon Rabe-Hesketh et Skrondal (2008) de convertir la formulation hiérarchique à deux ou trois niveaux en une forme réduite qui inclut les termes d’interaction entre variables en vue de l’estimation avec la commande xtmixed (« for estimation in xtmixed, it is necessary to convert the two-stage or three stage formulation to the reduced form. For instance to fit the model using xtmixed we must generate new variables representing interactions »)99.

e. Interactions100 inter-niveaux hiérarchiques

Des termes d’interaction entre niveaux hiérarchiques ont été ajoutés à l’analyse pour améliorer sa spécification et examiner les effets combinés de certaines variables explicatives sur l’apprentissage et la progression des élèves par grade. Les variables pour lesquelles des termes d’interaction ont été générés et étudiés sont celles qui étaient significatives à 5% après l’étape de présélection mentionnée au début de ce chapitre. Le tableau 23 présente les termes d’interaction.

98 Likelihood-ratio test. Récupéré le 15 décembre 2009 de http://www.stata.com/help.cgi?=lrtest. 99 Ibid, p. 170.

100 Les interactions entre variables indépendantes renseignent sur l’effet mutuel de ces variables. En statistique de façon

générale, une interaction survient lorsque l'on considère la relation entre trois variables ou plus. Alors, l’interaction décrit une situation dans laquelle l'influence simultanée de deux variables sur une troisième n'est pas additive. Le plus souvent, les interactions sont considérées dans le contexte des analyses de régression et dans le cas qui nous concerne, la régression multiniveau. Lorsqu’il y a plus de deux variables explicatives, plusieurs variables d'interaction peuvent être construites, avec des croisements par paires représentant des interactions deux à deux et des croisements d’ordre supérieur représentant des interactions d'ordre supérieur. La présence d'interactions peut avoir des implications importantes en ce qui concerne l'interprétation des modèles statistiques. Lorsque deux variables d'intérêt interagissent, la relation entre chacune des deux variables en interaction avec une troisième «variable dépendante» est fonction de la valeur de l’autre variable d’interaction. En pratique, cette situation rend plus difficile la prédiction des conséquences liées à un changement de valeur au niveau d'une des variables en interaction, en particulier si la (les) variable(s) avec laquelle (lesquelles) cette dernière interagit est (sont) difficile(s) à mesurer ou à contrôler. Les interactions peuvent être qualitatives ou quantitatives. Ainsi, dans de nombreuses applications, il est parfois nécessaire de distinguer les interactions qualitatives et quantitatives. Une interaction quantitative entre deux variables A et B réfère à une situation où l'ampleur de l'effet de B dépend de la valeur de A, mais le sens de l'effet de B est constant pour toutes les valeurs de A. Une interaction qualitative entre A et B réfère par contre à une situation où l'importance et le sens de l'effet de chaque variable peut dépendre de la valeur de l’autre variable. Enfin, en ce qui concerne la présence d’interactions entre variables catégorielles, comme c’est parfois le cas dans cette thèse, une analyse de variance teste et renseigne davantage sur l'interaction.

Dans la suite nous présentons les modèles tels que spécifiés pour l’analyse des apprentissages et l’analyse des progressions par grade. En ce qui concerne les apprentissages par grade, afin de ne pas surcharger le texte, seuls les modèles (6) et (7) du CP2 au CE1 (fin année scolaire 1995/96 et début année scolaire 1996/97) sont présentés dans la section qui suit. Les modèles pour les apprentissages du CE2 au CM1 (modèles (8) et (9)) et du CM1 au CM2 (modèles (10) et (11)) sont présentés dans l’annexe 8.

Tableau 23: Interaction entre variables de niveau

Grade Variables au niveau élève Variables d’interaction au niveau école

red29596 sg19596 stg29596 age9596 calc9596 dfpi9596 red29596 stia9697 mfem9697 CP2 à CE1 red29596 age9596 sg19596 stg29596 calc9596 stia9697 rang9697 Ville red49899 age9798 calc9798 fill9798 nivi9798 stg49798 stia9899 agem9798 red49899 age9798 calc9798 fill9798 nivi9798 stg49798 mfem9798 red49899 age9798 calc9798 fill9798 nivi9798 stg49798 stia9899 tail9798 red49899 age9798 calc9798 fill9798 nivi9798 stg49798 fpi19798 CE2 à CM1 red49899 age9798 calc9798 fill9798 nivi9798 stg49798 ville red59900 stia9899 stg59899 stia9900 poleco9899 CM1 à CM2 red59900 stia9899 stg59899 ville

Documents relatifs