• Aucun résultat trouvé

Chapitre 5 : Espace des possibles au sein de chaque système éducatif : quels parcours de

2 Quelles caractéristiques des systèmes éducatifs et quelles possibilités pour les individus ? Les

2.1 Les différentes trajectoires de formation possibles dans le système éducatif français

2.1.1 La construction des trajectoires pour le cas français

Comme nous l’avons indiqué précédemment, nous nous concentrons pour les deux pays sur les trajectoires de formation jusqu’en 2007. Cette date est suffisante dans les deux panels pour rendre compte des différents parcours possibles mais elle permet, aussi et surtout, de limiter quelque peu les effets de l’attrition, effets particulièrement gênants dans la mise en œuvre de

137

157

trajectoires-types puisque nous l’avons vu les mécanismes d’attrition ne se révèlent pas aléatoires.

Parallèlement au problème d’attrition, nous devons faire face pour le cas français à un problème supplémentaire (exposé précédemment dans la description des données) : celui de la perte puis de la récupération d’individus entre 2002 et 2005. Le travail de trajectoire-types nécessite en effet une information complète sur les situations des individus année après année. Dans un premier temps, nous avons cylindré les données sur la base des individus présents en 2007138. Comme nous l’avons indiqué, une partie des jeunes enquêtés disparaissent de l’enquête DEPP à partir de 2002 pour être de nouveau suivis par le dispositif EVA à partir de 2004/2005. Il manque donc ponctuellement des informations pour les situations scolaires et/ou professionnelles d’une partie des jeunes. Dans la mesure où nous avons besoin de séquences complètes pour les différentes années, nous avons mis en œuvre une méthode permettant d’estimer les valeurs manquantes entre 2002 et 2005 via un modèle d’imputation multiple (Rubin, 1976).

De 1995 à 2007, les individus peuvent se retrouver dans les 8 situations possibles suivantes : 1. Formation du secondaire I

2. Formation du secondaire II professionnel (court : CAP139-BEP140 et long : baccalauréat professionnel)

3. Formation du secondaire II technologique 4. Formation du secondaire II générale 5. Etudes supérieures141

6. Emploi

7. Ni en éducation ni en emploi142

Dans le paragraphe qui suit, nous explicitons l’intérêt d’utiliser l’imputation multiple pour estimer nos valeurs manquantes dans les séquences de certains individus, ses implications et ses principes.

2.1.1.1 La gestion des valeurs manquantes dans DEPP-EVA par imputation multiples

Dans les études empiriques, il arrive fréquemment que les données comportent des valeurs manquantes qui peuvent se retrouver aussi bien dans les variables explicatives que dans les variables d’intérêt. Ainsi, l’observation incomplète est la règle plus que l’exception. Aussi, il

138

dans la mesure où nous devons observer des trajectoires d’individus présents au moins jusqu’à la vague 2007/2008. 139 Certificat d’Aptitude Professionnelle

140

Brevet d’Etudes Professionnelles 141

Il n’a pas été possible à partir des données de systématiquement distinguer les études académiques des études supérieures plus professionnelles, toutefois la longueur des études donnent tout de même une bonne indication sur le type d’études suivies (les études longues pouvant généralement être considérées comme académiques, tout du moins à vocation plus générale que technique).

142

Situation que nous nommerons par la suite NEET« Not in Education, Employment or Training », catégorie de plus en plus mobilisée par l’OCDE et facilitant les comparaisons internationales.

158

convient d’éviter les biais induits par la non prise en compte de l’absence de ces données. Il existe plusieurs solutions au problème de données manquantes. La plus directe consiste à simplement éliminer toutes les observations qui comportent au moins une variable à valeur manquante. Dans le cas où seulement une faible proportion de l’échantillon est dans cette situation143, c’est une solution rapide et peu dommageable144. Dans notre cas, cela reviendrait à se limiter à un échantillon de 6238 individus.

Or, omettre les observations incomplètes de l’analyse peut biaiser les résultats si les individus qui fournissent les observations complètes ne sont pas distribuées de façon aléatoire dans l’échantillon entier ou ne sont pas représentatifs de l’ensemble des agents (Little et Rubin, 1987). Nous avons tenté de créer des trajectoires-types145 à partir de cet échantillon de 6238 individus. Comme attendu, il en a résulté une large sous-représentation des jeunes de la formation professionnelle (alors qu’ils représentent 27% des jeunes en 2001, dans nos trajectoires-types, à partir de cet échantillon de 6238 personnes, ils ne représentent plus que 9,8%) et une sur-représentation des jeunes des formations académiques. La description de ces trajectoires est développée en annexe 4. Cette tendance confirme le fait que ce sont bien majoritairement des jeunes de la formation professionnelle que nous perdons entre 2002 et 2005.

Une autre solution consiste à construire des trajectoires-types, à partir de la base cylindrée de 10 933 individus, en considérant comme une situation à part entière les valeurs manquantes entre 2002 et 2005 pour les individus perdus ces années là146. Nous avons tenté de regrouper les individus à partir de cette solution. Il en a résulté une meilleure représentation des jeunes de la formation professionnelle147. Cependant, même si les valeurs manquantes concernent majoritairement les trajectoires professionnelles (cette situation fait partie intégrante de la trajectoire), cette solution nous a permis de constater qu’il existait également des valeurs manquantes dans d’autres trajectoires (par exemple, la trajectoire d’enseignement supérieur court après enseignement secondaire technique comptait 10% de valeurs manquantes pour l’année 2003). Ainsi la valeur manquante ne recouvre pas, loin s’en faut, des situations

143

Quand le nombre d’observations incomplètes représente seulement une petite fraction des observations totales, disons 5 % ou moins, alors l’élimination de ces observations peut être une solution parfaitement raisonnable au problème de données manquantes.

144

L’élimination des observations incomplètes représente la solution par défaut des logiciels statistiques usuels. 145

La méthode de regroupement est développée dans le paragraphe suivant. 146

Tel que par exemple (avec la valeur « 9 » pour les missing) :

Année 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

Situation 1 1 1 1 2 2 2 9 9 9 9 6 6

147

Ces trajectoires sont présentées en annexe 5 (Les trajectoires-types en France après codage par la valeur « missing » des observations manquantes).

159

homogènes. Cette caractéristique renvoie notamment au fait que la récupération des personnes par l’enquête EVA ne concerne pas uniquement les jeunes sortis du système éducatif avec une formation professionnelle mais aussi quelques jeunes avec un baccalauréat ayant arrêté leurs études supérieures ou encore n’ayant pas voulu répondre à l’enquête SUP. Par ailleurs, une partie des valeurs manquantes correspond au problème de coordination entre DEPP et EVA, dans les premières années de mise en œuvre de EVA. Cette solution n’était donc pas la plus adéquate car non seulement nous perdions de l’information pour certaines années (l’année où la situation est manquante) mais en plus, nous risquions, via le travail de regroupement, de regrouper artificiellement des individus en fonction d’une caractéristique non-unifiante148

(la valeur manquante).

Une troisième solution consistait à estimer les valeurs manquantes pour les quatre années où les informations sont perdues entre le dispositif DEPP et EVA.

C’est l’option retenue pour construire les trajectoires-types en France. La méthode choisie est celle de l’imputation multiple (Rubin, 1976 ; Rubin, 1987 ; Schafer, 1997). Les travaux portant sur cette méthode d’imputation de valeurs manquantes soulignent, à partir de preuves empiriques et tant que la proportion de données manquantes est raisonnable, qu’elle est aussi efficace tout en étant plus simple à mettre en œuvre que d’autres méthodes complexes comme , l’algorithme espérance-maximisation (Dempster, Laird et Rubin, 1977), l’échantillonnage de Gibbs avec augmentation de données (Tanner et Wong, 1987), l’approche à pseudo panels (Deaton, 1985).

Techniquement, cette méthode, développée par Rubin (1976, 1987) relève d’un processus en trois étapes :

1. m > 1 ensembles de valeurs plausibles pour les données manquantes sont créés.

Chacun de ces ensembles est utilisé pour remplir les données manquantes et ainsi créer m ensembles complets de données, où m peut être petit (entre 3 et 5 suffirait).

2. Chacun de ces m ensembles de données peut être analysé en utilisant les méthodes habituellement utilisées avec des données complètes.

3. Finalement, les résultats des m analyses sont combinés pour produire des estimations et des intervalles de confiance prenant en compte l’incertitude liées aux données manquantes.

Les méthodes d’imputations multiples supposent que les données manquantes sont « missing

at random » (MAR, Rubin, 1976). Cela signifie que la probabilité d’avoir des observations

148

Puisque la valeur « missing » peut représenter des situations très différentes : personnes ayant commencé des études supérieures, ayant stoppé des études supérieures ou s’étant insérées sur le marché du travail avec un diplôme de l’enseignement professionnel etc.

160

manquantes sur Y dépend de variables observées X, mais ne dépend pas des valeurs de Y. Il en résulte qu’il est possible d’estimer Y à partir de X. Cette forme de données manquantes est à distinguer des données « missing completely at random » (MCAR) et « missing not at

random » (MNAR)149. Si l’hypothèse MCAR peut être intuitivement écartée, il peut persister

un doute sur le fait que les données manquantes ne soient pas MNAR.

Or d’une manière générale, l’hypothèse MAR est très souvent mobilisée par des travaux sur des données longitudinales, notamment pour évaluer des vagues de non-réponses, comme dans notre cas (voir par exemple Goldstein, 2009).

Selon Schafer et Graham (2002), mobiliser la méthode d’imputation multiple dans le cadre de données longitudinales, s’avère tout à fait approprié pour les cas de vagues de non-réponses, où des individus disparaissent et ré-apparaissent dans la base dans la mesure où les informations manquantes peuvent être recouvertes à partir d’informations provenant des vagues précédentes et suivantes. Rajoutons que pour Schafer et Graham (2002), l’hypothèse MAR est de plus tout à fait plausible dans le cadre de designs séquentiels de cohorte dans les études longitudinales (ce que l’on appelle des cas de « missing by design »), ce qui est notre cas dans la mesure où les pertes ponctuelles proviennent en partie de la structure du dispositif lui-même (une partie des individus n’est plus suivie par la DEPP car les individus sortent du système scolaire). Soulignons que nous ne pouvons généralement pas dire, à partir des données, quel est le mécanisme de manque (MAR ou MNAR). En effet, il n’est jamais possible de rejeter l’hypothèse MAR en faveur de MNAR sur la base des données observées seulement. Quoiqu’il en soit, les analyses de Collins, Schafer, and Kam (2001) ont démontré qu’une hypothèse erronée de MAR n’engendrait pas de conséquences significatives sur les estimations.

L’hypothèse MAR nous paraît raisonnable compte tenu de nos données et la méthode d’imputation multiple semble adéquate pour notre problème.

149

Toutes les données manquantes ne sont pas de même nature. Little et Rubin (1987) propose une typologie en trois catégories :

Missing Completely At Random (MCAR) : La probabilité d’avoir des observations manquantes sur Y est une

constante

o Ne dépend pas des variables observées X o Ne dépend pas des valeurs de Y

o Cela signifie que l’échantillon d’observé est représentatif de l’ensemble de Y Conséquences : perte de précision (Puissance), Aucun biais

Missing At Random (MAR) : La probabilité d’avoir des observations manquantes sur Y dépend de variables

observées X, mais ne dépend pas des valeurs de Y

Conséquences : Perte de précision (Puissance), Aucun biais avec des méthodes statistiques appropriées

 Missing Not At Random (MNAR): La probabilité d’avoir des observations manquantes sur Y dépend de la variable Y elle même

161

Soulignons que lorsque les données manquantes ne sont pas monotones, en particulier pour les données multivariées incomplètes comme c’est notre cas, on doit procéder à une méthode d’imputation par la méthode dite MCMC (Markov Chain Monte Carlo) (Shaffer, 1997). Techniquement on se sert directement d’un modèle de régression pour générer des valeurs pour les données manquantes. Selon la nature de la variable manquante, le modèle adapté de régression varie. Dans la mesure où notre variable d’intérêt est une variable ordinale discrète (à sept modalités possibles), nous mobilisons donc ici un modèle logistique multinomial. Pour que l’imputation multiple soit efficace il est important de disposer de variables d’estimation les plus complètes possibles. Dans la mesure où les situations de formation ou d’emploi précédentes et suivantes représentent nos principales variables explicatives, il nous faut des observations complètes pour les variables de situation 1995 à 2007, exceptées les situations de 2002, 2003, 2004 et 2005 dont les valeurs manquantes seront imputées. Nous travaillons alors sur un échantillon de 9550150 individus et les valeurs manquantes à estimer pour les situations sont telles que :

Année 2002 2003 2004 2005 Observations complètes 8795 7988 8013 8448

Observations manquantes 755 1562 1537 1102

Nous estimons donc ces valeurs manquantes par le biais d’un modèle d’imputation multiple utilisant une régression logistique multinomiale dont les détails techniques de mise en œuvre sont présentés en annexe 7 (L’imputation multiple – comment gérer les valeurs manquantes ?). Dans les variables explicatives nous prenons en compte les situations 1997, 1998, 1999, 2000, 2001, 2006 et 2007 ainsi que le sexe, la nationalité de la personne, la catégorie socioprofessionnelle des parents151, la performance scolaire en 6ème en mathématiques, la performance scolaire en 6ème en français, les options de langues au collège et le fait que la personne ait fait partie d’une Zone d’Education Prioritaire (ZEP).

150

Les trajectoires feront l’objet d’une pondération pour pallier à l’éventuel biais de cette réduction de l’échantillon. Cette solution nous parait préférable à la suppression pure et simple de l’ensemble des valeurs manquantes et à une estimation comprenant des « missing » dans les séquences.

151

Mieux renseignée que le niveau d’éducation des parents, comprenant quelques valeurs manquantes, et pouvant donc rendre l’imputation moins robuste.

162

2.1.1.2 La construction des trajectoires-types

Le modèle d’imputation multiple nous a permis de créer des séquences complètes de situation pour l’ensemble des individus de notre échantillon de 9550 personnes. Les trajectoires feront alors par la suite l’objet d’une pondération. Nous construisons des trajectoires-types en rapprochant les individus qui ont connu les mêmes situations aux mêmes moments. La méthode de classification employée est la Méthode d’Appariement Optimal (« Optimal Matching »), sous le logiciel R, et plus précisément du package TraMineR, développé par Gabadinho et al (2011).

Les Méthodes d’Appariement Optimal permettent de comparer le degré de similarité de séquences. Elles bâtissent alors des typologies de séquences c’est-à-dire qu’elles rapprochent des suites d’éléments. Le calcul d’une distance entre chaque individu se fait en fonction du nombre de transformations nécessaires pour passer d’une séquence à une autre. Le résultat se présente sous la forme d’une matrice symétrique de distances.

Une fois que la matrice a été calculée, une méthode de regroupement est appliquée pour agréger les séquences en un nombre réduit de groupes. La méthode appliquée est la méthode Ward.

Outline

Documents relatifs