• Aucun résultat trouvé

L ES DONNÉES MOBILISÉES

2.1 Les données utilisées

2.1.2 Appariement des données

Une fois fusionnées, les données SISE et STS/CPGE permettent de recenser l’en-semble des inscriptions dans le supérieur couvertes par le dispositif SISE ou dispen-sées dans les lycées publics ou privés sous contrat (CPGE et STS) au cours de la période 2006-2016.

La base de données principale de l’étude a été construite par appariement de ces deux systèmes d’information avec les données sur les examens du brevet et du baccalauréat (OCEAN), sur la base de l’identifiant étudiant qui figure dans chacune des données sources.

Une seconde base de données a été construite par appariement de la base pré-cédente avec les données FAERE, dans le but de suivre jusqu’à la fin de leurs études supérieures les élèves qui étaient scolarisés en classe de troisième en 2006-2007.

3. Scolaire, libre, formation à distance, etc.

2.1.3 Limites

Malgré leur très grande richesse, les données mobilisées dans le cadre de cette étude présentent un certain nombre de limites qu’il est important de souligner.

Taux de couverture des données. Une première limitation est que les données SISE et STS/CPGE n’assurent pas une couverture exhaustive des étudiants inscrits dans l’enseignement supérieur : les étudiants des formations paramédicales et so-ciales ne sont pas couverts par ces données, tout comme les étudiants des écoles artistiques et culturelles, des écoles de journalisme, des écoles préparant aux fonc-tions sociales et des écoles d’architecture. Il faut par ailleurs noter que parmi les grandes écoles renommées, l’ENA n’est pas incluse dans le dispositif SISE. D’après les statistiques publiées par la DEPP et le SIES (MENESR, 2016), on peut estimer à environ 90 % la part des étudiants du supérieur qui sont couverts par les données mobilisées dans notre étude pour l’année universitaire 2016-2017.

L’analyse longitudinale des grandes écoles est par ailleurs compliquée par le fait que le taux de couverture de ces établissements d’enseignement supérieur par le système d’information SISE a varié au cours du temps : entre 2006 et 2016, le nombre de grandes écoles présentes dans ces données a beaucoup augmenté, passant de 145 à 234 (voir figure 2.1). Pour éviter que la mesure des évolutions du recrutement des grandes écoles ne soit biaisée par cette augmentation du taux de couverture, nos analyses sont réalisées à champ constant. Selon la période ou la cohorte considérées, nos calculs sont effectués soit sur le champ des grandes écoles qui étaient couvertes par les données SISE en 2006, soit sur le champ 2008, soit sur le champ 20104.

Qualité de renseignement des variables. Outre la couverture non-exhaustive des établissements d’enseignement supérieur et l’augmentation du nombre de grandes

4. La liste des écoles incluses dans ces différents champs est fournie dans l’annexe du rapport.

FIGURE 2.1Évolution du nombre de grandes écoles présentes dans les don-nées SISE entre 2006 et 2016

050100150200250Nombre de grandes écoles couvertes par SISE

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

Lecture :Entre 2006 et 2016, le nombre de grandes écoles présentes dans les données SISE est passé de 145 à 234.

Champ :Grandes écoles couvertes par le système d’information SISE.

Source :Données SISE (MESRI-SIES).

écoles recensées dans les données SISE, une seconde limite des données mobilisées dans cette étude tient au fait que le taux de renseignement de certaines des va-riables utilisées dans l’analyse a varié au cours du temps.

Pour l’année universitaire 2016-2017, la plupart des variables relatives aux ca-ractéristiques démographiques des étudiants (académie, sexe, catégorie socio-professionnelle des représentants légaux) sont renseignées de façon quasi exhaus-tive, quelle que soit le type de formation considéré : université, IUT, STS, CPGE, école post-bac ou grande école (voir figure 2.2). Les biais potentiellement induits par le non-renseignement de certaines variables lorsqu’on compare les différentes catégories de formations selon ces dimensions en 2016-2017 semblent donca priori limités. L’identifiant national étudiant (INE)5est quant à lui renseigné pour un peu plus de 90 % des étudiants. L’absence d’INE peut correspondre à une absence de remontée d’information de la part de l’établissement d’inscription, liée notamment

5. Dans les données mobilisées dans le cadre de cette étude, l’INE a fait l’objet d’une opération cryptographique lui substituant un code spécifique non signifiant.

au fait que l’étudiant ne possède pas d’INE au moment de son inscription (cas des étudiants étrangers, par exemple). Pour les étudiants dont l’INE n’est pas renseigné, il n’est pas possible de connaître leurs résultats au baccalauréat. Cependant, leur inscription est traitée au même titre que les autres inscriptions dans notre analyse principale.

Pour les années antérieures à 2016-2017, les taux de renseignement des va-riables relatives au sexe des étudiants ou à la catégorie socio-professionnelle (PCS) du représentant légal sont élevés et n’ont pas varié sensiblement au cours du temps, quel que soit le type de formation. Il est donc possible d’analyser sans risque de biais l’évolution du recrutement des formations d’enseignement supérieur selon ces dimensions au cours de la décennie 2006-2016.

En revanche, la qualité des informations relatives à l’INE et, par conséquent, au baccalauréat (ces informations étaient obtenues par appariement des fichiers SISE et STS/CPGE avec les données OCEAN) a fluctué au cours de la période 2006-2016.

Pour les CPGE et les STS, 100 % des INE étaient manquants en 2008, et ils n’étaient renseignées que pour environ 20 % des étudiants en 2007 (voir figures 2.2c et 2.2d). C’est pourquoi les analyses consacrées dans le chapitre 7 à l’évolution du pro-fil scolaire et de l’origine géographique (académie du baccalauréat) des étudiants des formations supérieures de niveau bac+1 et bac+2 ne commencent qu’en 2009 et celles consacrées à l’évolution de l’origine post-bac des étudiants des grandes écoles ne débutent qu’en 2010.

Bien que l’INE soit renseigné pour plus de 90 % des étudiants des grandes écoles de niveau bac+3 tout au long de la période 2006-2016, la qualité des INE rensei-gnés dans les données SISE-Grandes écoles ne permet d’obtenir un taux d’apparie-ment satisfaisant avec les données relatives au baccalauréat qu’à partir de 2008.

C’est la raison pour laquelle nous avons choisi de ne faire débuter les analyses por-tant sur l’évolution du profil scolaire et de l’origine géographique des étudiants des grandes écoles (chapitre 7) qu’à partir de cette date, l’origine géographique étant

FIGURE2.2Évolution du taux de renseignement des principales variables par type de formation, 2006-2016

(a)Université (hors IUT)

0%

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

PCS Bac

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

PCS Bac

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

PCS Bac

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

PCS Bac

INE Genre

(e)Écoles post-bac (bac+1/2)

0%

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

PCS Bac

INE Genre

(f)Grandes écoles (bac+3)

0%

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

PCS Bac

INE Genre

Lecture :Le genre, la catégorie-socio professionnelle (PCS) du parent référent et l’INE des étudiants des grandes écoles de niveau bac+3 sont renseignés de façon stable au cours de la période 2006-2016, avec un taux de renseignement compris entre 90 et 100 %. Le taux de renseignement des informations relatives au baccalauréat obtenu par les étudiants des grandes écoles n’est supérieur à 80 % qu’à partir de 2008.

Champ :Étudiants français inscrits dans les formations d’enseignement supérieur de niveau bac+1 à bac+3 au cours de la période 2006-2016, hors formations paramédicales et sociales, écoles d’architecture, de journalisme et écoles artistiques et culturelles.

Sources :Données SISE (MESRI-SIES), STS/CPGE et OCEAN (MENJS-DEPP).

identifiée à partir du département où était situé le lycée fréquenté par les étudiants en classe de terminale.