• Aucun résultat trouvé

Étude des inégalités de genre en début de carrière académique à l'aide de méthodes innovatrices d'analyse de données séquentielles

N/A
N/A
Protected

Academic year: 2022

Partager "Étude des inégalités de genre en début de carrière académique à l'aide de méthodes innovatrices d'analyse de données séquentielles"

Copied!
261
0
0

Texte intégral

(1)

Thesis

Reference

Étude des inégalités de genre en début de carrière académique à l'aide de méthodes innovatrices d'analyse de données séquentielles

STUDER, Matthias

Abstract

Cette thèse est consacrée à l'analyse quantitative des inégalités de genre en début de carrière académique en Suisse: devenir assistant, réaliser un doctorat puis les premières années qui suivent son obtention. Dans cette étude, nous mettons notamment en évidence la variation de l'intensité des inégalités en fonction des contextes et des marchés du travail ainsi que les différentes formes qu'elles peuvent prendre. Nous étudions ces inégalités à l'aide des méthodes d'analyses de séquences basées sur le calcul de distances. Nous présentons dans un cadre commun les différentes méthodes développées de manière éparse à ce jour et nous les comparons à l'aide de simulations. Diverses méthodes d'analyses exploratoires de ces distances sont présentées. Un nouveau cadre méthodologique est développé afin de mesurer et d'attester de la significativité de la relation entre séquences et contextes. Ces dernières méthodes sont utilisées pour analyser les différences hommes-femmes tout au long de leur trajectoire.

STUDER, Matthias. Étude des inégalités de genre en début de carrière académique à l'aide de méthodes innovatrices d'analyse de données séquentielles . Thèse de

doctorat : Univ. Genève, 2012, no. SES 777

URN : urn:nbn:ch:unige-220543

DOI : 10.13097/archive-ouverte/unige:22054

Available at:

http://archive-ouverte.unige.ch/unige:22054

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Étude des inégalités de genre en début de carrière académique à l’aide de méthodes innovatrices d’analyse de

données séquentielles

T HÈSE

présentée à la Faculté des sciences économiques et sociales de l’Université de Genève par

Matthias S TUDER

sous la codirection des professeurs

Nicky L E F EUVRE , Université de Lausanne Gilbert R ITSCHARD , Université de Genève

pour l’obtention du grade de

Docteur ès sciences économiques et sociales mention socioéconomie

Membres du jury:

Prof. Cees E

LZINGA

, Université libre d’Amsterdam, Pays-Bas Prof. Farinaz F

ASSA

, Université de Lausanne

Prof. Nicky L

E

F

EUVRE

, Université de Lausanne (codirectrice) Prof. Michel O

RIS

, Université de Genève (président du Jury) Prof. Gilbert R

ITSCHARD

, Université de Genève (codirecteur)

Thèse n

o

777

Genève, le 4 juin 2012

(3)

La Faculté des sciences économiques et sociales, sur préavis du jury, a autorisé l’impression de la présente thèse, sans entendre, par là, émettre aucune opinion sur les propositions qui s’y trouvent énoncées et qui n’engagent que la responsabilité de leur auteur.

Genève, le 4 juin 2012

Le doyen BernardMorard

Impression d’après le manuscrit de l’auteur

(4)

Remerciements

Cette thèse est le fruit d’une longue trajectoire, et même si une grande partie du chemin se fait seul, ce travail doit beaucoup à l’environnement dont j’ai bénéficié et aux personnes que j’ai côtoyées. Je tiens à les remercier toutes et tous, et je m’excuse par avance si certaines d’entre elles venaient à manquer.

Mes premiers remerciements vont au professeur Gilbert Ritschard, codirecteur de ma thèse, qui m’a donné l’occasion de la réaliser tout en travaillant comme assistant. Je lui suis très reconnaissant pour tout ce qu’il m’a appris, pour les aides apportées, même si elles paraissaient parfois futiles, pour les encouragements à écrire et à terminer ainsi que pour la confiance accordée. Je tiens à remercier la professeure Nicky Le Feuvre, codirectrice de ma thèse, pour les discussions sur les orientations de mes recherches. Grâce à elle, mes travaux ont pris de l’ampleur.

Je remercie sincèrement le professeur Michel Oris d’avoir accepté d’être le pré- sident du Jury, le professeur Cees Elzinga d’avoir accepté de faire partie du Jury malgré la langue et la professeure Farinaz Fassa pour ses remarques constructives lors des présentations où elle a été ma discutante. Je remercie vivement l’ensemble du Jury pour leur relecture attentive et leurs remarques très constructives lors du colloque de thèse.

Le chapitre 6 n’aurait pas pu exister sans les données sur lesquelles les analyses sont fondées. Je remercie particulièrement le Vice-Recteur Yves Flückiger d’avoir donné son accord ainsi que Caroline Favre et Jean-Marc Dubois du bureau des statistiques de l’Université de Genève pour m’avoir fourni les données.

J’ai eu beaucoup de plaisir en étant assistant au département d’économétrie puis de sciences économiques. Je remercie mes collègues pour les discussions et leurs remarques. Les discussions menées au sein de l’association pour le corps in- termédiaire ont fortement influencé cette thèse. La qualité des débats et notre mode de discussion m’ont permis d’avoir une vision d’ensemble sur l’Université et de comprendre les enjeux d’autres disciplines.

(5)

Les influences dont j’ai bénéficié pendant cette période dépassent largement le cadre académique. Je remercie mon père et ma mère pour leur soutien. Je n’aurais sans doute jamais été capable de terminer cette thèse sans ce que m’ont appris Hervé et Mariela, au tango comme dans le reste de ma vie. Même si l’on ne se voit plus souvent, vos enseignements m’accompagnent à chaque instant. Je remercie tous mes amis pour les moments sans thèse et pour m’en avoir sorti. Merci à Nicolas d’avoir été là, dans les moments durs comme dans les meilleurs. Et enfin, merci au tango d’exister et à tous les tanguer@s pour les danses et les discussions partagées en musique.

Ma trajectoire familiale s’est construite en parallèle de ma trajectoire doctorale.

Les vies sont liées et la leur a croisé mon doctorat. La conciliation thèse–famille est un défi de chaque instant et je tiens à remercier chaleureusement ma mère et mes belles-familles pour la garde de mes enfants.

Du fond du coeur, je remercie Léo et Naomi, mes enfants, pour le bonheur apporté au quotidien et Laïla, ma compagne, pour son soutien, ses encouragements à terminer et les merveilleux moments passés ensemble. Si les vies sont liées, pour mon plus grand bonheur, la mienne s’entrecroise avec les vôtres. Cette thèse vous est dédiée.

(6)

Résumé

Plutôt que d’étudier l’accès au professorat, nous nous proposons d’examiner dans cette thèse les chemins qui mènent au doctorat, passage obligé pour se lancer dans une carrière académique. En Suisse comme en Europe, cette étape marque le moment où la proportion des hommes commence à dépasser celle des femmes (Directorate-General for Research, 2009).

En Suisse, la réalisation d’un doctorat se finance généralement en travaillant comme assistant ou dans le cadre d’un projet de recherche (Koller et Meffre, 2010).

En suivant cette logique, nous analysons dans le chapitre 5 les trajectoires qui mènent à l’assistanat. Dans le chapitre 6, nous nous centrons sur les trajectoires d’assistanat au sein de l’Université de Genève, que nous mettons ensuite en relation avec l’obtention d’un titre de docteur. Finalement, nous étudions dans le chapitre 7 les trajectoires qui suivent l’obtention du doctorat.

Dans chacune de ces analyses, nous accordons une attention particulière aux variations de ces inégalités en fonction des contextes institutionnels (chapitre 6) et des disciplines (chapitres 5 et 7) afin de mettre en lumière la part structurelle des inégalités. Nous abordons également l’importance de l’articulation genrée entre trajectoires professionnelle et familiale, les critères d’âge ainsi que l’importance de l’origine sociale.

Pour mener à bien ces analyses, nous développons de nouvelles méthodes d’ana- lyses des trajectoires basées sur les distances. Ces méthodes novatrices permettent de répondre aux défis posés par cette problématique. En effet, il est nécessaire d’adopter une perspective longitudinale pour mesurer les inégalités dans les pro- cessus de sélection aux différentes étapes qui mènent à la carrière académique. Ces méthodes permettent également de décrire la multiplicité des situations possibles à chaque moment de la trajectoire, ce qui est important pour prendre en compte les carrières alternatives à la carrière académique. Cette approche nous permet- tra de situer la carrière académique dans le marché du travail dans son ensemble et d’étudier les différences de conditions offertes aux assistants et l’impact de ces différences sur la suite.

Depuis leur introduction en sciences sociales par Abbott à la fin des années quatre-vingt (Abbott et Forrest, 1986), l’analyse de séquences basée sur le calcul de distances est devenue l’une des méthodes privilégiées pour analyser des trajectoires.

Contrairement à l’analyse d’événements biographique centrée sur la survenance d’un événement précis, l’analyse de séquences adopte une perspective holistique en prenant comme unité d’analyse la trajectoire dans son ensemble. Il est ainsi possible d’étudier les patterns récurrents dans les trajectoires ou encore de prendre

(7)

en compte la multiplicité des états possible.

Techniquement, l’analyse de séquences repose sur une mesure de distance entre trajectoires codées sous forme de séquences d’états, ce qui permet de les compa- rer (Abbott et Forrest, 1986; Elzinga, 2003; Müller et al., 2008). Depuis les premiers développements d’ Abbott et Forrest (1986) qui se basaient sur l’appariement op- timal des séquences et suite aux vives critiques émises par Levine (2000) et Wu (2000), un grand nombre de nouvelles mesures de distances a vu le jour (Aisenbrey et Fasang, 2010). Développées de manières éparses, ces mesures n’ont pas encore fait l’objet d’une comparaison systématique. Dans ce but, le chapitre 1 donne une présentation théorique de ces mesures et le chapitre 2 propose une comparaison de la sensibilité de ces mesures de distances à différents critères utilisés dans la comparaison des processus. Réalisée sur la base de simulations, cette comparaison nous permet de construire une cartographie des mesures de distances.

En pratique, les distances entre trajectoires sont généralement utilisées pour construire une typologie des trajectoires, ce qui permet d’identifier les trajectoires types, c’est-à-dire des régularités observées dans la construction des trajectoires. En réduisant la complexité de l’analyse, cette technique offre un point de vue descrip- tif synthétique sur les séquences. Nous présentons ces analyses dans le chapitre 3 ainsi que diverses méthodes qui permettent de mesurer la qualité de cette réduc- tion d’information. Ces dernières méthodes ne sont que trop peu utilisées dans la littérature, mais elles permettent de répondre aux critiques formulées par Levine (2000) sur le manque de validation des résultats.

Au-delà de l’approche descriptive, les études ayant recours à l’analyse de sé- quences s’intéressent généralement aux facteurs qui influencent la construction d’une trajectoire (Abbott et Tsay, 2000; Hollister, 2009). Nous nous demanderons ainsi si les femmes empruntent des trajectoires différentes de celles des hommes.

Pour mesurer ces liens entre trajectoires et facteurs explicatifs, il est d’usage de mettre en relation les types obtenus avec d’autres facteurs d’intérêt, tels que le sexe, à l’aide de régressions logistiques ou de tests d’association. Cependant, en se centrant sur les types de trajectoires, on perd de l’information, ce qui peut conduire à des conclusions trompeuses. Sociologiquement, les hypothèses qui sous-tendent cette méthode sont également sujettes à discussion.

En nous basant sur les travaux de Mielke et Berry (2007), Anderson (2001), McArdle et Anderson (2001) et Batagelj (1988), nous présentons dans le chapitre 4 un ensemble de méthodes qui permet d’analyser les liens entre les séquences d’une part et un ou plusieurs facteurs explicatifs d’autre part. Originellement utilisées en écologie, ces méthodes reposent sur la définition d’une mesure de dispersion des sé- quences et sur une généralisation des principes de l’analyse de variance (ANOVA) à tous types de dissimilarités. Conceptuellement, ces méthodes permettent un chan- gement de paradigme. Plutôt que de se baser sur la recherche de modèles de tra- jectoires, nous considérons qu’elles sont insérées dans des contextes multiples qui peuvent influencer — chacun à sa manière — la construction d’une trajectoire. Ces méthodes complètent donc l’analyse de séquences traditionnelle, principalement exploratoire, par une approche confirmatoire.

(8)

Table des matières

Introduction 1

I Analyse de données séquentielles 9

1 Calcul de dissimilarités entre séquences 11

1.1 Séquence d’états . . . 12

1.1.1 Visualisation des séquences d’états . . . 13

1.2 Notion de distance . . . 15

1.3 Appariement optimal . . . 17

1.3.1 Interprétation des coûts . . . 18

1.3.2 Principales critiques . . . 21

1.3.3 Stratégie de définition des coûts . . . 21

1.4 Variantes de l’appariement optimal . . . 26

1.4.1 Appariement optimal localisé . . . 27

1.4.2 Appariement optimal sensible aux durées . . . 28

1.4.3 Appariement optimal des épisodes . . . 29

1.4.4 Appariement optimal des transitions . . . 30

1.5 Distance de Hamming dynamique . . . 32

1.6 Mesures basées sur les sous-séquences . . . 32

1.7 Distance basée sur les relations dans le temps . . . 33

1.8 Conclusion . . . 34

2 Comparaison des mesures de distance 37 2.1 Mise en œuvre des simulations . . . 39

2.1.1 Génération aléatoire de séquences . . . 39

2.1.2 Mesure de la sensibilité . . . 41

2.2 Mesures de distance . . . 42

2.3 Résultats des simulations . . . 46

2.3.1 Ordonnancement des séquences . . . 46

2.3.2 Temporalité des séquences . . . 56

2.4 Comparaison générale des mesures de distance . . . 63

3 Analyse exploratoire de séquences 71 3.1 Analyse en coordonnées principales . . . 72

3.2 Le manuel de la librairie « WeightedCluster » . . . 74

3.2.1 Typologie de séquences en sciences sociales . . . 75

(9)

3.2.2 Installation et chargement . . . 76

3.2.3 Étapes de l’analyse en clusters . . . 76

3.2.4 Le clustering . . . 78

3.2.5 Mesurer la qualité d’une partition . . . 84

3.2.6 Mettre en lien trajectoires-types et facteurs explicatifs . . . . 92

3.2.7 Conclusion . . . 96

3.3 Clustering des trajectoires de jeunes docteurs . . . 97

3.A Annexes au manuel de « WeightedCluster » . . . 99

3.A.1 Agréger les séquences identiques . . . 99

3.A.2 Notes sur les performances . . . 100

3.A.3 Détails des mesures de qualité . . . 102

3.A.4 Construction de la variable test . . . 104

4 Discrepancy Analysis of State Sequences 105 4.1 Literature review . . . 108

4.2 Illustrative data set . . . 109

4.3 Discrepancy of a set of sequences . . . 109

4.3.1 Discrepancy based on dissimilarities . . . 111

4.3.2 Contribution to the sum of squares . . . 111

4.4 Comparing groups of sequences . . . 112

4.4.1 Measuring association . . . 112

4.4.2 Assessing statistical significance . . . 113

4.4.3 Testing differences in within-group discrepancies . . . 115

4.4.4 Simulation study of the tests’ behavior . . . 116

4.5 Studying and rendering group differences . . . 120

4.6 Multi-factor discrepancy analysis . . . 123

4.7 Tree-structured analysis of sequences . . . 126

4.8 Running sequence discrepancy analysis in R with TraMineR . . . 128

4.9 Conclusion . . . 130

4.A Proofs . . . 131

4.B Should dissimilarities be squared? . . . 133

4.C About the number of permutations in permutation tests . . . 134

II Inégalités de genre en début de carrière académique 137

5 Devenir assistant 139 5.1 Trajectoires types d’insertion sur le marché du travail . . . 142

5.2 Mesurer les différences de trajectoires . . . 145

5.2.1 Visualisation des différences . . . 146

5.2.2 Interprétation des résultats . . . 149

5.3 Analyses multifacteurs . . . 150

5.3.1 Ségrégation horizontale . . . 152

5.3.2 Âge . . . 156

5.3.3 Trajectoire familiale . . . 156

5.3.4 Origine sociale . . . 158

5.4 Conclusion . . . 159

(10)

Table des matières ix ix 6 Assistanat et doctorat à l’Université de Genève 161

6.1 Présentation des données . . . 163

6.2 Analyse des trajectoires d’assistanat . . . 164

6.2.1 Typologie des trajectoires . . . 165

6.2.2 Analyse de dispersion des séquences . . . 168

6.2.3 Analyses multiniveaux des types de trajectoires . . . 171

6.2.4 Analyses multiniveaux des états occupés . . . 176

6.2.5 Comparaisons des méthodes d’inférences sur les trajectoires . 181 6.2.6 Conclusion sur les différences de trajectoires . . . 183

6.3 Obtention du doctorat . . . 184

6.3.1 Modèle de survie à temps discret multiniveau . . . 185

6.3.2 Modèles de durée du doctorat . . . 186

6.3.3 Conclusion . . . 194

7 Et après ? 195 7.1 Expliquer les différences de trajectoires . . . 195

7.1.1 Interaction entre sexe et discipline . . . 197

7.1.2 Interaction entre trajectoire familiale et sexe . . . 198

7.2 Conclusion . . . 199

Conclusion 200

Annexes 211 A Évaluation des mesures de distance : résultats détaillés 211 B Trajectoires de jeunes diplômés 225 B.1 Présentation des données . . . 225

B.2 Définition des variables . . . 226

B.3 Calcul des dissimilarités entre séquences . . . 226

B.4 Analyses multifacteurs des trajectoires de titulaires d’un Master . . . 226

B.5 Module rétrospectif . . . 228

C Université de Genève 229 C.1 Définition des variables . . . 229

C.2 L’assistanat à l’Université de Genève . . . 229

C.3 Typologies des trajectoires de fonctions et de taux . . . 231

C.3.1 Trajectoires de fonction . . . 231

C.3.2 Trajectoires de taux d’occupation . . . 233

Bibliographie 235

(11)
(12)

Liste des tableaux

1.1 Exemple de matriceγ. . . 18

1.2 Coûts de substitution : exemple. . . 19

1.3 Distance de Levenshtein II : exemple. . . 20

1.4 Distance d’appariement optimal : exemple. . . 20

1.5 Coûts de substitution définis selon les propriétés des états et la dis- tance de Gower . . . 22

1.6 Coûts de substitution estimés en fonction du futur commun . . . 25

1.7 Distance d’appariement optimal localisé entre trois séquences exemples 27 1.8 Propriétés des mesures de distance entre séquences d’états . . . 36

2.1 Mesures de distance testées dans toutes les simulations. . . 43

2.2 Mesures de distance testées dans les simulations basées sur les évé- nements. . . 44

2.3 Matrice des corrélations variables-facteurs . . . 63

2.4 Analyses en composantes principales. . . 68

3.1 Algorithmes de regroupements hiérarchiques. . . 81

3.2 Mesures de la qualité d’un regroupement. . . 85

3.3 Ordres de grandeur pour interpréter la mesureASW . . . 86

3.4 Médoïdes des types obtenus. . . 98

4.1 List of Covariates . . . 110

4.2 Test of Association of Each Covariate with the School-to-Work Tra- jectories . . . 115

4.3 Test of Homogeneity of the Within-group Discrepancies . . . 116

4.4 Random Models Used for Generating the Simulated Data . . . 118

4.5 Multi-Factor Discrepancy Analysis . . . 125

4.6 Probability P(ˆp < 1.2p | p) of Not Exceeding p by More Than 20% and 95% Inconclusive Interval When the True Value is pfor a Selection ofR Values . . . 135

5.1 Répartition hommes – femmes en fonction des disciplines . . . 140

5.2 Tests univariés des différences de trajectoires de statuts en fonction des variables explicatives . . . 146

5.3 Tests univariés des différences de trajectoires de taux en fonction des variables explicatives . . . 146

(13)

5.4 Analyses multifacteurs des trajectoires de statuts . . . 151

5.5 Analyses multifacteurs des taux d’engagements . . . 151

5.6 Régression de l’adéquation entre la formation et poste occupé et du revenu, 5 ans après. . . 154

6.1 Statistiques descriptives des types de trajectoires de fonctions . . . . 166

6.2 Statistiques descriptives des types de trajectoires de taux d’engagement168 6.3 Analyses bivariées de dispersion des trajectoires . . . 169

6.4 Analyses multifacteurs de dispersion des trajectoires . . . 169

6.5 Modèles multiniveaux des trajectoires de fonctions . . . 174

6.6 Modèles multiniveaux des trajectoires de taux d’engagement . . . 176

6.7 Modèles multiniveaux de la probabilité de ne pas avoir de poste d’assistants . . . 179

6.8 Modèles multiniveaux des taux d’engagement . . . 180

6.9 Modèles multiniveaux de la probabilité d’avoir plus d’un contrat . . 182

6.10 Modèles multiniveaux de l’obtention du doctorat . . . 187

6.11 Modèles multiniveaux de l’obtention du doctorat suite à la trajec- toire d’assistanat . . . 189

7.1 Tests univariés entre trajectoires et variables explicatives . . . 196

7.2 Tableau croisé entre sexe et enfant . . . 199

A.1 Résultats détaillés : ordonnancement strict. . . 212

A.2 Résultats détaillés : ordonnancement partiel. . . 213

A.3 Résultats détaillés : sensibilité à l’ajout d’un état. . . 214

A.4 Résultats détaillés : sensibilité au bruit. . . 215

A.5 Résultats détaillés : sensibilité au bruit (longueur trois). . . 216

A.6 Résultats détaillés : sensibilité au positionnement (début ABC). . . . 217

A.7 Résultats détaillés : sensibilité au positionnement (ABC). . . 218

A.8 Résultats détaillés : sensibilité au positionnement (début ABCDE). . 219

A.9 Résultats détaillés : sensibilité à l’alignement (ABCDE). . . 220

A.10 Résultats détaillés : sensibilité aux événements (deux événements). . 221

A.11 Résultats détaillés : sensibilité aux événements (trois événements). . 222

A.12 Résultats détaillés : sensibilité au temps total passé dans un état. . . 223

B.1 Définition des variables . . . 226

B.2 Analyses multifacteurs des trajectoires de statuts . . . 226

B.3 Analyses multifacteurs des taux d’engagements . . . 227

C.1 Définitions des variables . . . 229

C.2 Typologie des fonctions d’assistants . . . 232

(14)

Table des figures

1 Répartition hommes – femmes à l’Université de Genève en 2007 . . . 1

1.1 Chronogramme des séquences de statuts occupés des jeunes docteurs 14 1.2 Index-plot des séquences de taux d’occupation des jeunes docteurs . 14 1.3 Représentation graphique des coûts (Gower). . . 23

1.4 Représentation graphique des coûts. . . 26

2.1 Chronogrammes des séquences générées selon un motif strict. . . 48

2.2 Résumé des résultats : ordre strict. . . 49

2.3 Chronogramme des séquences générées selon un motif partiel. . . 51

2.4 Résumé des résultats : ordre partiel. . . 52

2.5 Chronogramme des séquences différenciées par un état unique. . . . 52

2.6 Résumé des résultats : état unique. . . 53

2.7 Chronogramme des séquences avec introduction de bruit (longueur un). . . 54

2.8 Résumé des résultats : bruits. . . 55

2.9 Chronogramme des séquences différenciées par la position d’un état. 57 2.10 Résumé des résultats : position des états. . . 58

2.11 Chronogramme des séquences générées en déplaçant un événement. . 59

2.12 Résumé des résultats : position des événements. . . 60

2.13 Résumé des résultats : positionnement des événements. . . 61

2.14 Chronogramme des séquences différenciées par le temps total. . . 62

2.15 Résumé des résultats : temps total. . . 62

2.16 Score moyen sur les simulations de temporalité et d’ordonnancement. 64 2.17 Cartographie des distances : axes spécialisation et temporalité. . . . 66

2.18 Cartographie des distances : axes temporalité et ordonnancement. . 67

3.1 Séquences ordonnées selon une analyse en coordonnées principales. . 73

3.2 Représentation dans le plan des séquences. . . 73

3.3 Évolution de l’ASW pour différentes mesures de distance. . . 97

3.4 Évolution du temps de calcul en fonction denetk . . . 101

3.5 Évolution du temps relatif en fonction denet k. . . 102

4.1 Empirical Distribution of the F Statistic under Independence with livboth . . . 114

4.2 Simulation Results . . . 119

4.3 Trajectories of Grammar and Non-Grammar School Students . . . . 121

(15)

4.4 Time Evolution of the PseudoR2andL, Six-months Sliding Windows122 4.5 Time Evolution of Within-group and Overall Discrepancies, Six-

months Sliding Windows . . . 122

4.6 Sequence Regression Tree . . . 128

5.1 Typologie des trajectoires de statuts occupés. . . 143

5.2 Typologie des trajectoires de taux d’engagements. . . 144

5.3 Évolution des caractéristiques des trajectoires des hommes et des femmes. . . 147

5.4 Évolution des caractéristiques des trajectoires des hommes et des femmes. . . 148

5.5 Évolution des différences hommes–femmes de taux d’engagement. . . 149

5.6 Arbre de régression sur les séquences de statuts. . . 152

5.7 Différences de trajectoires de statut hommes – femmes dans quelques disciplines. . . 153

5.8 Interaction entre sexe et âge pour expliquer les différences de taux d’engagements. . . 157

5.9 Interaction entre sexe et trajectoire familiale pour expliquer les dif- férences de taux d’engagements. . . 157

5.10 Interaction entre sexe et origine sociale pour expliquer les trajectoires de statuts. . . 158

6.1 Typologie des trajectoires des types de fonctions . . . 167

6.2 Typologie des trajectoires des taux d’occupation . . . 167

6.3 Différences hommes – femmes de trajectoires de taux d’occupation . 170 6.4 Évolution de l’association entre genre et trajectoires de taux d’en- gagement totaux . . . 171

6.5 Densité des probabilités estimées de suivre un type de trajectoire de fonctions dans une section. . . 175

6.6 Répartition des sections selon la probabilité de suivre une trajectoire de taux supérieur ou égal à chaque type . . . 175

6.7 Courbes de survies et de risques instantanés d’obtenir un doctorat . 187 6.8 Variation de la survie au doctorat selon les sections . . . 190

6.9 Relation entre tendance au doctorat et inégalité dans les sections . . 192

7.1 Évolution des différences de statut entre hommes et femmes. . . 196

7.2 Évolution des caractéristiques des trajectoires des hommes et des femmes (statistique implicative). . . 197

7.3 Arbre de régression sur les trajectoires de statuts : interaction entre sexe et discipline. . . 198

7.4 Arbre de régression sur les trajectoires de taux : interaction entre sexe et trajectoire familiale. . . 199

C.1 Qualité des partitions des trajectoires de fonctions. . . 234

C.2 Qualité des partitions des trajectoires de taux. . . 234

(16)

Introduction

Le phénomène du plafond de verre frappe tout autant le monde académique que celui de l’entreprise privée (Pigeyre et Valette, 2004). Alors que la majorité des études sur le plafond de verre à l’Université se centrent sur l’accès au corps professoral (Beaufaÿs et Krais, 2005; Sabatier et al., 2006, par exemple) ou la pé- riode qui suit immédiatement le doctorat (Leemann et Stutz, 2008; Leemann et al., 2010), nous nous proposons d’étudier les chemins qui mènent au doctorat, passage obligé pour se lancer dans une carrière académique (Musselin, 2008). Cette étape marque également, à l’Université de Genève — figure 1 (Bureau des statistiques, 2007, calculs propres) — comme dans le reste de l’Europe (Directorate-General for Research, 2009), le moment où la proportion des hommes commence à dépasser celle des femmes.

Etudes de bases Etudes approfondies Doctorats Corps Intermédiaire Corps professoral

20406080

Femmes Hommes

Figure 1 – Répartition hommes – femmes à l’Université de Genève en 2007

Nous démontrons la persistance des inégalités de genre dès les tout premiers pas de la carrière académique. Pour ce faire, nous distinguons deux formes que prennent ces inégalités : l’inégalité des chances et la ségrégation horizontale. La première fait référence à un désavantage systématique des femmes dans l’accès à une certaine étape de la carrière à conditions équivalentes. Ainsi, nous observons qu’à condition équivalenteles femmes ont des chances moindres d’obtenir un poste d’assistant, leur doctorat ou encore un poste de professeur par la suite. Ces diffé- rences sont encore plus grandes si l’on regarde les taux d’engagement, les femmes occupant généralement des postes à taux moindres que les hommes. Comme nous le discuterons dans le chapitre 6, ces différences de taux pourraient cacher de fait des inégalités salariales, si, comme semblent l’indiquer nos résultats, l’exigence de disponibilité totale de la carrière académique amène les assistants à compléter leur temps partiel par du travail non rémunéré.

Les inégalités découlent également des différences dans les conditions de départ

(17)

et notamment de la ségrégation horizontale, c’est-à-dire la répartition inégale des hommes et des femmes entre les disciplines. On observe par exemple un plus grand nombre de trajectoires d’assistanat courtes, qui n’offrent que peu ou pas de chance de terminer l’assistanat avec un doctorat, dans les disciplines féminisées.

Si l’on observe, d’une manière générale, des inégalités de genre, leurs intensi- tés varient selon les contextes et les disciplines. Ainsi, en reprenant l’hypothèse de femmes « winners among loosers » développée par Siemienska (2003) dans une perspective historique, nous montrons, dans le chapitre 5, que les femmes sont par- ticulièrement défavorisées dans les disciplines, telles que les sciences humaines et sociales, où les alternatives à la carrière académique sont plus désavantageuses.

Au contraire, les femmes obtiennent plus facilement des postes d’assistantes dans les disciplines où les carrières alternatives sont avantageuses. Nous observons, de manière similaire, qu’au sein de l’Université de Genève, l’intensité des inégalités varie selon les structures dans lesquelles on travaille. Ainsi, les femmes obtiennent moins souvent que les hommes un titre de docteur dans les structures où peu d’as- sistants en obtiennent. Or, ce type de rareté est connu pour favoriser l’apparition de modes de sélection basés sur des critères « informels » qui tendent à pénaliser plus fortement les carrières féminines (van den Brink et Benschop, 2012).

Les théories qui cherchent à expliquer les inégalités de genre dans la carrière académique peuvent être classées en deux grandes familles (Marry, 2003; Rosende, 2008, 2010) : celles qui se centrent sur les dynamiques individuelles et qui expliquent les inégalités par une forme d’auto-exclusion des femmes et celles qui mettent l’ac- cent sur les pratiques adoptées par une organisation qui pénalisent plus fortement les femmes. À notre sens, l’étude de la variation des inégalités met en lumière la part structurelle et/ou propre aux pratiques organisationnelles dans les inégalités de genre. Certains contextes institutionnels parviennent à éviter des comportements inégalitaires que d’autres contextes semblent mettre en place. De manière similaire, les inégalités sont influencées par la valeur de la carrière académique au sein du marché du travail propre à chaque discipline. Ainsi, au-delà des choix individuels et des processus d’autocensure régulièrement mis en avant dans la littérature, la structure organisationnelle et, d’une manière plus générale, le marché du travail influence les parcours. Repris d’un point de vue politique, cette variation démontre la nécessité d’agir sur les organisations afin de modifier leurs pratiques inégalitaires et qu’il ne suffit pas « d’aider » individuellement les femmes à affronter les diffi- cultés auxquelles elles doivent faire face. Dans la conclusion de cette thèse, nous discutons de plusieurs propositions pour relever ces défis.

Parallèlement à cette mise en évidence des inégalités, nous étudions l’impor- tance de deux facteurs régulièrement avancés dans la littérature pour expliquer les différences de trajectoires entre hommes et femmes (Ulmi et Maurer, 2005) : l’ar- ticulation genrée entre carrière et vie familiale et l’importance de l’origine sociale.

Sans surprises, la carrière des femmes est plus fortement influencée par la trajec- toire familiale que celle des hommes, surtout à l’arrivée du premier enfant. Ces différences sont particulièrement marquées si l’on regarde les taux d’engagement.

Le paradigme des parcours de vie insiste sur la nécessité de situer les probléma- tiques dans les trajectoires individuelles et d’étudier l’interaction des trajectoires (Elder, 1999; Sapin et al., 2007). Cette perspective nous amène à observer que les inégalités aux doctorats sont particulièrement marquées dans les tranches d’âges où

(18)

Données et méthodes de travail 3 3 la trajectoire familiale se construit. On remarquera également que ces tranches cor-

respondent, d’une manière générale, à ceux de la construction des carrières (Laufer, 2005).

Finalement, nous montrons que si l’origine sociale affecte d’une manière géné- rale les chances de devenir assistant, les personnes issues de milieux avec un capital scolaire moindre étant pénalisées, cet effet est significativement plus marqué pour les femmes que pour les hommes. Cette interaction entre sexe et origine sociale pourrait traduire une exigence plus élevée de « capital culturel » chez les femmes pour obtenir un poste d’assistant (Leemann, 2002). Cette interaction illustre égale- ment les dynamiques d’accumulation des désavantages souvent mises en avant dans la littérature. Selon la théorie des désavantages cumulatifs (Dannefer, 2003), l’ac- cumulation de désavantages, même s’ils apparaissent isolément négligeables, peut amener à de grandes différences en fin de trajectoires, chaque désavantage limitant l’accès aux ressources (telles que l’assistanat) nécessaires pour construire la suite de sa trajectoire. Cette théorie met également en évidence la nécessité d’étudier les inégalités dès les débuts de la trajectoire. En effet, les désavantages accumulés pendant cette période pourraient expliquer une part des inégalités observées par la suite.

Données et méthodes de travail

Notre étude des inégalités de genre en début de carrière académique suit les différentes étapes de celle-ci. Dans le chapitre 5, nous analysons les inégalités dans l’accès à l’assistanat (Candoc, poste d’assistant d’enseignement ou dans un projet de recherche FNS...). Ces postes sont la principale source de financement des docto- rants en Suisse (Koller et Meffre, 2010)1. Nous étudions ensuite, dans le chapitre 6, les inégalités parmi les assistants que ce soit en terme de condition de travail ou de chances de terminer l’assistanat avec un doctorat en poche. Finalement, nous analysons dans le chapitre 7 les inégalités qui suivent l’obtention du doctorat et la poursuite d’une carrière académique.

Deux sources de données complémentaires sont utilisées pour mener à bien ces analyses. Dans les chapitres 5 et 7, nous nous basons sur les réponses à l’enquête réalisée par l’Office Fédérale des Statistiques en 2007 auprès des nouveaux diplômés des hautes écoles suisses en 2002. Cette enquête représentative permet de suivre, mois par mois, la trajectoire sur cinq années d’une cohorte de personnes ayant obtenu un Master ou un doctorat d’une haute école suisse. Dans le chapitre 5, nous nous centrons sur les nouveaux titulaires d’un Master pour mettre en évidence les inégalités d’accès à la carrière académique, alors que, dans le chapitre 7, nous analysons les réponses des nouveaux docteurs uniquement. Nous utilisons également les réponses des jeunes docteurs pour illustrer les méthodes innovatrices présentées dans cette thèse.

Le suivi d’une cohorte de diplômés permet d’inclure toutes les trajectoires dans l’analyse, autant celles se tournant vers la carrière académique (souvent considérée implicitement commeréussie dans la littérature sur les trajectoires académiques)

1. Ainsi, plus de 80% des personnes ayant obtenu leur doctorat en 2002 l’ont financé en occu- pant un tel type de poste (Storni et Schmid, 2008, calculs propres).

(19)

que les autres. Il est ainsi possible de situer la carrière académique par rapport aux carrières alternatives.

Dans le chapitre 6, nous utilisons les archives de l’Université de Genève allant de 1990 à 2008 pour analyser les trajectoires des assistants et l’obtention du titre de docteur parmi ceux-ci. Comme précédemment, cette source de données inclut les trajectoires « réussies » comme celles de ceux qui quittent l’Université. Ces données ont l’avantage de permettre une contextualisation des trajectoires individuelles et de la réussite de la transition vers la suite de la carrière académique qui la sanc- tionne (le doctorat) dans les structures au sein desquelles les assistants évoluent.

Nous pouvons ainsi analyser les effets de contextes et identifier les plus inégalitaires.

Les données OFS de l’enquête auprès des nouveaux diplômés ont l’avantage de permettre l’analyse des trajectoires d’insertion professionnelle et, ainsi, de situer la carrière académique dans le marché du travail dans son ensemble. Malheureu- sement, comme nous le montrons dans le chapitre 6, cette enquête ne couvre pas une période suffisamment longue pour analyser les chances au doctorat. En effet, le temps nécessaire à la réalisation d’un doctorat est plus long dans les disciplines féminisées, ce qui pourrait biaiser l’étude des différences hommes–femmes si l’on se cantonne à cinq années. Nous conduisons donc cette analyse à l’aide des données de l’Université de Genève, ce qui permet également de situer les trajectoires dans les contextes institutionnels et les pratiques qu’ils mettent en place. Les universités étant du ressort des cantons en Suisse, la généralisation des résultats aux autres universités doit être faite avec précaution. Cependant, comme le notent Koller et Meffre (2010), les pratiques restent similaires entre les universités. Chacun de ces jeux de données a donc ses propres limites et avantages. Si la première est plus représentative et permet de situer la carrière académique, elle ne couvre pas une période suffisante pour analyser les chances au doctorat. Au contraire, les archives de l’Université de Genève permettent cette analyse ainsi qu’une contextualisation des trajectoires, mais la généralisation des résultats est plus sujette à discussion.

Des défis méthodologiques importants

L’étude des inégalités dans la carrière académique pose plusieurs défis métho- dologiques. Premièrement, il est nécessaire d’adopter une méthode d’analyse lon- gitudinale pour mesurer des différences dans des processus de sélection. Le seul constat transversal (à une certaine date donnée, c’est-à-dire en 2007) que nous avons dressé à l’aide de la figure 1 pourrait résulter de discriminations qui n’ont plus cours, puisque les membres du corps professoral sont de générations plus an- ciennes. Cet effet de cohorte a été formalisé par la théorie du « retard historique » (Fassa et al., 2008; Leemann et Stutz, 2008). Cette théorie rend le constat trans- versal compatible avec le mythe de « l’égalité-déjà-là » (Delphy, 2010), à savoir le fait que l’égalité de genre serait assurée, aujourd’hui déjà. Ainsi, seul un constat longitudinal peut démontrer efficacement la persistance des inégalités hommes – femmes.

Deuxièmement, s’il est nécessaire d’adopter une perspective longitudinale, il est également important de pouvoir décrire avec suffisamment de détails la situation dans laquelle se trouve un individu à un moment de sa trajectoire. Nous pouvons ainsi rendre compte de la diversité des situations et ainsi, situer les postes (et la

(20)

Des défis méthodologiques importants 5 5 carrière) académiques par rapport aux alternatives. Cette approche nous permettra

également de décrire la diversité des trajectoires académiques et de rendre compte des différences de conditions matérielles offertes aux uns et aux autres.

Pour répondre à ces défis méthodologiques, nous nous proposons d’utiliser et de développer les méthodes d’analyse de séquences. Ces méthodes ont pour but d’étudier des processus décrits par une succession d’états multiples. Cette optique nous permet de suivre la carrière d’un individu, qu’elle soit académique ou non.

Pour ce faire, plusieurs familles de méthodes ont été développées (Abbott, 1995;

Abbott et Tsay, 2000; Ritschard et al., 2008), telles que les méthodes dérivées de l’analyse de données longitudinales, la modélisation markovienne des processus, l’analyse de biographie, l’analyse de propriétés des trajectoires ou encore les mé- thodes basées sur l’analyse des dissimilarités entre séquences. Dans cette thèse, nous privilégions la dernière approche qui, contrairement à l’analyse de biographie par exemple, permet d’adopter une perspective holistique sur les trajectoires. Ces méthodes souffrent également moins de la diversité des états qui servent à coder une trajectoire, diversité qui devient vite importante dès lors que l’on analyse des carrières. Dans le chapitre 6, nous utilisons toutefois plusieurs de ces méthodes dont nous comparons les résultats.

Les méthodes dérivées de l’analyse de données longitudinales visent à expliquer l’état occupé à un instant donné par un individu en fonction d’un ensemble de fac- teurs explicatifs (voir par exemple Steele, 2005; McVicar et Anyadike-Danes, 2010).

L’utilisation de modèles multiniveaux permet de prendre en compte l’absence d’in- dépendance entre les observations qui concernent le même individu (Steele, 2005).

Comme nous le discutons dans le chapitre 6, l’interprétation des résultats devient vite laborieuse, surtout lorsque le nombre d’états décrivant la trajectoire est grand.

De plus, la centration sur l’état occupé tend à mettre de côté le concept de tran- sition, central dans l’étude des trajectoires, et plus encore lorsqu’il s’agit d’étudier des différences dans des processus de sélection. Finalement, les liens possibles entre différentes parties de la trajectoire — par exemple, pour mesurer l’influence d’une période de chômage en début de parcours — doivent être explicitement définis, ce qui rend leur mise en œuvre limitée. Dans une approche similaire, les modélisations markoviennes se centrent sur l’étude des transitions plutôt que sur l’état occupé, ce qui permet d’inclure les dynamiques de trajectoires. Toutefois, ici encore, les liens entre différentes parties de la trajectoire doivent être explicités et le nombre de transitions à étudier est encore plus grand. Ces approches sont toutefois très utiles pour confirmer des résultats obtenus avec d’autres méthodes comme nous le ferons dans le chapitre 6.

L’analyse des biographies se centre sur un événement particulier et permet d’analyser l’influence de différents facteurs explicatifs sur le risque que cet événe- ment se produise (Steele, 2005). L’apport de la méthode est indéniable lorsqu’il s’agit d’analyser un événement. Dans le chapitre 6, nous utilisons ainsi l’analyse de biographies pour mesurer les différences d’obtention du titre de docteur parmi les assistants de l’Université de Genève. Son utilisation est toutefois limitée s’il s’agit d’étudier des carrières décrites par des états multiples et des aller-retour entre ces états.

Certaines études se centrent sur une ou plusieurs propriétés des séquences que l’on analyse par la suite à l’aide de méthodes statistiques classiques. Elzinga et

(21)

Liefbroer (2007) ou Widmer et Ritschard (2009) analysent ainsi les facteurs qui in- fluencent la complexité des séquences ou encore le temps passé dans un état donné.

Ce type d’analyse est intéressant pour autant qu’une propriété de la trajectoire puisse être clairement identifiée dans la problématique considérée. Or ce n’est pas le cas des carrières que nous analysons.

Contrairement aux méthodes précédentes, celles basées sur les dissimilarités entre séquences adoptent une perspective holistique en prenant comme unité d’ana- lyse la trajectoire dans son ensemble. On peut ainsi étudier les patterns récurrents dans les trajectoires — c’est-à-dire les liens entre les différentes parties de la tra- jectoire — ou encore de prendre en compte la multiplicité des états possibles. Ces caractéristiques ont conduit ces méthodes à un essor considérable (Robette, 2012) depuis leur introduction en sciences sociales par Abbott à la fin des années quatre- vingt (Abbott et Forrest, 1986).

Techniquement, ces méthodes reposent sur une mesure de distance entre trajec- toires codées sous forme de séquences d’états, ce qui permet de les comparer (Ab- bott et Forrest, 1986; Elzinga, 2003; Müller et al., 2008). Depuis les premiers dé- veloppements d’Abbott et Forrest (1986) basés sur l’appariement optimal des sé- quences et suite aux vives critiques émises par Levine (2000) et Wu (2000), un grand nombre de nouvelles mesures de distances a vu le jour (Aisenbrey et Fasang, 2010). Développées de manières éparses, ces mesures n’ont pas encore fait l’objet d’une comparaison et d’une évaluation systématique. Dans ce but, nous donnons dans le chapitre 1 une présentation théorique de ces mesures au cours de laquelle nous discutons du respect des conditions mathématiques de la distance, une dis- cussion étrangement absente du débat jusqu’à présent (à l’exception notable de Elzinga, 2003). Ces discussions nous amènent à de nouveaux développements afin de pallier les problèmes identifiés. Nous proposons ainsi des variantes de l’appa- riement optimal localisé (Hollister, 2009) et de celui sensible aux durées (Halpin, 2010) permettant le respect de l’inégalité triangulaire. Nous proposons également une nouvelle formulation de l’appariement optimal des transitions (Biemann, 2011) avec un nombre réduit de paramètres et une nouvelle mesure de distance appelée appariement optimal des épisodes. Toutes les mesures de distance présentées dans ce chapitre sont mises à disposition des utilisateurs au sein de la librairie R Tra- MineR (Gabadinho et al., 2011a).

La profusion des différentes mesures de distances ainsi que nos nouveaux déve- loppements nous amène, dans le chapitre 2, à la question du choix de l’une d’entre elles. Afin de faciliter ce dernier, nous comparons la sensibilité de ces mesures à différents critères d’ordonnancement et de temporalité des séquences en utilisant des simulations. Ces comparaisons nous montrent qu’aucune mesure de distance ne s’avère clairement meilleure que les autres, même si le non-respect des conditions mathématiques de la distance amène à observer des lacunes et des incohérences.

Autrement dit, ce que l’on gagne d’un côté, on le perd généralement de l’autre.

Il est donc nécessaire de faire des choix. Pour faciliter ce choix, nous construisons une cartographie des mesures de distances qui met en évidence les forces et les faiblesses de chacune d’entre elles.

En pratique, les distances entre trajectoires sont généralement utilisées pour construire une typologie des trajectoires, ce qui permet d’identifier les trajectoires types, c’est-à-dire des régularités observées dans la construction des trajectoires.

(22)

Des défis méthodologiques importants 7 7 Ces régularités peuvent mettre en lumière des interdépendances entre différents mo-

ments des trajectoires qui résulteraient, par exemple, de contraintes économiques, sociales ou légales. Comme le notent Abbott et Hrycak (1990), si les séquences types peuvent résulter de contraintes que l’on redécouvre, ces séquences typiques peuvent également agir sur la réalité en servant de modèles aux acteurs qui an- ticipent leur propre futur. Ces différentes possibilités d’interprétations font de la création de typologie un outil puissant.

Les typologies sont généralement construites à l’aide d’une analyse en clusters qui offre un point de vue descriptif sur les séquences en réduisant la complexité des trajectoires. Comme le fait remarquer Levine (2000), toutes les analyses en clusters produisent un résultat, que cette simplification soit abusive ou non. Afin de répondre à cette critique, nous présentons plusieurs mesures de la qualité d’un clustering qui sont, à notre sens, trop peu utilisées dans la littérature. L’ensemble de ces méthodes fait l’objet du chapitre 3 que nous avons construit comme un guide pratique à la création de typologies dans R avec la librairie « WeightedCluster ».

Cette librairie a été développée pour réaliser les analyses présentées dans cette thèse.

Au-delà de l’approche descriptive, les études ayant recours à l’analyse de sé- quences s’intéressent généralement aux facteurs qui influencent la construction d’une trajectoire (Abbott et Tsay, 2000; Hollister, 2009). On peut ainsi se de- mander si les femmes empruntent des trajectoires significativement différentes de celles des hommes. Pour mesurer ces liens entre trajectoires et facteurs explicatifs, il est d’usage de mettre en relation les types obtenus avec d’autres facteurs d’in- térêt, tels que le sexe, à l’aide de régressions logistiques ou de tests d’association.

Comme nous le discutons dans le chapitre 3, ceci revient à postuler l’existence de modèles de trajectoires clairement définis qui auraient effectivement généré les trajectoires et que l’on aurait identifiés grâce à l’analyse en clusters. Outre le fait que cette démarche peut conduire à des conclusions trompeuses si ces hypothèses ne se vérifient pas, ces hypothèses sont également discutables d’un point de vue sociologique.

En nous basant sur les travaux de Mielke et Berry (2007), Anderson (2001), McArdle et Anderson (2001) et Batagelj (1988), nous présentons dans le chapitre 4 un ensemble de méthodes nommées analyse de dispersion. Ces méthodes permettent d’analyser les liens entre les séquences et un ou plusieurs facteurs explicatifs sans clustering préalable. Originellement utilisées en écologie, elles reposent sur la défi- nition d’une mesure de dispersion d’un ensemble de séquences et sur une généralisa- tion des principes de l’analyse de variance (ANOVA) à tous types de dissimilarités.

Elles permettent de calculer la force de l’association ainsi que sa significativité statistique à l’aide de tests de permutations. Ces nouvelles méthodes d’analyses complètent ainsi l’analyse de séquences traditionnelle, principalement exploratoire, par une approche confirmatoire. Ici encore, les méthodes présentées dans ce chapitre ont été ajoutées à la librairie R TraMineR (Gabadinho et al., 2011a).

Du point de vue des sciences sociales, l’analyse de dispersion permet un chan- gement de paradigme. Plutôt que de se baser sur la recherche de modèles de trajec- toires, nous considérons que ces trajectoires sont insérées dans des contextes mul- tiples qui influencent — chacun à sa manière — la construction de la trajectoire.

Ce cadre méthodologique basé sur la notion de dispersion correspond particulière-

(23)

ment bien au paradigme des parcours de vie. En effet, dans sa formalisation de ce paradigme, Elder (1999) met en évidence l’importance d’étudier le contexte socio- historique des individus tout en rendant compte de leur capacité à faire des choix dans ces contextes. C’est exactement l’approche utilisée par l’analyse de dispersion.

En se centrant sur la dispersion des séquences, on étudie les liens entre séquences et contextes tout en préservant la notion de variabilité interindividuelle.

La thèse est organisée de la manière suivante. La première partie de cette thèse est consacrée aux méthodes d’analyses de séquences à l’aide de mesures de dissimi- larités. Dans cette partie, nous recensons les méthodes traditionnellement utilisées ainsi que les nouveaux développements que nous y avons apportés afin de répondre aux défis méthodologiques proposés par notre problématique. La deuxième partie de la thèse est consacrée à l’étude des inégalités de genre en début de trajectoire académique. Nous y mettons en pratique les développements réalisés dans la pre- mière partie. Ce sera également l’occasion de démontrer leur intérêt.

(24)

Première partie

Analyse de données

séquentielles

(25)
(26)

Chapitre 1

Calcul de dissimilarités entre séquences

Les méthodes d’analyse de séquences que nous utilisons dans cette thèse re- posent sur la définition d’une mesure de distance entre séquences. Conceptuel- lement, une mesure de dissimilarité doit permettre de comparer deux séquences en quantifiant leur éloignement. Elle définit ainsi implicitement des critères qui permettent de comparer les séquences et de quantifier cette comparaison. Le cal- cul d’une distance entre séquences n’est pas une fin en soi, mais permet, par la suite, d’utiliser d’autres méthodes d’analyse. Dans une approche exploratoire, on construit en général une typologie des séquences à l’aide d’une procédure de classi- fication, typiquement une méthode hiérarchique. Cette analyse permet d’identifier, pour autant qu’il en existe, des processus types ou, de manière similaire, des motifs récurrents. Dans une approche plus explicative, nous montrerons — et c’est l’un des apports de cette thèse — comment tester le lien entre les séquences et des variables explicatives. Il s’agit alors de mesurer l’effet de variables indépendantes sur le déroulement d’un processus. Ces deux types d’analyse seront présentés dans les chapitres suivants.

Les premiers développements de telles méthodes en sciences sociales sont dus à Abbott et Forrest (1986). Ils se basent sur l’appariement optimal des séquences.

Cette technique a suscité de vives critiques (Levine, 2000; Wu, 2000). Depuis lors, de nouvelles mesures de distances ont vu le jour (Aisenbrey et Fasang, 2010). Dé- veloppées de manières éparses, ces mesures n’ont pas encore fait l’objet d’une com- paraison et d’une présentation systématique. C’est le but de ce chapitre.

On peut diviser ces mesures de dissimilarités en deux grands groupes (Elzinga, 2007; Gabadinho et al., 2011a). Certaines mesures de distance se basent sur la définition d’attributs propres à chaque séquence puis calculent la distance en fonc- tion des attributs communs. Parmi ces mesures, nous présenterons la distance de Hamming, la distance proposée par Rousset et al. (2011) ainsi que les mesures de distances basées sur les sous-séquences communes.

Les autres mesures que nous présentons se basent sur le concept d’édition. La distance est alors définie comme le coût minimal nécessaire pour transformer (c’est- à-dire éditer) une séquence en une autre. Ces distances se différencient par les opé-

(27)

rations que l’on peut utiliser ainsi que par la manière d’estimer les coûts associés à ces opérations. Outre l’appariement optimal original, nous présentons ici plusieurs variantes telles que l’appariement optimal localisé (Hollister, 2009), celui sensible aux durées (Halpin, 2010) ou encore celui des transitions (Biemann, 2011). Nous présentons également plusieurs stratégies pour définir les différents paramètres uti- lisés dans ces méthodes.

Ces discussions nous amènent à de nouveaux développements. Nous proposons ainsi des variantes de l’appariement optimal localisé (Hollister, 2009) et de celui sensible aux durées (Halpin, 2010) afin que ces mesures respectent l’inégalité tri- angulaire. Nous proposons également une nouvelle formulation de l’appariement optimal des transitions (Biemann, 2011) permettant de réduire le nombre de pa- ramètres et une nouvelle mesure de distances appelé appariement optimal des épi- sodes.

Le présent chapitre est organisé de la manière suivante. Nous commençons par présenter formellement les séquences d’états et introduisons quelques méthodes de visualisation que nous utiliserons dans le reste de cette thèse. Nous discutons ensuite de la notion de distance ainsi que de ses conditions mathématiques. La troisième section de ce chapitre est consacrée à l’appariement optimal ainsi qu’aux problèmes de mise en oeuvre usuellement rencontrés. Nous passons ensuite en re- vue les variantes de l’appariement optimal avant de présenter, dans les sections suivantes, les mesures qui suivent d’autres logiques.

1.1 Séquence d’états

Dans cette section, nous définissons formellement la notion de séquence d’états en nous basant sur la présentation de Gabadinho et al. (2011a). L’optique que nous présentons consiste à considérer les trajectoires comme une succession ordon- née de périodes dans lesquelles on occupe un état donné. Plus formellement, nous définissons laséquence comme uneliste ordonnée d’éléments. En sociologie, l’ordre fait généralement référence à une notion d’ordonnancement temporel des éléments (Abbott et Tsay, 2000; Elzinga, 2003). Une séquenceXest notée (x1x2x3· · ·xl) où chaquexicorrespond à un élément etlà la longueur de la séquence. Nous appelons alphabet l’ensemble des éléments possibles. Il est noté Σ.

Parmi les différentes méthodes utilisées pour encorder des séquences (Ritschard et al., 2009), nous en retiendrons deux qui permettent de prendre en compte les durées passées dans chaque état. La première, utilisée depuis le début de l’analyse de séquences, consiste à associer une unité de temps à chaque élément et à le répéter un nombre de fois correspondant. Ainsi, la séquence (a, a, a, b, b) signifiera que l’on a occupé l’étatapendant trois unités de temps puis l’étatbpendant deux unités. Cette méthode permet également d’interpréter la position dans la séquence qui fait référence à un âge donné. La deuxième méthode, introduite par Elzinga (2003), consiste à attacher à chaque état une durée à l’aide d’un exposant. Ainsi, la séquence précédente pourra s’écrire (a3, b2). On appelleraépisode la répétition d’un état pendant une durée donnée. Ainsi, selon notre exemple,a3est un épisode de même queb2. Notons qu’en utilisant cette dernière formulation, le temps peut être un nombre réel.

Comme le relèvent Abbott et Tsay (2000), la définition de l’alphabet Σ est une

(28)

1.1 Séquence d’états 13 13 étape critique de l’analyse de séquences puisqu’elle en conditionne les résultats, et

ceci quelle que soit la méthode utilisée. Ces choix définissent les distinctions jugées pertinentes pour l’analyse. À titre d’exemple, le regroupement de deux catégories pourrait modifier les résultats en supprimant les différences entre ces deux états.

Dans une certaine mesure, la spécification des coûts de substitution de l’apparie- ment optimal permet de tempérer les choix réalisés dans cette étape en spécifiant des distances entre états plus ou moins importantes.

Nous nous proposons d’illustrer les méthodes présentées en utilisant les données de l’enquête auprès des nouveaux diplômés des hautes écoles suisses en 2002 en nous limitant aux nouveaux docteurs. Pour rappel, ces données retracent, mois par mois, la trajectoire d’insertion professionnelle sur les cinq ans qui font suite à l’obtention du doctorat. Ces données sont présentées plus en détail dans l’annexe B et font l’objet d’une analyse plus détaillé dans le chapitre 7.

Nous mesurons la trajectoire professionnelle des jeunes docteurs à l’aide de deux séquences d’états parallèles : la séquence des statuts professionnels et celle des taux d’engagement. Pour la première partie de cette thèse, nous avons choisi de garder la classification des statuts adoptée par l’Office Fédéral de la Statistique2, car elle est particulièrement adéquate pour illustrer les différentes facettes des méthodes présentées. Toutefois, nous ne garderons pas cette classification dans la deuxième partie, car les distinctions entre les différents statuts de cadres sont sujettes à discussion et pourraient s’avérer biaisées.

La séquence des statuts professionnels regroupe deux dimensions, soit le secteur d’activité et la position hiérarchique, à l’aide de sept états qui constituent son alphabet (une abréviation de l’état est donnée entre parenthèses) : sans emploi (SE), personnel académique (sans les professeurs, A), professeur (P), employé (hors académique, E), cadre inférieur (par exemple, direction de projet, CI), cadre moyen (par ex. état-major, CM), cadre supérieur (par exemple, direction, CS). La séquence des taux d’engagement correspond à la succession des taux d’engagements codés sous forme numérique. L’alphabet de cette séquence est constitué de l’ensemble des différentes valeurs numériques prises par les taux d’engagements.

1.1.1 Visualisation des séquences d’états

Il existe plusieurs méthodes pour visualiser des ensembles de séquences d’états (voir par exemple Gabadinho et al., 2011a). Nous présentons ici les deux les plus utilisées. La figure 1.1 présente un chronogramme des séquences d’insertions sur le marché du travail des jeunes docteurs. Pour chaque mois, on peut observer la répartition des individus entre les différents états. Ce graphique n’apporte donc pas d’information longitudinale, mais seulement la succession des distributions trans- versales des états.

On peut ainsi observer que la part des jeunes docteurs qui restent dans le monde académique diminue alors que celle des postes de cadre augmente. Les données manquantes se concentrent au début de la trajectoire, ce qui nous amène à penser que les répondants ont commencé à décrire leur trajectoire à partir du premier

2. Les répondants à ce questionnaire élaboré par l’office fédéral de la statistique devaient se classer eux-mêmes dans l’une de ces catégories prédéfinies.

(29)

Freq. (weighted n=498)

m1 m7 m13 m19 m25 m31 m37 m43 m49 m55

0.00.20.40.60.81.0

Académique Professeur Employé

Cadre inf Cadre moy Cadre sup

Sans emploi missing

Figure1.1 – Chronogramme des séquences de statuts occupés des jeunes docteurs

emploi et que ces données manquantes peuvent vraisemblablement être assimilées à l’état « sans emploi ».

Figure1.2 – Index-plot des séquences de taux d’occupation des jeunes docteurs

(30)

1.2 Notion de distance 15 15 La figure 1.2 présente un index-plot (Scherer, 2001) où chaque séquence est

représentée par une ligne temporelle découpée en segments coloriés en fonction de l’état occupé pendant cette période. L’épaisseur d’une ligne est ajustée en fonction du poids de chaque observation. L’avantage de cette présentation est de préserver le caractère longitudinal des séquences. Cependant, le graphique peut être difficile à interpréter si les séquences ne sont pas ordonnées selon un critère d’intérêt. Ici, nous les avons ordonnées en fonction du taux d’occupation moyen de chaque séquence.

Ce graphique permet également de rendre compte de la diversité des trajectoires empruntées.

Une séquence de taux d’engagement prend des valeurs numériques. Afin de faciliter la lecture du graphique, nous avons sélectionné les couleurs de chacun des 27 états de l’alphabet à l’aide d’un dégradé allant du rouge pour les personnes sans activité au bleu pour celles à plein temps en passant par le blanc pour celles à 50%.

La légende présente le dégradé utilisé pour représenter ces états.

Après avoir présenté les notions de base de l’analyse de séquences, nous pouvons aborder les différentes méthodes d’analyses des séquences. Ce que nous commençons en abordant les mesures de dissimilarité entre séquences.

1.2 Notion de distance

Avant d’aborder les différentes méthodes utilisées pour calculer des distances entre séquences, nous présentons la définition mathématique de la distance. Intui- tivement, une distance est une quantification de l’éloignement de deux objets.

En géométrie, on utilise généralement la distance euclidienne, définie à l’aide de l’équation (1.1). Cette mesure de distance s’interprète comme le chemin le plus court entre deux points et correspond ainsi à la notion de distance usuelle. En géométrie, cette distance est un cas particulier de celle de Chebishev. Cette dernière définit une famille de distances pour les espaces euclidiens (équation 1.2).

d(x, y) = s

X

i

(xiyi)2 (1.1)

d(x, y) = X

i

|xiyi|p1p

(1.2) Ces distances sont définies pour des espaces euclidiens, c’est-à-dire lorsque les observations sont décrites à l’aide de coordonnées numériques dans un nombre de dimensions prédéfini. Toutefois, les trajectoires ne sont pas immédiatement repré- sentables dans un tel espace et ces distances ne peuvent donc être utilisées telles quelles. Pour pallier ce problème, deux stratégies peuvent être utilisées. La pre- mière consiste à générer un ensemble de propriétés numériques décrivant des tra- jectoires que l’on utilise ensuite pour calculer les distances entre trajectoires. C’est l’approche utilisée par les méthodes par noyaux (Lodhi et al., 2002). Dans cette dernière approche, les propriétés ne sont pas nécessairement générées en pratique (ce qui pourrait demander un temps de calcul trop important), mais la définition de la mesure de distance garantit que la distance correspond à la distance euclidienne

(31)

entre ces propriétés. Plus formellement, on parle ainsi de distance euclidienne, s’il existe un espace de coordonnées réelles qui permette d’associer à chaque objet des coordonnées réelles telles que la distance euclidienne entre ces points reproduit les distances obtenues par la mesure de distance (Gower, 1982). L’avantage de cette approche est que l’on continue de travailler dans un espace euclidien éventuelle- ment défini implicitement pour lequel un vaste ensemble de méthodes d’analyses existent.

La deuxième stratégie consiste à définir une nouvelle manière de calculer une distance entre deux trajectoires. L’avantage de cette approche est que la méthode de comparaison des séquences est potentiellement plus en phase avec le domaine d’analyse.

Mathématiquement, la notion de distance est plus large que les seules distances euclidiennes ou de Chebichev présentée ci-dessus. On considère que la quantification de l’éloignement de deux objetsd(c’est-à-dire une distance) est une distance si elle satisfait les conditions ci-dessous pour tout x, y, z (voir par exemple Kaufman et Rousseeuw, 1990) :

d(x, y)≥0 (1.3)

d(x, y) = 0x=y (1.4)

d(x, y) =d(y, x) (1.5)

d(x, z)d(x, y) +d(y, z) (1.6) La première propriété (1.3) stipule qu’une distance est nécessairement positive.

La deuxième est appelée propriété de séparation (1.4). Selon celle-ci, la distance entre deux objets est nulle, si et seulement si ces deux objets sont identiques au sens de la mesure de distance. En d’autres termes, la distance est nulle, si et seulement si les critères de comparaison propre à une mesure de distance ne permettent pas de faire une différence entre les deux objets comparés. Ensuite, la distance entre deux objets est égale, quelle que soit la « direction » dans laquelle on la calcule.

C’est ce que l’on nomme la propriété de symétrie3.

La dernière propriété (1.6) est appelée inégalité triangulaire. Conceptuellement, elle signifie que la distance entre deux objets correspond au chemin le plus court entre ceux-ci. Si elle n’est pas respectée, la distance finale entre deux objets peut dépendre de l’observation d’un troisième objet, ce qui ne fait pas sens lorsque l’on compare deux objets. Dans d’autres contextes, cette inégalité est cependant contestable. Dans des réseaux sociaux par exemple, la « distance » entre deux individus qui ne se connaissent pas peut être réduite par un ami en commun qui agit comme un « pont ».

D’une certaine manière, le respect de l’inégalité triangulaire garantit l’indépen- dance des observations, puisque la distance entre deux objets peut être calculée directement, sans compter sur l’existence d’une autre observation qui les rappro- cherait. Cette propriété est ainsi particulièrement importante lorsque l’on travaille

3. Cette condition peut poser problème dans certains contextes, mais à priori pas dans une optique comparative. Ainsi, le temps de trajet pour aller d’un endroit à un autre ne vérifie souvent pas cette condition.

Références

Documents relatifs

L’écart entre ces deux courbes mesure le déplacement dans le partage entre salaires et profit, autrement dit l’augmentation du taux d’exploitation.. C’est la première

hypodermiques mal'ginaux caractéristiques pour les lris et.. DU GENRE IRIS ET DES GENRES VOISINS. Vu le grand nombre de leurs espèces, nous avons dù nous borner à

Dans ce but, nous avons commencé par mettre en re- gard d'une part le groupe sanguin, d'autre part un seul des différents caractères morphologiques, et nous avons

Il faut les créer sur mesure, à la mesure de notre écoute, de ce que les élèves nous disent aussi de leur manière d’apprendre, de comprendre et de faire ce que nous leur

La transposition de deux objets d'étude en littéracie émergente.. SAADA-ROBERT, Madeleine,

Lorsque ce concept est utilisé dans la littérature scientifique pour rendre compte des effets de la ségrégation, il s’agit de se situer au niveau des établissements pour

Pour comparer les systèmes éducatifs cantonaux toutes choses égales par ailleurs, nous avons calculé l’attendu des scores en mathématiques de chaque canton

• Ensuite pour l’éducation physique au sens plein du terme, qui ne peut pas se limiter à faire « bouger » les enfants sur ordre, mais doit référer chaque mouvement aux savoirs