• Aucun résultat trouvé

Chapitre 2 : Données et méthodes

2.5 Méthodes

2.5.1 Analyse de séquences

Selon la définition d’Abbott et Forrest (1986) : « a sequence is simply an ordered

listing of items, which may be events, numbers or anything else ». Pour cette méthode, la

séquence est considérée dans sa globalité, sans faire intervenir d’autres variables pour tenter de l’expliquer (Brzinsky-Fay et al., 2006 ; Grelet, 2002 ; Halpin, 2012 ; Morand et Toulemon, 2009). Son objectif est de « découvrir des structures cachées dans l’ensemble des individus » et d’améliorer notre compréhension des parcours en en réduisant la complexité (Grelet, 2002 ; McVicar et Anyadike-Danes, 2002 ; Roux, 1993). Ainsi, on schématise le parcours des individus en représentant chaque élément, ou état, par un code alphanumérique appelé « alphabet ». Il s’agit d’une liste de tous les états possibles qui peuvent apparaître dans les données (Gabadinho et al., 2009). Chaque suite d’éléments identiques constitue un épisode, la suite des épisodes forme la séquence. Cette méthode descriptive est idéale pour étudier le processus de la retraite, car elle nous permet de le représenter graphiquement pour l’ensemble de l’échantillon, mais aussi selon le type de carrière.

2.5.1.1 Construction des séquences

Nos séquences sont composées de cinq états possibles : être en emploi (E), en emploi de transition (ET), en primo-retraite (PR), en emploi post-retraite (EPR) ou en retraite (R). Nous nous intéressons à la transition vers la retraite à partir de l’âge de 50 ans, nos séquences commençant par l’état du répondant à cet âge. Par exemple, un homme âgé de 67 ans en 2007 et observé en emploi de 25 à 59 ans, suivi par un emploi de transition de 59 à 65 ans, puis finalement par une retraite, donnera la séquence suivante :

E-E-E-E-E-E-E-E-E-ET-ET-ET-ET-ET-ET-R-R-R

Dans cet exemple, la personne a été observée en emploi pendant 8 années à partir de l’âge de 50 ans, puis 6 années en emploi de transition et finalement 3 années à la retraite. Pour parvenir à former ce type de séquence avec les données de l’ESG 2007, la base de données a dû être transformée au format personne-période, où chaque unité de temps où le répondant est observé est représentée par une observation. Puisque nous possédons, de façon plus ou moins exacte, l’âge du répondant pour chaque événement,

nous avons choisi l’année comme unité de temps. Ainsi, une observation a été créée par année où le répondant a été observé, c’est-à-dire de sa naissance jusqu’à l’année de l’enquête. La figure 2.2 reprend l’exemple précédent et le représente sous la forme d’une base de données en personne-année avec les variables pertinentes pour la construction d’une séquence. On y retrouve des variables comme l’âge au début et à la fin de chaque épisode qui composent la séquence, mais aussi une variable « temps » qui indique le nombre

Figure 2.2 Exemple de base de données au format personne-années

recid age sexe E_dbt E_fin E_duree ET_dbt ET_fin ET_duree R_dbt R_fin temps

98342 67 1 25 59 34 59 65 6 65 67 0

98342 67 1 25 59 34 59 65 6 65 67 1

98342 67 1 25 59 34 59 65 6 65 67 2

98342 67 1 25 59 34 59 65 6 65 67 3

… …

d’années où le répondant est à risque. Pour cette opération nous avons utilisé STATA version 14.2, car ce logiciel possède plusieurs procédures qui facilitent ce type d’opération. Ensuite, nous avons identifié les observations qui correspondent à l’année d’occurrence pour chaque événement qui nous intéresse. Des variables qui identifient le type d’événement, l’âge au début et à la fin de cet événement ainsi qu’une variable qui indique l’ordre d’apparition des événements ont été créées. Finalement, seules les observations où l’occurrence d’un événement d’intérêt a été observée ont été conservées pour obtenir une base de données qui correspond à une observation par état (figure 2.3).

Figure 2.3 Exemple de base de données au format personne-événements

recid event debut fin Index

98342 E 50 59 1

98342 ET 59 65 2

98342 RD 65 67 3

Les données ont ensuite été transformées une seconde fois à l’aide de la librairie

TraMineR en utilisant le logiciel d’analyse statistique R afin d’obtenir une base de

données reformatée au format long, où chaque observation représente une séquence qui contient l’état dans lequel se trouvaient les répondants à chaque âge à partir de l’âge de 50 ans (figure 2.4).

Figure 2.4 Exemple de base de données au format séquence

recid a50 a51 a52 a53 a54 a55 a56 a57 a58 a59 a60 a61 a62 a63 a64 a65 a66 a67

98342 E E E E E E E E E ET ET ET ET ET ET R R R

Les analyses de séquences ont été menées à l’aide de la version 2.05 de la librairie

TraMineR, développée par l’Institut de démographie et socioéconomie de l’Université de

Genève (IDESO). Cette librairie intègre plusieurs procédures pour l’analyse de séquences et met à profit les puissants outils de visualisation du logiciel statistique R.

2.5.1.2 Gestion des épisodes manquants et des séquences incomplètes

Les données de l’ESG ne permettent pas de reconstituer fidèlement la séquence des événements des répondants, car certains épisodes d’emploi étaient manquants. La librairie TraMineR gère ces épisodes en les déclarant comme manquants ou en les supprimant. Dans ce dernier cas, les séquences seraient « déplacées » vers la gauche si les épisodes manquants se trouvent au début de la séquence, comme c’est le cas dans notre exemple de la figure 2.5. Cela aurait comme conséquence d’altérer le calendrier de nos épisodes, on choisit donc de les déclarer comme manquants. Les séquences censurées à droite ont été supprimées puisqu’elles ne jouent aucun rôle dans l’interprétation des données (figure 2.6).

Figure 2.5 Exemple d’épisodes manquants dans une séquence

Âge 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66

États E E E E ET1 ET1 ET1 ET1 ET1 ET2 ET2 ET2 ET2 R R - -

Légende : gris= valeurs manquantes

Figure 2.6 Séquence avec épisodes manquants au début et valeurs manquantes supprimées à la fin

Âge 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66

États * * * * * * * * * ET2 ET2 ET2 ET2 R R % %

Légende : épisode déclaré manquant= *, épisode supprimé= %