Devoir de durées de vie A rendre pour le 01/06/2013
Les données sont extraites d’une enquête biographique allemande réalisée entre 1981 et 1983.
Elles sont constituées de 600 épisodes d’emplois, relatifs à 201 individus choisis au hasard. Le phénomène que l’on se propose d’analyser est la durée d’emploi, ou plus précisément comment la fonction de risque de terminer un emploi est influencée par des caractéristiques individuelles. Les données sont contenues dans le fichier « emploi.txt ». Il contient 600 lignes correspondant aux 600 épisodes, les colonnes correspondent à 15 variables:
id noj tstart tfin sex ti tb te pres edu tfp des cohorte lfx pnoj
Identifiant de l’individu Numéro séquentiel de l’emploi Date de début de l’emploi Date de fin de l’emploi Sexe (1=homme, 2=femme) Date de l’interview
Date de naissance
Date d’entrée sur le marché de l’emploi Indicateur de prestige de l’emploi courant
Niveau d’éducation à l’entrée sur le marché de l’emploi Durée de l’emploi (tfin-tstart+1)
Censure (1 si fin d’emploi, 0 sinon)
Cohorte (1 si né entre 1929 et 1931, 2 si né entre 1939 et 1941, 3 si né entre 1949 et 1951) Expérience sur le marché de l’emploi
Nombre d’emplois précédents
Toutes les dates (« tstart », « tfin », « ti », « tb », « te ») sont en nombre de mois depuis janvier 1900.
1) Tester l’effet de l’individu (id) sur la durée de l’emploi (tfp)
2) On cherche à expliquer la durée de l’emploi (tfp) en fonction du nombre d’emplois précédents (pnoj), du niveau d’éducation (edu), du sexe (sex), du prestige de l’emploi (pres) et de l’expérience sur le marché du travail (lfx) par un modèle de Cox. Ecrire l’équation du modèle et le mettre en œuvre sous R. Pensez-vous que ce modèle est adapté ?
3) Justifier un modèle stratifié sur le sexe. Mettre en oeuvre ce modèle. Le comparer au modèle précédent (on pourra utiliser la fonction extractAIC)
4) On veut prendre en compte l’effet de l’âge. Créer la variable « âge au début de l’emploi » et la rajouter au modèle stratifié.
Estimer la fonction de survie de baseline.
Etudier le modèle : effet des covariables, points aberrants, forme du lien et hypothèse de hasard proportionnel.