• Aucun résultat trouvé

Intégrer la dépendance temporelle : Comparaison avec les modèles paramétriques et ajustement du modèle sur un

MODELE EXPLIQUANT L’ABANDON DE PRATIQUE

Encadré 2.1 : Extrait de sites Internet présentant des clubs de natation estivale

3. Intégrer la dépendance temporelle : Comparaison avec les modèles paramétriques et ajustement du modèle sur un

échantillon de femmes

L’objectif de cette section est d’intégrer dans l’analyse explicative la dépendance temporelle observée lors de l’analyse non paramétrique. Seule l’utilisation de modèles paramétriques permet de prendre en compte les dépendances temporelles. Cependant, les capacités du logiciel Stata® ne permettent pas de construire des modèles paramétriques à partir de populations de trop grandes tailles. Pour ces raisons techniques, le travail qui suit a été réalisé à partir d’un échantillon aléatoire de 16174 femmes tiré de notre population d’étude. Ce travail consiste à comparer les résultats du modèle de Cox avec ceux de modèles paramétriques (exponentiel, Weibull, log-normal et log-logistique) dont la particularité est d’affecter une forme spécifique à la fonction de risque. Cette comparaison permet de connaître le modèle qui s’ajuste le mieux à nos données, et donc de vérifier s’il existe bien pour l’arrêt de plus d’une saison une dépendance temporelle à prendre en compte.

Tableau 2.8 : Résultats des modèles à vie accélérée : Cox, Exponentiel, Weibull, log-normal et log-logistique mesurant l’effet des groupes d’âges et du type de club sur l’arrêt de plus d’une saison sportive (échantillon aléatoire de femmes)

Variables

explicatives Cox Exponentiel Weibull Log-normal

Log- logistique 0-3 ans 0,3 *** -0,23 *** -0,37 *** -0,2 *** -0,21 *** 4-5 ans 0,02 -0,03 -0,17 *** -0,05 -0,04 6-7 ans -0,14 *** 0,11 *** -0,01 0,09 *** 0,10 *** 8-9 ans -0,13 *** 0,08 ** 0,02 0,11 *** 0,13 *** 10-11 ans Réf Réf Réf Réf Réf 12-13 ans 0,13 *** -0,11 ** -0,09 ** -0,13 *** -0,13 *** 14-15 ans 0,33 *** -0,36 *** -0,33 *** -0,28 *** -0,27 *** 16-17 ans 0,44 *** -0,52 *** -0,49 *** -0,40 *** -0,36 *** 18-19 ans 0,60 *** -0,70 *** -0,67 *** -0,54 *** -0,48 *** 20-24 ans 0,46 *** -0,53 *** -0,54 *** -0,43 *** -0,40 *** 25-29 ans 0,42 *** -0,48 *** -0,50 *** -0,39 *** -0,37 *** 30-39 ans 0,17 *** -0,20 *** -0,24 *** -0,15 *** -0,14 *** 40 ans et+ 0,04 -0,02 -0,04 *** -0,04 -0,04 Club été -0,14 *** 0,13 *** -0,12 *** -0,15 *** 0 Club normal Réf Réf Réf Réf Réf _cons 1,366 1,378181 0,194508 0,549 AIC 42052,133 41304,91 40253,48 39663,059

Réf : Modalité de référence ; *** Significativement différent de la catégorie de référence au seuil de 1% ;

** seuil de 5%. Lecture : Un coefficient négatif dans le modèle à vie accélérée de Cox signifie que l’arrêt de plus

d’une saison sportive est connu moins rapidement que pour la catégorie de référence, un coefficient positif signifie que cet événement est connu plus rapidement. ATTENTION, dans les quatre autres modèles, un coefficient négatif signifie que l’arrêt de plus d’une saison sportive est connu plus rapidement que la catégorie de référence et un coefficient positif signifie que cet événement est connu moins rapidement que la catégorie de référence.

Le signe des coefficients ne change pas d’un modèle à l’autre (tableau 2.8), sauf pour le type de club dans les modèles log-normal et log-logistique (pour lequel on ne s’explique pas ce résultat : effet de l’échantillon ou du trop petit nombre de clubs d’été ?). On retrouve également les mêmes classements des coefficients que dans le modèle de Cox à risque proportionnels présenté précédemment (tableau 2.6). Le critère d’information d’Akaike (AIC) permet de choisir le modèle le mieux adapté aux données. Les meilleurs ajustements correspondent aux plus faibles valeurs de ce critère. Le modèle log-logistique s’ajuste le mieux aux données. Pour mieux comprendre ce résultat, visualisons les fonctions de risques estimées à partir de ces modèles paramétriques (graphique 2.15).

Graphique 2.15 : Fonctions de risques estimées à partir des modèles paramétriques exponentiel, Weibull, Log-normal et log-logistique pour l’événement arrêt de plus d’une saison sportive (femmes)

Les modèles log-normal et log-logistique s’ajustent le mieux aux données d’après le critère AIC. Les fonctions de risques estimées correspondantes montrent toute deux un risque d’arrêt de plus d’une saison sportive maximum entre la première et la deuxième année de pratique. L’enregistrement des dates de fin de validité des licences dans la base de données de la FFN peut fournir une interprétation. En effet, les licences FFN sont valables pendant toute la saison sportive. Si l’abandon a eu lieu effectivement en cours de saison, il ne sera enregistré qu’en fin de saison. De ce fait, avec les données concernant les licences, il est impossible de repérer les abandons au cours de la première année de pratique ceux-ci sont tous « reportés » en fin de

saison82. L’enregistrement particulier des informations sur les entrées et les sorties par l’intermédiaire des licences limite l’analyse. Si les valeurs maximales de fonction de risque du modèle log-logistique ne sont atteintes qu’en fin de première année de pratique et non en début (moment où la socialisation à la pratique est la moins avancée), on ne sait pas s’il s’agit d’un effet réel ou d’une conséquence de l’enregistrement des données par l’intermédiaire des licences.

3.1

Contrôle de l’hétérogénéité non observée

Les modèles paramétriques permettent non seulement la prise en compte de dépendances temporelles, mais également celle de l’hétérogénéité non observée. Comme nous l’avons vu précédemment, il existe de fausses dépendances temporelles qui sont la conséquence de l’omission de certaines variables dans le modèle. L’objectif de cette section est de vérifier si la dépendance temporelle observée dans l’analyse non paramétrique de l’arrêt de plus d’une saison sportive n’est pas une fausse dépendance temporelle. La comparaison des modèles paramétriques contrôlant ou non l’hétérogénéité non observée (HNO tableau 2.9) ainsi que de leur fonction de risque respective (graphique 2.16) permet de donner des éléments en faveur d’une vraie dépendance temporelle encore appelée dépendance d’état. L’analyse porte sur le même échantillon aléatoire de femmes que précédemment.

82

Remarque : Ceux qui abandonnent à moins d’une saison sportive sont des personnes qui ont pris leur licence tardivement dans la saison sportive et non des personnes qui ont arrêté avant la fin de la saison sportive.

Tableau 2.9 : Résultats des modèles à vie accélérée log-normal et log-logistique mesurant l’effet des groupes d’âges, du type de club sur l’arrêt de plus d’une saison sportive avec et sans contrôle de l’hétérogénéité non observée (échantillon aléatoire de femmes)

Variables explicatives Log-normal sans contrôle de l’HNO Log-normal avec contrôle de l’HNO Log-logistique sans contrôle de l’HNO Log-logistique avec contrôle de l’HNO 0-3 ans -0,2 *** -0,16 *** -0,21 *** -0,12 *** 4-5 ans -0,05 -0,02 -0,04 0,03 6-7 ans 0,09 *** 0,13 *** 0,10 *** 0,16 *** 8-9 ans 0,11 *** 0,13 *** 0,13 *** 0,16 *** 10-11 ans Réf. Réf. Réf. Réf. 12-13 ans -0,13 *** -0,13 *** -0,13 *** -0,09 ** 14-15 ans -0,28 *** -0,23 *** -0,27 *** -0,15 *** 16-17 ans -0,40 *** -0,34 *** -0,36 *** -0,20 *** 18-19 ans -0,54 *** -0,46 *** -0,48 *** -0,30 *** 20-24 ans -0,43 *** -0,37 *** -0,40 *** -0,26 *** 25-29 ans -0,39 *** -0,34 *** -0,37 *** -0,24 *** 30-39 ans -0,15 *** -0,11 *** -0,14 *** -0,07 ** 40 ans et+ -0,04 -0,03 -0,04 -0,02 Club été -0,15 *** -0,21 *** 0 -0,08 *** Club normal _cons 0,194508 -0,0949072 0,5490711 0,1375772 théta 0,1824571 *** 0,4103948 ***

Réf : Modalité de référence ; *** Significativement différent de la catégorie de référence au seuil de 1% ; ** Significativement différent de la catégorie de référence au seuil de 5%.

Lecture : Tout comme pour une régression logistique classique, aucun effet n’est enregistré pour l’individu de

référence (coefficient=0). Un coefficient négatif signifie que l’arrêt de plus d’une saison sportive est connu plus rapidement que la catégorie de référence, un coefficient positif signifie que cet événement est connu moins rapidement que la catégorie de référence.

Contrôler l’hétérogénéité non observée n’apporte pas de grands bouleversements dans les résultats. S’il existe bien de l’hétérogénéité non observée dans ces modèles (les tests du chi2 vérifient que théta est significativement différent de 0 à 1 %), celle-ci ne se compose pas de variables qui interagiraient avec les variables explicatives du modèle et remettraient en cause les résultats précédents. En contrôlant cette l’hétérogénéité non observée, les coefficients concernant les groupes d’âges se trouvent atténués tandis que celui concernant le type de club est augmenté. Ainsi d’autres variables non prises en compte dans le modèle mais concomitantes avec l’âge pourraient avoir un effet sur l’arrêt de plus d’une saison. L’ordre des coefficients reste le même.

Graphique 2.16 : Fonctions de risques estimées à partir des modèles paramétriques Log- normal et log-logistique avec et sans contrôle de l’hétérogénéité non observée pour l’événement arrêt de plus d’une saison sportive

Les fonctions de risque estimée avec contrôle de l’hétérogénéité non observée marquent une plus faible amplitude par rapport à leur homologue sans contrôle de l’hétérogénéité non observée (graphique 2.16). Dans les deux cas, la dépendance temporelle négative reste importante. A partir d’un an de pratique, plus le temps avance et plus les risques d’abandon diminuent. Ainsi, la dépendance temporelle observée avec les courbes de Kaplan-Meier, n’est pas une

fausse dépendance qui serait liée à de l’hétérogénéité non observée. La durée passée en tant que

licencié à la FFN a un effet direct sur la variation du risque d’arrêt de plus d’une saison sportive. Nous avons réalisé le même travail sur un échantillon aléatoire d’hommes et abouti aux mêmes conclusions (annexe 2.3).

L’utilisation des modèles paramétriques permet de vérifier qu’il existe bien une dépendance d’état de la durée passée à la FFN, mais que la prise en compte de cette dépendance par les modèles paramétriques n’apporte rien de plus par rapport au modèle à risques proportionnels de Cox. Par contre, pour des raisons techniques, ces modèles paramétriques ne peuvent pas être appliqués sur l’ensemble de la population, mais sur des échantillons limitant de ce fait l’introduction de variables explicatives supplémentaires. Pour cette raison, dans notre travail nous avons utilisé et nous utiliserons exclusivement les modèles à risques proportionnels de Cox.

4.

Deuxième type de modélisation : Analyse de l’effet des