• Aucun résultat trouvé

II. Etude des déterminants et contribution à une classifica-

3.2 Résultats

A partir des données simulées, nous avons simulé plusieurs scénarios pour étudier l’im-pact des différents paramètres du modèle : les propriétés du modèle.

Un des objectifs de la pénalisation de vraisemblance est la réduction de la variance des estimateurs. Des simulations par Monte-Carlo ont donc été réalisées afin d’observer le comportement des estimations le long du chemin de régularisation.

Les résultats présentés pour un paramètre valant 0 (Figure 32) et un paramètre ne valant pas 0 illustre la réduction de la variance.

Pour chaque coefficient et chaque valeur du paramètre de régularisation, la moyenne des estimations et la plage couverte par ± un écart-type sont représentés. Les résultats pour la pénalisation Lasso sont en vert et en rouge pour la pénalisation Ridge.

Sur la figure 32.A, il est possible de voir que le coefficient est fixé à zéro au début du chemin. Puis, progressivement, l’écart-type s’accroît, révélant un éloignement de 0 pour un certain nombre de simulations (théoriquement, la vraie valeur de coefficient est pourtant 0). La moyenne des coefficients pour le Lasso présente un léger saut positif avant de revenir vers 0. Les chemins avec la pénalisation Ridge ont le même profil, mais le saut est plus marqué. De plus, le retour vers 0 est plus tardif (mais a priori, le chemin calculé avec glmnet ne permet pas une comparaison directe entre Lasso et Ridge).

Le principal résultat confirme ce qui est attendu des techniques de pénalisation : plus la contrainte imposée aux paramètres est forte, plus les estimations seront forcées vers 0 mais plus leur variance sera aussi réduite. La même étude est faite figure 32.B sur le coefficient dont la vraie valeur est différente de 0. Ici encore, on retrouve les résultats attendus. La moyenne des estimations passe progressivement de 0 à une valeur proche du vrai paramètre. L’écart-type s’accroît le long du chemin de λ. Enfin, le Ridge rejoint la vraie valeur plus tard que le Lasso.

Figure 32 – Évolution des estimations Lasso et Ridge de coefficients valant 0 (A) et ne valant pas 0 (B), le long du chemin de λ

3. Etude de simulations

Un autre objectif de la pénalisation de vraisemblance (avec le Lasso en particulier) est de permettre la sélection de variables. Les simulations Monte-Carlo de la partie précédente sont donc également utilisées pour évaluer la capacité des algorithmes à sélectionner le bon modèle. Le critère retenu est leur aptitude à discriminer les coefficients, entre ceux dont la vraie valeur est 0 et les autres. L’évolution de la proportion moyenne de coefficients mis à zéros le long du chemin de régularisation est étudié. Les résultats sont présentés pour des estimations avec le Lasso, en faisant varier le nombre d’individus (Figure 33). Dans chacun des cas, les données sont simulées avec 46 covariables et 10 centres hospitaliers avec la variance des fragilités de 0,1. Le nombre moyen de coefficients n’étant pas égal dans les trois groupes, nous avons représenté la proportion moyenne des coefficients mis à zéro. Celle-ci est représentée pour trois familles de variables, à savoir les paramètres qui ne valent pas zéro avec une petite valeur (en bleu), une valeur plus importante (en rouge) et ceux qui valent réellement 0 (en vert). L’écart-type de cette proportion moyenne est aussi représenté parmi les simulations menées. Lorsque le nombre d’individus est faible (Figure 33.A) où les jeux de données que nous avons simulés comptent chacun un to-tal de 20 individus (N=20), les algorithmes éprouvent des difficultés à discriminer entre coefficients nuls ou non. Ici, le nombre d’individus est inférieur au nombre de variables (ce qui constitue un cas typique de grande dimension). Lorsque le nombre d’individus devient suffisant (200 sujets, figure 33.D), le résultat est plus satisfaisant. Les trois types de coefficients sont en moyenne de moins en moins mis à zéros, à mesure que la contrainte de pénalisation est relâchée. Mais les coefficients dont la vraie valeur est différente de 0 voient cette décroissance s’amorcer plus rapidement. Des simulations ont été réalisées avec un nombre d’individus plus élevé (1000 et 5000 sujets), la distinction entre les deux familles de variables est plus marquée. L’amélioration de la qualité avec l’augmentation du nombre d’observations est intuitive. A mesure que le nombre d’individus augmente, la précision des estimations s’améliore.

3. Etude de simulations

Figure 33 – Proportion des coefficients forcés à 0, le long du chemin de λ, selon le nombre d’individus

Les autres paramètres sont identiques : pénalité Lasso, sans risques compétitifs, avec fragilités : 10 indi-vidus par centre, θ = 0,1

La même démarche a été effectuée en faisant varier la variance des fragilités (Figure 34). L’évolution de la proportion moyenne de coefficients mis à zéros le long du chemin de régularisation est similaire pour une variance à 0,1 et à 0,5 quelque soit le nombre d’individus. Nous n’avons pas cherché à prendre une variance plus importante, car 0,5 marque déjà une extrême variabilité, un hôpital pourrait compter jusqu’à 3 fois plus de décès. On en conclut que la variabilité des effets centres n’a pas d’impact majeur dans l’utilisation de notre modèle.

3. Etude de simulations

Figure 34 – Proportion des coefficients forcés à 0, le long du chemin de λ, selon la va-riance des fragilités pour N=50 et N=200

Les autres paramètres sont identiques : pénalité Lasso, sans risques compétitifs, avec fragilités : 10 indi-vidus par centre

La même démarche a été effectuée en faisant varier le nombre d’individus par centre (noté nk) et en gardant le nombre total d’individus, ainsi le nombre de centres varient (Figure 35). L’évolution de la proportion moyenne de coefficients mis à zéros le long du chemin de régularisation est similaire quelque soit le nombre d’individus par centre. On en conclut que le nombre de centres n’a pas d’impact majeur dans l’utilisation de notre modèle.

La méthode a aussi été appliquée à l’aide de la pénalité Lasso et Ridge (Figure 36). Ici on retrouve les résultats présentés au début de la section sur un seul paramètre. La pénalité Lasso est plus « efficace » que la pénalité Ridge.

3. Etude de simulations

Figure 35 – Proportion des coefficients forcés à 0, le long du chemin de λ, selon le nombre d’individus par centre (nk)

Les autres paramètres sont identiques : pénalité Lasso, sans risques compétitifs, avec fragilités : θ = 0,1

Figure 36 – Proportion des coefficients forcés à 0, le long du chemin de λ, selon la pénalité pour N=50 et N=200

Les autres paramètres sont identiques : sans risques compétitifs, avec fragilités : 10 individus par centre et θ = 0,1

4. Conclusion et discussion

Enfin, nous avons ajoutés des risques compétitifs à la structure des données. La même démarche a donc été effectuée (Figure 37 pour comparer l’évolution de la proportion des coefficients forcés à 0, le long du chemin de λ. En présence de risques compétitifs les modèles discriminent en moyenne légèrement moins bien les paramètres. Les différences sont minimes et c’est encourageant dans le cadre des risques compétitifs.

Figure 37 – Proportion des coefficients forcés à 0, le long du chemin de λ, selon la prise en compte des Risques Compétitifs (RC) pour N=50 et N=200

Les autres paramètres sont identiques : pénalité Lasso et avec fragilités : 10 individus par centre et θ = 0,1

4 Conclusion et discussion