• Aucun résultat trouvé

Partie 2 Analyses statistiques : le modèle de régression de Cox

2.11. b. Validation d’un modèle prédictif

Une étape primordiale dans la construction d’un score prédictif est la validation de ce score afin de juger si celui-ci est correctement construit et est fidèle à la réalité. Deux mesures sont principalement évaluées pour caractériser la performance d’un modèle : la discrimination, qui estime la capacité du score à séparer les individus malades et non-malades, et la calibration, qui estime la capacité du score à prédire un niveau de risque proche du niveau de risque réel. Ainsi, la figure 34 illustre la façon dont des individus sont classés selon que le score est discriminant (les profils sont nettement séparés sur l’échelle du risque prédit), mais mal calibré (le risque réel n’augmente pas en fonction de la hausse du risque prédit) (figure du haut), mal discriminant (il n’existe pas de nette séparation en fonction du risque prédit), mais bien calibré (l’augmentation du risque évalué correspond à une augmentation du risque réel) (figure du milieu), ou discriminant et bien calibré (figure du bas).

Définition des échantillons d’apprentissage et de test

Le score se teste sur un échantillon différent de celui sur lequel il a été estimé. Pour évaluer la performance d’un score, il convient de le tester soit sur une population indépendante (on parle de validation externe), soit sur la même population en la subdivisant (on parle de validation interne). Dans le présent travail, il a été choisi de réaliser une validation interne du score prédictif à partir d’une double subdivision. La population d’analyse a été aléatoirement divisée en deux échantillons, un échantillon d’apprentissage et un échantillon de validation, avec le rapport 4:1 afin de pouvoir apprendre le score final sur l’ensemble de l’échantillon d’apprentissage et le valider sur l’échantillon de validation. Les variables à incorporer dans le score final sont sélectionnées à l’aide d’une méthode de validation croisée. Cette méthode consiste à scinder aléatoirement l’échantillon d’apprentissage en p partitions (ici p = 5) qui serviront successivement à tester le score par l’évaluation de ses performances. Chaque score est appris sur ième (ici ème) de l’échantillon d’apprentissage et testé sur ième (ici ème), et ce, cinq fois, de sorte que chacune des p partitions servira à tester le score une fois. On obtient alors p évaluations des performances du modèle que l’on moyennera pour obtenir la performance globale du score.

Estimation de la discrimination d’un modèle prédictif

La discrimination d’un score prédictif estime sa capacité à séparer les individus malades et non-malades. Pour mesurer la discrimination d’un score prédictif, la mesure la plus couramment

utilisée est l’aire sous la courbe de la fonction d’efficacité du récepteur (courbe ROC pour receiver

operating characteristic), appelée AUC (area under the ROC curve).

Un score prédictif permet d’attribuer à chaque individu une classification prédite (malade / non-malade), qui sera alors comparée à la classification réelle (malade / non-malade) issue de l’observation, permettant de construire le tableau de contingence présenté dans le tableau 14. Tableau 14 : Tableau de contingence entre la classe prédite et la classe réelle.

Classe prédite

Malade Non-malade

Classe réelle Malade Vrai positif Faux Négatif

Non-malade Faux positif Vrai Négatif

Ainsi, selon les valeurs de leurs classes prédite et réelle, chaque individu peut être classé comme malade, à tort (faux positif) ou à raison (vrai positif), ou comme non-malade, à tort (faux négatif) ou à raison (vrai négatif). Les effectifs de ces quatre classifications (tableau 14)

permettent ensuite de calculer la sensibilité (équation 22) et la spécificité (équation 23) associées au score prédictif.

Équation 22 : Définition de la sensibilité d’un score prédictif.

Équation 23 : Définition de la spécificité d’un score prédictif.

Une des difficultés d’un score prédictif réside dans la détermination d’une valeur seuil qui va décider si l’individu est classé malade ou non-malade. Si le seuil est trop bas, beaucoup de personnes seront classées comme malades, la sensibilité sera élevée, cependant un grand nombre le seront à tort (faux positifs), la spécificité sera alors très mauvaise. À l’inverse, un seuil trop élevé produira une bonne spécificité (peu d’individus non-malades seront diagnostiqués malades), mais une mauvaise sensibilité (le test laissera échapper un grand nombre de vrais malades). La meilleure valeur seuil est celle qui optimise la sensibilité et la spécificité du score prédictif pour trouver un compromis entre détecter un maximum de patients malades et écarter un maximum de patients non-malades.

La courbe ROC permet de définir la valeur de ce seuil en représentant la sensibilité en fonction de 1-spécificité pour l’ensemble des valeurs seuils possibles avec le jeu de données. L’AUC correspond au calcul de l’aire sous cette courbe ROC et estime la probabilité que le modèle prédictif attribue à un individu malade un score plus élevé qu’à un individu non-malade. Une performance parfaite est représentée par une AUC de 1, une performance équivalant à assigner la classe prédite au hasard par une AUC de 0,5.

Pour illustrer la construction d’une courbe ROC, le tableau 40 (en annexe page 219) présente le calcul de la sensibilité et de la spécificité pour un jeu de données simulées dans lequel une probabilité de survenue d’une maladie a été assignée à chacun des 32 individus malades ou non-malades. Les différentes statistiques sont calculées pour chaque valeur seuil possible, c’est-à-dire pour chaque valeur du score prédit observé dans le jeu de données. Le nombre de vrais positifs

est le nombre d’individus malades dont le score est supérieur (ou égal) au seuil, le nombre de faux positifs le nombre d’individus non-malades dont le score est supérieur (ou égal) au seuil, le nombre de faux négatifs le nombre d’individus malades dont le score prédit est inférieur (strictement) au seuil et le nombre de vrais négatifs le nombre d’individus non-malades dont le score prédit est inférieur (strictement) au seuil. La figure 35 présente la courbe ROC obtenue pour cet exemple.

Figure 35 : Exemple de représentation d’une courbe ROC à partir d’un jeu de données simulées. Estimation de la calibration d’un modèle prédictif

La calibration d’un score prédictif est sa capacité à prédire un niveau de risque proche du niveau de risque réel. Pour mesurer la calibration d’un score prédictif, la mesure la plus couramment utilisée est le rapport du nombre estimé de cas de maladie sur le nombre observé de cas, mesure pouvant être, en complément, illustrée à l’aide de diagrammes de fiabilité.

Le nombre observé (O) est directement observable sur la population et représente le nombre d’individus qui ont été diagnostiqués avec la maladie dans la fenêtre de prédiction. Le nombre estimé (E) correspond à la somme des probabilités prédites de l’ensemble des individus de la population. Plus le rapport E/O est proche de 1, plus le nombre estimé de cas est proche du nombre observé de cas, et meilleure est la calibration. Pour avoir une vision plus précise de la calibration, le rapport E/O peut également être calculé par quantile de scores prédits afin d’estimer si la calibration est meilleure parmi les individus à faible risque ou parmi les individus à haut risque. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Sen si bi lit é 1-Spécificité AUC = 0,71

Une illustration du rapport E/O peut être obtenue par les diagrammes de calibration (également appelés diagrammes de fiabilité) qui représentent le niveau moyen des scores prédits en fonction de la proportion de cas dans plusieurs sous-groupes de la population, découpés selon les percentiles du score prédit. Plus les points s’éloignent de la diagonale, plus la différence entre le nombre de cas observés et le score prédit est importante.

Pour illustrer l’estimation du rapport E/O et la représentation des diagrammes de calibration, reprenons l’exemple présenté dans le tableau 40 (en annexe page 219). Le rapport E/O calculé pour cet exemple de score est de 0,86. Le tableau 15, présentant le calcul des rapports E/O par quintiles de score, permet de se rendre compte que le score a tendance à sous-estimer le risque réel de pratiquement toutes les sous-populations.

Tableau 15 : Exemple de calcul des rapports E/O par intervalles de quartiles du score prédit pour un jeu de données simulées.

Intervalles de score Rapport E/O

[0,00 ; 0,12[ 0,590

[0,12 ; 0,23[ 0,641

[0,23 ; 0,36[ 1,223

[0,36 ; 1,00] 0,853

La figure 36 présente le diagramme de calibration pour le jeu de données du tableau 40 (en annexe page 219). Ce diagramme permet de se rendre compte que le risque prédit est proche du risque réel. 0 0,2 0,4 0,6 0,00 0,10 0,20 0,30 0,40 0,50 0,60 Sc or e pr édi t m oy en Proportion de cas

Figure 36 : Exemple d’un diagramme de calibration pour un jeu de données simulées.

Dans le cas du modèle de régression de Cox, la discrimination peut également être estimée en validant dans l’échantillon test, l’estimation effectuée dans l’échantillon d’apprentissage, de deux

coefficients de régression sont issus de l’estimation dans l’échantillon d’apprentissage, dans l’échantillon test ; plus le coefficient de régression associé au pronostic index est proche de 1, meilleure est la discrimination. La seconde méthode consiste à régresser les variables incluses dans le modèle final et le pronostic index pour qui le coefficient de régression a été contraint à 1 ; plus les coefficients de régression associés à chaque variable sont proches de zéro, meilleure est la discrimination.

Dans le cas particulier d’un score construit à l’aide d’un modèle de régression de Cox, comme la fonction de survie de base est modélisée il convient de valider la modélisation, ce qui peut être réalisé de deux manières différentes. La première consiste à évaluer, dans l’échantillon d’apprentissage, si la modélisation est proche des vraies valeurs. Ainsi, les valeurs estimées, ainsi que leur intervalle de confiance à 95 % obtenu par bootstrap (voir le paragraphe suivant), sont comparées aux valeurs observées dans l’échantillon d’apprentissage. La seconde méthode consiste à évaluer, dans l’échantillon de validation, si les vraies valeurs sont proches de la modélisation. Ainsi, les valeurs observées dans l’échantillon de validation, ainsi que leur intervalle de confiance à 95 % obtenu par bootstrap, sont comparés aux valeurs estimées obtenues en réaffectant la modélisation obtenue dans l’échantillon d’apprentissage au sein de l’échantillon de validation.

La méthode par bootstrap permet d’obtenir un intervalle de confiance pour la statistique d’intérêt lorsqu’aucune formulation analytique pour cet intervalle n’est disponible, ou n’est pas facilement estimable. Cette méthode consiste à ré-échantillonner l’échantillon d’origine, en sélectionnant aléatoirement, avec remise, un nouvel échantillon de même taille que l’échantillon d’origine. En général, l’échantillonnage est réalisé 100, 1 000 ou 10 000 fois. Les statistiques d’intérêt sont estimées dans chaque échantillon, ce qui permet d’en déduire leur distribution. L’intervalle de confiance à 95 % des statistiques d’intérêt correspond alors à l’intervalle défini par les percentiles à 2,5 % et 97,5 % de la distribution obtenue par l’ensemble des échantillons.