Les courbes de pr´ediction - Int´egrer discrimination et calibration

3.3 Int´egrer discrimination et calibration

3.3.3 Les courbes de pr´ediction

Un équivalent continu des taux de reclassification, qui ne nécessite pas la définition de groupes de risque, est la “ courbe de prédiction ” (traduction peu fiable de “ predictiveness curve ”) proposée par Pepe et al. (2008) et Huang et al. (2007). Cette courbe représente le risque de maladie prédit en fonction du quantile de la valeur du marqueur dans la population étudiée. Si R(ν) correspond au risque associé au νième quantile du marqueur, alors :

3.3. Int´egrer discrimination et calibration 52

où F est la fonction de répartition du marqueur en question. La figure 3.5 représente les courbes de prédiction associées à deux marqueurs, ainsi que leurs courbes ROC respectives.

percentile du marqueur (v) risque de maladie R( v ) 0 0.16 0.34 0.6 0.84 0.96 0.0 0.1 0.2 0.4 0.6 0.8 0.9 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1−spécificité sensibilité marqueur 1 marqueur 2

Figure 3.5 – Courbes de prédiction associées à deux marqueurs (à gauche) et courbes ROC (à droite).

A un niveau de risque est associé un quantile de la distribution du marqueur et vice versa. Cette interprétation dans les deux sens n’est possible que lorsque la relation entre le marqueur et le risque prédit est monotone croissante. Dans le cas contraire, une définition plus générale de la courbe de prédiction est nécessaire :

R(ν) = p : P (risque(Y )≤ p) = ν

Un trait horizontal est rajouté sur les graphiques : il correspond à la prévalence de la maladie. Un bon marqueur tend à ce que le risque prédit pour les futurs malades soit nettement supérieur à la prévalence et le risque prédit pour les futurs non malades soit nettement inférieur à la prévalence. C’est donc un marqueur dont la courbe de prédiction s’écarte fortement de la prévalence, en étant au dessus de la prévalence pour les risques élevés et en dessous de la prévalence pour les risques faibles.

Dans l’exemple de la figure 3.5, 84 % des patients ont un risque prédit en dessous de 90 % pour le marqueuré 1, ce qui signifie que 16 % ont un risque prédit au dessus de 90 %, alors que pour le marqueur 2, il n’y a que 4 % des patients qui ont un risque prédit au dessus de

3.3. Int´egrer discrimination et calibration 53

90 % ; de même, 34 % de la population a un risque prédit en dessous de 1 % pour le marqueur 1, alors que pour le marqueur 2, uniquement 16 % des patients a un risque prédit en dessous de 1 %. Le marqueur 1 semble meilleur que le marqueur 2. La courbe de prédiction ne mesure pas réellement la capacité du test à discriminer les patients en deux groupes, mais à associer des risques extrêmes pour une grande partie de la population.

Une mesure d’adéquation souvent proposée pour les modèles de risque est le R carré, ou R², correspondant à la proportion de variation expliquée par le modèle (Mittlböck et Schemper, 1996). Celui-ci peut se calculer à partir de la courbe de prédiction, avec une interprétation très concrète :

R² =^Z ¹

0 (R(ν) − π)2dν/(π(1− π))

π correspond à la prévalence de la maladie et π(1 − π) est un facteur de standardisation. Le R² est donc tout simplement le reflet de la capacité du marqueur à prédire des risques qui se démarquent fortement de la prévalence.

Il est possible de calculer les sensibilités, spécificités et valeurs prédictives pour chaque niveau du marqueur à partir de la courbe de prédiction (figure 3.6).

0.0 0.2 0.4 0.6 0.8 1.0 percentile du marqueur (v) risque de maladie R( v ) 0 0.2 0.4 0.6 0.8 ν0 1.0 0.0 0.2 0.4 0.6 0.8 1.0 percentile du marqueur (v) risque de maladie R( v ) 0 0.2 0.4 0.6 0.8 ν0 1.0

Figure 3.6 – Courbes de prédiction ainsi que leurs relations avec la sensibilité, la spécificité et les valeurs prédictives.

Pour un seuil correspondant au quantile ν0 du marqueur, la valeur prédictive positive correspond à l’AROC représentée en gris foncé, divisée par l’aire du rectangle en gris clair

3.3. Int´egrer discrimination et calibration 54 (graphique de gauche de la figure 3.6). En effet :

Vpp(ν0) = P (M|Y > F−1(ν0)) = R1

ν0P (M|Y = F−1(ν)) d(P (Y ≤ F−1(ν))) P (Y > F−1(ν0))

Le numérateur est donné par l’aire de la surface en gris foncé ; le dénominateur est quant à lui obtenu par l’aire du rectangle grisé. La sensibilité correspond à l’aire de la surface en gris foncé divisée par la prévalence. En effet, d’après le théorème de Bayes :

Sen(ν0) = ^Vpp(ν0) × P (Y > F−1(ν0)) P (M )

Les valeurs prédictives négatives et valeurs de spécificité se retrouvent de manière similaire : la valeur prédictive négative correspond à l’aire au dessus de la courbe représentée en gris foncé (graphique de droite de la figure 3.6) divisée par l’aire du rectangle grisé ; la spécificité est donnée par l’aire de la surface en gris foncé divisée par le complément de la prévalence. Ainsi, bien que le rôle fondamental de la courbe de prédiction ne soit pas l’étude de la capacité du marqueur à discriminer les patients, elle permet tout de même d’observer visuellement les mesures de performance pour la discrimination. Un marqueur avec de bonnes sensibilités est un marqueur pour lequel la courbe de prédiction monte rapidement vers le haut ; à l’inverse, un marqueur avec de bonnes spécificités a une courbe de prédiction qui reste le plus possible vers le bas.

En plus de l’observation de l’évolution du risque prédit en fonction du niveau du marqueur, les courbes de prédiction permettent d’analyser l’utilité du marqueur lorsqu’il est appliqué à une population, en calculant les pourcentages d’individus dont les risques prédits atteignent des niveaux faibles ou élevés. Il faut donc définir deux risques limites : un au dessus duquel les patients sont jugés comme à risque élevé et l’autre en dessous duquel les patients sont jugés à risque faible. Dans le cas de la figure 3.5, si ces risques limites sont respectivement de 10 % et 90 %, la conclusion, suite à la mesure du marqueur, est indécise pour 50 % des patients en utilisant le marqueur 1 (risque prédit entre les deux risques limites) et pour 86 % de la population pour le marqueur 2. Le marqueur 1 semble donc plus adapté dans ce cas, l’enjeu étant que le minimum de personnes pour lesquelles une décision tranchée n’est pas envisageable ait un risque prédit intermédiaire.

Le choix de ces valeurs limites de risque dépend du contexte clinique et revient à quantifier les coûts et les bénéfices associés au fait de classer les patients à risque élevé et risque faible.

3.4. Introduction de l’utilit´e 55

Dans le document Méthodologie de l’utilisation des biomarqueurs quantitatifs longitudinaux pour l’aide à la décision en médecine. Application aux PSA dans le cancer de la prostate (Page 69-73)