Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Sensibilité et spécificité du classificateur binaire

Dans le document Algorithmes pour la prédiction in silico d'interactions par similarité entre macromolécules biologiques (Page 75-78)

On considère une instance du problème de la recherche de cibles, constituée d’une molécule ligand

requêteL, et d’un ensemble de macromolécules cibles candidates_C. Les méthodes de prédiction de cibles

fonctionnent généralement en fournissant une liste triée des cibles de _C, suivant l’aﬃnité prédite avec

le ligand requête. On peut alors utiliser un rang seuil s qui partitionne _C = PP(s)∪PN(s) en deux

ensembles : les résultats prédits positifs PP(s) dont le rang est inférieur à s, et les résultats prédits

négatifs PN(s) dont le rang est supérieur à s. On obtient ainsi un nombre de cibles prédites positives

#PP(s) égal à la valeur du rang seuilschoisi.

On suppose maintenant qu’on connaît le résultat souhaité, c’est à dire une partition_C=P ∪ N telle

que les cibles de _P sont exactement celles qui peuvent former un complexe avec le ligand. On dit que

P sont les résultats positifs et _N sont les négatifs. On déﬁnit alors pour un rang seuil s les ensembles

suivants (détaillés en ﬁgure1) :

• TP(s) =PP(s)∩ P, les vrais positifs

• TN(s) =PN(s)∩ N, les vrais négatifs

• FP(s) =PP(s)∩ N^{, les} faux positifs

• FN(s) =PN(s)∩ P, les faux négatifs

À partir de ces ensembles et pour un rang seuil s donné, on déﬁnit la sensibilité (ou True Positive

Rate) d’une approche comme le quotient des vrais positifs par les positifs. On déﬁnit de même laspécificité

1. Méthodes pour évaluer et comparer différentes approches 67

(ou True Negative Rate) comme le quotient des vrais négatifs par les négatifs. La précision (ou Positive

Predictive Value) est déﬁnie comme le quotient des vrais positifs par les prédits positifs.

tpr(s) = ^#^TP(s)

#P ⁼

#TP(s)

#TP(s) + #FN(s) ∈[0,1] la sensibilité

tnr(s) = ^#^TN(s)

#N ⁼

#TN(s)

#TN(s) + #FP(s) ∈[0,1] la spéciﬁcité

ppv(s) = ^#^TP(s)

#PP(s) ∈[0,1] la précision

1.1.2 Courbe ROC, évaluation du classificateur

Le fait de considérer les approches de prédiction de cibles comme des classiﬁcateurs binaires permet

d’utiliser des méthodes classiques comme les courbes ROC et les aires AUC [Carvalho 2014]. Ces mesures

permettent d’évaluer la qualité des résultats d’un classiﬁcateur binaire, fournissant ainsi un moyen de

comparer plusieurs classiﬁcateurs entre eux sur une même instance du problème de prédiction de cible.

La courbe ROC (ou Receiver Operating Characteristic, ﬁgure 2) est déﬁnie comme la sensibilité en

fonction de la spéciﬁcité. Elle est constituée de l’ensemble des points (tpr(s),1−tnr(s)) pour toutes

les valeurs de seuils s possibles 0 ≤ s ≤ #C. En particulier le point (0,0) est toujours présent pour le

rang seuils= 0toutes les cibles sont prédites négatives, il n’y a donc aucun vrai positif et tous les vrais

négatifs. Réciproquement le point (1,1)est également toujours présent, car pour le rang seuil maximal

s= #C toutes les cibles sont prédites positives, il n’y a donc aucun vrai négatif et tous les vrais positifs.

L’AUC (ou Area Under Curve), déﬁnie comme l’aire sous la courbe ROC, constitue une métrique

globale du classiﬁcateur sur l’ensemble des cibles candidates. Il s’agit par déﬁnition d’une partie du carré

unité, donc toujours comprise entre 0 et1. La valeur 1 correspondant au classiﬁcateur idéal pour lequel

toutes les cibles positives sont classées avant toute autre cible négative. L’AUC peut aussi s’interpréter

comme la probabilité qu’un positif choisi au hasard soit mieux classé qu’un négatif choisi au hasard, en

particulier la valeur0.5correspond à l’espérance d’un classiﬁcateur aléatoire.

Un cas particulier est à considérer si une approche de prédiction de cible ne fournit pas un classement

complet. C’est-à-dire qu’un rang n’est attribué que pour une partie de l’ensemble des cibles, la tête du

classement résultat. Ce problème est contourné en aﬀectant des rangs arbitrairement mauvais aux cibles

positives qui ne sont pas classés, afin de pouvoir définir systématiquement les différentes métriques. Cela

introduit un biais dans les mesures globales comme l’AUC mais nous verrons que les mesures pertinentes

sont justement restreintes à la tête du classement, où ce biais n’a pas d’inﬂuence.

1.1.3 Adaptation de la métrique pour évaluer la tête du classement

La ﬁgure 3 présente une adaptation de la métrique. En eﬀet la mesure de l’AUC permet d’évaluer

globalement un classiﬁcateur, pour l’ensemble des choix de rang seuils possibles en couvrant toutes les

valeurs de sensibilité et spéciﬁcité. Cependant une méthode de prédiction de cibles, telle queBioBind, est

conçue dans l’objectif de pouvoir déterminer les cibles d’un ligand, parmi untrès grand ensemble de cibles

candidates. L’objectif est de déterminer un ensemble de cibles potentielles suﬃsamment petit, sur lequel de

nouvelles expériences plus précises pourront être réalisées. Ainsi, l’intérêt se situe dans les premiers vrais

positifs, et la sensibilité ou spéciﬁcité pour des valeurs de seuil trop grandes est une mesure peu pertinente

de la qualité de l’approche. Une nouvelle mesure est construite pour prendre en compte uniquement les

classifications produites par les rangs seuil suffisamment petits, afin de rendre mieux compte du résultat

attendu pour un problème réel.

Pour une spéciﬁcité minimale de X%, on déﬁnit le rang seuil s

_X

pour lequel la spéciﬁcité reste au

dessus de X%, correspondant à une lecture plus réaliste où seuls les premiers résultats sont considérés.

tpr

1−tnr

0 1

1

0

Classiﬁcateur performant

Classiﬁcateur par

tirage aléatoire

Classiﬁcateur moins

eﬃcace que le hasard

0.5<auc≤1 auc= 0.5 0≤auc<0.5

point de la courbe correspondant

au rang seuilstel que :

tpr(s) =xettnr(s) = 1−x

y

x

Figure2 – Évaluation d’un classificateur par sa courbe ROC et l’aire sous la courbe AUC. Une

aire de0.5correspond à l’espérance d’un tirage aléatoire, ainsi pour être pertinent un classificateur

doit produire une AUC supérieure.

1. Méthodes pour évaluer et comparer différentes approches 69

roc

₇₅

auc

₇₅

>0.125

auc

₇₅

= 0.125

tpr tpr

1−tnr 1−tnr

Figure 3 – Courbe ROC restreinte à une spécificité supérieure à 75 %. On note que même si

l’auc

_X

est normalisée dans l’intervalle[0,1], dans ce contexte l’AUC de référence d’un classificateur

aléatoire n’est plus 0.5 mais

100₋X

200

, soit 0.125 pour X = 75.

On déﬁnit également les paramètres ppv

_X

,tpr

_X

,tnr

_X

en fonction du seuil, ainsi que la courbe roc

_X

et son aire associée auc

_X

.

s

_X

= max{s:tnr(s)≥X%} ppv

_X

=ppv(s

_X

)

roc

_X

={(tpr(s),1−tnr(s)) :s∈N,tnr(s)≥X%} tpr

_X

=tpr(s

_X

)

auc

X

=

Z

roc

X

×100/(100−X) tnr

X

=tnr(s

X

)

Aﬁn d’illustrer la nécessité d’une telle mesure focalisée sur les premiers rangs, on peut citer l’exemple

d’un classiﬁcateur qui récupère la moitié des cibles positives très bien classées, et l’autre moitié très mal

classées. Un tel classiﬁcateur aurait une AUC proche de 0.5, qui ne le distingue pas d’un classiﬁcateur

aléatoire. Cependant un tel classiﬁcateur a un intérêt réel dans la pratique car il apporte une information

dès les tous premiers éléments du classement. Cette situation est courante avec les diﬀérentes méthodes

de prédiction de cibles, c’est pourquoi nous privilégierons les auc

₇₅

ou auc

₉₀

pour évaluer les diﬀérents

résultats. La ﬁgure 4schématise un tel exemple.

Dans le document Algorithmes pour la prédiction in silico d'interactions par similarité entre macromolécules biologiques (Page 75-78)

Télécharger maintenant "Algorithmes pour la pr..."

Outline

Documents relatifs