6.4 Information additionnelle
7.1.4 Sélection de ratios
7.1.4.1 Analyse ROC et principes de base
L’analyse ROC, de l’anglais Receiver Operating Characteristics, est essentiellement
populaire pour son application dans le domaine médical pour l’évaluation des
perfor-mances d’un classificateur et la prise de décision. Historiquement, la capacité d’une
méthode à discriminer deux classes a été évaluée par le taux de classification correcte
global. Toutefois, cette mesure est fortement affectée par l’équilibre de la population
des classes, à savoir que si la prévalence d’une maladie dans une population
d’indi-vidus est uniquement de 10%, l’opérateur pourrait aléatoirement déterminer qu’un
individu donné ne porte pas ladite maladie et il aurait la bonne réponse dans 90%
des cas (Metz,1978). Ainsi, l’évaluation des performances d’un classificateur par la
89 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N◦ 1
mesure du taux de classification correcte est une approche biaisée. Pour corriger ce
problème, l’analyse ROC a la particularité d’être insensible aux changements dans
la distribution des classes (Fawcett,2006). L’analyse ROC traite différemment la
ca-pacité d’un classificateur à identifier un événement positif et un événement négatif.
La capacité d’identifier un événement positif comme positif est définie par la
sensi-bilité, soit le Taux de Vrais Positifs (TVP). Inversement, correctement identifier un
événement négatif comme négatif est défini par la spécificité, soit le Taux de Vrais
Négatifs (TVN). À noter que les notions d’évènements positifs et négatifs sont
com-munément utilisées dans l’analyse ROC et par souci de consistance, ces termes sont
aussi utilisés ici. Étant donné que l’univers n’est pas parfait, les décisions prises sont
incertaines et le risque de classer incorrectement des évènements positifs et négatifs
existe. Le risque d’identifier positivement un événement négatif est appelé le Taux
de Faux Positifs (TFP) et le risque d’identifier négativement un évènement positif
est appelé le Taux de Faux Négatifs (TFN). Les relations mathématiques entre les
quatre critères présentés ci-dessus sont décrites dans les Équations 7.2 à 7.5.
Sensibilité = TVP = Nombre de VP classés
Nombre de VP réels (7.2)
Spécificité = TVN = Nombre de VN classés
Nombre de VN réels (7.3)
TFP = 1−Spécificité = 1−TVN (7.4)
TFN = 1−Sensibilité = 1−TVP (7.5)
Une illustration graphique des ces quatre critères mathématiques est présentée
Fi-gure7.3pour des données simulées. Considérons deux vecteurs de réponses continues
correspondant aux populations d’échantillons liés (positive) et non liés (négative),
dont les éléments prennent des valeurs sur l’abscisse entre 0 et 1 incluses. Si ces
ré-ponses sont maintenant associées à des distances Euclidiennes, alors les éléments de
ces deux vecteurs reflètent la distance entre des paires d’échantillons liés (partageant
une source commune, soit proche de 0) ou d’échantillons non liés (ne partageant pas
de source commune, soit proche de 1). L’objectif de l’analyse ROC est de
trou-ver la distance optimale sur l’abscisse maximisant le TVP/TVN et minimisant le
TFP/TFN en variant le seuil de décision, soit la distance Euclidienne, entre 0 et 1.
À noter que dans le cadre de cette étude, la distance Euclidienne a délibérément
été bornée entre 0 et 1 en divisant les éléments des distributions des échantillons
liés et non liés par la distance Euclidienne entre paires d’échantillons la plus élevée.
Cette transformation a été réalisée pour obtenir des représentations graphiques plus
intuitives puisqu’en théorie, la distance Euclidienne peut s’étendre à l’infini. Toutes
les valeurs de distance Euclidienne entre 0 et 1 peuvent donc constituer un seuil
de décision, mais il n’y a pas beaucoup de ces valeurs qui correspondent à une
va-leur de seuil réaliste. En effet, selon le problème traité et l’objectif, l’opérateur peut
souhaiter maximiser le TVP au risque d’augmenter le TFP ou minimiser le TFP
au risque d’augmenter le TFN. Choisir un seuil de décision dépend de la question
traitée. Évidemment, le cas parfait serait une séparation complète entre les deux
distributions résultant en des TFP et TFN nuls. L’analyse ROC propose un moyen
d’évaluer la qualité de la séparation entre deux distributions en variant le seuil de
décision sur l’abscisse entre 0 et 1. Par exemple, en se basant sur les données
si-mulées Figure 7.3, le seuil de décision peut être varié entre 0 et 1 avec un pas de
0.02 et à chaque pas, les critères mathématiques des Équations 7.2 à 7.5 peuvent
être calculés. À la fin, il y a autant de valeurs pour chacun de ces critères qu’il y
a eu de valeurs de seuil testées. Intuitivement, cette procédure revient à calculer
pour chaque valeur de seuil le nombre d’événements VP et FP sur la partie gauche
du seuil et le nombre d’événements VN et FN sur la partie droite du seuil.
Géo-métriquement, ces valeurs numériques correspondent à la valeur de l’aire sous les
distributions associées en fonction du seuil qui varie. Dans le cas présent, l’analyse
ROC donne un seuil de décision correspondant à une distance Euclidienne spécifique
entre des paires d’échantillons qui permet de déterminer si les échantillons sont liés
(partagent une source commune) ou s’ils ne sont pas liés (ne partageant pas de
source commune). À noter que les valeurs de TVP et TFP calculées par la variation
du seuil sont conservées de sorte à construire la courbe ROC discutée plus loin.
91 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N◦ 1
Figure 7.3 – Deux distributions simulées pour une population d’échantillons liés
(positif) et non liés (négatif) montrant un seuil de décision possible
entre 0 et 1 maximisant TVP/TVN et minimisant TFP/TFN
Les critères calculés par les Équations 7.2 à 7.5 fournissent une vue d’ensemble
plus complète de la discrimination entre deux classes que le taux de classification
correcte. Toutefois, la possibilité d’avoir une seule valeur scalaire pour représenter
la séparation entre deux classes est intéressante. La section suivante présente un
moyen d’estimer ce qui est appelé l’aire sous la courbe ROC. Pour une introduction
plus détaillée sur l’analyse ROC et les prises de décision associées, le lecteur peut se
référer à Fawcett (2006) et Brown et Davis (2006).
Le lecteur habitué à l’analyse ROC dans le domaine médical peut raisonnablement
se poser des questions quant à la liberté prise ici d’interchanger la position de la
distribution positive et négative comme le montre la Figure 7.3. Par convention,
l’étiquette positive est attribuée à la distribution qui donne lieu aux actions les plus
drastiques dans le monde réel (Brown et Davis, 2006). Dans le domaine médical,
un résultat positif peut être le diagnostic positif d’un patient portant une maladie
donnée, ce qui est indiqué par des valeurs élevées sur l’abscisse. Dans le cadre de ce
projet, les seuils et les distributions sont abordés sous une perspective de distances,
impliquant que la distribution positive est celle de gauche. En effet, cette distribution
correspond à celle des échantillons liés, soit ceux qui partagent une source commune.
Plus les échantillons sont proches les uns des autres dans l’espace multivarié, plus
la distance les séparant est proche de zéro.
Dans le document
Évaluation d'une approche chimiométrique non ciblée pour l'inférence de source de liquides inflammables en science forensique
(Page 101-105)