• Aucun résultat trouvé

6.4 Information additionnelle

7.1.4 Sélection de ratios

7.1.4.1 Analyse ROC et principes de base

L’analyse ROC, de l’anglais Receiver Operating Characteristics, est essentiellement

populaire pour son application dans le domaine médical pour l’évaluation des

perfor-mances d’un classificateur et la prise de décision. Historiquement, la capacité d’une

méthode à discriminer deux classes a été évaluée par le taux de classification correcte

global. Toutefois, cette mesure est fortement affectée par l’équilibre de la population

des classes, à savoir que si la prévalence d’une maladie dans une population

d’indi-vidus est uniquement de 10%, l’opérateur pourrait aléatoirement déterminer qu’un

individu donné ne porte pas ladite maladie et il aurait la bonne réponse dans 90%

des cas (Metz,1978). Ainsi, l’évaluation des performances d’un classificateur par la

89 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N 1

mesure du taux de classification correcte est une approche biaisée. Pour corriger ce

problème, l’analyse ROC a la particularité d’être insensible aux changements dans

la distribution des classes (Fawcett,2006). L’analyse ROC traite différemment la

ca-pacité d’un classificateur à identifier un événement positif et un événement négatif.

La capacité d’identifier un événement positif comme positif est définie par la

sensi-bilité, soit le Taux de Vrais Positifs (TVP). Inversement, correctement identifier un

événement négatif comme négatif est défini par la spécificité, soit le Taux de Vrais

Négatifs (TVN). À noter que les notions d’évènements positifs et négatifs sont

com-munément utilisées dans l’analyse ROC et par souci de consistance, ces termes sont

aussi utilisés ici. Étant donné que l’univers n’est pas parfait, les décisions prises sont

incertaines et le risque de classer incorrectement des évènements positifs et négatifs

existe. Le risque d’identifier positivement un événement négatif est appelé le Taux

de Faux Positifs (TFP) et le risque d’identifier négativement un évènement positif

est appelé le Taux de Faux Négatifs (TFN). Les relations mathématiques entre les

quatre critères présentés ci-dessus sont décrites dans les Équations 7.2 à 7.5.

Sensibilité = TVP = Nombre de VP classés

Nombre de VP réels (7.2)

Spécificité = TVN = Nombre de VN classés

Nombre de VN réels (7.3)

TFP = 1−Spécificité = 1−TVN (7.4)

TFN = 1−Sensibilité = 1−TVP (7.5)

Une illustration graphique des ces quatre critères mathématiques est présentée

Fi-gure7.3pour des données simulées. Considérons deux vecteurs de réponses continues

correspondant aux populations d’échantillons liés (positive) et non liés (négative),

dont les éléments prennent des valeurs sur l’abscisse entre 0 et 1 incluses. Si ces

ré-ponses sont maintenant associées à des distances Euclidiennes, alors les éléments de

ces deux vecteurs reflètent la distance entre des paires d’échantillons liés (partageant

une source commune, soit proche de 0) ou d’échantillons non liés (ne partageant pas

de source commune, soit proche de 1). L’objectif de l’analyse ROC est de

trou-ver la distance optimale sur l’abscisse maximisant le TVP/TVN et minimisant le

TFP/TFN en variant le seuil de décision, soit la distance Euclidienne, entre 0 et 1.

À noter que dans le cadre de cette étude, la distance Euclidienne a délibérément

été bornée entre 0 et 1 en divisant les éléments des distributions des échantillons

liés et non liés par la distance Euclidienne entre paires d’échantillons la plus élevée.

Cette transformation a été réalisée pour obtenir des représentations graphiques plus

intuitives puisqu’en théorie, la distance Euclidienne peut s’étendre à l’infini. Toutes

les valeurs de distance Euclidienne entre 0 et 1 peuvent donc constituer un seuil

de décision, mais il n’y a pas beaucoup de ces valeurs qui correspondent à une

va-leur de seuil réaliste. En effet, selon le problème traité et l’objectif, l’opérateur peut

souhaiter maximiser le TVP au risque d’augmenter le TFP ou minimiser le TFP

au risque d’augmenter le TFN. Choisir un seuil de décision dépend de la question

traitée. Évidemment, le cas parfait serait une séparation complète entre les deux

distributions résultant en des TFP et TFN nuls. L’analyse ROC propose un moyen

d’évaluer la qualité de la séparation entre deux distributions en variant le seuil de

décision sur l’abscisse entre 0 et 1. Par exemple, en se basant sur les données

si-mulées Figure 7.3, le seuil de décision peut être varié entre 0 et 1 avec un pas de

0.02 et à chaque pas, les critères mathématiques des Équations 7.2 à 7.5 peuvent

être calculés. À la fin, il y a autant de valeurs pour chacun de ces critères qu’il y

a eu de valeurs de seuil testées. Intuitivement, cette procédure revient à calculer

pour chaque valeur de seuil le nombre d’événements VP et FP sur la partie gauche

du seuil et le nombre d’événements VN et FN sur la partie droite du seuil.

Géo-métriquement, ces valeurs numériques correspondent à la valeur de l’aire sous les

distributions associées en fonction du seuil qui varie. Dans le cas présent, l’analyse

ROC donne un seuil de décision correspondant à une distance Euclidienne spécifique

entre des paires d’échantillons qui permet de déterminer si les échantillons sont liés

(partagent une source commune) ou s’ils ne sont pas liés (ne partageant pas de

source commune). À noter que les valeurs de TVP et TFP calculées par la variation

du seuil sont conservées de sorte à construire la courbe ROC discutée plus loin.

91 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N 1

Figure 7.3 – Deux distributions simulées pour une population d’échantillons liés

(positif) et non liés (négatif) montrant un seuil de décision possible

entre 0 et 1 maximisant TVP/TVN et minimisant TFP/TFN

Les critères calculés par les Équations 7.2 à 7.5 fournissent une vue d’ensemble

plus complète de la discrimination entre deux classes que le taux de classification

correcte. Toutefois, la possibilité d’avoir une seule valeur scalaire pour représenter

la séparation entre deux classes est intéressante. La section suivante présente un

moyen d’estimer ce qui est appelé l’aire sous la courbe ROC. Pour une introduction

plus détaillée sur l’analyse ROC et les prises de décision associées, le lecteur peut se

référer à Fawcett (2006) et Brown et Davis (2006).

Le lecteur habitué à l’analyse ROC dans le domaine médical peut raisonnablement

se poser des questions quant à la liberté prise ici d’interchanger la position de la

distribution positive et négative comme le montre la Figure 7.3. Par convention,

l’étiquette positive est attribuée à la distribution qui donne lieu aux actions les plus

drastiques dans le monde réel (Brown et Davis, 2006). Dans le domaine médical,

un résultat positif peut être le diagnostic positif d’un patient portant une maladie

donnée, ce qui est indiqué par des valeurs élevées sur l’abscisse. Dans le cadre de ce

projet, les seuils et les distributions sont abordés sous une perspective de distances,

impliquant que la distribution positive est celle de gauche. En effet, cette distribution

correspond à celle des échantillons liés, soit ceux qui partagent une source commune.

Plus les échantillons sont proches les uns des autres dans l’espace multivarié, plus

la distance les séparant est proche de zéro.