• Aucun résultat trouvé

6.4 Information additionnelle

7.1.4 Sélection de ratios

7.1.4.4 Algorithme

La section 7.1.4.3 a présenté comment l’AUROC est estimée. La présente section

détaille l’utilisation de cette information pour effectuer une sélection de variables.

L’objectif est de sélectionner un sous-ensemble optimal de variables qui maximise

l’AUROC, impliquant que la séparation entre les distributions d’échantillons liés et

non liés est maximale. La procédure pour la sélection de variables utilisée ici est

adaptée de la méthode proposée par Rossi et al. (2006).

Mesures de similarité La similarité entre les individus dans un espace à N-dimensions

est calculée en utilisant n variables sélectionnées. Une mesure de similarité fait

réfé-rence à la comparaison de deux échantillons et quantifie à quel point ces échantillons

sont similaires. Calculer la population des échantillons liés revient à calculer la

simi-larité entre toutes les paires d’échantillons possibles, sans répétition, qui partagent

une source commune. Inversement, calculer la population des échantillons non liés

revient à calculer la similarité entre toutes les paires d’échantillons possibles, sans

répétition, qui ne partagent pas de source commune. Maximiser la séparation entre

ces deux populations revient à rapprocher le plus possible dans l’espace multivarié

les échantillons qui partagent une source commune et en même temps éloigner le

plus possible les échantillons qui ne partagent pas de source commune. Les approches

évaluant la similarité entre les paires d’échantillons par l’analyse ROC ne sont pas

nouvelles et elles ont déjà été utilisées en science forensique dans le domaine du

pro-filage de stupéfiants de sorte à créer du renseignement sur les réseaux de distribution

(Esseiva et al., 2011). La particularité de l’approche présentée ici est d’utiliser ce

raisonnement pour faire de la sélection de variables pour des problèmes multi-classes

en utilisant l’analyse ROC traditionnelle à deux classes.

Sélection de la première variable L’objectif étant de maximiser la valeur AUROC

indivi-duelle la plus élevée. Pour ce faire, l’algorithme estime en premier lieu une valeur de

AUROC individuelle pour toutes les variables de la matrice de données, puis

l’algo-rithme trie les colonnes de cette matrice dans l’ordre décroissant des valeurs AUROC

estimées. La variable qui a la valeur AUROC la plus élevée est la première colonne

de la matrice triée et il s’agit de cette variable qui est la première sélectionnée. La

matrice triée est utilisée dans les étapes qui suivent.

Sélection des variables suivantes La sélection des variables suivantes est basée sur

l’approcheforwardet elle prend en compte les variables sélectionnées précédemment.

L’algorithme parcourt les colonnes de la matrice triée à la recherche d’une variable

qui permette d’augmenter la valeur AUROC une fois combinée à celles

sélection-nées précédemment. L’algorithme sélectionne donc la première variable rencontrée

qui augmente la valeur AUROC en parcourant les colonnes de la matrice triée. Une

autre option pour la sélection de variables serait de sélectionner à chaque itération la

variable de la matrice triée qui augmente le plus la valeur AUROC plutôt que

sélec-tionner la première variable rencontrée qui augmente cette valeur. Toutefois, cette

approche bien connue sous son terme anglaisforward variable selectionimplique que

pour chaque variable sélectionnée, toutes les autres ont été testées et ce processus

est plus long. Pour prendre en compte que des variables se trouvant plus loin dans

la matrice triée peuvent avoir une influence plus importante sur l’augmentation de

la valeur AUROC, une étape d’élimination de variables a été implémentée.

Élimination de variables Soit deux variables A et B successives dans la matrice

triée portant de l’information sur la même propriété, les deux augmentant la valeur

AUROC, mais B augmentant davantage AUROC que A quand elle est combinée avec

les variables préalablement sélectionnées. Parce que dans son parcours l’algorithme

teste A d’abord, ce dernier sélectionne A, mais dans la prochaine itération B sera

sélectionnée parce qu’elle augmente davantage la valeur AUROC. Ceci mène à

l’éli-mination de A des variables sélectionnées dans l’étape d’élil’éli-mination puisque cette

variable est devenue superflue. Après chaque itération où une nouvelle variable a été

97 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N 1

sélectionnée, l’algorithme entre dans une étape d’élimination (backward elimination

step en anglais). Cette étape évalue la pertinence des variables sélectionnées en

re-cherchant celles qui sont devenues superflues. L’algorithme parcourt les colonnes de

la matrice des variables sélectionnées et élimine la première variable qu’il rencontre

dont l’élimination permet d’augmenter l’AUROC ou ne change pas sa valeur. Suite

à cette élimination, l’algorithme actualise la nouvelle valeur AUROC de référence

et il cherche de nouveau à éliminer les variables devenues superflues. À chaque fois

qu’une variable est éliminée, celle-ci est placée à nouveau en tant que première

co-lonne de la matrice pour la sélection de variables de l’étape précédente. Ce point

permet de donner à nouveau une chance à la variable éliminée d’être sélectionnée.

L’algorithme ne quitte cette étape d’élimination que si l’élimination d’aucune des

variables sélectionnées ne permet d’augmenter la valeur AUROC.

Critères d’arrêt L’algorithme s’arrête uniquement sous l’une de deux conditions.

Dans la première condition, si les variables sélectionnées fournissent une valeur

AU-ROC égale à 1, alors la séparation entre les deux populations est complète et il

est inutile de sélectionner davantage de variables. Géométriquement, cela implique

que la plus grande distance entre une paire d’échantillons qui partagent une source

commune est inférieure à la plus petite distance entre une paire d’échantillons qui ne

partagent pas de source commune. La seconde condition implique que l’algorithme

n’a rencontré aucune variable dans l’étape de sélection qui permette d’augmenter la

valeur AUROC.

Variables sélectionnées et options de la méthode L’objectif de la méthode est de

sélectionner un sous-ensemble optimal de variables qui permette de différencier au

mieux les paires d’échantillons partageant une source commune des paires

d’échan-tillons de différentes sources. En sélectionnant un nombre réduit de variables, la

dimension du jeu de données de départ est substantiellement réduite, ce qui

fa-cilite l’interprétation des modèles. La méthode de sélection de variables présente

certaines options modulables. (1) La mesure de similarité utilisée peut être changée

en fonction du problème traité. Cha (2007) propose un grand nombre de mesures

de similarités basées sur les distances faciles à implémenter dans la présente

mé-thode. (2) La vitesse de la sélection de variables peut être accélérée en ne calculant

pas la similarité entre toutes les paires possibles d’échantillons liés et non liés. En

fonction du nombre de classes et du nombre d’individus dans chaque classe, il peut

être intéressant dans certains cas de réduire les dimensions de la matrice de

don-nées dans l’espace des individus. Pour un très grand nombre de classes avec très

peu d’individus, le vecteur d’intra-similarités peut être calculé pour toutes les paires

d’échantillons liés, mais le vecteur d’inter-similarités peut être calculé en utilisant

la moyenne de chaque groupe, puis on peut calculer toutes les paires possibles entre

échantillons non liés à partir de cette matrice réduite. Cette option peut être

intéres-sante pour les problématiques d’inférence de source de liquides inflammables quand

chaque échantillon correspond à un groupe. Dans le cas où il y a peu de classes,

mais beaucoup d’individus par classe, il est possible de réduire la taille de la matrice

en calculant la moyenne des réplicas d’un même échantillon, puis à partir de cette

matrice de calculer toutes les paires possibles d’échantillons liés et non liés. Cette

option peut aussi être intéressante pour le cas des liquides inflammables quand

l’ob-jectif est de différencier les échantillons en fonction de leur qualité, comme l’indice

d’octane des essences, ou de la saison (volatilité). Les deux options présentées sont

plus rapides que la solution exhaustive qui calcule toutes les paires possibles. (3)

Le nombre de variables sélectionnées est directement lié à la valeur de l’incrément.

L’incrément correspond à la valeur minimale que l’AUROC doit augmenter pour

qu’une variable testée soit sélectionnée. Plus la valeur de l’incrément est faible, plus

le nombre de variables sélectionnées est grand. Toutefois, le risque de sûr-ajuster le

modèle augmente et l’interprétation de ce dernier devient plus complexe. Un choix

adéquat de la valeur de l’incrément dépend du but final et des contraintes fixées

vis-à-vis du TVP, TFP, etc. La Figure 7.5 schématise le processus de sélection de

variables discuté ci-dessus.

À noter que dans le cadre de l’évaluation de l’hypothèse de travail n 1, les options

de la méthode de sélection de variables utilisées sont décrites dans ce paragraphe.

99 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N 1

Figure 7.5 – Schéma du processus de sélection de variables basé sur les mesures de

similarité et la maximisation de l’aire sous la courbe ROC

Premièrement, la mesure de similarité utilisée entre les paires d’échantillons est la

distance Euclidienne. Ensuite, la valeur de l’incrément est optimisée dans la

procé-dure de validation croisée discutée plus loin. Finalement, dans le cadre de la

sélec-tion de variables, la sélecsélec-tion est accélérée en mesurant les similarités entre toutes

les paires d’échantillons liés, mais pour ce qui est des échantillons non liés, les

si-milarités sont calculées en utilisant la moyenne des réplicas d’un même échantillon,

puis en calculant toutes les paires possibles entre échantillons non liés à partir de

cette matrice réduite. En revanche, il est important de noter ici que pour l’étape

de validation dans la procédure de validation croisée, la similarité est mesurée entre

toutes les paires d’échantillonsinconnuspour évaluer les performances de prédiction

des modèles.