6.4 Information additionnelle
7.1.4 Sélection de ratios
7.1.4.4 Algorithme
La section 7.1.4.3 a présenté comment l’AUROC est estimée. La présente section
détaille l’utilisation de cette information pour effectuer une sélection de variables.
L’objectif est de sélectionner un sous-ensemble optimal de variables qui maximise
l’AUROC, impliquant que la séparation entre les distributions d’échantillons liés et
non liés est maximale. La procédure pour la sélection de variables utilisée ici est
adaptée de la méthode proposée par Rossi et al. (2006).
Mesures de similarité La similarité entre les individus dans un espace à N-dimensions
est calculée en utilisant n variables sélectionnées. Une mesure de similarité fait
réfé-rence à la comparaison de deux échantillons et quantifie à quel point ces échantillons
sont similaires. Calculer la population des échantillons liés revient à calculer la
simi-larité entre toutes les paires d’échantillons possibles, sans répétition, qui partagent
une source commune. Inversement, calculer la population des échantillons non liés
revient à calculer la similarité entre toutes les paires d’échantillons possibles, sans
répétition, qui ne partagent pas de source commune. Maximiser la séparation entre
ces deux populations revient à rapprocher le plus possible dans l’espace multivarié
les échantillons qui partagent une source commune et en même temps éloigner le
plus possible les échantillons qui ne partagent pas de source commune. Les approches
évaluant la similarité entre les paires d’échantillons par l’analyse ROC ne sont pas
nouvelles et elles ont déjà été utilisées en science forensique dans le domaine du
pro-filage de stupéfiants de sorte à créer du renseignement sur les réseaux de distribution
(Esseiva et al., 2011). La particularité de l’approche présentée ici est d’utiliser ce
raisonnement pour faire de la sélection de variables pour des problèmes multi-classes
en utilisant l’analyse ROC traditionnelle à deux classes.
Sélection de la première variable L’objectif étant de maximiser la valeur AUROC
indivi-duelle la plus élevée. Pour ce faire, l’algorithme estime en premier lieu une valeur de
AUROC individuelle pour toutes les variables de la matrice de données, puis
l’algo-rithme trie les colonnes de cette matrice dans l’ordre décroissant des valeurs AUROC
estimées. La variable qui a la valeur AUROC la plus élevée est la première colonne
de la matrice triée et il s’agit de cette variable qui est la première sélectionnée. La
matrice triée est utilisée dans les étapes qui suivent.
Sélection des variables suivantes La sélection des variables suivantes est basée sur
l’approcheforwardet elle prend en compte les variables sélectionnées précédemment.
L’algorithme parcourt les colonnes de la matrice triée à la recherche d’une variable
qui permette d’augmenter la valeur AUROC une fois combinée à celles
sélection-nées précédemment. L’algorithme sélectionne donc la première variable rencontrée
qui augmente la valeur AUROC en parcourant les colonnes de la matrice triée. Une
autre option pour la sélection de variables serait de sélectionner à chaque itération la
variable de la matrice triée qui augmente le plus la valeur AUROC plutôt que
sélec-tionner la première variable rencontrée qui augmente cette valeur. Toutefois, cette
approche bien connue sous son terme anglaisforward variable selectionimplique que
pour chaque variable sélectionnée, toutes les autres ont été testées et ce processus
est plus long. Pour prendre en compte que des variables se trouvant plus loin dans
la matrice triée peuvent avoir une influence plus importante sur l’augmentation de
la valeur AUROC, une étape d’élimination de variables a été implémentée.
Élimination de variables Soit deux variables A et B successives dans la matrice
triée portant de l’information sur la même propriété, les deux augmentant la valeur
AUROC, mais B augmentant davantage AUROC que A quand elle est combinée avec
les variables préalablement sélectionnées. Parce que dans son parcours l’algorithme
teste A d’abord, ce dernier sélectionne A, mais dans la prochaine itération B sera
sélectionnée parce qu’elle augmente davantage la valeur AUROC. Ceci mène à
l’éli-mination de A des variables sélectionnées dans l’étape d’élil’éli-mination puisque cette
variable est devenue superflue. Après chaque itération où une nouvelle variable a été
97 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N◦ 1
sélectionnée, l’algorithme entre dans une étape d’élimination (backward elimination
step en anglais). Cette étape évalue la pertinence des variables sélectionnées en
re-cherchant celles qui sont devenues superflues. L’algorithme parcourt les colonnes de
la matrice des variables sélectionnées et élimine la première variable qu’il rencontre
dont l’élimination permet d’augmenter l’AUROC ou ne change pas sa valeur. Suite
à cette élimination, l’algorithme actualise la nouvelle valeur AUROC de référence
et il cherche de nouveau à éliminer les variables devenues superflues. À chaque fois
qu’une variable est éliminée, celle-ci est placée à nouveau en tant que première
co-lonne de la matrice pour la sélection de variables de l’étape précédente. Ce point
permet de donner à nouveau une chance à la variable éliminée d’être sélectionnée.
L’algorithme ne quitte cette étape d’élimination que si l’élimination d’aucune des
variables sélectionnées ne permet d’augmenter la valeur AUROC.
Critères d’arrêt L’algorithme s’arrête uniquement sous l’une de deux conditions.
Dans la première condition, si les variables sélectionnées fournissent une valeur
AU-ROC égale à 1, alors la séparation entre les deux populations est complète et il
est inutile de sélectionner davantage de variables. Géométriquement, cela implique
que la plus grande distance entre une paire d’échantillons qui partagent une source
commune est inférieure à la plus petite distance entre une paire d’échantillons qui ne
partagent pas de source commune. La seconde condition implique que l’algorithme
n’a rencontré aucune variable dans l’étape de sélection qui permette d’augmenter la
valeur AUROC.
Variables sélectionnées et options de la méthode L’objectif de la méthode est de
sélectionner un sous-ensemble optimal de variables qui permette de différencier au
mieux les paires d’échantillons partageant une source commune des paires
d’échan-tillons de différentes sources. En sélectionnant un nombre réduit de variables, la
dimension du jeu de données de départ est substantiellement réduite, ce qui
fa-cilite l’interprétation des modèles. La méthode de sélection de variables présente
certaines options modulables. (1) La mesure de similarité utilisée peut être changée
en fonction du problème traité. Cha (2007) propose un grand nombre de mesures
de similarités basées sur les distances faciles à implémenter dans la présente
mé-thode. (2) La vitesse de la sélection de variables peut être accélérée en ne calculant
pas la similarité entre toutes les paires possibles d’échantillons liés et non liés. En
fonction du nombre de classes et du nombre d’individus dans chaque classe, il peut
être intéressant dans certains cas de réduire les dimensions de la matrice de
don-nées dans l’espace des individus. Pour un très grand nombre de classes avec très
peu d’individus, le vecteur d’intra-similarités peut être calculé pour toutes les paires
d’échantillons liés, mais le vecteur d’inter-similarités peut être calculé en utilisant
la moyenne de chaque groupe, puis on peut calculer toutes les paires possibles entre
échantillons non liés à partir de cette matrice réduite. Cette option peut être
intéres-sante pour les problématiques d’inférence de source de liquides inflammables quand
chaque échantillon correspond à un groupe. Dans le cas où il y a peu de classes,
mais beaucoup d’individus par classe, il est possible de réduire la taille de la matrice
en calculant la moyenne des réplicas d’un même échantillon, puis à partir de cette
matrice de calculer toutes les paires possibles d’échantillons liés et non liés. Cette
option peut aussi être intéressante pour le cas des liquides inflammables quand
l’ob-jectif est de différencier les échantillons en fonction de leur qualité, comme l’indice
d’octane des essences, ou de la saison (volatilité). Les deux options présentées sont
plus rapides que la solution exhaustive qui calcule toutes les paires possibles. (3)
Le nombre de variables sélectionnées est directement lié à la valeur de l’incrément.
L’incrément correspond à la valeur minimale que l’AUROC doit augmenter pour
qu’une variable testée soit sélectionnée. Plus la valeur de l’incrément est faible, plus
le nombre de variables sélectionnées est grand. Toutefois, le risque de sûr-ajuster le
modèle augmente et l’interprétation de ce dernier devient plus complexe. Un choix
adéquat de la valeur de l’incrément dépend du but final et des contraintes fixées
vis-à-vis du TVP, TFP, etc. La Figure 7.5 schématise le processus de sélection de
variables discuté ci-dessus.
À noter que dans le cadre de l’évaluation de l’hypothèse de travail n◦ 1, les options
de la méthode de sélection de variables utilisées sont décrites dans ce paragraphe.
99 7.1 ÉVALUATION DE L’HYPOTHÈSE DE TRAVAIL N◦ 1
Figure 7.5 – Schéma du processus de sélection de variables basé sur les mesures de
similarité et la maximisation de l’aire sous la courbe ROC
Premièrement, la mesure de similarité utilisée entre les paires d’échantillons est la
distance Euclidienne. Ensuite, la valeur de l’incrément est optimisée dans la
procé-dure de validation croisée discutée plus loin. Finalement, dans le cadre de la
sélec-tion de variables, la sélecsélec-tion est accélérée en mesurant les similarités entre toutes
les paires d’échantillons liés, mais pour ce qui est des échantillons non liés, les
si-milarités sont calculées en utilisant la moyenne des réplicas d’un même échantillon,
puis en calculant toutes les paires possibles entre échantillons non liés à partir de
cette matrice réduite. En revanche, il est important de noter ici que pour l’étape
de validation dans la procédure de validation croisée, la similarité est mesurée entre
toutes les paires d’échantillonsinconnuspour évaluer les performances de prédiction
des modèles.
Dans le document
Évaluation d'une approche chimiométrique non ciblée pour l'inférence de source de liquides inflammables en science forensique
(Page 108-113)