Fonctions d’évaluation des sous-ensembles

La fonction d’évaluation permet de mesurer quantitativement la qualité d’un sous- ensemble généré par la procédure de recherche choisie (Liu and H.Motoda, 1998). Elle doit permettre de mesurer la qualité d’une variable ou d’un sous-ensemble de variables pour expliquer la variable que l’on cherche à comprendre. Les mesures généralement utilisées sont les mesures de consistance, les mesures de précision et les mesures basées sur l’information mutuelle.

1.3. Fonctions d’évaluation des sous-ensembles

1.3.1 Les méthodes filtres et les méthodes dépendantes du modèle

Langley (1994) a proposé de structurer les méthodes de sélection de variables en deux grands groupes : les méthodes filtres et les méthodes dépendantes du modèle (« wrapper »). Cette séparation est basée sur la dépendance ou non de l’algorithme de sélection de variables avec l’algorithme d’induction utilisé par le sous-ensemble sélectionné. Les méthodes ﬁltres sont indépendantes du modèle que l’on choisit pour nos données. Elles retournent un ensemble de variables qui peut être utilisé pour construire n’importe quel modèle de données contrairement aux méthodes dépendantes du modèle. Celles-ci uti- lisent le modèle de données que l’on cherche à construire pour évaluer la qualité d’un sous-ensemble. Elles retournent donc le sous-ensemble optimal pour un modèle donné, comme par exemple un réseau de neurones (Leray and Gallinari, 1999).

La plupart des approches filtres classent les variables selon leur pouvoir individuel de prédiction de la classe qui peut être estimé de divers moyens tels que le score de Fisher (Furey et al., 2000), le test de Kolomogorov-Smirnov, le coefficient de corrélation de Pearson (Miyahara and Pazzani, 2000) ou encore l’information mutuelle (Torkkola, 2003; Battiti, 1994). Ce type de sélection basée sur le classement n’assure pas de dépen- dance faible entre variables : les sous-ensemble sélectionnés peuvent tout à fait comporter des variables redondantes et donc être moins informatifs. Prendre en compte la dépen- dance entre les variables semble donc être nécessaire. Par exemple, Ratanamahatana and D.Gunopulos (2003) ont proposé un critère basé sur les arbres de décisions. En effet, les attributs qui apparaissent dans un arbre binaire de type ceux construits par l’algorithme C4.5 sont soit individuellement porteurs d’information (variables en haut de l’arbre) soit conditionnellement porteurs d’information (variables plus bas dans l’arbre).

Nous présentons deux exemples d’algorithmes de Las Vegas proposées par Setiono and Liu (1997) (on rappelle qu’un algorithme de Las Vegas est un algorithme probabiliste qui résout exactement un problème avec une complexité moyenne polynômiale). L’un est une approche filtre et l’autre est une approche dépendante du modèle, et pourtant les deux algorithmes sont très proches. LVF (algorithme 3) est un algorithme Las Vegas pour une approche filtre de la sélection de variables. L’algorithme génère un sous-ensemble de variables aléatoirement et le taux d’inconsistance (définition 1.3.3) comme procédure d’évaluation permet de décider si le sous-ensemble est satisfaisant.

LVW (algorithme 4) est, lui, un algorithme Las Vegas pour l’approche dépendante du modèle de la sélection de variables. La mesure d’évaluation est la précision de l’algorithme d’apprentissage choisi (section 1.3.3).

Considérant cette séparation des méthodes de sélection de variables, Dash and Liu (1997) ont rangé les fonctions d’évaluation en cinq grandes catégories : les mesures de divergence, les mesures d’information, les mesures de dépendance, les mesures de consistance et les mesures de précision. Les trois premières catégories seront détaillées dans le chapitre 2.

Algorithme 3 L’algorithme LVF, Las Vegas Filter (Setiono and Liu, 1997). Entrées:

ℵ = {X1, . . . , Xm} : l’ensemble des m variables potentiellement discriminantes

U : le taux d’inconsistance pour mesure de pertinence max : le nombre maximum d’itérations possibles γ : un seuil d’inconsistance maximale

Sorties:

L : une liste de bons sous-ensemble équivalents L ← ∅

Cbest← m

pour i = 1, . . . , max faire

S ← un sous-ensemble de variables aléatoire C ← card(S)

si C ≤ Cbest et U(S) ≤ γ alors

Sbest← S

Cbest← C

L ← S sinon

si C = Cbest et U(S) ≤ γ alors

L ← L ∪ S finsi

finsi fin pour RenvoyerL

1.3. Fonctions d’évaluation des sous-ensembles

Algorithme 4 L’algorithme LVW, Las Vegas Wrapper (Setiono and Liu, 1997). Entrées:

ℵ = {X1, . . . , Xm} : l’ensemble des m variables potentiellement discriminantes

AA : un algorithme d’apprentissage

max : le nombre maximum d’itérations possibles Sorties:

L : une liste de bons sous-ensemble équivalents L ← ∅

Abest← précision de AA en utilisant ℵ

pour i = 1, . . . , max faire

S ← un sous-ensemble de variables aléatoire A ← précision de AA en utilisant S si A ≥ Abest alors Sbest← S Abest← A L ← S sinon si A = Abest alors L ← L ∪ S finsi finsi fin pour RenvoyerL

1.3.2 Les mesures de consistance

Avant de présenter le taux d’inconsistance, la principale mesure de consistance (Liu and H.Motoda, 1998), nous précisons la notion d’inconsistance pour deux individus. Définition 1.3.1 (Inconsistance) Deux individus sont inconsistants s’ils ont la même description sur chaque variable mais qu’ils appartiennent à des classes différentes. Par exemple, o1 = {0101} et o2 = {0100} sont deux individus inconsistants si l’on

considère que la dernière variable représente leur classe : les trois premières variables ont la même valeur mais pas la dernière. Les individus ayant la même description sur chaque variable sont rassemblés dans un groupe d’inconsistance.

Définition 1.3.2 (Quantité d’inconsistance) La quantité d’inconsistance, pour un groupe d’individus inconsistants donné, est définie comme la différence entre le nombre d’individus de ce groupe et la cardinalité de la classe contenant le plus d’individus inconsistants.

Par exemple, si l’on a un groupe de 30 individus inconsistants et parmi eux, 5 appartiennent à la classe 1 et 25 appartiennent à la classe 2, alors le nombre d’inconsistance est égal à 30− 25 = 5. Un jeu de données est généralement composé de plusieurs groupes d’individus inconsistants.

Définition 1.3.3 (Taux d’inconsistance) Le taux d’inconsistance est défini par la somme de toutes les quantités d’inconsistance divisée par le nombre total d’individus du jeu de données.

Le taux d’inconsistance est inversement proportionnel au pouvoir discriminant : en eﬀet, un sous-ensemble de variables ayant un taux d’inconsistance élevé signiﬁe que ces variables ne permettent pas de bien prédire la classe et donc que ce sous-ensemble n’est pas un bon ensemble discriminant. Le calcul du taux d’inconsistance a une complexité en O(n) avec n le nombre d’individus (Liu and H.Motoda, 1998).

1.3.3 Les mesures de précision

Les mesures de précisions sont utilisées lorsque l’on définit a priori un modèle des données. Dans ce cas là, la sélection de variables sert à optimiser le processus en simpli- fiant les calculs par une diminution du nombre de variables à prendre en compte dans le modèle. En théorie, un algorithme d’apprentissage doit être doté d’une mesure de préci- sion permettant d’évaluer la qualité du modèle construit. Les mesures de précision sont généralement utilisées avec un algorithme de type recherche séquentielle descendante (Algorithme 2). A chaque étape, une variable est enlevée et l’on vérifie que le modèle est toujours suffisamment précis. Ce type d’algorithme s’arrête soit quand il n’y a plus

1.4. Un critère d’arrêt

Dans le document Class-Add, une procédure de sélection de variables basée sur une troncature k-additive de l'information mutuelle et sur une classification ascendante hiérarchique en pré-traitement (Page 33-38)