Formalisme et notation

Chapitre 1. Cadre de la sélection de variables & ECD

1.4 Prétraitement : discrétisation des attributs

1.4.1 Formalisme et notation

Soit l’attribut continu A à valeurs réelles et défini sur un domaine DA. Pour tout exemple ω issu d’un échantillon d’apprentissage noté Ω, A(ω) désigne la valeur prise par cet exemple pour l’attribut A.

(A(ω)



R) et Y(ω) désigne la classe de l’exemple. Si l’exemple appartient à la classe



i L



y_i 1,..., , alors nous pouvons écrireY

 

  y_i.

Discrétiser l’attribut A revient à découper DA en K intervalles Ii,1iKtels que :

_A K i i I D 1  



( 1.1) 0 1  



K i i I  1iK ( 1.2) Supposons que l’espace de définition I de la variable continue A est représenté par l’intervalle [dmin, dmax]. On veut découper I en P sous intervalles.



1 min, 1 ,...., j j 1, j ,...., K K 1, max

I  d d I d  d  I  d  d ( 1.3)

Il s’agit de trouver une suite finie strictement croissante de points de discrétisationd_j (j=1…K). Une fois les points de discrétisation trouvés, l’attribut A est remplacé par un attribut A* qui prend ses valeurs dans l’ensemble {1,…, K} de la manière suivante :

 

1 * 1 1 1 si ( ) ( ) si si ( ) p i i p A d A i d A d P A d           _    _  ( 1.4)

Cela revient à transformer un vecteur de données initialement numérique en un vecteur disjonctif. Les intervalles trouvés sont remplacés par des noms symboliques.

Nous présentons au paragraphe suivant les algorithmes de discrétisation que nous avons étudié.

1.4.2 Algorithme GhiMerge

La méthode de ChiMerge (Kerber, 1992) est la méthode la plus connue de fusion d’intervalles. Le critère statistique χ2 _{est utilisé pour décider s’il faut fusionner deux}

intervalles adjacents. ( 1.5) Avec : k = nombre de classes

m = 2 (les deux intervalles à comparer).

, avec : Ri = le nombre d’exemples d’apprentissage du ième intervalle et

Cj = le nombre d’exemples appartenant à la jème classe.

χ2 (α, L-1) est la valeur lue dans la table du Chi 2 au risque α et à (L-1) degré de liberté.

L’étape d’initialisation consiste à trier les exemples d’apprentissage en ordre croissant de valeurs de l’attribut à discrétiser. Ensuite, construire autant d’intervalles que de nombre d’exemples (chaque exemple est mis dans un intervalle). Le processus de fusionnement des intervalles continu jusqu’au moment où tous les intervalles adjacents auront une valeur de χ2

excédant le seuil χ2 seuil désiré (les intervalles adjacents sont alors significativement

différents par le test d’indépendance). La valeur de χ2

seuilest choisie en fonction du niveau

d’indépendance désiré, elle est lue dans la table du Chi 2 (pour un risque donné et un degré de liberté fixé). Pendant chaque itération du processus de fusion la valeur χ2

de chaque paire d’intervalles adjacents est calculée. La paire d’intervalles ayant la valeur minimale de χ2

est fusionnée.

1.4.3 Algorithme Chi2

Dans l’algorithme ChiMerge la valeur de α ainsi que celle du seuil χ2 (α, L-1) doit être spécifiée pour chaque variable. Ce choix n’est pas si évident, une valeur trop petite ou trop grande de α a un impact négatif sur la discrétisation. Liu, et al. (Liu, et al., 1995) proposent un nouvel algorithme, Chi2, où α est automatiquement déterminé à partir des données.

Soit D l’ensemble des données formées par les attributs à discrétiser et leurs instances. L’algorithme Chi2 se devise en deux phases (Graja, 2008) :

Phase 1 :

Au début, α est initialisé à une valeur assez grande, par exemple 0.5, ensuite pour chaque attribut de D, les instances sont ordonnées et les points de discrétisation initiaux calculés. Après le χ2 est calculé pour chaque paire d’intervalles adjacents afin de

déterminer la plus petite valeur χ2min. Si cette dernière est inférieure au seuil χ2 (α, L-1)

les deux intervalles doivent êtres fusionnés.

Une fois toutes les paires traitées, α doit êtres diminué, et le processus (calcul de χ, fusionnement, diminution de α) est répété jusqu'à ce que le taux d’inconsistance des données excède un seuil prédéfini δ.

Phase 2 :

C’est une étape de finition. Partant du dernier seuil α0 de la phase 1, les variables sont

traitées une à une. Cette étape servira à arrêter le processus de la phase 1 alors que certains attributs peuvent être encore traités sans influer sur le taux d’inconsistance.

1.4.4 Algorithme MDLM

L’algorithme MDLM est un algorithme de discrétisation de variables continues conçu par Fayyad et Irani (Fayyad & Irani, 1993). Les auteurs proposent d’utiliser une mesure d’entropie et démontrent qu’un point de discrétisation maximisant cette mesure d’entropie est un point frontière.

Soit A l’attribut à discrétiser et N un ensemble d’instances caractérisées par A. Par définition F est un point frontière si :

( 1.6)

Soit d un point de coupure. Nous notons N1 le sous ensemble d’instances de N dont la

valeur excède d et N2=N- N1. Par définition, l’entropie des classes induite par d notée I(A,d ;N) est :

L’algorithme MDLM est un algorithme récursif qui se base sur la maximisation du gain d’information pour trouver les points de discrétisation. L’Algorithme cherche à chaque fois la meilleure partition binaire maximisant le gain d’information.

1.5 Méthodes de classification

Le but de notre travail est dans un premier temps de combiner les méthodes de sélection de variables avec des classifieurs (algorithmes de classification) afin d’améliorer les performances de classification de ces derniers et dans un deuxième temps, proposer un processus le plus fiable possible pour le diagnostic de défauts, nous commençons par donner quelques notions de base liées au problème d’induction et plus généralement à l’apprentissage automatique (Machine Learning) (Arsselin, et al., 2005), (Russell, et al., 2010), (Cornuéjols, et al., 2011). Ensuite, nous présentons les classifieurs utilisés dans nos travaux avec leurs avantages et inconvénients, des indications pour mieux les choisir.

Les algorithmes d’induction sont des méthodes ou les classes de la population initiale sont connues. Ces méthodes sont les plus couramment utilisées en fouille de données et sont identifiées comme procédés de classification. Dans l’apprentissage inductif (l’apprentissage supervisé ou de concepts à partir d’exemples), les observations caractérisent des objets étiquetés (pré-classés) par un expert en une ou plusieurs classes (concepts) représentées par les valeurs (modalités) : ybut ={m1but ,..., mlbut ,..., mpbut} de la

variable à expliquer (variable exogène) ybut. Les objets sont représentés par des

enregistrements (ou descriptions) qui sont constitués d'un ensemble de champs ou attributs (variable endogène) y ={y1 ,….,yr}, prenant leurs valeurs dans un domaine. L’hypothèse

induite (la classification) peut être vue comme une règle de reconnaissance de concept. On a alors : mubut = f(y1 ,….,y r).

Si un objet vérifie cette règle, alors il représente le concept donné. « Si les données fournies à une méthode d’apprentissage sont des exemples classés par une source de connaissance indépendante - un expert ou un modèle de simulation - il s’agit

d’apprentissage à partir d’exemples » (Kodratoff, et al., 1991(a)). La dénomination anglaise pour ce type d’apprentissage et classification.

Supposons que l’on dispose d’une population convenablement étiquetée. Le processus d’obtention d’un classifieur peut être généralement résumé en deux étapes principales. L’une des méthodes les plus répandues consiste à diviser l’ensemble d’apprentissage en deux sous-ensembles : un ensemble d’entraînement Ω1 (training set) et un ensemble test Ω2

(test set). Le premier de ces ensembles est utilisé afin d’induire un classifieur et le second sert à la validation du classifieur obtenu.

1.5.1 Apprentissage croisé

Typiquement, l’évolution de l’erreur, pour l’apprentissage et le test, en fonction des itérations d’apprentissage, suit les courbes de la figure (1-2), l’erreur diminue toujours, alors que sur la base de test elle passe par un minimum. Si l’apprentissage se prolonge au delà, les performances en test diminuent, c’est ce qu’on appel le sur-apprentissage (overfitting), une solution pour trouver la solution optimale est d’effectuer la procédure d’apprentissage par validation croisée.

La technique divise les données disponibles en trois sous-ensembles. Le premier sous- ensemble est l'ensemble d’apprentissage, qui est employé pour construire le modèle du classifieur. Le deuxième sous-ensemble est l'ensemble de validation qui est prise en compte pendant le processus de d’apprentissage. L’erreur diminuera normalement pendant la phase initiale de l’apprentissage. Cependant, quand le classifieur entre dans la phase du sur- apprentissage, l'erreur sur l'ensemble de validation commencera typiquement à monter. Quand l'erreur de validation augmente pour un nombre indiqué d'itérations, l’apprentissage est arrêté, le modèle est retourné, le troisième sous ensemble d'essai n'est pas employé pendant l’apprentissage, mais il est employé pour évaluer le classifieur ainsi conçu.

Figure 1-2 : Evolution de l'erreur sur les bases d'apprentissage et validation au cours de l'apprentissage et de la généralisation.

Dans le document Sélection de Données pour l’Apprentissage des Réseaux de Neurones, Arbres de Décision et les k-PlusProches Voisins : Application en Diagnostic de Pannes (Page 33-39)

Chapitre 1. Cadre de la sélection de variables &amp; ECD