Exemples

2. Comparaison de méthodes de classification

Chapitre 2 : Comparaison de méthodes de classification 42

Nom Base de Données Individus Descripteurs Classes ^Var.

Symboliques

Iris, Introduit par Fisher

Australian Credit, Cas de données

bancaires

Heart Disease, Cas de diagnostic

Waste Water Treatment Plant, Cas

de diagnostic système industriel

Tab. 2.2.– Les 4 benchmarks utilisés pour la comparaison des méthodes.

Chapitre 2 : Comparaison de méthodes de classification 43

Chapitre 2 : Comparaison de méthodes de classification 44 0 10 20 30 40 50 60 70 80 90 100

Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Test Fleur IRIS 0 10 20 30 40 50 60 70 80 90 100

Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t NA 0 10 20 30 40 50 60 70 80 90 100

Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t

NA : Aucun classifieur avec des performances acceptables n’a été trouvé

Australian Credits 0 10 20 30 40 50 60 70 80 90 100

Binomial B. Centré Gauss D.Lineaire CA RT RBF KV GK Means % Entr. % Test. Heart Disease 0 10 20 30 40 50 60 70 80 90 100

Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t NA 0 10 20 30 40 50 60 70 80 90 100

Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t

NA : Aucun classifieur avec des performances acceptables n’a été trouvé

Waste Water Treatment Plant

Figure 2.5. Résultats obtenus avec les différentes méthodes

0 20 40 60 80 100 120 140 160 180 200

IRIS Australian Credits Heart Disease Waste Water Treatment Plant D.Lineaire CART RBF GK Means

NA NA 0 20 40 60 80 100 120 140 160 180 200

IRIS Australian Credits Heart Disease Waste Water Treatment Plant D.Lineaire CART RBF GK Means

NA : Il n’a pas été possible d’appliquer la méthode.

Figure 2.6. Nombre Moyen d’Itérations

Chapitre 2 : Comparaison de méthodes de classification 45

2. Comparaison de méthodes de classification

2.4 Comparaison des méthodes

2.4.1 Exemples

Chacune des méthodes présentées a été testée sur 4 cas d’étude reconnus dans le

domaine de la fouille de données ; ils sont d’utilisation libre et disponibles dans

[MER96]. Les bases de données utilisées permettent d'explorer les différents domaines

d'application des méthodes de classification basées sur la fouille de données. Un des

cas d’études correspond au diagnostic médical, un autre à une application dans la

banque et l’autre est une application sur un système industriel. Deux des cas d’étude

ont des variables mixtes (quantitatives et qualitatives).

Le Tableau 2.2. montre les caractéristiques des bases de données : “Fleur IRIS”,

test introduit par Fisher en 1936, le cas de données de type crédit bancaire “Australian

données de type détection d’états de processus industriel “Waste Water Treatment

Plant”.

150 4 3 0

690 14 2 8

920 13 5 6

527 38 13 0

Pour les méthodes qui ne permettent de traiter que des variables de type quantitatif

(voir Tableau 2.1.), et dans le cas de la base de données Heart Disease, la

représentation proposée dans la section suivante a été employée. Avec cette

représentation, les caractéristiques statistiques des données ne sont pas modifiées, ce

qui permet de meilleures performances par rapport à d’autres types de représentations

numériques [ISA04]. Néanmoins, le nombre de descripteurs est augmenté, ce qui

constitue un problème avec la présence d’un grand nombre de modalités pour un ou

plusieurs descripteurs. C’est le cas de la base de données Australian Credits. Pour la

comparaison, la représentation numérique proposée dans [MER96] a été utilisée, cette

approche représente les modalités avec une échelle numérique de la variable.

2.4.1.1Critère d’évaluation

Pour choisir les paramètres de chaque méthode (voir Tableau 2.1.), il est nécessaire

de faire un ajustement de ces valeurs. En fonction de la méthode, cet ajustement est

plus ou moins difficile. Les bonnes performances d’une méthode de classification

dépendent fortement du choix de ces paramètres. Dans tous les cas, il est nécessaire

de choisir un ensemble de données d'entraînement et d’effectuer l'ajustement

paramétrique en utilisant soit l'erreur d'entraînement soit la validation des résultats par

l’expert du processus. L’objectif est de minimiser l’erreur dans l’ensemble des données

d’entraînement.

La méthode “10 fold cross validation” [LIM00] a été utilisée pour l’analyse de

l’erreur. Cette méthode a été recommandée par différents travaux sur la comparaison

de techniques de classification [MARI03] [LIM00][MIC94]. Cette méthode réalise une

analyse de l’erreur de telle façon que le choix de l’ensemble de données

d’apprentissage et de test n’ajoute pas de caractéristiques statistiques n’appartenant

pas aux données.

Avec la méthode “10 fold cross validation”, l'ensemble des données est divisé de

manière aléatoire (en conservant l'ordre chronologique dans les cas où le temps est

important, comme c’est le cas pour la supervision en temps réel de processus

industriels) en 10 sous-ensembles. Chaque sous-ensemble a approximativement le

même nombre de données.

Pour ajuster les paramètres de chaque méthode de classification, 9 sous-ensembles

ont été choisis comme données d’entraînement (90% du total). Pour chaque méthode,

les paramètres sont ajustés en cherchant à diminuer l'erreur d’apprentissage sur les

données d'entraînement. Avec le sous-ensemble restant (10% du total) l'erreur de

reconnaissance est estimée.

Après avoir trouvé les meilleurs paramètres de l’algorithme de classification, un

autre sous-ensemble est choisi comme données d’entraînement (90% du total). Un

nouvel entraînement est réalisé sans changer les paramètres de la méthode. La

reconnaissance est faite avec les données restantes (10% du total). Les erreurs

d'entraînement et de reconnaissance sont calculées à nouveau. Ceci est répété jusqu'à

ce que chacun des sous-ensembles ait été utilisé comme données de reconnaissance.

Les erreurs (voir Figure 2.5) de l’entraînement et de la reconnaissance

correspondent à la moyenne des 10 erreurs obtenues avec les sous-ensembles de

données d’entraînement et de test respectivement. De même, le nombre d’itérations de

l’apprentissage est la moyenne sur les 10 sous-ensembles.

Le choix des paramètres peut être effectué en utilisant le premier sous-ensemble,

puisqu'en divisant de manière aléatoire les données, ses caractéristiques statistiques ne

sont pas altérées, et elles sont approximativement les mêmes pour les autres

sous-ensembles.

Avec toutes les méthodes, une classification de type strict a été faite. Pour les

méthodes de classification qui ne donnent pas une classification stricte ou dure

(LAMDA, GK-Means, RBF avec des fonctions linéaires dans la couche de sortie),

l’individu appartient à la classe dont le degré d’appartenance est le plus élevé.

2.4.1.2Résultats

La figure 2.5 montre les résultats obtenus avec les 6 algorithmes, en termes de

pourcentage de bonne classification. Dans le cas de LAMDA, on a utilisé les 3 fonctions

d’adéquation marginale avec apprentissage supervisé et les résultats correspondent

aux trois premières colonnes de la figure 2.5. La figure 2.6 montre le nombre moyen

d’itérations pour les méthodes qui ont besoin d’itérer.

Ces résultats montrent qu’il est tout-à-fait intéressant d’utiliser des méthodes

basées sur la fouille des données pour résoudre des problèmes de classification.