2. Comparaison de méthodes de classification
2.4 Comparaison des méthodes
2.4.1 Exemples
Chacune des méthodes présentées a été testée sur 4 cas d’étude reconnus dans le
domaine de la fouille de données ; ils sont d’utilisation libre et disponibles dans
[MER96]. Les bases de données utilisées permettent d'explorer les différents domaines
d'application des méthodes de classification basées sur la fouille de données. Un des
cas d’études correspond au diagnostic médical, un autre à une application dans la
banque et l’autre est une application sur un système industriel. Deux des cas d’étude
ont des variables mixtes (quantitatives et qualitatives).
Le Tableau 2.2. montre les caractéristiques des bases de données : “Fleur IRIS”,
test introduit par Fisher en 1936, le cas de données de type crédit bancaire “Australian
Chapitre 2 : Comparaison de méthodes de classification 42
données de type détection d’états de processus industriel “Waste Water Treatment
Plant”.
Nom Base de Données Individus Descripteurs Classes Var.
Symboliques
Iris, Introduit par Fisher
150 4 3 0
Australian Credit, Cas de données
bancaires
690 14 2 8
Heart Disease, Cas de diagnostic
médical
920 13 5 6
Waste Water Treatment Plant, Cas
de diagnostic système industriel
527 38 13 0
Tab. 2.2.– Les 4 benchmarks utilisés pour la comparaison des méthodes.
Pour les méthodes qui ne permettent de traiter que des variables de type quantitatif
(voir Tableau 2.1.), et dans le cas de la base de données Heart Disease, la
représentation proposée dans la section suivante a été employée. Avec cette
représentation, les caractéristiques statistiques des données ne sont pas modifiées, ce
qui permet de meilleures performances par rapport à d’autres types de représentations
numériques [ISA04]. Néanmoins, le nombre de descripteurs est augmenté, ce qui
constitue un problème avec la présence d’un grand nombre de modalités pour un ou
plusieurs descripteurs. C’est le cas de la base de données Australian Credits. Pour la
comparaison, la représentation numérique proposée dans [MER96] a été utilisée, cette
approche représente les modalités avec une échelle numérique de la variable.
2.4.1.1Critère d’évaluation
Pour choisir les paramètres de chaque méthode (voir Tableau 2.1.), il est nécessaire
de faire un ajustement de ces valeurs. En fonction de la méthode, cet ajustement est
plus ou moins difficile. Les bonnes performances d’une méthode de classification
dépendent fortement du choix de ces paramètres. Dans tous les cas, il est nécessaire
de choisir un ensemble de données d'entraînement et d’effectuer l'ajustement
paramétrique en utilisant soit l'erreur d'entraînement soit la validation des résultats par
l’expert du processus. L’objectif est de minimiser l’erreur dans l’ensemble des données
d’entraînement.
La méthode “10 fold cross validation” [LIM00] a été utilisée pour l’analyse de
l’erreur. Cette méthode a été recommandée par différents travaux sur la comparaison
de techniques de classification [MARI03] [LIM00][MIC94]. Cette méthode réalise une
analyse de l’erreur de telle façon que le choix de l’ensemble de données
d’apprentissage et de test n’ajoute pas de caractéristiques statistiques n’appartenant
pas aux données.
Avec la méthode “10 fold cross validation”, l'ensemble des données est divisé de
manière aléatoire (en conservant l'ordre chronologique dans les cas où le temps est
important, comme c’est le cas pour la supervision en temps réel de processus
Chapitre 2 : Comparaison de méthodes de classification 43
industriels) en 10 sous-ensembles. Chaque sous-ensemble a approximativement le
même nombre de données.
Pour ajuster les paramètres de chaque méthode de classification, 9 sous-ensembles
ont été choisis comme données d’entraînement (90% du total). Pour chaque méthode,
les paramètres sont ajustés en cherchant à diminuer l'erreur d’apprentissage sur les
données d'entraînement. Avec le sous-ensemble restant (10% du total) l'erreur de
reconnaissance est estimée.
Après avoir trouvé les meilleurs paramètres de l’algorithme de classification, un
autre sous-ensemble est choisi comme données d’entraînement (90% du total). Un
nouvel entraînement est réalisé sans changer les paramètres de la méthode. La
reconnaissance est faite avec les données restantes (10% du total). Les erreurs
d'entraînement et de reconnaissance sont calculées à nouveau. Ceci est répété jusqu'à
ce que chacun des sous-ensembles ait été utilisé comme données de reconnaissance.
Les erreurs (voir Figure 2.5) de l’entraînement et de la reconnaissance
correspondent à la moyenne des 10 erreurs obtenues avec les sous-ensembles de
données d’entraînement et de test respectivement. De même, le nombre d’itérations de
l’apprentissage est la moyenne sur les 10 sous-ensembles.
Le choix des paramètres peut être effectué en utilisant le premier sous-ensemble,
puisqu'en divisant de manière aléatoire les données, ses caractéristiques statistiques ne
sont pas altérées, et elles sont approximativement les mêmes pour les autres
sous-ensembles.
Avec toutes les méthodes, une classification de type strict a été faite. Pour les
méthodes de classification qui ne donnent pas une classification stricte ou dure
(LAMDA, GK-Means, RBF avec des fonctions linéaires dans la couche de sortie),
l’individu appartient à la classe dont le degré d’appartenance est le plus élevé.
2.4.1.2Résultats
La figure 2.5 montre les résultats obtenus avec les 6 algorithmes, en termes de
pourcentage de bonne classification. Dans le cas de LAMDA, on a utilisé les 3 fonctions
d’adéquation marginale avec apprentissage supervisé et les résultats correspondent
aux trois premières colonnes de la figure 2.5. La figure 2.6 montre le nombre moyen
d’itérations pour les méthodes qui ont besoin d’itérer.
Chapitre 2 : Comparaison de méthodes de classification 44 0 10 20 30 40 50 60 70 80 90 100
Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Test Fleur IRIS 0 10 20 30 40 50 60 70 80 90 100
Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t NA 0 10 20 30 40 50 60 70 80 90 100
Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t
NA
NA : Aucun classifieur avec des performances acceptables n’a été trouvé
Australian Credits 0 10 20 30 40 50 60 70 80 90 100
Binomial B. Centré Gauss D.Lineaire CA RT RBF KV GK Means % Entr. % Test. Heart Disease 0 10 20 30 40 50 60 70 80 90 100
Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t NA 0 10 20 30 40 50 60 70 80 90 100
Binomial B. Centré Gaus s D.Lineaire CA RT RBF KV GK Means % Entr. % Tes t
NA
NA : Aucun classifieur avec des performances acceptables n’a été trouvé
Waste Water Treatment Plant
Figure 2.5. Résultats obtenus avec les différentes méthodes
0 20 40 60 80 100 120 140 160 180 200
IRIS Australian Credits Heart Disease Waste Water Treatment Plant D.Lineaire CART RBF GK Means
NA NA 0 20 40 60 80 100 120 140 160 180 200
IRIS Australian Credits Heart Disease Waste Water Treatment Plant D.Lineaire CART RBF GK Means
NA NA
NA : Il n’a pas été possible d’appliquer la méthode.
Figure 2.6. Nombre Moyen d’Itérations
Ces résultats montrent qu’il est tout-à-fait intéressant d’utiliser des méthodes
basées sur la fouille des données pour résoudre des problèmes de classification.
Toutefois, nous remarquons que pour obtenir de bonnes performances, il est nécessaire
de faire des tests pour trouver les paramètres optimaux pour chaque cas.
Il est important de noter que pour le cas de la base de données de type risque de
crédit, il n'a pas été possible d'obtenir un réseau neuronal qui ait des performances
acceptables avec les données de test. De la même manière, avec la méthode GK-Means
et dans le cas de Waste Water Treatment, les performances obtenues sur les données
Chapitre 2 : Comparaison de méthodes de classification 45