Distances supervisées Vs distances non supervisées

3.4 Résultats

3.4.1 Distances supervisées Vs distances non supervisées

Le but de cette première étude expérimentale est de vérifier si l’incorporation de l’infor- mation cible dans les données via un prétraitement supervisé pourrait aider l’algorithme des K-moyennes standard à atteindre l’objectif du clustering prédictif. Comme défini dans la section 1.6 du Chapitre 1, le clustering prédictif traite principalement trois axes, à savoir : la description, la prédiction et l’interprétation. Pour les différents prétraitements utilisés dans cette partie (voir Section 3.3), il s’avère difficile de comparer leurs performances suivant l’axe de description. En effet, À notre connaissance, les critères d’évaluation internes proposés dans le cadre du clustering sont tous basés sur une mesure de similarité. Or, ces méthodes de prétraitement n’ont pas forcément la même plage de variation ni le même nombre de variables. Pour cette raison, on suppose dans cette étude expérimentale que l’axe de description est garanti par l’algorithme des K-moyennes5 et on évalue uniquement la performance des méthodes suivant l’axe de prédiction. Concernant l’axe d’interprétation, il sera discuté dans la section 3.5.3. Cette première partie d’expérimentation cherche donc à savoir si l’algorithme classique des K-moyennes précédé par les prétraitements supervisés parvient à bien prédire la classe des nouvelles instances comparé aux prétraitements non supervisés.

Pour l’algorithme des K-moyennes, le choix du nombre de clusters (K) est un problème en soi : il n’est pas évident de connaître à l’avance pour chaque jeu de données le nombre de clusters convenable. Cette étude expérimentale est donc divisée en deux selon la façon de choisir le nombre de clusters K. Dans la première partie, ce dernier est considéré comme un paramètre utilisateur : K est égal, pour chaque jeu de données, au nombre de classes (J) à prédire. Dans la deuxième partie le nombre de clusters est considéré comme une sortie de l’algorithme : pour chaque prétraitementi, l’algorithme des K-moyennes est exécuté avec différent nombre de clusters (de J jusqu’à Ki, pour plus de détails, voir le choix du nombre de clusters dans la section

3.3), ensuite, le nombre de clusters optimal Kopti ∈ {J, . . . , Ki} est considéré comme étant la

5. La partition finale générée par l’algorithme des K-moyennes est définie comme étant la partition qui optimise l’erreur quadratique moyenne (MSE) parmi les100 partitions (voir le choix de la meilleure partition dans Section 3.3).

3.4. Résultats 65

partition qui optimise l’indice de rand ajusté.

A. Le nombre de clusters est une entrée

Dans cette partie, on se limite au cas où le nombre de clusters K est égal au nombre de classes à prédire J. Dans ce cas, le problème du clustering prédictif devient un problème de classification supervisée. Le but ici est de connaître la capacité de l’algorithme classique des K- moyennes précédé par les méthodes de prétraitements supervisés à prédire correctement la classe des nouvelles instances.

La figure 3.11 présente les performances prédictives moyennes (en termes d’ARI) de l’algorithme des K-moyennes précédé par les différentes méthodes de prétraitement (supervisées et non supervisées) pour17 jeux de données de l’UCI (voir tableau 3.5 de la section 3.3).

Figure 3.11 – Les performances prédictives moyennes des K-moyennes précédé par les différentes méthodes de prétraitement en utilisant l’ARI

Dans cette figure, on observe que la méthode de prétraitement supervisée "Conditional Info" a une performance prédictive soit : i) meilleure de celles de prétraitement non supervisés (12 jeux de données sur 17),ii) compétitive avec les performances de ces derniers (5 jeux de données sur 17). L’ensemble des tableaux contenant les résultats détaillés (en apprentissage et en test) qui servent à obtenir ces résultats synthétiques présentés dans cette partie sont situés dans la section B.2.1 l’annexe B.

66 Chapitre 3. Distance dépendante de la classe

À ce stade, pour être en mesure de classer les différentes méthodes de prétraitement selon leur pouvoir prédictif sur les17 jeux de données, nous allons utiliser le test de Friedman couplé au test post-hoc de Nemenyi [41] (voir Section B.1 de l’annexe B). La figure 3.12 présente les résultats des comparaisons des performances prédictives en termes d’ARI en apprentissage (partie gauche de la figure) et en test (partie droite de la figure) de l’algorithme des K-moyennes en utilisant à chaque fois une méthode de prétraitement. Les méthodes sont classées par ordre décroissant selon leurs performances prédictives en se basant sur la moyenne des rangs : plus le rang de la méthode est proche de 1 meilleure est la prédiction.

Figure 3.12 – Le test de Friedman couplé au test post-hoc de Nemenyi pour les 21 jeux de données en utilisant l’ARI en apprentissage a) et en test b)

D’après les résultats de test de Friedman, il existe une différence significative entre les 4 mé- thodes de prétraitement (pvalue< 10−4 0.05). Que ce soit en apprentissage ou en test, d’après

les résultats du test de Nemenyi, on constate que les deux méthodes supervisées sont celles qui ont une bonne performance en termes de prédiction tandis que la méthode Normalization est celle qui fournit des résultats moins bons en termes de prédiction.

B. Le nombre de clusters est une sortie

Dans le cadre du clustering prédictif, on s’attend à ce que le nombre de clusters soit supérieur au nombre de classes du fait qu’on souhaite découvrir à ce stade la structure interne de la variable cible (on suppose qu’au moins une des classes contient une structure sous-jacente à découvrir). Dans cette partie, on considère que le nombre de clusters K comme une sortie de l’algorithme des K-moyennes : pour chaque jeu de données et pour chaque prétraitement i, l’algorithme des K-moyennes est exécuté avec différentes valeurs de K (de J jusqu’à Ki) tout en effectuant

une validation croisée en 10 folds. Ensuite, à la fin de la phase d’apprentissage, le nombre de clusters considéré est celui qui correspond à la partition ayant une bonne performance en termes de l’indice de rand ajusté ( i.e., celle qui optimise l’ARI). Puisque le critère d’ARI est utilisé pour sélectionner le nombre optimal de clusters, la qualité prédictive de l’algorithme en question précédé par les différentes méthodes de prétraitements est mesurée dans cette partie en utilisant "Balanced Accuracy"(BACC).

3.4. Résultats 67

Figure 3.13 – La performances moyenne (en termes de BACC en test) de l’algorithme des K- moyennes standard précédé par les différentes méthodes de prétraitement dans le cas où K est une sortie.

La figure 3.13 et le tableau 3.7 présentent les performances prédictives moyennes (en termes de BACC) de l’algorithme classique des K-moyennes précédé par les différentes méthodes de pré- traitement lorsque le nombre de clusters est considéré comme une sortie. Ces résultats montrent clairement que Conditional Info est la méthode qui fournit de bons résultats en termes de pré- diction tout en gardant un nombre minimal de clusters.

68 Chapitre 3. Distance dépendante de la classe

Données Méthodes K BACC (A) BACC (T) Données Méthodes K BACC (A) BACC (T)

RN-BGB 6 0.5± 0 0.5± 0 RN-BGB 3 0.45± 0.01 0.58 ± 0.08 NORM-BGB 2 0.5_{± 0} 0.5_{± 0} NORM-BGB 6 0.77_{± 0.08 0.59 ± 0.19} German CR-BGB 2 0.5± 0 0.5± 0 Horsecolic CR-BGB 11 0.94± 0.04 0.67 ± 0.19 BIN-BIN 2 0.5_{± 0} 0.5_{± 0} BIN-BIN 2 0.50_{± 0.02 0.62 ± 0.07} CI-CI 5 0.56_{± 0.02 0.54 ± 0.03} CI-CI 2 0.53_{± 0.01 0.70 ± 0.09} RN-BGB 11 0.71_{± 0.02 0.7 ± 0.02} RN-BGB 22 0.74_{± 0.03 0.71 ± 0.04} NORM-BGB 11 0.7± 0.02 0.69± 0.03 NORM-BGB 22 0.74± 0.03 0.71 ± 0.04 LED CR-BGB 10 0.66_{± 0.02 0.66 ± 0.02} Soyeban CR-BGB 22 0.74_{± 0.03 0.71 ± 0.04} BIN-BIN 11 0.7_{± 0.02} 0.69_{± 0.03} BIN-BIN 22 0.77_{± 0.02 0.75 ± 0.03} CI-CI 10 0.71± 0.02 0.71 ± 0.02 CI-CI 20 0.79± 0.01 0.79 ± 0.02 RN-BGB 17 0.99_{± 0.01 0.99 ± 0.01} RN-BGB 3 0.98_{± 0.01 0.97 ± 0.02} NORM-BGB 17 0.99_{± 0.01 0.99 ± 0.01} NORM-BGB 3 0.96_{± 0.00 0.95 ± 0.02} Tictactoe CR-BGB 19 0.99_{± 0.01 0.99 ± 0.01} Wine CR-BGB 3 0.97_{± 0.01 0.96 ± 0.02} BIN-BIN 8 0.66± 0.02 0.62 ± 0.06 BIN-BIN 3 0.97± 0.01 0.96 ± 0.02 CI-CI 2 0.62_{± 0.08 0.62 ± 0.08} CI-CI 3 0.98_{± 0.01 0.97 ± 0.01} RN-BGB 2 0.5± 0.00 0.5± 0.00 RN-BGB 5 0.74± 0.00 0.74 ± 0.01 NORM-BGB 2 0.5_{± 0.00} 0.5_{± 0.00} NORM-BGB 5 0.74_{± 0.00 0.74 ± 0.01} Adult CR-BGB 5 0.5± 0.00 0.5± 0.00 Waveform CR-BGB 5 0.74± 0.00 0.74 ± 0.01 BIN-BIN 2 0.5_{± 0.00} 0.5_{± 0.00} BIN-BIN 5 0.75_{± 0.01 0.75 ± 0.01} CI-CI 4 0.54± 0.01 0.54 ± 0.01 CI-CI 4 0.59± 0.02 0.58 ± 0.02 RN-BGB 12 0.82_{± 0.01 0.82 ± 0.01} RN-BGB 2 0.98_{± 0.00 0.98 ± 0.01} NORM-BGB 12 0.82± 0.00 0.81 ± 0.01 NORM-BGB 2 0.95± 0.01 0.95 ± 0.01 PenDigits CR-BGB 13 0.83_{± 0.00 0.83 ± 0.00} Breast CR-BGB 2 0.95_{± 0.01 0.95 ± 0.01} BIN-BIN 11 0.97± 0.00 0.97 ± 0.00 BIN-BIN 2 0.98± 0.01 0.98 ± 0.00 CI-CI 12 0.76_{± 0.03 0.75 ± 0.03} CI-CI 2 0.98_{± 0.02 0.98 ± 0.00} RN-BGB 28 0.08± 0.01 0.09 ± 0.00 NORM-BGB 28 0.11_{± 0.01 0.12 ± 0.01} Abalone CR-BGB 28 0.12_{± 0.01 0.13 ± 0.01} BIN-BIN 29 0.12_{± 0.01 0.13 ± 0.01} CI-CI 28 0.12_{± 0.01 0.13 ± 0.01}

Table 3.7 – Les performances moyennes (en termes de BACC) de l’algorithme des K-moyennes standard précédé par les différents méthodes de prétraitement dans le cas où K est une sortie (A : Apprentissage, T : Test)

Dans le document Clustering prédictif Décrire et prédire simultanément (Page 70-74)