• Aucun résultat trouvé

Ce chapitre a présenté une version supervisée de l’indice Davies-Bouldin, nommée SDB (Su- pervised Davies-Bouldin). Cet indice est basé sur une nouvelle mesure de similarité supervisée permettant d’établir une certaine relation entre la proximité des instances en termes de distance et leurs classes d’appartenance. Deux instances sont considérées comme similaires suivant cette nouvelle mesure, si et seulement si, elles sont proches en termes de distance et appartiennent à la même classe. Grâce à cette nouvelle mesure, la version supervisée de l’indice de Davies-Bouldin

5.5. Bilan 131

arrive à surmonter le problème de la non corrélation entre les clusters et les classes. Les résultats expérimentaux ont montré que l’indice SDB arrive à bien détecter le nombre optimal de clusters permettant de mieux découvrir la structure interne de la variable cible par rapport au critère non supervisé DB (voir le tableau 5.1).

Cas Données DB SDB

Jeux de données contrôlés

Jeu 1 (Figure 5.16) × X Jeu 2 (Figure 5.17) × X Jeu 3 (Figure 5.18) X X Jeu 4 (Figure 5.19) × X Jeux de données de grands dimensions Jeu 1 (Figure 5.20) X X Jeu 2 (Figure 5.21) × X Jeu 3 (Figure 5.22) X X

UCI Adult (Figure 5.23) × X

Table 5.1 – Comparaison (échec/succès) des deux critères DB et SDB

Afin de connaître d’avantage la capacité du critère modifié "indice de Davies-Bouldin Su- pervisé" à mesurer le compromis ente la description et la prédiction et donc mesurer la qualité des résultats issus par l’algorithme des K-moyennes prédictives, le chapitre suivant fera l’objet d’une étude expérimentale sur plusieurs jeux de données. Cette étude expérimentale est divisée en deux grandes parties. La première partie est consacrée à la comparaison des performances de l’algorithme des K-moyennes prédictives du premier type avec les performances des algorithmes de clustering prédictif les plus répandus dans la littérature. L’algorithme des K-moyennes prédic- tives utilisé dans ce cas englobe les différentes étapes supervisées discutées dans les deux derniers chapitres 2 et 3 (i.e., l’étape du prétraitement des données et l’étape d’initialisation des centres). La deuxième partie, quant-à-elle, est consacrée à l’algorithme des K-moyennes prédictives du deuxième type. Cette partie expérimentale cherche à prouver la capacité de cet algorithme (en utilisant l’indice SDB pour sélectionner le nombre optimal de clusters) à bien découvrir la struc- ture interne globale de la variable cible.

Chapitre 6

Synthèse et Conclusion

6.1

Introduction

L’objectif de cette thèse est la recherche d’un modèle d’apprentissage "interprétable" capable de décrire et de prédire d’une manière simultanée. Ce genre de modèle est connu sous le nom du clustering prédictif. Pour atteindre cet objectif, nous avons choisi de modifier l’algorithme des K-moyennes afin de le rendre un bon prédicteur tout en préservant sa faculté à bien décrire les données. Les chapitres 3 et 4 ce mémoire ont montré respectivement que la supervision de l’étape de prétraitement des données et de l’étape d’initialisation des centres a aidé cet algorithme à atteindre l’objectif du clustering prédictif.

Figure 6.1 – Synthèse sur les performances prédictives de l’algorithme des K-moyennes précédé par différentes méthodes de prétraitement et d’initialisation des centres

La figure 6.1 présente la moyenne (obtenue sur 21 bases de données, voir le tableau 4.3 du chapitre 4) des performances prédictives en termes de l’ARI (axe des abscisses) et en termes de l’AUC (axe des ordonnées) de l’algorithme des K-moyennes précédé à chaque fois par diffé- rentes méthodes de prétraitements et d’initialisation : RN pour Rank Normalization et/ou Basic Grouping, CI pour Conditional Info, K++ pour KMeans++, K++R pour KMeans++R, SB pour S-Bisecting et RS pour Rocchio-And-Split. Pour plus de détails sur ces méthodes, voir les

134 Chapitre 6. Synthèse et Conclusion

deux chapitres 3 et 4. L’algorithme des K-moyennes standard est représenté dans la figure 6.1 par RN-K++. Lorsque l’axe de prédiction est privilégié, les résultats présentés dans cette figure montrent que l’algorithme des K-moyennes précédé par le prétraitement supervisé Conditional Info (CI) et la méthode supervisée d’initialisation des centres Rocchio-And-Split (RS) parvient à atteindre de meilleures performances prédictives par rapport à l’algorithme des K-moyennes standard (7.4% en AUC et 32% en ARI).

En ce qui concerne l’axe de description, la figure 6.2 présente les performances de l’algorithme des K-moyennes précédé par Conditional Info et par différentes méthodes d’initialisation des centres en termes de Davies-Bouldin "DB" (voir l’axe des ordonnées) et en termes de Variation d’Information14 "VI" [76] (voir l’axes des abscisses). Dans ce contexte du compromis, plus la valeur est proche de l’origine des deux axes, plus le modèle parvient à atteindre de bon compromis entre VI et DB. Ces résultats représentent une moyenne sur 21 jeux de données. La figure 6.2 montre que l’algorithme des K-moyennes précédé par la méthode d’initialisation KMeans++ (K++) suivie par la méthode KMeans++R parviennent à atteindre de meilleures performances en termes de DB par rapport aux méthodes d’initialisation supervisées SB et RS.

Figure 6.2 – Synthèse sur les performances (VI versus DB) de l’algorithme des K-moyennes standard précédé par Conditional Info et différentes méthodes d’initialisation

Pour le compromis description-prédiction, les résultats présentées dans la figure 6.2 montrent que l’algorithme des K-moyennes précédé par Conditional Info (prétraitement) et KMeans++R (initialisation) parvient à atteindre un bon compromis entre la description et la prédiction par rapport aux résultats obtenus en utilisant les autres méthodes d’initialisation.

L’objectif de ce chapitre est d’étudier la capacité de l’algorithme des K-moyennes prédictives proposé dans cette thèse à atteindre l’objectif du clustering prédictif. Contrairement aux cha- pitres précédents où chaque étape est traitée indépendamment des autres, ce chapitre regroupe les différentes méthodes supervisées proposées dans cette thèse (prétraitement, initialisation et critère d’évaluation pour le choix de la meilleure partition) dans l’algorithme des K-moyennes 14. La raison de l’utilisation du critère Variation Information dans ce chapitre est que le critère utilisé dans les chapitres précédents "ARI" est utilisé dans la deuxième partie de la section 6.2 pour choisir la meilleure partition. Pour éviter tout biais, un autre critère de comparaison a donc été choisi. Pour plus de détail sur le critère VI, voir la section 3.3.2 du chapitre 3