Les données à 35 variables - Comparaison des trois algorithmes de génération de sous-ensembles

Chapitre 7 Expérimentations numériques

7.1 Comparaison des trois algorithmes de génération de sous-ensembles

7.1.2 Les données à 35 variables

Nous présentons dans cette section le nombre de classes optimal proposé par chacun des cinq indices dans le tableau 7.1. Ce premier résultat est complété par des graphiques permettant de représenter les pertinences du sous-ensemble de taille 2 au nombre de

7.1. Comparaison des trois algorithmes de génération de sous-ensembles Indice Nombre de classes optimal

Hauteur 12

Diamètre moyen 3

Distance au centre 3

Calinski 13

Huberti 13

Tab.7.1 – Nombre de classes optimal pour chacun des critères de qualité d’une partition pour le jeu à 35 variables.

classes optimal proposé par l’algorithme. Pour illustration, nous donnons aussi les sous- ensembles eux-mêmes retournés par ClassAdd dans le cas de l’indice de la hauteur.

En utilisant l’indice de la hauteur, nous obtenons une partition optimale du jeu de données à 35 variables en 12 classes (tableau 7.1). Nous recherchons maintenant les meilleurs sous-ensembles de taille 1 à 12.

Avec un parcours exhaustif, les meilleurs sous-ensembles retournés sont :

{X27, X5}, {X27, X2, X4}, {X27, X2, X3, X34}, {X27, X2, X3, X4, X34}, {X27, X2, X3, X4, X5, X34} {X27, X2, X3, X4, X5, X33, X34}, {X27, X2, X3, X4, X5, X33, X21, X34}

{X27, X2, X3, X4, X5, X33, X21, X22, X34}, {X27, X2, X3, X4, X5, X33, X21, X22, X28, X34} {X27, X2, X3, X4, X5, X33, X21, X22, X28, X29, X34}

{X27, X2, X3, X4, X5, X33, X21, X22, X28, X29, X34, X35}

Avec un parcours au hasard, les meilleurs sous-ensembles retournés sont :

{X6, X5}, {X6, X7, X5}, {X6, X7, X3, X9}, {X6, X7, X3, X9, X5}, {X6, X7, X3, X9, X5, X34} {X6, X7, X3, X9, X5, X33, X34}, {X6, X7, X3, X9, X5, X33, X21, X34}

{X6, X7, X3, X9, X5, X33, X21, X22, X34}, {X6, X7, X3, X9, X5, X33, X21, X22, X28, X34} {X6, X7, X3, X9, X5, X33, X21, X22, X28, X29, X34}

{X6, X7, X3, X9, X5, X33, X21, X22, X28, X29, X34, X35}

Avec un parcours des meilleures variables, les meilleurs sous-ensembles retournés sont :

{X27, X5}, {X27, X2, X4}, {X27, X2, X3, X34}, {X27, X2, X3, X4, X34}, {X27, X2, X3, X4, X5, X34} {X27, X2, X3, X4, X5, X33, X34}, {X27, X2, X3, X4, X5, X33, X21, X34}

{X27, X2, X3, X4, X5, X33, X21, X22, X34}, {X27, X2, X3, X4, X5, X33, X21, X22, X28, X34} {X27, X2, X3, X4, X5, X33, X21, X22, X28, X29, X34}

Fig. 7.2 – Pertinence des sous-ensembles du jeu à 35 variables retournés par les trois parcours étudiés de l’espace de recherche : exhaustif, hasard, meilleures variables. La partition est choisie par le critère de la hauteur.

{X27, X2, X3, X4, X5, X33, X21, X22, X28, X29, X34, X35}

La pertinence des sous-ensembles obtenus est présentée dans la ﬁgure 7.2.

Nous voyons sur la figure 7.2 que la qualité des sous-ensembles retournés par une approche exhaustive et une approche réduite aux meilleures variables est équivalente. La génération en utilisant le hasard est certes un peu moins bonne mais la différence n’est pas significative par rapport à la facilité à mettre en œuvre ce mode de génération. En effet, choisir deux variables au hasard est moins coûteux que choisir les deux meilleures, ce qui revient à estimer toutes les variables d’une classe et à les classer.

La ﬁgure 7.3 nous montre encore une équivalence entre la génération exhaustive des sous-ensembles et la génération réduite aux meilleurs variables. Par contre, nous avons ici une génération au hasard nettement moins performante. Ce résultat est prévisible. Il n’apparaît pas dans les tests précédents pour la simple raison que les partitions retenues découpent les jeux en classes composées en moyenne d’à peine trois variables. L’évène- ment consistant à choisir deux représentants de classes au hasard parmi trois a donc une forte probabilité de choisir la meilleure variable comme candidate potentielle. Là le diamètre moyen propose une partition en trois classes soit en moyenne onze variables par classes. Le hasard est donc fortement pénalisé par cette structure.

Sur les ﬁgures 7.4, 7.5, 7.6, nous retrouvons les mêmes résultats que ceux décrits précédemment.

Connaissant bien la structure de notre jeux de données à 35 variables, nous pouvons déjà, après ces premières expérimentations, eﬀectuer quelques hypothèses. Concernant,

7.1. Comparaison des trois algorithmes de génération de sous-ensembles

Fig. 7.3 – Pertinence des sous-ensembles du jeu à 35 variables retournés par les trois parcours étudiés de l’espace de recherche : exhaustif, hasard, meilleures variables. La partition est choisie par le critère du diamètre moyen.

Fig. _{7.4 – Pertinence des sous-ensembles du jeu à 35 variables retournés par les trois} parcours étudiés de l’espace de recherche : exhaustif, hasard, meilleures variables. La partition est choisie par le critère de la distance au centre de la classe.

les indices de qualité d’une partition, nous semblons avoir deux groupes d’indices : l’indice de la hauteur, l’indice de Calinski et l’indice de Hubert dans un premier groupe et l’indice du diamètre moyen et de la distance au centre de la classe dans un autre. Ce dernier groupe était prévisible de par la déﬁnition de ces mesures qui sont ﬁnalement très

Fig. 7.5 – Pertinence des sous-ensembles du jeu à 35 variables retournés par les trois parcours étudiés de l’espace de recherche : exhaustif, hasard, meilleures variables. La partition est choisie par le critère de Calinski.

Fig. _{7.6 – Pertinence des sous-ensembles du jeu à 35 variables retournés par les trois} parcours étudiés de l’espace de recherche : exhaustif, hasard, meilleures variables. La partition est choisie par le critère de Hubert.

proches. En ce qui concerne le groupe hauteur, Calinski et Hubert, il serait intéressant d’étudier leurs liens de manière plus approfondie. Ces groupes d’indices sont les mêmes que ceux apparus dans le test de la section 6.3. Ensuite, nous avons vu que la qualité du parcours au hasard était très liée à la taille des classes. Mais il est dommage de se

7.1. Comparaison des trois algorithmes de génération de sous-ensembles Jeu de données Indice Nombre de classes optimal

Audiology Hauteur 59

Connect Hauteur 7

Lung Cancer Diamètre moyen 4

OptDigit Diamètre moyen 3

Lung Cancer Distance au centre 3

OptDigit Distance au centre 3

Soybean Calinski 34

Splice Calinski 3

Lung Cancer Hubert 33

OptDigit Hubert 37

Tab._{7.2 – Nombre de classes optimal pour chacun des critères de qualité d’une partition} sur des jeux de données réelles.

priver de cette génération très simple à implémenter et peu coûteuse seulement à cause de son comportement peu performant dans certains cas. Nous pourrions donc envisager un algorithme de sélection de variables où la procédure de génération des sous-ensembles ne serait pas ﬁxée à l’avance. Suivant la taille moyenne des classes, l’algorithme choisirait de ne garder que les meilleures variables dans le cas de grandes classes et des variables choisies au hasard dans le cas de petites classes. Evidemment, cette notion de grande et petite classe n’a de sens que par rapport à v, le nombre de variables que l’on souhaite garder pour la génération.

Dans le document Class-Add, une procédure de sélection de variables basée sur une troncature k-additive de l'information mutuelle et sur une classification ascendante hiérarchique en pré-traitement (Page 125-130)