• Aucun résultat trouvé

Détermination du nombre des classes dans l’algorithmeCROKI2 de classification croisée

N/A
N/A
Protected

Academic year: 2021

Partager "Détermination du nombre des classes dans l’algorithmeCROKI2 de classification croisée"

Copied!
3
0
0

Texte intégral

(1)

HAL Id: hal-01125739

https://hal.archives-ouvertes.fr/hal-01125739

Submitted on 16 Dec 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Détermination du nombre des classes dans l’algorithmeCROKI2 de classification croisée

Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed

To cite this version:

Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed. Détermination du nombre

des classes dans l’algorithmeCROKI2 de classification croisée. EGC’2009: 9ème conférence interna-

tionale sur l’Extraction et la Gestion des Connaissances, Jan 2009, Strasbourg, France. pp.447-448,

2009. �hal-01125739�

(2)

Détermination du nombre des classes dans l’algorithme CROKI2 de classification croisée

Malika CHARRAD

, Yves LECHEVALLIER

∗∗

Gilbert SAPORTA

∗,∗∗

Mohamed BEN AHMED

∗∗∗

Laboratoire RIADI, Ecole Nationale des Sciences de l’Informatique, Tunis [email protected],

[email protected]

∗∗

INRIA-Rocquencourt, 78153 Le Chesnay cedex [email protected]

∗∗∗

CNAM, 292 rue Saint-Martin, 75141 Paris cedex 03 [email protected]

Résumé. Un des problèmes majeurs de la classification non supervisée est la détermination ou la validation du nombre de classes dans la population. Ce pro- blème s’étend aux méthodes de bipartitionnement ou block clustering. Dans ce papier, nous nous intéressons à l’algorithme CROKI2 de classification croisée des tableaux de contingence proposé par Govaert (1983). Notre objectif est de déterminer le nombre de classes optimal sur les lignes et les colonnes à travers un ensemble de techniques de validation de classes proposés dans la littérature pour les méthodes classiques de classification.

1 Introduction

Comme la qualité d’une partition est très liée au choix du nombre de classes, les auteurs définissent trois types de critères de validation selon que l’on dispose ou pas d’information a priori sur les données : critère interne, critère externe et critère relatif. Dans ce papier, nous proposons d’utiliser ce dernier critère pour déterminer le nombre de classes dans la parti- tion sur les lignes et celles sur les colonnes. Il y a trois familles de critères de validation en Classification : la séparation, l’homogénéité et la dispersion. En se basant sur ces trois fa- milles de critères de validation, plusieurs indices sont construits pour évaluer la qualité des partitions. Nous utilisons quelques uns de ces indices, à savoir l’indice de Davies et Boul- din (1979), l’indice Dunn (1974), l’indice Silhouette, proposé par Rousseeuw (1987), l’indice de séparation S (Separation index) proposé par Xie (1991) et l’indice CS proposé dans chou (2003). Nous appliquons chacun de ces indices sur la partition sur les lignes en fixant la par- tition sur les colonnes et inversement. Une valeur moyenne des deux valeurs est attribuée à chaque indice. Outre ces indices, nous proposons d’utiliser deux autres indices inspirés des travaux de Govaert (1983). Soit le tableau de contingence I × J . L’algorithme CROKI2 re- cherche alternativement une partition P de I en K classes et une partition Q de J en L classes.

Il applique la méthode des nuées dynamiques en utilisant la métrique de χ

2

et le centre de

gravité comme noyau. On considère le nuage N (I) des n vecteurs des profils f

Ji

, i ∈ I munis

(3)

Détermination du nombre des classes dans l’algorithme CROKI2 de classification croisée

des masses f avec la métrique quadratique définie par la matrice diagonale (1/f

.J

). Govaert démontre la relation suivante χ

2

(I, J) = SW (P ) + χ

2

(P, J) avec S est la somme des élé- ments du tableau de contingence. SW(P) représente l’information perdue en effectuant les regroupements de la partition P alors que χ

2

(P, J) c’est l’information conservée. χ

2

(I, J) ne dépendant pas de la partition P, la recherche de la partition minimisant le critère W(P) est équivalente à la recherche de la partition maximisant χ

2

(P, J ). Ce résultat nous permet de pro- poser I(P) comme indice de validation, avec I(P ) = W (P )/χ

2

(P, J). Par suite de symétrie et en considérant le nuage N(J), le même indice est proposé pour la partition en colonnes : I(Q) = W (Q)/χ

2

(I, Q). Parallèlement, en considérant le nuage N(I × J), Govaert démontre la relation suivante :χ

2

(I, J) = SW (P × Q) + χ

2

(P, Q). Comme χ

2

(I, J) étant constante, la partition P × Q minimisant W (P × Q) maximise χ

2

(P, Q). De même, nous proposons d’utiliser l’indice I(P × Q) = W (P × Q)/χ

2

(P, Q) pour déterminer la meilleure partition.

Une bonne partition sur les lignes et les colonnes donne une valeur minimale de I(P × Q).

En utilisant un jeux de données issu d’un tableau présentant le nombre d’occurrences des mots figurant dans les pages aux pages Web du site de Metz Charrad et al. (2008), nous faisons varier le nombre de classes de 2 à n sur les lignes et les colonnes et nous enregistrons les valeurs des indices pour opter pour un couple de classes en lignes et en colonnes. Nous identifions les cinq meilleurs couples pour chaque indice. En remarquant que le couple (9,8) est le meilleur pour la majorité des indices, nous optons pour une partition de 9 classes en lignes et 8 classes en colonnes.

Références

Charrad, M., Y. Lechevallier, G. Saporta, et M. B. ahmed (2008). La classification croisée pour l’analyse textuelle d’un site web. Revue des Nouvelles Technologies Informatiques 1, 53–54.

Davies, D. et D. Bouldin (1979). A cluster separation measure. IEEE Trans. Pattern Anal.

Machine Intell. 4, 224–227.

Dunn, J. (1974). Well separated clusters and optimal fuzzy partitions. Journal of Cybernet- ics 4, 95–104.

Govaert, G. (1983). ´ Classification croisée. Thèse de doctorat, Université Pierre et Marie Curie Paris VI.

Rousseeuw, P. (1987). Silhouettes : a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics 20, 53–65.

Xie, X. G. (1991). A validity measure for fuzzy clustering. IEEE Trans.Pattern Analysis and Machine Intelligence 13, 841–847.

Summary

One of the major problems of clustering is how to identify the number of clusters. This

problem is also present in biclustering or block clustering methods. In this paper, we are

interested by CROKI2 algorithm proposed by Govaert (1983) for contingency tables. Our goal

is to find the optimal number of clusters on rows and columns by using some techniques of

cluster validity.

Références

Documents relatifs

Ce travail peut être amélioré en testant d’autres indices proposés dans la littérature pour des méthodes classiques de classification, en particulier dans le cas où le nombre

Article numérisé dans le cadre du programme Numérisation de documents anciens

Nous déduisons 'de ces for- mules le rapport entre les nombres de classes proprement primitives pour deux déterminants dont le rapport est un carré, ainsi que le rap- port entre

Un certain nombre de résultats ([3]; [8], prop. 3) mon- trent qu'il existe un lien entre classes réelles et classes relatives, lien que nous nous proposons d'établir de façon

Des classes dont les dynamiques mettent de plus en plus à l’ordre du jour, au plan des phénomènes de mobilité sociale, l’enjeu du déclassement social, du « descenseur social

Une minoration pour l’exposant du groupe des classes d’un corps engendré par un nombre de Salem..

Le candidat indiquera sur sa copie le numéro de la question et la lettre correspondante à la réponse choisie. AD et en déduire AE.. 2) Calculer la distance BC. 3) Montrer que

ABCD est un trapèze rectangle en C et D. Donner un encadrement de * d’amplitude 0.5.. a) Déterminer le domaine de définition de. c) La fonction % est-elle prolongeable