• Aucun résultat trouvé

3.3 État de l’art des méthodes de clustering

3.3.3 Evaluation de la qualité d’un clustering

Les algorithmes de clustering visent deux principaux objectifs : - maximiser la similarité intra-clusters

- minimiser la similarité inter-clusters

L’inertie mesure l’écart entre les individus d’un cluster. Il existe trois mesures d’inertie pour une population :

Soit une partition en k cluster de poids Pi, avec n points et une distance euclidienne d2(i1, i2),

g1, g2. . . .gk centres de gravité, I1, I2. . . .Ik inerties associées.

g =centre de gravité des n individus 3.3.3.1 L’inertie inter-clusters

L’inertie inter-clustersIr est définie comme étant la moyenne (pondérée par la somme des poids de chaque cluster) des carrés des distances des barycentres de chaque classe au barycentre global. Elle peut s’écrire :

Ir =XPid2(gi, g) (3.3.11) Plus Ir est grande, et plus les clusters sont séparées les uns des autres, ce qui indique un bon clustering.

3.3.3.2 L’inertie intra-clusters

L’inertie intra-clusters Ia est définie par la somme des inerties totales de chaque cluster :

Ia=XPiIi (3.3.12)

3.3 État de l’art des méthodes de clustering

3.3.3.3 L’inertie totale

L’inertie totale Itreprésente une mesure indépendante de toute division de la population en clusters.

It=Ir+Ia (3.3.13)

3.3.4 Synthèse et discussions

Nous avons étudié dans cette partie de ce chapitre un panorama des mé-thodes de classification non supervisée. Ces dernières sont classées en quatre types : les méthodes basées sur le partitionnement des données, les méthodes hiérarchiques, les méthodes basées sur l’estimation de la densité, et les mé-thodes basées sur le partitionnement de l’espace. Parmi cette grande variété de techniques, nous avons montré les forces et faiblesses de chacune.

L’inconvénient majeur est le problème de la validation des clusters obtenus.

En effet, ces clusters doivent normalement représenter des structures propres aux données. Notons également que les résultats obtenus par certains algo-rithmes sont dépendants de l’initialisation. Citons également un autre incon-vénient qui est celui du choix du nombre de clusters. Lorsqu’on veut regrouper en clusters homogènes un ensemble de données, le problème est de savoir com-bien de clusters sont nécessaires pour com-bien représenter cet ensemble de données.

Pour les classifications hiérarchiques, c’est l’utilisateur qui doit décider ou couper la hiérarchie. Pour les partitions comme les k -means, c’est l’utilisateur qui pourra indiquer le nombre de clusters à l’initialisation. Cependant, lors-qu’on dispose d’un grand nombre de données, l’utilisateur aura de plus en plus de mal à déterminer le nombre de clusters, et où il faut arrêter le regroupement.

Il existe également des critères statistiques, des heuristiques ou des formules qui permettent de déterminer ce nombre, sans toutefois pouvoir garantir que le résultat est optimal.

Pour déterminer le nombre de clusters, on peut aussi poser des contraintes : comme le nombre maximum d’individus dans un cluster. Effectuer plusieurs clus-terings avec un nombre de clusters différents, puis choisir la partition qui minimise le critère d’inertie. Il existe de nombreuses méthodes mais aucune n’est optimale. Le choix de la méthode ce fait en fonction du problème et de ses a priori, des données (continues, incomplètes, manquantes, volumineuses, denses), de la tâche à réaliser et du temps de calcul dont on dispose.

En gros pour résumer une méthode de clustering idéale doit résister au bruit tel que les points isolés (outliers) qui reste un sujet de recherche en soi,

et doit être applicable dans des espaces de grandes dimensions (gros volumes de données).

3.4 Conclusion

Dans ce chapitre, nous avons présenté dans un premier temps le problème de la malédiction de la dimension. Plusieurs solutions ont été proposées pour remédier à ce problème. Nous les avons classé en deux grandes familles de méthodes : les méthodes basées sur la réduction de la dimension et celles basées sur le clustering.

Les méthodes basées sur la réduction de la dimension ont pour objectif de réduire la dimension des données tout en préservant le maximum d’information.

Ces méthodes sont utiles dans le domaine de l’indexation multidimensionnelle.

Nous avons montré que ces méthodes réduisent la dimension de l’espace de données Mais leur application reste liée à des contraintes comme la linéarité des données, le paramétrage, etc.

Le passage en revue des principales méthodes basées sur le clustering montre clairement la diversité de leurs propriétés. De ce fait nous avons remarqué que les travaux présentés dans la littérature contournent le phénomène de la malédiction de la dimension par un recours aux méthodes basées sur le clustering (regroupement). Ces méthodes sont les plus couramment utilisées et donnent de bons résultats dans des espaces de grande dimension [LCGM+99, GJA10, Lai13].

Sur la base cette étude, nous avons décidé de nous placer dans ce contexte.

Nous avons cherché parmi les méthodes de clustering existantes celles qui peuvent être adaptées à nos besoins, soit : la pertinence des résultats, la rapidité d’exécution et le coût de stockage. Comme nous pouvons le constater, dès lors que l’on souhaite améliorer l’un des trois critères, on perd automatiquement sur les deux autres.

La démarche usuelle jusqu’à présent est de se concentrer très fortement sur un des critères, tout en ignorant les deux autres. Ainsi, il n’existe pas aujourd’hui de système de recherche multimédia qui permet d’avoir le meilleur compromis entre les trois critères.

Partie 2 : Développement et