• Aucun résultat trouvé

Indice de Rand

On peut examiner visuellement en comparant les dendrogrammes pour diff´erentes solu-tions. Cette technique est ennuyeuse pour un nombre d’individus assez grand. Un indice ou une test statistique pour comparer les diff´erentes classifications peut r´esoudre ce probl`eme. Cet indice compare deux classifications (mˆeme si les nombres des classes ne sont pas les mˆemes) [Ran71]. Il est donn´e par le formule :

Rand(CLi, CLj) = 2 n(n− 1) X x X y>x rxy

O`u rxy ´egale `a 1 si x et y sont dans la mˆeme classe pour les deux classifications (CLi, CLj). si l’indice de Rand est ´egal `a 1, donc nous avons un accord parfait entre les deux classifications. Une valeur de 0.7 est consid´er´ee comme suffisante pour dire que les deux classifications sont assez en accord [Dre86, FS92]. En 1984 (Morey et Agresti) [MA84] ont propos´e une modification `a l’indice de Rand. En 1985 (Hubert et Arabie) (cit´es dans Gordon [Gor98]) ont modifi´e l’indice de sorte que son maximum soit 1 et sa valeur pr´evue soit z´ero, si les classifications sont choisies al´eatoirement.

Crit`eres pour une bonne classification

L’objectif principal des techniques de classification est de trouver une partition o`u les objets d’une classe devraient ˆetre semblables (entre eux), les objets de diff´erents classes devraient ˆetre diff´erents. Une bonne classification devrait accomplir diff´erents crit`eres [Gor98, Eve93]

– Validit´e interne :

1. Chaque classe d’une partition doit ˆetre homog`ene : Les objets qui appartiennent `a la mˆeme classe doivent ˆetre semblables.

2. Les classes doivent ˆetre isol´es entre eux : Les objets de diff´erents classes doivent ˆetre diff´erents.

3. La classification doit s’adapter aux donn´ees : La classification doivent pouvoir expliquer la variation des donn´ees.

1. Les classes doivent avoir une interpr´etation substantive : Il est possible de donner des noms aux classes. Dans le meilleur des cas, ces noms doivent cor-respondre aux types d´eduits d’une certaine th´eorie.

– Stabilit´e :

1. Les classes doivent ˆetre stables : Les petites modifications dans les donn´ees et dans les m´ethodes ne doivent pas changer les r´esultats.

– Validit´e externe :

1. Les classes doivent ˆetre valides (validit´e externe) : Les classes doivent se cor-r´eler avec les variables externes qui sont connues pour ˆetre corr´el´ees avec la classification et qui ne sont pas employ´ees pour grouper.

– Validit´e relative :

1. La classification doit ˆetre meilleure que d’autres classifications. – D’autres crit`eres :

1. Parfois la taille et le nombre de classes sont employ´es en tant que crit`eres additionnels : Le nombre de classes doit ˆetre aussi petit que possible. La taille des classes ne doit pas ˆetre trop petite.

Les crit`eres ne sont pas compl`etement ind´ependants. Mais Parfois, on s’int´eresse seule-ment aux quelques crit`eres. Par exemple, les crit`eres de la validit´e interne et l’interpr´eta-bilit´e. Une meilleurs classification est celle qui pourra accomplir les crit`eres de la validit´e interne et de la validit´e externe. Cependant, toutes les classifications doivent accomplir la crit`ere de l’interpr´etabilit´e, elles doivent ˆetre essentiellement interpr´etabes.

Le nombre des classes

Il n’y a pas des m´ethodes compl`etement satisfaisantes pour d´eterminer le nombre des classes de l’ensemble des individus et pour tout type de classification [Eve79,Eve93]

Dans les m´ethodes de classification hi´erarchiques, couper l’arbre par une droit hori-zontale donne une partition de l’ensemble des individus. Donc on peut fixer le nombre des classes d´esir´ees selon l’endroit o`u on fait notre coupe.

Dans les m´ethodes de classification par partition, le nombre des classes est fix´e `a l’avance par l’utilisateur.

Il n’y a pas de m´ethodes analytiques pour d´eterminer le nombre de classes. Nous al-lons citer quelques indices souvent cit´es dans les litt´erateurs pour d´eterminer le nombre optimal des classes.

On part dans tous les cas de l’hypoth`ese o`u l’on dispose des r´esultats de classification en k classes pour k ∈ (1, ..., M). Une premiere grande classe de m´ethodes consiste a uti-liser une fonction objectif, qui atteint son maximum pour le nombre optimal de classes, en cherchant typiquement a maximiser les distances interclasses tout en minimisant les distances intraclasses. Il suffit donc de calculer cette fonction objectif pour chaque k et de choisir le k qui donne le r´esultat le plus ´elev´e. Les fonctions objectifs d´ependent parfois uniquement des distances intraclasses [Har75,KL88], mais aussi des distances interclasses [KR90].

Un autre type de m´ethodes consiste `a chercher ´egalement le maximum d’une fonc-tion objectif, mais avec une approche probabiliste diff´erente : il s’agit d’´evaluer si l’ajout de nouveaux param`etres au mod`ele (c’est-`a-dire utiliser un k plus grand) conduit `a un meilleur mod`ele ou non. Ces techniques cherchent donc `a ´evaluer un compromis entre l’ad´equation du mod`ele aux donn´ees et la complexit´e du mod`ele. Diff´erents crit`eres ont ´et´e propos´es, tels que le crit`ere de la longueur de description minimum (”MDL”, Rissanen en 1978 [Ris78]), la longueur du message minimum (”MML”, Wallace et Freeman en 1987 [WF87, WKD96]), le crit`ere de l’information bay´esienne (”BIC”, Schwarz 1978 [Sch78]), ou d’autres crit`eres d’´evaluation d’hypoth`eses statistiques (par exemple, Hamerly et Elkan 2004 [HE03]).

Un troisi`eme type de m´ethodes correspond aux m´ethodes par r´e´echantillonage (Tib-shirani et al. 2001 [TWH00]), Dudoit and Fridlyand 2002 [DFS02]). Elles consistent `a comparer les classifications obtenues sur les donn´ees r´eelles `a des classifications ”de r´e-f´erence”, correspondant `a l’absence de classes. Pour cela, des donn´ees sont simul´ees `a partir de distributions uniformes, et des classifications sont r´ealis´ees sur ces ´echantillons. Le nombre de classes k pour lequel l’´ecart entre la classification r´eelle et la classification de r´ef´erence est le plus grand est le nombre retenu de classes. Ces m´ethodes pr´esentent l’inconv´enient majeur de n´ecessiter de multiplier les r´e´echantillonages afin d’obtenir des classifications de r´ef´erence fiables. Cela n’est possible que lorsque l’algorithme de classifi-cation n’est pas trop consommateur en temps de calcul en lui-mˆeme.

Les mesures de homog´en´eit´e

Les mesures de homog´en´eit´e supposent que la moyenne des dissimilarit´es dans les classes (din) est plus petite que la moyenne des dissimilarit´es entre les classes (dout)pour une bonne classification. Diff´erentes approches ont ´et´e propos´e pour calculer ces moyennes [Kla83].

Par exemple, les dissimilarit´es `a l’int´erieur et entre les classes sont calcul´ees dans cette approche comme : din=X k d(k)in/K dout =X k X k∗>k d(k, k∗)out/(K(K− 1)/2) d(k)in =X g∈k X g∗∈k g∗>g dg,g∗/(nk(nk− 1)/2) et d(k, k∗)out =X g∈k X g∗∈k∗ dg,g∗/(nknk∗)

O`u K est le nombre des classes. le nk est le nombre des individus dans la classe K. La teste de la homog´en´eit´e est la diff´erence :

g = dout− din

ou

g = din/dout

La premi`ere expression a l’avantage qu’il est facile de construire une teste statistique. L’in´egalit´e standard de la distribution normale ou de Chebyschev peut ˆetre employ´ee pour calculer un niveau de signification ´evaluant si les deux dissimilarit´es sont ´egales ou une plus grande que l’autre dissimilarit´e [Kla83].