• Aucun résultat trouvé

2.4 Les critères d'évaluation d'une classication

2.4.1 Critères d'évaluation interne

Les critères de validation interne des classes sont basés sur la dénition de mesures propres aux classes comme la distance entre les observations et leur centre de classe. Ils sont basés sur les propriétés voulant que :

 des individus d'une même classe partagent les mêmes propriétés (compacité).  des individus appartenant à des classes diérentes aient peu de propriétés en commun

(séparabilité).

Pour évaluer le respect de ces deux notions, diérentes mesures basées sur les distances entre les observations zi et les centres de classe wk ont été dénies pour quantier l'adéquation entre une partition et l'idée que l'on se fait d'une bonne classication. Cette section présente plus en détail les indices d'évaluation de la pertinence d'une classication.

Dénition 6 (Somme des carrées) La somme des carrées des erreurs (Mean Sqaure Error, MSE) permet d'évaluer la compacité des classes d'une classication. Elle vaut :

M SE = 1 N K X k=1 X zi∈ck ||zi− wk||2 (2.27)

où K est le nombre de classes. MSE correspond au critère à optimiser dans l'algorithme des K-moyennes.

Ce critère s'utilise pour la comparaison de partition de tailles identiques.

Dénition 7 (Silhouette Value) La silhouette value de Rousseeuw [1987] permet d'éva-luer la compacité et la séparabilité des classes. Cet indice est déni pour chaque observation, pour chaque classe et pour la classication. Soit :

 ai la moyenne des distances entre l'observation zi et toutes les autres observations appartenant sa classe.

 bik la moyenne des distances entre l'observation zi et les observations appartenant à la classe k avec zi n'appartenant pas à la classe k.

 bi le minimum des K − 1 moyennes bik obtenues.

Pour une observation zi, une classe ck et une partition C la silhouette value est dénie respectivement par : SVz(zi) = bi− ai max(bi, ai) (2.28) SVc(ck) = 1 |ck| X zi∈ck SVz(zi) (2.29) SV (C) = 1 K K X k=1 SVc(ck) (2.30)

La quantité SVz est comprise entre -1 et 1. Une valeur positive de SVz et proche de 1 signie que les observations appartenant à la même classe que zi sont plus proches de cet objet que des autres observations des autres classes. Une valeur négative de SVz et proche de -1 implique que z serait mieux classé dans une autre classe. Enn si SVz est proche de 0 cela implique que l'observation z se situe aux frontières de deux classes. SVc évalue l'homogénéité de la classe k. Enn, le coecient SVC varie également de -1 à 1, plus sa valeur est positive et grande plus ceci implique que les classes sont bien séparées et très compactes. Cet indice est une aide au choix de nombre de k de classes dans l'algorithme des K-moyennes. En eet, lorsque K n'est pas adéquat (trop petit ou trop grand), la valeur SVcau niveau de certaines classes est très faible. Il faut alors calibrer K pour obtenir des quantités SVc de même grandeur.

Dénition 8 (Indice de Davies-Bouldin) L'indice de Davies et Bouldin [1979] évalue la qualité d'une classication en mesurant la compacité et la séparabilité des classes à travers le calcul de la moyenne de la similarité entre les classes :

DB(C) = 1 K K X l=1 max k=1,...,K,k6=l  Sdb(ck) + Sdb(cl) d(wk, wl)  (2.31) où d(wk, wl) est la distance entre les centres des classes ck , cl et Sdb(ck) la moyenne des distances entre les observations de ck et les centroïdes wk de chaque classe.

Pour des groupes compacts, la moyenne Sdb(ck) de la distance au référent vecteur wk est petite. Pour des groupes bien séparés, la distance d(wk, wl) est grande. Une valeur faible de cet indice implique une classication de bonne qualité en termes de compacité et de séparabilité. Dans le cas de l'algorithme des K-moyennes, son application répétée sur un ensemble de données en faisant varier le nombre K permet par la suite de dénir le nombre de classes KI idéal comme celui minimisant cet indice.

Indices spéciques aux cartes topologiques

Les cartes auto-organisées font partie des méthodes de quantication vectorielle qui ont des propriétés spéciques, il semble donc naturel de les évaluer à l'aide de l'erreur de quantication moyenne que l'on dénit ainsi :

Dénition 9 (Erreur de quantication) mqe = 1 N N X i=1 kzi− wcik2 (2.32)

où ci est l'indice du prototype le plus proche de zi

Le principe de conservation de la topologie des observations sur la carte implique d'éva-luer la qualité de la topologie fournie par SOM. Le taux d'erreur topologique permet de quantier la conservation de la topologie locale de l'espace des observations par la carte. Dénition 10 (Taux d'erreur topologique) On considère qu'il y a une erreur topolo-gique pour une observation si les deux neurones les plus proches de cette observation zi en terme de distance ne sont pas voisins sur la carte. Le taux d'erreur topologique vaut alors :

T ge = 1 − 1 N N X i=1 1|N(ci) argmin c6=X (i) (||zi− wc||2) ! (2.33) où 1|N(ci) est la fonction indicatrice de l'ensemble des voisins du prototype le plus proche de l'observation zi.

La mesure de quantication vectorielle et l'erreur topologique peuvent être contradictoires puisqu'elles évaluent des propriétés diérentes de la carte topologique. La mesure de dis-torsion présentée ci-dessous crée un compromis entre ces deux mesures.

Dénition 11 (Mesure de distorsion) La mesure de distorsion prend en compte l'er-reur de quantication vectorielle et la conservation de la topologie locale à travers l'intro-duction d'une pondération basée sur la fonction de voisinage dénie dans SOM. Elle vaut

l'erreur quadratique pondérée par la fonction de voisinage. distorsion = N X i=1 X c KT(ci, c)||z − wc||2 (2.34) où KT(ci, c) est la fonction de voisinage.

Remarquons que cette expression correspond à la valeur nale de la fonction objectif de SOM. Vesanto et al. [2003] décompose la relation 2.34 en trois termes correspondant à la variance des données dans le voisinage de chaque cellule, à la qualité de la topologie de la carte et au compromis entre la quantication vectorielle et la conservation de la topologie des observations.