Universit´e de Tunis Universit´e
Institut Sup´erieur Paris-Dauphine
de Gestion
D´
ECOMPOSITION ET ´
EVALUATION DES
MESURES DE STABILIT´
E D’UN
PARTITIONNEMENT
Th`ese de doctorat en cotutelle pr´esent´ee et soutenue `a
l’Universit´
e Paris-Dauphine
pour obtenir le grade de
Docteur en informatique
sp´
ecialit´
e
:
Statistique exploratoire multidimensionnelle
par
El MOUBARKI Lassad
soutenue devant le jury compos´e de
Pr´esident Mohamed LIMAM
Professeur `a l’Institut Sup´erieur de Gestion et vice pr´esident de l’universit´e de Tunis
Directeur Pierre CAZES
Professeur `a l’Universit´e Paris-Dauphine
Rapporteurs Yves LECHEVALLIER
Directeur de Recherche `a l’INRIA Andr´e HARDY
Professeur aux Facult´es Universitaires Notre-Dame de la Paix - Namur Co-directeur
scientifique
Patrice BERTRAND
Maˆıtre de conf´erences `a l’Universit´e Paris-Dauphine Date de soutenance 17 D´ecembre 2009
´
Remerciements
Je remercie tout d’abord vivement Messieurs Patrice BERTRAND et Ghazi BEL MUFTI qui ont suivi et encadr´e scientifiquement mes travaux de recherche, en se coordonnant d’abord pour mon mast`ere et ensuite pour ma th`ese. Je les remercie particuli`erement pour leurs critiques et leurs suggestions sans lesquelles ce travail n’aurait pu aboutir.
Je remercie ´egalement les professeurs Mohamed LIMAM et Pierre CAZES, pour m’avoir accueilli au sein de leurs ´equipes et accept´e de prendre cette th`ese en cotutelle sous leur responsabilit´e.
Je remercie tous les membres de jury, et plus particuli`erement, Monsieur Andr´e HARDY et Monsieur Yves LECHEVALLIER pour avoir accept´e d’ˆetre rapporteurs de ma th`ese.
Je voudrais aussi remercier tous les d´eveloppeurs des packages R et Latex que j’ai uti-lis´es intensivement durant cette th`ese.
Je remercie mon p`ere Mustapha EL MOUBARKI, ma m`ere Nafissa NAJAR, ma femme Wafa BRIKI, mes fr`eres et mes sœurs, qui ont su me soutenir pendant les moments dif-ficiles.
Un remerciement particulier `a mes amis de l’ISG : Mohamed HMIDEN, Bechir DHAOUADI et Belgacem JENDLI.
Et pour finir, je remercie mes amis au CEREMADE, Mohamed RAHAL et Anouar HOUMIA, pour la bonne ambiance qui r`egne entre les doctorants.
“L’Universit´e n’entend donner aucune approbation ni improbation aux opinions ´emises dans la th`ese : ces opinions doivent ˆetre consid´er´ees comme propres `a leurs auteurs”
Table des mati`
eres
Introduction 9
1 Revue des m´ethodes de validation d’un partitionnement fond´ees sur
le crit`ere d’ad´equation 15
1.1 Indice de Cali`nski et Harabasz . . . 16
1.2 Indice de Krzanowski et Lai . . . 17
1.3 Statistique Silhouette . . . 18
1.4 Indice Jump . . . 20
1.5 M´ethode Gap Statistique . . . 20
1.6 Conclusion . . . 22
2 Revue des m´ethodes de validation d’un partitionnement fond´ees sur le crit`ere de stabilit´e 23 2.1 M´ethodes de perturbation des donn´ees . . . 25
2.2 Stabilit´e mesur´ee `a l’aide d’indice de co-appartenance . . . 26
2.2.1 Approche de Ben-Hur, Elisseef et Guyon . . . 26
2.2.2 M´ethode Prediction strength . . . 28
2.2.3 M´ethode Clest . . . 30
2.2.4 Indice In-group proportion . . . 31
2.3 Stabilit´e mesur´ee par comparaison de partitions avec la m´ethode hongroise 33 2.3.1 M´ethode de Roth, Lange, Braun et Buhmann . . . 33
2.3.2 Approche de Volkovich, Barzily et Morozensky . . . 36
2.4 Mesure de l’influence d’un individu sur la stabilit´e d’une partition . . . 39
2.5 Propri´et´es th´eoriques d’une mesure de stabilit´e d’une partition . . . 40
2.5.2 Approche de Tishby et Shamir . . . 44
2.6 Conclusion . . . 49
3 Mesures de stabilit´e selon les crit`eres de coh´esion et d’isolation des classes 51 3.1 R`egles de validit´e d’une classe et d’une partition selon les crit`eres de coh´esion et d’isolation . . . 52
3.2 Mod´elisation statistique des r`egles de stabilit´e d’une partition et de ses classes . . . 53
3.2.1 Indices de validit´e d’une partition et de ses classes . . . 54
3.2.2 Coh´esion d’une partition . . . 55
3.2.3 Coh´esion d’une classe . . . 56
3.2.4 Isolation d’une partition . . . 56
3.2.5 Isolation d’une classe . . . 57
3.2.6 Exemple d’illustration . . . 57
3.3 D´ecomposition de quelques mesures de stabilit´e selon les crit`eres de coh´esion et d’isolation . . . 58
3.3.1 D´ecomposition de l’isolation d’une partition en fonction de l’iso-lation des classes . . . 59
3.3.2 D´ecomposition de la coh´esion d’une partition en fonction de la coh´esion des classes . . . 60
3.3.3 D´ecomposition de l’indice de Rand . . . 61
3.3.4 D´ecomposition de l’indice de Jaccard . . . 64
3.3.5 Prediction Strength et indice de confiance . . . 64
3.3.6 Distance de Hamming et indice de confiance . . . 65
3.4 Propri´et´es th´eoriques des indices de coh´esion . . . 66
3.4.1 Tableau crois´e . . . 67
3.4.2 Borne inf´erieure de l’indice de coh´esion d’une classe . . . 68
3.4.3 Borne inf´erieure de l’indice de Coh´esion d’une partition . . . 77
3.5 Conclusion . . . 79
4 Liens objets-classes 81 4.1 Appartenance d’un objet `a une classe . . . 82
4.2 Co-appartenance d’un objet `a une classe . . . 84
4.3 Filiation d’un objet `a une classe . . . 85
4.4 Co-filiation d’un objet `a une classe . . . 86
4.5 Pouvoir de coh´esion d’un objet sur une classe . . . 86
4.6 Ressemblance entre objets mesur´ee par la stabilit´e . . . 87
4.7 D´ecomposition de mesures de stabilit´e selon les liens objets classes . . . 88
4.7.1 D´ecomposition du crit`ere de coh´esion en fonction du score de filiation . . . 88
4.7.2 D´ecomposition du crit`ere d’isolation en fonction du score de filiation 89 4.8 Conclusion . . . 90
5 Experimentations 91 5.1 Param´etrage des m´ethodes de validation . . . 92
5.2 Justification du choix de la m´ethode de classification . . . 96
5.2.1 Cas d’un jeu de donn´ees uniforme . . . 96
5.2.2 Cas d’un jeu de donn´ees form´e par deux classes gaussiennes . . 101
5.2.3 Cas d’un jeu de donn´ees structur´ees en cinq classes non convexes 104 5.3 Recherche du ou des bons nombres de classes . . . 110
5.3.1 Algorithme . . . 110
5.3.2 Les mod`eles des jeux de donn´ees simul´ees . . . 111
5.3.3 R´esultats . . . 116
5.4 Application sur des donn´ees r´eelles . . . 121
5.5 Conclusion . . . 127
Conclusion 129
LISTE DES SYMBOLES
X donn´ees de r´ef´erence `a classifier et `a analyser. x, x ou y un ´el´ement de X.
n nombre d’´el´ements de l’ensemble X.
Xj j`eme variable descriptive des ´el´ements de X.
sdj ´ecart-type de la variable Yj.
X espace des donn´ees de X muni d’une distribution de probabilit´e D. S ou Sj ´echantillon de X.
X0 perturbation de X.
m taille de S.
mC nombre d’objets de la classe C pr´esents dans l’ensemble S.
p(.) densit´e de probabilit´e de la distribution D.
P(.) l’op´erateur probabilit´e de r´ealisation d’un ´ev`enement. E l’op´erateur esp´erance math´ematique.
q dimension de X.
Sap ´echantillon d’apprentissage tir´e de X.
Ste ´echantillon test tir´e de X.
k nombre de classes.
Ak(.) ou A(.) op´eration de classification en k classes en utilisant l’algorithme A.
P ou Pk partition de X en k classes.
C ou Ci une classe arbitraire de la partition P .
Q partition obtenue sur un ´echantillon ou forme bruit´ee de X.
Qap partition de Sap.
Qte partition de Ste.
Classe(x) libell´e d’un objet x dans une partition. ClasseQ(x) ou Q(x) libell´e d’un objet x dans la partition Q.
CQ une classe de la partition Q.
nC ou |C| taille de la classe C.
map taille de Sap.
mte taille de Ste.
T nombre total d’it´erations d’un algorithme donn´e.
N nombre d’´echantillons impliqu´es dans un processus de validation. Stab ou Stabk une mesure de stabilit´e d´efinie par l’utilisateur.
Introduction
La classification automatique a pour but de r´epartir les objets d’un ensemble de donn´ees en plusieurs classes homog`enes voire simplement connexes, chaque classe ´etant bien diff´erenci´ee des autres classes. Diff´erentes structures en classes ont ´et´e propos´ees, parmi lesquelles les partitions et les hi´erarchies. Par ailleurs, la plupart des m´ethodes utilis´ees en classification automatique sont des heuristiques dont le but est la d´etermination de solutions localement optimales. De nombreux algorithmes automatisant la construction des classifications ont ainsi ´et´e propos´es (cf. les trait´es g´en´eraux de Lerman [33], Har-tigan [25], Jain et Dubes [28], Gordon [22]).
Toutefois, quelque soit la structure des donn´ees initiales et donc y compris dans le cas de donn´ees homog`enes, l’application d’un algorithme de classification, produit toujours une partition comportant le nombre de classes demand´ees par l’utilisateur. Ainsi, rien ne garantit a priori, la qualit´e des r´esultats obtenus. Il s’av`ere donc qu’une ´etape de validation des r´esultats g´en´er´es par une classification automatique est indispensable.
Un proc´ed´e (ou une m´ethode) de validation en classification automatique a pour ob-jectif de trouver une r´eponse aux trois questions suivantes : (i) Quel est le type de structure en classes qui existe dans l’ensemble de donn´ees `a ´etudier ? (ii) Quelle est la meilleure m´ethode de classification qu’il faut utiliser ? (iii) Quel(s) est(sont) le(s) bon(s) nombre(s) de classes ? La premi`ere question est un probl`eme de d´efinition (d´efinition de la notion de classe). Alors que les deux autres questions concernent la validation des r´esultats obtenus par l’application d’un algorithme de classification donn´e. Deux approches diff´erentes ont ´et´e propos´ees afin de valider les r´esultats d’une classification.
Une premi`ere approche (Bailey et Dubes [3], Gordon [20], Cali´nski et Harabasz [13], Kr-zanowski et Lai [31], Sugar et James [45], Rousseeuw [40]) consiste `a mesurer l’ad´ equa-tion des r´esultats avec les donn´ees initiales. La plupart des indices d’ad´equation pro-pos´es sont fond´es sur le calcul de la dispersion des points entre les classes (inter-classes) et la dispersion des points dans les classes (intra-classes). Selon cette approche, une partition valide doit avoir une faible dispersion intra-classes et une forte dispersion inter-classes. En d’autres termes, plus la dispersion intra-classes est faible, plus les indi-vidus au sein d’une mˆeme classe sont homog`enes, et plus la dispersion inter-classes est forte, plus les individus au sein de deux classes diff´erentes sont h´et´erog`enes. Du point de vue g´eom´etrique, ces deux types de dispersion ´evaluent la compacit´e des classes et l’isolation des classes entre elles. Si le probl`eme est de trouver le meilleur nombre de classes dans les donn´ees, alors il faut choisir la partition qui garantit au mieux ces deux propri´et´es, souvent en choisissant la valeur maximale du crit`ere. La question qui se pose alors est la suivante : si nous choisissons la meilleure partition au sens du crit`ere d’ad´equation, comment juger si la valeur du crit`ere obtenue indique que la structure g´en´er´ee est valide ? Pour r´epondre `a cette question Bailey et Dubes [3], par exemple, ont utilis´e la m´ethode Monte Carlo (cf. Barnard [4] ainsi que Hope [26]). Le principe de cette m´ethode est de comparer la valeur obtenue du crit`ere `a sa distribution sous une hypoth`ese nulle exprimant l’absence de structure en classes. Pour d´eterminer la distri-bution de l’indice sous l’hypoth`ese nulle, on simule des jeux de donn´ees sans structure. Puis, pour chacun de ces jeux de donn´ees, on calcule la valeur du crit`ere qui ´evalue la structure g´en´er´ee par la m´ethode de classification utilis´ee sur les donn´ees initiales. Enfin, on teste si la valeur de l’indice obtenue sur les donn´ees initiales est en accord avec les valeurs mesur´ees sur les donn´ees simul´ees. A l’issue de ce test on d´ecide si la valeur du crit`ere est significative ou pas, la structure en classes ´etant valid´ee dans le cas d’une valeur significative.
La deuxi`eme approche de validation des structures consiste `a ´evaluer la stabilit´e des r´esultats d’une classification par rapport aux diff´erentes perturbations que les donn´ees peuvent subir. Cette perturbation peut prendre plusieurs formes : ajout d’un bruit blanc aux donn´ees initiales (cf. Milligan [36]), omission d’une classe de la partition `a valider (cf. Fisher et Van Ness [17]), omission d’une partie des donn´ees (on parle alors de l’´echantillonnage, cf. Bertrand et Bel Mufti [10], Ben-Hur et al. [9]), omission ou
ajout de variables (cf. Milligan [36]), ajout ou omission d’un individu (cf. Cheng et Milligan [14], [15]). La stabilit´e des r´esultats de la classification est mesur´ee par l’´ecart entre deux types de structures. Ben-Hur et al. [9], par exemple, mesurent l’´ecart entre deux partitions obtenues sur deux ´echantillons al´eatoires simples tir´es des donn´ees ini-tiales. Une autre m´ethode mesurant la stabilit´e d’une partition, consiste `a retirer, `a chaque fois, un ´el´ement de l’ensemble des donn´ees, puis `a mesurer l’influence du retrait de cet ´el´ement sur la classification. Cette approche a ´et´e ´etudi´ee par Gordon et Cata [23] ainsi que par Cheng et Milligan [15] qui distinguent deux types d’individus : ceux qui favorisent une certaine structure de classification sur les donn´ees et ceux qui, au contraire, lui sont d´efavorables ou inhibiteurs.
Une autre fa¸con de mesurer la stabilit´e d’une partition est d’appliquer la technique de validation crois´ee. Le principe de cette technique est d’´evaluer l’´ecart entre les classifica-tions obtenues sur un ´echantillon d’apprentissage et celles obtenues sur un ´echantillon test. Cette approche consiste ici `a diviser al´eatoirement les donn´ees de base en M sous-´echantillons, puis appliquer la mˆeme m´ethode de partitionnement d’une part, `a un ´echantillon de taille m (´echantillon d’apprentissage), et d’autre part, `a un ´echantillon test constitu´e des ´el´ements n’appartenant pas `a l’´echantillon d’apprentissage (on peut choisir M = 2). Ensuite, on mesure l’´ecart entre la partition obtenue sur l’´echantillon test et celle obtenue en affectant les ´el´ements de l’´echantillon test `a la partition obtenue sur l’´echantillon d’apprentissage et ce en utilisant une r`egle d’affectation pr´ealablement d´efinie. Ainsi, plus cet ´ecart est faible, plus la partition g´en´er´ee par la m´ethode de classification sur l’ensemble tout entier est valide. Cette technique a ´et´e d´evelopp´ee par McIntyre et Blashfield [35], Smith et Dubes [44], Breckenridge [12] et a ´et´e r´ecemment utilis´ee par Tibshirani et Walther [47], Kapp et Tibshirani [29], Dudoit et Fridlyand [16], Roth et al. [39].
Les m´ethodes de validation bas´ees sur la stabilit´e des structures sont de plus en plus uti-lis´ees dans la pratique, mais relativement peu d’attention a ´et´e accord´ee `a leurs aspects th´eoriques. Les m´ethodes de stabilit´e propos´ees ne tiennent pas compte de l’influence du choix de l’algorithme de classification. R´ecemment, Ben-David et von Luxburg [7] et Ben-David et al. [8] ont montr´e que si la fonction objectif d’un algorithme de classifica-tion `a centre poss`ede un optimum unique et que si la taille des donn´ees est importante,
alors, mˆeme si la partition ´etudi´ee n’est pas valide, elle peut ˆetre stable. Par ailleurs, si la fonction objectif poss`ede plusieurs optimums locaux, alors la partition devient instable. Dans ces analyses th´eoriques, les donn´ees `a analyser ne sont pas consid´er´ees comme des populations compl`etes `a analyser mais comme des ´echantillons tir´es d’un espace de donn´ees, qui est de taille infinie, et muni d’une distribution de probabilit´e inconnue. En partant de cette mod´elisation, Ben-David et von Luxburg [7] d´efinissent une notion g´en´erale de stabilit´e d’une partition. Ensuite, ils introduisent la notion d’al-gorithme “risque-convergent” et montrent par la suite que ce type d’ald’al-gorithme est stable sur n’importe quelle partition o`u l’optimum est unique et instable dans le cas contraire. Ces conclusions ont ´et´e reprises par Bertrand et al. [11], o`u elles ont ´et´e illustr´ees par des simulations sur des m´elanges de lois gaussiennes ainsi que sur des donn´ees simul´ees uniform´ement. Tr`es r´ecemment Shamir et Tishby [43, 42] ont propos´e une solution possible au probl`eme soulev´e par Ben-David et von Luxburg [7]. La solu-tion propos´ee consiste `a multiplier le crit`ere d’instabilit´e par la racine carr´e de la taille de l’´echantillon. Shamir et Tishby [43] [42] ont montr´e formellement, pour une classe d’algorithmes de classification, qu’en normalisant ainsi les mesures de stabilit´e, celles-ci prennent en compte l’importance de la densit´e des points sur les fronti`eres des classes ainsi que l’importance de la variance de chacune des classes de la partition ´etudi´ee.
Un des probl`emes majeurs en classification automatique est qu’il n’existe pas une d´efinition pr´ecise de la notion de classe. La plupart des m´ethodes de validation fond´ees sur le crit`ere d’ad´equation sont le plus souvent bas´ees sur la mesure de la dispersion des points entre les classes et dans les classes. Ainsi, ces m´ethodes favorisent g´en´eralement les partitions ayant une structure en classes sph´eriques et convexes. Cependant, la di-versit´e des donn´ees recueillies dans diff´erentes disciplines scientifiques montre que la structure des classes est souvent beaucoup plus complexe. Les mesures de stabilit´e d’une partition, propos´ees dans la litt´erature, ne supposent pas d’avance une forme g´eom´etrique pr´ecise des classes. Cet aspect est plutˆot d´etermin´e par le crit`ere de la m´ethode de classification utilis´ee. Ainsi, l’approche bas´ee sur le crit`ere de stabilit´e poss`ede l’avantage d’ˆetre plus efficace pour identifier des structures en classes plus di-verses et plus complexes. Par ailleurs, la majorit´e des m´ethodes de stabilit´e propos´ees utilisent des valeurs globales, i.e. elles servent essentiellement `a informer l’utilisateur si la partition ´etudi´ee est globalement stable (valide) ou non. D’autre part, peu d’attention
a ´et´e accord´ee aux classes elles-mˆemes de la partition ´etudi´ee. L’analyse de la validit´e de chaque classe est utile. Cette analyse met `a la disposition de l’utilisateur des infor-mations suppl´ementaires capables de faciliter l’interpr´etation typologique des classes d’une partition. A titre d’exemple, si un algorithme de classification fournit une parti-tion contenant une classe tr`es compacte, ceci signifie qu’il existe une forte ressemblance entre les objets de cette classe. Dans le mˆeme sens, si une partition contient deux classes faiblement isol´ees entre elles, alors ils existent des objets de ces deux classes qui poss`edent une ou plusieurs propri´et´es typologiques communes aux deux classes. L’int´erˆet de ce type d’analyse devient plus important lorsque les donn´ees sont de forte dimensionnalit´e et lorsque la visualisation plane des donn´ees est impossible.
L’objectif principal de ce travail de recherche est de proposer, en utilisant le crit`ere de stabilit´e, une strat´egie g´en´erale de validation d’une partition en ´etudiant les aspects de coh´esion et d’isolation des classes. Cette strat´egie vise `a am´eliorer l’analyse de stabilit´e d’une partition en montrant que celle-ci s’explique par les aspects de coh´esion et d’iso-lation des classes, et aussi par les propri´et´es h´erit´ees par un individu de sa propre classe.
Dans un premier chapitre, nous exposons les principaux indices mesurant l’ad´equation et qui ont eu une importance de plus en plus accrue dans la litt´erature. Nous pr´esentons les indices de Cali`nski et Harabasz [13], Krzanowski et Lai [31], Silhouette [40], Jump [45] ainsi que la proc´edure Gap statistique de Tibshirani et al. [48]. Dans un deuxi`eme chapitre, nous pr´esentons les m´ethodes de validation fond´ees sur le crit`ere de stabilit´e d’une partition.
En utilisant les r`egles de stabilit´e, propos´ees par Bertrand et Bel Mufti [10], nous d´efinissons dans le troisi`eme chapitre nos indices de coh´esion et d’isolation d’une parti-tion et de ses classes. Nous illustrons l’utilit´e th´eorique de ces indices en montrant que la coh´esion et l’isolation d’une partition peuvent ˆetre d´ecompos´ees en fonction de l’iso-lation et de la coh´esion d’une classe. Nous montrons ´egalement que d’autres indices de stabilit´e, tel que l’indice de Rand et l’indice de Jaccard [27], sont aussi d´ecomposables en fonction de l’isolation et de la coh´esion des classes d’une partition.
d’une partition, nous d´efinissons des mesures de lien entre objets et classes d’une parti-tion, parmi lesquelles nous citons l’indice de filiation d’un objet `a une classe. Cet indice estime le pourcentage de propri´et´es h´erit´ees par un objet d’une classe donn´ee. A la fin de ce chapitre, nous montrons que la coh´esion ainsi que l’isolation d’une classe sont d´ecomposables en fonction de cet indice de filiation des objets.
Dans le dernier chapitre, nous d´efinissons notre strat´egie de validation bas´ee sur l’estima-tion de la coh´esion et de l’isolation des classes. Ensuite, nous pr´esentons des illustrations de notre strat´egie de validation sur des jeux de donn´ees r´eelles et simul´ees. A la fin de ce chapitre, nous pr´esentons des simulations intensives visant `a comparer notre strat´egie de validation aux autres m´ethodes de validation en testant son efficacit´e en ce qui concerne la recherche du ou des bon(s) nombre(s) de classes.
Chapitre 1
Revue des m´
ethodes de validation
d’un partitionnement fond´
ees sur le
crit`
ere d’ad´
equation
Plusieurs m´ethodes de classification de diff´erents types ont ´et´e propos´ees et sont actuel-lement toujours employ´ees pour l’analyse de donn´ees recueillies dans diverses disciplines scientifiques. Parall`element, relativement peu d’attention a ´et´e accord´ee `a la proposition de m´ethodes g´en´erales de validation des r´esultats obtenus par ces m´ethodes. La premi`ere approche empirique qui a ´et´e propos´ee en validation d’une classification consiste `a d´efinir un indice d’ad´equation entre la structure en classes et l’ensemble de donn´ees ´etudi´ees. Ces m´ethodes sont g´en´eralement bas´ees sur le calcul de crit`eres ´evaluant la disper-sion intra-classes et la disperdisper-sion inter-classes. Quelques revues de la litt´erature ont ´et´e propos´ees sur la validation en utilisant des crit`eres d’ad´equation parmi lesquelles nous citons l’article de Milligan et Cooper [37].
Dans ce chapitre, nous nous proposons de pr´esenter des m´ethodes de validation ´evaluant les crit`eres de coh´esion et d’isolation d’une partition en utilisant des indices mesurant la dispersion des points dans les classes et la dispersion des points entre les classes. Les crit`eres que nous pr´esentons par la suite diff`erent essentiellement par leurs fa¸cons de mesurer ces deux types de dispersion. Nous commen¸cons par pr´esenter le crit`ere de Cali`nski et Harabasz [13] ainsi que celui de Krzanowski et Lai [31] qui sont class´es comme les meilleurs crit`eres d’ad´equation parmi les 30 crit`eres test´es dans l’article de
Milligan et Cooper [37]. Ces deux crit`eres reposent sur le calcul de la variance dans les classes et la variance entre les classes. Nous pr´esentons ´egalement les approches de validation Silhouette [40], Jump [45] et Gap statistique [48] qui ont propos´e une fa¸con originale pour mesurer la dispersion des points dans les classes d’une partition.
Dans ce chapitre, ainsi que dans les chapitres qui suivent, nous notons X l’ensemble (de r´ef´erence) des objets `a classifier, n la taille de X, P une partition de X en k classes, q le nombre de variables d´ecrivant les objets de X et C une classe arbitraire de la partition P . Nous d´esignerons indiff´eremment les ´el´ements de l’ensemble X soit par le terme individu soit par le terme objet.
1.1
Indice de Cali`
nski et Harabasz
Partant de l’id´ee qu’une partition valide est une partition pr´esentant un bon niveau de coh´esion ainsi qu’un bon niveau d’isolation, Cali`nski et Harabasz [13] ont propos´e un rapport pond´er´e des inerties inter-classes et intra-classes not´es respectivement par Bk
et Wk. La quantit´e Wk est la somme des carr´es des distances s´eparant les objets de X
aux centres de leurs propres classes. Alors que la quantit´e Bk est ´egale `a la somme des
carr´es des distances s´eparant les centres de gravit´e de chaque classe au centre de gravit´e de l’ensemble du nuage de points. Ces deux quantit´es sont d´efinies ainsi :
Wk(P ) = k X j=1 X i∈Cj d(xi, gj)2, Bk(P ) = 1 n k X j=1 njd(gj, g)2.
avec g le centre de gravit´e de l’ensemble de donn´ees, gj le centre de gravit´e de la classe
Cj, xi l’individu num´ero i (i = 1, ..., n) et nj le cardinal de la classe Cj. L’indice de
Cali`nski et Harabasz [13] ´evaluant conjointement les crit`eres isolation et coh´esion d’une partition P de X est d´efini par l’expression suivante :
CH(P ) = Bk(P )/(k − 1) Wk(P )/(n − k)
D’apr`es l’expression de l’indice CH, plus les classes sont compactes plus l’inertie intra-classes (Wk) a tendance `a diminuer et plus les classes sont isol´ees plus l’inertie
inter-classes (Bk) a tendance `a augmenter. Ainsi une forte valeur de CH indique un bon
niveau de coh´esion ainsi qu’un bon niveau d’isolation de la partition ´etudi´ee. L’indice CH est `a double usage : il est utilis´e pour valider le choix du bon nombre de classes k, mais aussi pour comparer deux ou plusieurs partitions obtenues par diff´erentes m´ethodes de classification. Soit Ω un ensemble de partitions `a comparer : par exemple, Ω peut ˆetre un ensemble de partitions ayant le mˆeme nombre de classes mais obtenues par des m´ethodes de classification diff´erentes. Mais Ω peut aussi ˆetre un ensemble de partitions obtenues par la mˆeme m´ethode de classification mais ayant des nombres de classes diff´erents. La meilleure partition P? au sens de l’indice CH est :
P? = arg max
P ∈Ω
CH(P ). (1.2)
L’indice CH est le plus performant selon les tests effectu´es par Milligan et Cooper [37]. Toutefois, celui-ci poss`ede deux inconv´enients majeurs. Le premier inconv´enient est que cet indice n’est pas d´efini dans le cas o`u k = 1. Il est, par cons´equent, incapable d’identifier le cas d’absence de structure en classes. Le second inconv´enient est que, vu son expression math´ematique bas´ee sur le calcul de variance, cet indice a tendance `a favoriser les classes ayant une forme sph´erique et `a d´efavoriser les classes ayant une structure allong´ee ou non convexe.
1.2
Indice de Krzanowski et Lai
Tout comme l’indice CH, l’indice propos´e par Krzanowski et Lai [31] utilise la variance dans les classes Wk mais en ´evaluant son ´evolution par rapport aux partitions en k − 1
et en k + 1 classes. Plus pr´ecis´ement, Krzanowski et Lai [31] ont propos´e un indice, validant essentiellement le choix du nombre de classes, bas´e sur le calcul d’une diff´erence pond´er´ee de l’inertie intra-classes lorsque les donn´ees sont partitionn´ees en k, en k − 1 et en k + 1 classes. L’indice propos´e est d´efini ainsi :
KL(Pk) = |
DIF F (k) DIF F (k + 1)|, avec
DIF F (k) = (k − 1)2/qWk−1− k2/qWk.
A noter que cette quantit´e fait intervenir la dimension q de l’ensemble des donn´ees. Soit Ω un ensemble de partitions de X, not´e Pk (k = 2, . . . , kmax) ayant des nombres
de classes diff´erents et obtenues par une mˆeme m´ethode de classification. La partition ayant le nombre optimal de classes au sens de l’indice KL est :
Pk? = arg max
Pk∈Ω
KL(Pk).
De mˆeme que l’indice CH, l’indice KL ne peut pas identifier le cas d’absence de struc-ture en classes. Toutefois, l’indice KL est mieux adapt´e que l’indice CH pour valider une partition ayant une structure en classes allong´ees (cf. Bertrand et al. [6]). Par ailleurs, vu son expression math´ematique reposant uniquement sur la dispersion intra-classes, l’indice KL aurait tendance `a ˆetre moins performant lorsque la partition `a valider contient des classes de faible isolation.
1.3
Statistique Silhouette
La statistique Silhouette, propos´ee par Rousseeuw [40], est aussi fond´ee sur l’´evaluation des crit`eres de dispersion intra-classes et inter-classes. Etant donn´e un objet xj de Ci,
l’indice Silhouette fait intervenir une premi`ere quantit´e qui mesure la moyenne des distances s´eparant l’objet xj des autres objets de sa propre classe (i.e. la coh´esion
autour du point xj) : a(xj) = 1 nCi − 1 X xt∈Ci d(xj, xt).
aux autres classes, soit b(xj) = min s6=i 1 nCs X xt∈Cs d(xj, xt).
o`u d(xj, xt) est la distance entre les objets xj et xt. La quantit´e a(xj) est la moyenne
des distances s´eparant l’objet xj des autres objets de sa propre classe. Par contre, la
quantit´e b(xj) est la moyenne des distances entre l’objet xj et les objets de la classe la
plus proche de xj. La statistique Silhouette, mesurant conjointement les deux crit`eres
d’isolation et de coh´esion, propos´ee par Rouseeuw [40] est la suivante :
Silhouette(Pk) = 1 n n X j=1 b(xj) − a(xj) max{b(xj), a(xj)} . (1.3)
Selon cette m´ethode, la meilleure partition est celle maximisant la valeur de Silhouette(Pk).
Cette quantit´e peut ˆetre d´ecompos´ee de la mani`ere suivante :
Silhouette(Pk) = 1 n n X j=1 b(xj) max{b(xj), a(xj)} − 1 n n X j=1 a(xj) max{b(xj), a(xj)} (1.4) = 1 n k X s=1 X xj∈Cs b(xj) max{b(xj), a(xj)} | {z } (1) − 1 n k X s=1 X xj∈Cs a(xj) max{b(xj), a(xj)} | {z } (2) (1.5)
D’apr`es la relation 1.5 nous concluons que la statistique Silhouette se d´ecompose en deux quantit´es. Une premi`ere quantit´e qui mesure la dispersion inter-classes, ou encore l’isolation entre les classes, et une deuxi`eme quantit´e qui mesure la dispersion intra-classes, en d’autres termes la coh´esion des classes. Si Ω est l’ensemble de partitions `a comparer, la meilleure partition au sens de l’indice Silhouette est :
P? = arg max
P ∈Ω
Silhouette(P ).
Cette statistique est `a double usage : elle peut ˆetre utilis´ee pour valider le nombre de classes mais aussi pour comparer plusieurs partitions obtenues par des m´ethodes de classification diff´erentes.
1.4
Indice Jump
L’indice J ump, propos´e par Sugar et James [45], rejoint le principe de l’indice KL dans la mesure o`u il compare la dispersion des points dans les classes de deux partitions n’ayant pas le mˆeme nombre de classes. Toutefois, l’indice J ump poss`ede une originalit´e par rapport `a l’indice KL dans la mesure o`u il est d´efini dans le cas o`u k = 1 et donc il est apte `a identifier le cas d’absence de structure en classes. A noter que l’indice J ump fait aussi intervenir la dimension de l’ensemble des donn´ees X. L’indice J ump mesurant la dispersion intra-classes est fond´e sur la quantit´e :
Distorionk = 1 nq n X i=1 min j=1,...,kd(xi, cj) (Distortion0 = 0), (1.6)
o`u d(xi, cj) est la distance euclidienne s´eparant l’objet xi du centre cj de la classe Cj.
L’indice J ump est fond´e essentiellement sur l’id´ee d’´evaluer l’importance de l’´ecart de la dispersion intra-classes entre les partitions en k et en k − 1 classes :
J ump(Pk) = Distorion −γ
k − Distorion −γ
k−1. (1.7)
Sugar et James [45] conseillent d’utiliser une valeur de γ ´egale `a q
2. La partition ayant le nombre optimal de classes selon le crit`ere J ump est :
Pk∗ = arg max
Pk∈Ω
J ump(Pk).
1.5
M´
ethode Gap Statistique
Tout comme les autres m´ethodes que nous avons pr´esent´ees dans ce chapitre, la m´ethode Gap statistique (cf. Tibshirani et Walther [47]) repose sur le calcul de la dispersion des points dans les classes de la partition ´etudi´ee. Par ailleurs, ce qui distingue la m´ethode Gap statistique des autres m´ethodes c’est sa fa¸con d’interpr´eter la quantit´e Wk. Plus pr´ecis´ement, la m´ethode Gap statistique consiste `a comparer la dispersion
intra-classes Wk obtenue sur les donn´ees de r´ef´erence X `a la dispersion intra-classes
estim´ee sous l’hypoth`ese d’un mod`ele nul exprimant l’absence de structure en classes. Plusieurs mod`eles nuls exprimant l’absence de structure en classes sont possibles (cf. Gordon [21]). Parmi ces mod`eles, Tibshirani et Walther [47] proposent d’utiliser les
deux mod`eles suivants : le premier consiste `a simuler al´eatoirement et uniform´ement n points dans l’hyper-rectangle ayant pour bornes les valeurs minimales et maximales de chacune des variables descriptives. Le second mod`ele consiste `a simuler al´eatoirement et uniformement des points en se r´ef´erant `a l’orientation des composante principales des donn´ees de r´ef´erence. Les ´etapes d´ecrivant le processus de g´en´eration des points selon ce mod`ele sont les suivantes :
– Centrer les colonnes de la matrice X par rapport `a leurs moyennes, soit Y la matrice r´esultante.
– Effectuer la d´ecomposition en valeurs singuli`eres de la matrice Y : Y = U D VT. – Transformer la matrice Y : Y0 = Y V .
– G´en´erer uniformement un ensemble de n points dans l’hyper-rectangle ayant pour bornes les valeurs minimales et maximales de chacune des colones de Y0. La matrice r´esultante est Z0.
– Transformer la matrice Z0 : Z = Z0 VT.
L’indice Gap statistique propos´e pour valider le choix du nombre de classes est essen-tiellement une normalisation de la quantit´e Wk par rapport `a un model nul exprimant
l’absence de structure en classes. Le processus de classification et de simulation d´ecrivant la m´ethode Gap statistique est r´esum´e par l’algorithme 1.
Algorithme 1 : M´ethode Gap statistique
Entr´ees :
• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,
• A : algorithme de classification,
• H0 : hypoth`ese nulle exprimant l’absence de structure en classes,
• Zb
H0 : donn´ees num´ero b (b = 1, . . . , B) simul´ees sous H0.
Sorties : k∗ : le nombre optimal de classes .
1: pour k = 1 `a kmax faire
2: Classifier les donn´ees X en k classes, en utilisant l’algorithme A, et calculer la dispersion intra-classes Wk.
3: Classifier, en utilisant l’algorithme A, chacun des jeux de donn´ees ZHb0 en k classes et calculer, pour chacune des partitions obtenues, l’inertie intra-classes Wk,b.
4: Calculer l’´ecart : Gap(k) = (1/B) B X b=1 log(Wk,b) − log(Wk). 5: Calculer la moyenne l = B1 PB
b=1log(Wk,b) et en d´eduire l’´ecart-type corrig´e :
sk = v u u t(1 + 1 B) 1 B B X b=1 log(Wk,b) − l 2 . 6: fin pour
7: D´eduire le nombre optimal de classes : k∗ = min
k=1,...,kmax
{k | Gap(k) ≥ Gap(k + 1) − sk+1}.
1.6
Conclusion
Un des probl`emes majeurs en classification automatique est qu’il n’existe pas de d´efinition exacte de la notion de classe. Intuitivement, d´efinir une classe consiste `a d´efinir un crit`ere qui garantit l’isolation et la coh´esion de celle-ci. Les indices pr´esent´es dans ce chapitre reposent sur une d´efinition contraignante de la notion de classe. Selon ces crit`eres une classe valide est constitu´ee par des individus plus proches les uns des autres que n’im-porte quel autre individu d’une autre classe. Ainsi g´eom´etriquement, ces indices auront tendance `a favoriser les structures en classes sph´eriques, ce qui n’est pas r´eellement toujours le cas. De plus, ces m´ethodes ne tiennent pas compte du crit`ere utilis´e pour classifier l’ensemble de donn´ees de r´ef´erence. Par exemple il est contradictoire, de va-lider une partition obtenue par la m´ethode de lien minimum, capable d’identifier des structures en classes allong´ees et mˆeme non convexes, par l’indice de CH favorisant les structures en classes sph´eriques. Ainsi, il s’av`ere n´ecessaire de d´evelopper de nouvelles approches reposant sur un crit`ere de validation moins contraignant comme le crit`ere de stabilit´e d’une partition que nous nous proposons de pr´esenter dans le chapitre suivant.
Chapitre 2
Revue des m´
ethodes de validation
d’un partitionnement fond´
ees sur le
crit`
ere de stabilit´
e
Dans ce chapitre nous nous int´eressons `a l’approche empirique de validation en classifi-cation qui consiste `a estimer la stabilit´e des r´esultats d’une classification. Une classifi-cation est g´en´eralement suppos´ee stable si en effectuant des petits changements sur les donn´ees, les classes initiales restent inchang´ees. Une revue de la litt´erature sur la stabi-lit´e en classification a ´et´e propos´ee dans Cheng et Milligan [15]. Mais depuis, plusieurs nouvelles approches de validation mesurant la stabilit´e des r´esultats, ont ´et´e introduites, comme par exemple celles de Ben-Hur et al. [9], Tibshirani et Walther [47], Kapp et Tibshirani [29], Roth et al. [39], et Bertrand et Bel Mufti [10]. Les m´ethodes de valida-tion relevant de cette approche peuvent ˆetre divis´ees en trois types.
Le premier type de m´ethodes, utilisant le crit`ere de stabilit´e d’une partition, est fond´e sur la comparaison de la co-appartenance des paires d’objets de l’ensemble de donn´ees de r´ef´erence. Parmi ces m´ethodes, nous citons celles de Ben-Hur et al. [9], Tibshirani et Walther [47], Bertrand et Bel Mufti [10] (cf. section 2).
Le deuxi`eme type de m´ethode consiste `a comparer l’appartenance de chacun des objets des donn´ees de r´ef´erence en utilisant la m´ethode hongroise (cf. Kuhn [32], Roth et al. [39], Volkovich et al. [49]). La m´ethode hongroise est utilis´ee par ce type d’approche
afin de r´esoudre le probl`eme d’affectation al´eatoire des libell´es des classes qui, le plus souvent, est dˆu `a la sensibilit´e des m´ethodes de classification utilis´ees aux perturbations auxquelles les donn´ees sont soumises (cf. section 3).
Enfin, une troisi`eme approche consiste `a mesurer l’influence d’un individu sur la sta-bilit´e d’une partition. Cette approche a ´et´e propos´ee par Cheng et Milligan [14]. En ´etudiant l’effet de l’absence d’un individu sur la stabilit´e d’une partition, cette approche vise `a diviser l’ensemble des objets de la population en trois groupes : groupe d’indi-vidus inhibiteurs, groupe d’indid’indi-vidus facilitateurs et groupe d’indid’indi-vidus sans influence (cf. section 4).
Contrairement `a l’approche fond´ee sur le crit`ere ad´equation, les m´ethodes de valida-tion fond´ees sur le crit`ere de stabilit´e d’une partition ne supposent pas une d´efinition particuli`ere de la notion de classe. Les propri´et´es des classes r´esultent du crit`ere de la m´ethode de classification utilis´ee. La question qui se pose `a ce niveau est “existe-il un lien entre le crit`ere de stabilit´e d’une partition et le crit`ere de la m´ethode de classi-fication utilis´ee pour retrouver les classes dans l’ensemble de donn´ees de r´ef´erence ” ? R´ecemment, Ben-David et von Luxburg [7] ont montr´e que lorsque les donn´ees sont de tr`es grande taille, ils existent des cas o`u les r´esultats de certaines m´ethodes de classi-fication sont stables mˆeme si les donn´ees sont sans structure. Ainsi Ben-David et von Luxburg [7] ont mis en cause la fiabilit´e des r´esultats des m´ethodes de validation fond´ees sur le crit`ere de stabilit´e d’une partition. Plus r´ecemment, Shamir et Tishby [43, 42] ont propos´e une solution simple et originale `a ce probl`eme. Cette solution consiste `a normaliser le crit`ere de stabilit´e par rapport `a la taille des donn´ees. Plus pr´ecisemment, la normalisation qu’ils ont propos´ee consiste `a multiplier l’indice d’instabilit´e par la racine carr´e de la taille des ´echantillons.
La plupart des proc´edures de validation, que nous nous proposons de pr´esenter dans ce chapitre, sont expos´ees comme ´etant des m´ethodes de d´etermination du bon nombre de classes. Ces m´ethodes sont pr´esent´ees ainsi car, dans la litt´erature, le probl`eme le plus abord´e par ces m´ethodes est celui de la recherche du bon nombre de classes. Toutefois, la plupart d’entre elles peuvent aussi servir `a comparer des partitions obtenues par des m´ethodes de classification diff´erentes.
Par abus de notation, nous d´esignons par X la matrice individus-variables repr´esentant l’ensemble de donn´ees de r´ef´erence contenant n objets d´ecrits par q variables Xj (i.e.
Xj est la j`eme colonne de la matrice X). Nous notons aussi Classe(x) le libell´e, i.e. le
num´ero de classe, d’un objet x ∈ X dans la partition P .
2.1
M´
ethodes de perturbation des donn´
ees
Selon l’approche fond´ee sur la stabilit´e, une partition est stable si en perturbant un peu les donn´ees, les classes restent inchang´ees ou ne changent pas beaucoup. Ainsi, le choix de la technique de perturbation est crucial pour cette approche. Nous verrons dans le chapitre exp´erimentation que le choix de la technique de perturbation peut influencer notablement les r´esultats fournis par le crit`ere de stabilit´e.
Dans notre contexte, la perturbation de l’ensemble de donn´ees consiste `a effectuer une l´eg`ere modification sur l’ensemble X des individus. Dans ce qui suit, nous pr´esentons 2 types de perturbations, `a savoir le r´eechantillonnage et le bruitage.
R´e´echantillonnage des donn´ees
Il existe deux fa¸cons de perturber les donn´ees en les r´e´echantillonnant. La premi`ere consiste `a ´eliminer au hasard plusieurs objets de l’ensemble X (cf. Ben-Hur et al. [9]). Plus pr´ecis´ement, cette technique consiste `a tirer, au hasard et sans remise, m (m < n) objets de l’ensemble X. Chaque objet de X a la mˆeme probabilit´e 1
n d’ˆetre choisi. Dans certains cas, l’´elimination peut ˆetre effectu´ee `a tour de rˆole sur un seul individu de l’ensemble X : c’est, par exemple, le cas de l’approche de Cheng et Milligan [15]. La seconde fa¸con consiste `a appliquer le principe de la validation crois´ee. Cette tech-nique consiste `a diviser au hasard l’ensemble X des donn´ees de r´ef´erence en deux blocs de tailles pouvant ˆetre in´egales. Un des blocs constitue l’´echantillon d’apprentissage sur lequel est formul´e le mod`ele et sont ´elabor´ees les r`egles de d´ecision ou d’affectation. L’autre bloc constitue l’´echantillon test sur lequel sont appliqu´ees et estim´ees les per-formances du mod`ele. L’utilisation de la validation crois´ee pour valider une partition a ´et´e introduite par Breckenridge [12], puis reprise par d’autres auteurs comme Kapp et
Tibshirani [29] qui l’ont utilis´ee pour d´eterminer le bon nombre de classes.
Bruitage des donn´ees
Une autre mani`ere de perturber les donn´ees consiste `a faire bouger l´eg`erement l’en-semble de tous les points du nuage form´e par la matrice X. Soit xij la coordonn´es de
l’objet i (i = 1, . . . , n) sur la j`eme dimension (j = 1, . . . , q) et sd(X
j) l’´ecart-type de la
variable Xj. L’op´eration de bruitage consiste, par exemple, `a ajouter une valeur
dis-tribu´ee uniform´ement dans l’intervalle [−5%sd(Xj), +5%sd(Xj)] `a chacune des valeurs
xij de la colonne j de la matrice X.
2.2
Stabilit´
e mesur´
ee `
a l’aide d’indice de
co-apparte-nance
Dans ce paragraphe nous pr´esentons les m´ethodes de validation ´evaluant la stabilit´e d’une partition en comparant la co-appartenance des paires d’objets dans deux parti-tions diff´erentes d’une mˆeme partie S de l’ensemble X. Les proc´edures de validation, pr´esent´ees dans la suite du texte, sont bas´ees sur des indices de co-appartenance mesu-rant la similitude entre des partitions obtenues sur des donn´ees perturb´ees.
2.2.1
Approche de Ben-Hur, Elisseef et Guyon
La m´ethode propos´ee par Ben-Hur et al. [9] a pour objectif de mesurer la similarit´e entre deux partitions obtenues sur des ´echantillons extraits des donn´ees de base. Des similarit´es ´elev´ees entre les paires de partitions indiquent la validit´e de la partition de r´ef´erence. Pour mesurer la similarit´e entre deux partitions, plusieurs indices ont ´et´e propos´es (cf. Hubert et Arabie [27]). Soient deux partitions diff´erentes Q1 et Q2 d’un
mˆeme ensemble S ⊆ X, et soit N11 le nombre de paires d’objets class´es ensemble selon
Q1 et Q2, N10 le nombre de paires d’objets class´es ensemble selon Q1 et s´epar´es selon
Q2, N00 le nombre de paires d’objets s´epar´es selon Q1 et Q2 et N01 le nombre de paires
similarit´e entre deux partitions, rappelons la d´efinition de l’indice de corr´elation, l’indice de Rand et l’indice de Jaccard :
Cor(Q1, Q2) = N11 p(N11+ N10)(N01+ N11) , (2.1) RAND(Q1, Q2) = N11+ N00 N11+ N10+ N01+ N00 , (2.2) J ac(Q1, Q2) = N11 N11+ N10+ N01 . (2.3) Algorithme
En pratique la proc´edure de validation propos´ee se r´esume par l’algorithme 2. Algorithme 2 : M´ethode de Ben-Hur et al. [9]
Entr´ees :
• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,
• A : algorithme de classification, • N : nombre maximum d’´echantillons, • f : taux d’´echantillonnage.
Sorties : k∗ : nombre optimal de classes.
1: G´en´erer, al´eatoirement et sans remise, N ´echantillons de taille bnf c1 de X. La taille
de N d´epend du nombre T de paires que nous cherchons `a comparer.
2: Tirer, sans remise, T paires d’´echantillons de l’ensemble de N ´echantillons. Ici le nombre T d´epend du niveau de pr´ecision d´esir´e par l’utilisateur.
3: pour k = 2 `a kmax faire
4: Partitionner chacun des ´echantillons figurant dans ces T paires, en k classes, en utilisant la mˆeme m´ethode A de classification.
5: Calculer l’indice de stabilit´e Stabt,k (t = 1, ..., T ) (i.e. l’indice de similarit´e) entre
les T paires de partitions, par exemple, en utilisant l’indice de RAND. A la fin
de cette ´etape, nous obtenons le vecteur StabT,k de taille T .
6: fin pour
7: Comparer les distributions empiriques des vecteurs StabT,k lorsque k varie. Le
meilleur nombre de classes, k∗, est le plus grand nombre k ayant une distribution de similarit´es concentr´ee sur une valeur proche de 1.
Pour choisir le bon nombre de classes, Ben-Hur et al. [9] d´efinissent une strat´egie g´en´erale qui consiste `a comparer les fonctions de r´epartition des kmax s´eries de
va-leurs de similarit´e StabT,k. La meilleure partition est celle ayant le nombre de classes
le plus ´elev´e tout en ´etant globalement stable. En pratique, nous pouvons utiliser le crit`ere de la moyenne de ces s´eries de valeurs et choisir ainsi le bon nombre de classes :
k∗ = max k=2,...,Kmax {k : 1 T B X t=1 Stabt,k > seuil},
o`u seuil est une valeur de stabilit´e `a partir de laquelle une partition peut ˆetre consid´er´ee comme ´etant stable, par exemple, seuil = 0.9.
2.2.2
M´
ethode Prediction strength
La m´ethode de Ben-Hur et al. [9], comme l’indice Prediction strength propos´ee par Tibshirani et Walther [47], repose sur la comparaison de la co-appartenance des paires d’individus mais en appliquant la technique de la validation crois´ee. L’objectif principal de cette m´ethode est d’identifier le bon nombre de classes. La m´ethode propos´ee est d´ecrite ci-dessous selon la proc´edure de l’algorithme 3. Le nombre optimal de classes est d´etermin´e `a l’´etape 11 de l’algorithme dans laquelle la moyenne de l’indice stabilit´e est compar´ee `a une valeur seuil. Tibshirani et Walther [47] n’ont pas d´efini de strat´egie objective qui permette d’estimer la valeur du param`etre seuil. Ce param`etre d´epend essentiellement des exigences de l’utilisateur et varie g´en´eralement entre 0.8 et 0.95. Algorithme 3 : M´ethode Prediction strength
Entr´ees :
• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,
• A : algorithme de classification, • T : nombre total d’it´erations,
• seuil : une valeur entre 0.8 et 0.95 pr´ealablement d´efinie par l’utilisateur, • fte : fraction de l’´echantillon test.
Sorties : k∗ : nombre optimal de classes.
1: pour k = 1 `a kmax faire
2: pour t = 1 `a T faire
3: Diviser al´eatoirement l’ensemble de donn´ees X en deux sous-´echantillons Ste
et Sap selon la fraction fte.
4: Classifier, en utilisant la m´ethode A, Sap en k classes. La partition obtenue est
Qap = C1ap, . . . , C ap k .
5: Classifier, en utilisant la mˆeme m´ethode A, Ste en k classes. La partition
obte-nue est Q1te = C1te, . . . , Ckte.
6: Classifier chaque objet de Ste en l’affectant au centre de la classe de la partition
Qap qui lui est la plus proche. La partition obtenue est not´ee Q2te.
7: Soient N11(Cite) le nombre de paires d’objets de la classe Cite (i = 1, . . . , k)
qui sont class´es ensemble dans la partition Q2
te et ntei la taille de la classe Cite.
Calculer l’indice Prediction strength :
pst(k) = min Cte i ∈Q1te N11(Cite) nte i (ntei − 1)/2 . 8: fin pour 9: Calculer la moyenne psk= T1 T P t=1 pst(k) et l’´ecart-type sd k= T1 T P t=1 (pst(k) − ps k)2. 10: fin pour
11: D´eduire le nombre optimal de classes : k∗ = max
k=1,...,kmax
{k | psk+ sdk ≥ seuil}.
La quantit´e pst(k), calcul´ee `a l’´etape 7, est la proportion de paires d’objets de la classe Cte
i qui sont class´es ensemble dans la partition Q2te. Nous verrons dans le chapitre
suivant que cette quantit´e correspond au minimum des indices de coh´esion des classes de la partition Q1
2.2.3
M´
ethode Clest
La m´ethode Clest , propos´ee par Dudoit et Fridlyand [16], constitue un compromis entre la m´ethode Gap statistique et la m´ethode Prediction strength. En utilisant la technique de la validation crois´ee, le principe de cette m´ethode se rapproche de celui de la m´ethode Prediction strength. D’autre part, et comme la m´ethode Gap statistique, elle interpr`ete la valeur de son crit`ere de stabilit´e par rapport `a un mod`ele nul exprimant l’absence de structure en classes. Les mod`eles nuls applicables avec cette m´ethode sont les mˆemes que ceux utilis´es par la m´ethode Gap statistique. Le processus de validation de cette m´ethode est r´esum´e dans l’algorithme 4.
Algorithme 4 : M´ethode Clest
Entr´ees :
• X : ensemble de donn´ees de r´ef´erence `a classifier, • Kmax : nombre maximum de classes `a tester,
• A : algorithme de classification, • T : nombre total d’it´erations, • fte : fraction de l’´echantillon test,
• pmax, δmin : deux seuils de significativit´e pr´ed´efinis par l’utilisateur.
Sorties : k∗ : nombre optimal de classes.
1: pour k = 1 `a kmax faire
2: pour t = 1 `a T faire
3: Diviser X en deux sous-´echantillons, un ´echantillon apprentissage Sap et un
´echantillon test Ste de taille bnftec.
4: Classifier le sous-´echantillon Sap en k classes en utilisant la m´ethode A. La
partition r´esultante est not´ee Qap.
5: Construire une r`egle de classification en appliquant une analyse diagonale lin´eaire discriminante (classifieur na¨ıve de Bayes2) `a la partition Qap. Ensuite,
classifier le sous-´echantillon Ste en utilisant cette r`egle de classification. La
partition obtenue est not´ee Q1 te.
6: Classifier Ste en k classes en utilisant la m´ethode A. La partition r´esultante est
Q2 te.
7: Comparer les deux partitions Q1
te et Q2te en utilisant l’indice de Rand [18]. Soit
RANDt,k la valeur de cet indice pour l’it´eration t et pour le nombre de classes
k.
8: fin pour
9: fin pour
10: Une fois que toutes les valeurs RANDt,k sont obtenues, calculer pour chaque k la
m´ediane M ek= median(RAND1,k, ..., RANDt,k, ..., RANDT ,k).
11: Pour B ensembles de donn´ees de r´ef´erence g´en´er´ees selon un mod`ele nul pr´ealablement d´efini, refaire toutes les ´etapes pr´ec´edentes. Ainsi pour chaque jeu de donn´ees de r´ef´erence et pour chaque k = 1, ..., kmax, on obtient M e∗b,k, o`u b d´esigne le b`eme
ensemble de donn´ees de r´ef´erence (b = 1, ..., B).
12: Soient M e∗ k = B1 PBb=1M e∗b,k, pk = card{M e∗b,k|M e∗ b,k≥M ek} B , et l’´ecart δk = M ek − M e∗
k. La proportion pk ici repr´esente le niveau de signification empirique relatif `a
la valeur M ek.
13: Soit l’ensemble K = {2 ≤ k ≤ kmax : pk ≤ pmax, δk ≥ δmin}. Si l’ensemble K est
vide alors le nombre optimal de classes est k∗ = 1. Sinon, k∗ = arg max
k∈K
δk.
Soient x = x1, . . . , xq les q coordonn´ees d’un objet x de Ste, cj = cj1, . . . , cjq les
coor-donn´ees du centre de la jeme` classe de la partition Q
ap, et sdj = sd1, . . . , sdqla diagonale
de la matrice variances-covariances de la j`eme classe. L’op´eration de classification des objets du sous-´echantillon Ste, ´evoqu´ee `a l’´etape 5 de l’algorithme 4, est r´ealis´ee ainsi :
Classe(x) = arg min
1≤j≤k q X i=1 (xi− cji)2 sd2 j . (2.4)
2.2.4
Indice In-group proportion
La m´ethode In-group proportion propos´ee par Kapp et Tibshirani [29], utilise la tech-nique de la validation crois´ee. Toutefois, la mesure de stabilit´e propos´ee par ces au-teurs est originale dans la mesure o`u celle-ci implique dans son expression un crit`ere d’ad´equation de la partition aux donn´ees de r´ef´erence. Ainsi, l’indice propos´e appel´e IGP est une forme de compromis entre l’approche stabilit´e et l’approche ad´equation. Soient xj un objet de X, et N N (xj) l’objet de X le plus proche de xj et diff´erent de
IGPi =
card{xj|Classe(xj) = Classe(N N (xj)) = i}
card{xj|Classe(xj) = i}
. (2.5)
L’indice IGP d’une classe i est ´egale `a la proportion d’´el´ements de la classe i tels que leur plus proche voisin appartient `a la classe i. Il est clair, selon l’´equation 2.5, que l’indice IGP prend en compte le facteur distance entre les ´el´ements d’une mˆeme classe et les ´el´ements qui ne sont pas dans une mˆeme classe. Les ´etapes d´ecrivant la m´ethode In-group proportion sont r´esum´ees dans l’algorithme 5.
Algorithme 5 : M´ethode In-group proportion
Entr´ees :
• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,
• A : algorithme de classification, • T : nombre total d’it´erations, • fte : fraction de l’´echantillon test,
• seuil : un seuil entre 0 et 1 pr´ealablement d´efini par l’utilisateur. Sorties : k∗ : nombre optimal de classes.
1: Diviser al´eatoirement T fois l’ensemble X en deux sous-´echantillons d’apprentissage et de test. Les r´esultats de chaque division sont un ´echantillon d’apprentissage St
apde
taille map et un ´echantillon test Stet de taille mte, avec map+ mte = n et t = 1, ..., T .
2: pour k = 1 `a kmax faire
3: pour t = 1 `a T faire
4: Classifier St
ap en k classes en utilisant la m´ethode A. La partition obtenue est
not´ee Qt ap.
5: Affecter chaque ´el´ement de Stet au centre de la classe de la partition Qtap qui lui est le plus proche. La partition obtenue est not´ee Qt
te.
6: Calculer les IGPi (i = 1, ..., k) des k classes de la partition Qtte. Si une classe i
de la partition Qtte est vide alors IGPi = N A.
7: Soit Vt
k = min
i=1,...,kIGPi. Si au moins une des classes de la partition Q t
te est vide
alors Vt
8: Affecter chaque objet de X au centre de la classe de la partition Qap qui lui
est le plus proche. Ensuite calculer les IGPi des classes obtenues, et d´eduire la
quantit´e Z1tk ´egale au minimum de ces IGPi.
9: fin pour
10: fin pour
11: pour k = 1 `a kmax faire
12: Classifier X en k classes en utilisant l’algorithme A. La partition obtenue est not´e Pk.
13: Affecter chaque objet de X au centre de la classe de Pk qui lui est le plus proche.
Calculer les IGPi des classes de la partition obtenue, et d´eduire la quantit´e Z2k
´egale au minimum de ces IGPi. Calculer l’indice :
Ik = 1 T T X t=1 Vkt− Z1t k) + Z2k. 14: fin pour
15: D´eduire le nombre optimal de classes : k∗ = max
k=1,...,Kmax
{k|Ik≥ seuil}.
2.3
Stabilit´
e mesur´
ee par comparaison de partitions
avec la m´
ethode hongroise
Dans cette section nous pr´esentons deux approches de validation utilisant la m´ethode hongroise. Ces approches ont pour objectif d’estimer la proportion d’objets qui sont mal class´es. Pour savoir si, apr`es perturbation des donn´ees, un objet est class´e avec sa propre classe ou non, il faut tout d’abord r´esoudre le probl`eme de changement al´eatoire des libell´es des classes. Ce probl`eme peut se r´esoudre par la m´ethode hongroise (cf. Kuhn [32]).
2.3.1
M´
ethode de Roth, Lange, Braun et Buhmann
Tout comme les proc´edures de validation Prediction strength et In-group proportion, la m´ethode propos´ee par Roth et al. [39] utilise le sch´ema de r´eechantillonnage de la
validation crois´ee. Cette approche se distingue essentiellement des autres approches par sa fa¸con de normaliser la mesure d’instabilit´e propos´ee.
Mesure d’instabilit´e
Selon cette approche, les donn´ees sont divis´ees en deux sous ´echantillons, un ´echantillon d’apprentissage Sap (de taille map) et un ´echantillon test Ste (de taille mte). La mesure
d’instabilit´e de base propos´ee par Roth et al. [39] est une dissimilarit´e entre la partition obtenue sur Ste en utilisant un algorithme de classification A et la partition obtenue
apr`es affectation des individus de l’´echantillon test aux centres des classes de la par-tition de l’´echantillon d’apprentissage. La r`egle d’affectation est d´efinie en se basant sur la partition Ak(Sap), par exemple, en affectant chaque individu `a la classe dont le
centre lui est le plus proche. Nous d´esignons par αap(Ste) ∈ {1, ..., k}mte, cette op´eration
d’affectation. La mesure d’instabilit´e utilis´ee par Roth et al. [39] est d´efinie par :
Ins00 Ak(Ste), αap(Ste) = 1 mte mte X i=1 I{yi 6= αap(xi)}, (2.6)
o`u yi est le libell´e de l’individu xi de l’´echantillon test dans la partition Ak(Ste). Cette
mesure s’interpr`ete comme ´etant la probabilit´e empirique que la r`egle αap pr´evoit mal
les libell´es des individus de l’´echantillon Ste.
En appliquant un algorithme de classification `a deux ´echantillons, extrait d’un mˆeme ensemble X, il est tr`es probable d’obtenir globalement les mˆemes classes mais, ce qui peut changer, ce sont les libell´es des classes. Par exemple, si nous appliquons la m´ethode de classification k-means deux fois `a un mˆeme ensemble de donn´ees X, il est possible que le libell´e d’une classe donn´ee ne soit pas le mˆeme dans les deux partitions obtenues. Ceci signifie qu’il y a eu une permutation al´eatoire des num´eros des classes. Si le nombre de classes choisi est k, alors, il existe k! permutations possibles. Soit π l’ensemble de toutes ces permutations possibles, pour r´esoudre le probl`eme de permutation al´eatoire des libell´es des classes, il faut proc´eder `a la minimisation de la fonction suivante :
Ins0 Ak(Ste), αap(Ste) = min π Ins 00 Ak(Ste), αap(Ste) . (2.7)
est ´egale `a 5040. Ainsi l’utilisateur se trouve face `a un probl`eme de minimisation d’un niveau de complexit´e tr`es important. Afin de r´esoudre ce probl`eme de complexit´e, Roth et al. [39] appliquent la m´ethode hongroise (cf. Kuhn [32]).
Normalisation
Pour adapter la mesure d’instabilit´e propos´ee (cf. ´equation 2.7) au probl`eme de valida-tion du nombre de classes, les auteurs proposent une forme particuli`ere de normalisation. Celle-ci est un rapport d’esp´erance empirique de deux mesures d’instabilit´e. Soit ρ un pr´edicteur qui affecte al´eatoirement et uniform´ement les libell´es des individus. Alors la normalisation propos´ee par Roth et al. [39] est la suivante :
Insk = E Ins0(Ak(Ste), αap(Ste)) E Ins0(ρ(Ste, k), αap(Ste)) . (2.8) Algorithme
Nous r´esumons la m´ethode de validation propos´ee par Roth et al. [39] dans l’algorithme 6.
Algorithme 6 : M´ethode de Roth et al. [39]
Entr´ees :
• X : ensemble de donn´ees de r´ef´erence `a classifier de taille n, • kmax : nombre maximum de classes `a tester,
• A : algorithme de classification, • T : nombre total d’it´erations, • fte : fraction de l’´echantillon test,
• α(.) : une r`egle d’affectation,
Sorties : k∗ : nombre optimal de classes.
1: pour k = 1 `a kmax faire
2: pour t = 1 `a T faire
3: Diviser al´eatoirement l’ensemble X en deux parties Sap et Ste de tailles
4: Classifier Sap et Ste en k classes en utilisant l’algorithme A.
5: Effectuer l’op´eration αap(Ste).
6: R´esoudre le probl`eme de changement al´eatoire des libell´es entre les partitions Ak(Ste) et αap(Ste).
7: Une fois la correction des libell´es des classes est r´ealis´ee, calculer Ins0t(Ak(Ste), αap(Ste)).
8: fin pour
9: Calculer la moyenne Ins0k = T1
T
P
t=1
Ins0t. Normaliser la moyenne Ins0k en utilisant la m´ethode de pr´ediction al´eatoire. La valeur r´esultante est Insk.
10: fin pour
11: Le nombre optimal de classes est : k∗ = arg min
k=1,...,kmax
Insk.
2.3.2
Approche de Volkovich, Barzily et Morozensky
Volkovich et al. [49] ont propos´e une approche, utilisant la m´ethode hongroise, qui prend en compte l’importance de la densit´e des objets sur les fronti`eres des classes. La m´ethode propos´ee est fond´ee sur la comparaison de la distribution de probabilit´e des donn´ees de r´ef´erence `a la distribution de probabilit´e des noyaux des classes de la parti-tion `a valider. Plus l’´ecart entre ces deux distributions est faible plus la densit´e sur les fronti`eres des classes est faible (i.e. les classes de la partition de r´ef´erence sont isol´ees). Ainsi, l’indice mesurant cet ´ecart peut ˆetre consid´er´e comme une mesure d’isolation entre les classes car il d´epend du niveau de s´eparation des classes. Pour estimer les deux densit´es de probabilit´e `a comparer, Volkovich et al. [49] ont propos´e la m´ethode des k-plus proches voisins (k-nearest neighbor ). L’utilisation de cette technique est jus-tifi´ee par son avantage au niveau du choix du param`etre de lissage qui d´epend des k plus proches individus de chaque ´el´ement de la population ´etudi´ee.
En premier lieu, nous introduisons les notations et les d´efinitions relatives `a cette ap-proche. Ensuite, nous exposons l’algorithme d´ecrivant le processus de r´eechantillonnage et de classification de cette m´ethode de validation.
Notations et d´efinitions
Dans la suite de ce paragraphe, nous introduisons les d´efinitions et les notations n´ecessaires pour pr´esenter l’algorithme de l’approche de Volkovich et al. [49].
– D : distribution de probabilit´e des donn´ees de r´ef´erence ayant la densit´e de probabilit´e p(.),
– V : distribution de probabilit´e des noyaux des classes ayant la densit´e de probabilit´e,
g(x) = exp(ap(x)/c(a)), ∀x ∈ X, avec c(a) = X
x∈X
exp(ap(x)),
a est une constante positive qui repr´esente le param`etre de lissage,
– Sj(1) : ´echantillon num´ero j (j = 1, . . . , N ) de X tir´e suivant la distribution D, – Sj(2) : ´echantillon de X tir´e suivant la distribution des noyaux V,
– Sj(0) = Sj(1)∪ Sj(2), – Q(1)kj = Ak(S (1) j ) = C (1) 1j , . . . , C (1) kj , la partition de S (1)
j en k classes, obtenue en
appli-quant l’algorithme de classification A `a Sj(1), – Q(2)kj = Ak(S (2) j ) = C (2) 1j , . . . , C (2) kj et Q (0) kj = Ak(S (0) j ) = C (0) 1j , . . . , C (0) kj , – |Cij(.)| : cardinal de la classe Cij(.), – d(x, y) = ||x − y||r, 0 < r ≤ 2, – Cij0(1) = Sj(1)∩ Cij(0), Cij0(2) = Sj(2)∩ Cij(0), i = 1, . . . , k.
Tout comme Roth et al. [39], pour retrouver la correspondance entre les libell´es des classes, Volkovich et al. [49] appliquent la m´ethode hongroise. L’indice de base propos´e par Volkovich et al. [49] est une distance comparant la partition obtenue sur l’´echantillon de r´ef´erence Sj(1) (tir´e suivant D) et la partition obtenue sur l’´echantillon noyau Sj(2) (tir´e suivant V).
D´efinition 1 La distance dDis est une distance empirique entre la partition obtenue sur l’´echantillon noyau tir´e suivant la distribution V, et la partition obtenue sur l’´echantillon
tir´e suivant la distribution D : d Dis(Sj(1), Sj(2)) = 1 k k X i=1 d Dis(Cij(1), Cij(2)) = 1 k k X i=1 2 bLi(Cij0(1), C (2) ij0) − bLi(Cij(1), C (1) ij ) − bLi(Cij(2), C (2) ij ) avec : b Li(C (1) ij0, C (2) ij0) = 1 |Cij0(1)||Cij0(2)| X x∈Cij0(1) X y∈Cij0(2) d(x, y), b Li(C (1) ij , C (1) ij ) = 1 |Cij(1)|(|Cij(1)| − 1) X x∈C(1)ij X y∈C(1)ij d(x, y), b Li(C (2) ij , C (2) ij ) = 1 |Cij(2)|(|Cij(2)| − 1) X x∈C(2)ij X y∈C(2)ij d(x, y). Algorithme
Les ´etapes d´ecrivant le processus d’´echantillonnage et de validation propos´ees par Vol-kovich et al. [49] sont r´esum´ees dans l’algorithme 7. Au niveau de l’´etape 10, plusieurs techniques de normalisation sont applicables. Parmi ces techniques, nous citons la nor-malisation par rapport `a un mod`ele nul, comme le mod`ele de l’enveloppe convexe ou le mod`ele de recouvrement. Ainsi, il est possible d’appliquer la technique d’affectation al´eatoire des libell´es `a la mani`ere de Roth et al. [39]. En ce qui concerne le choix de l’indice de concentration `a l’´etape 11, Volkovich et al. [49] sugg`erent l’utilisation de la moyenne ou du quantile d’ordre 0.25 (q0.25) de la s´erie des valeurs {Inst}.
Algorithme 7 M´ethode de Volkovich et al. [49]
Entr´ees :
• N : nombre d’´echantillons, • m : taille de l’´echantillon,
• Kmax : maximum nombre de classes `a tester,
• A : algorithme de classification,
• T : nombre d’it´erations n´ecessaires pour atteindre un niveau de convergence donn´e.
Sorties : k∗ : nombre optimal de classes.
1: pour k = 1 `a kmax faire
2: pour t = 1 `a T faire 3: pour j = 1 `a N faire 4: Sj(1) = ech(X, m, D). 5: Sj(2) = ech(X, m, V). 6: Calculer Dj = dDis(S (1) j , S (2) j ). 7: fin pour 8: Calculer Inst = N1 PN j=1Dj. 9: fin pour
10: Normaliser le vecteur {Inst}.
11: Calculer un indicateur de concentration Ik de la s´erie des valeurs {Inst}.
12: fin pour 13: k∗ = arg min
k=1,...,kmax
Ik.
2.4
Mesure de l’influence d’un individu sur la
sta-bilit´
e d’une partition
Cheng et Milligan [15] ont propos´e une approche de validation fond´ee sur la mesure de l’influence d’un individu sur la stabilit´e d’une structure. Les auteurs d´efinissent deux types de mesures selon qu’il s’agit de la mesure de l’influence externe ou de l’influence interne. Dans le premier cas, les classes sont suppos´ees connues d’avance, alors que dans le second cas, la partition de r´ef´erence est celle obtenue en effectuant l’op´eration de classification sur l’ensemble entier des donn´ees.
Dans le cas de la mesure de l’influence interne d’un individu, la proc´edure consiste tout d’abord, `a classifier en k classes l’ensemble des donn´ees `a ´etudier contenant n objets. Soit Pn la partition de r´ef´erence ainsi obtenue. Ensuite, nous ´eliminons un ´el´ement i
de donn´ees qui contient n − 1 individus. Enfin, nous classifions ce nouvel ensemble de donn´ees en obtenant ainsi la partition Pn\i. La mesure de l’influence se fait en mesurant
l’´ecart entre les partitions Pnet Pn\i. Il s’agit de voir si l’absence de l’individu i a affect´e
la structure de Pn. Selon le type de l’influence, l’ensemble des individus est divis´e en
trois groupes, `a savoir, un groupe inhibiteur, un groupe facilitateur et un groupe sans influence. Un individu est dit inhibiteur si dans le cas de son absence, l’algorithme de classification arrive mieux `a identifier les classes. Cependant, un individu est dit facili-tateur, si dans le cas de son absence l’algorithme de classification d´ecouvre moins bien les classes. Pour mesurer l’influence de l’individu i, il existe une vari´et´e d’indices dans la litt´erature mais les auteurs de cet article [15] utilisent l’indice de Hubert et Arabie [27].
2.5
Propri´
et´
es th´
eoriques d’une mesure de stabilit´
e
d’une partition
Dans cette section, nous exposons les principaux travaux th´eoriques ´etudiant le lien entre les m´ethodes de classification `a centres, comme la m´ethode k-means, et le crit`ere de stabilit´e d’une partition (cf. Ben-David et von Luxburg [7], Shamir et Tishby [43, 42]). Ces travaux montrent que dans certains cas, les m´ethodes de classification `a centres sont insensibles `a l’importance de la densit´e des points sur les fronti`eres des classes. Plus pr´ecis´ement, Ben-David et von Luxburg [7] ont montr´e, formellement, que lorsque l’optimum du crit`ere de classification est unique et la taille des donn´ees est tr`es grande, alors le r´esultat fourni par un algorithme de classification `a centres est stable mˆeme si les donn´ees sont sans structure. Ce r´esultat th´eorique prouv´e dans un contexte asymp-totique, a remis en cause la fiabilit´e de toutes les approches de validation fond´ees sur le crit`ere de stabilit´e. En se basant sur ce r´esultat, Shamir et Tishby [43, 42], ont propos´e une normalisation des mesures de stabilit´e, qui permet de prendre en compte l’impor-tance de la densit´e des points sur les fronti`eres des classes. Dans une premi`ere section nous pr´esentons les travaux de Ben-David et von Luxburg [7] montrant que si l’opti-mum du crit`ere de classification est unique et si les donn´ees sont de taille tr`es grande, alors la partition est stable. Par contre, si l’optimum n’est pas unique alors la partition