• Aucun résultat trouvé

Décomposition et évaluation des mesures de stabilité d'un partitionnement

N/A
N/A
Protected

Academic year: 2021

Partager "Décomposition et évaluation des mesures de stabilité d'un partitionnement"

Copied!
153
0
0

Texte intégral

(1)

Universit´e de Tunis Universit´e

Institut Sup´erieur Paris-Dauphine

de Gestion

ECOMPOSITION ET ´

EVALUATION DES

MESURES DE STABILIT´

E D’UN

PARTITIONNEMENT

Th`ese de doctorat en cotutelle pr´esent´ee et soutenue `a

l’Universit´

e Paris-Dauphine

pour obtenir le grade de

Docteur en informatique



sp´

ecialit´

e



:

Statistique exploratoire multidimensionnelle

par

El MOUBARKI Lassad

soutenue devant le jury compos´e de

Pr´esident Mohamed LIMAM

Professeur `a l’Institut Sup´erieur de Gestion et vice pr´esident de l’universit´e de Tunis

Directeur Pierre CAZES

Professeur `a l’Universit´e Paris-Dauphine

Rapporteurs Yves LECHEVALLIER

Directeur de Recherche `a l’INRIA Andr´e HARDY

Professeur aux Facult´es Universitaires Notre-Dame de la Paix - Namur Co-directeur

scientifique

Patrice BERTRAND

Maˆıtre de conf´erences `a l’Universit´e Paris-Dauphine Date de soutenance 17 D´ecembre 2009

´

(2)
(3)

Remerciements

Je remercie tout d’abord vivement Messieurs Patrice BERTRAND et Ghazi BEL MUFTI qui ont suivi et encadr´e scientifiquement mes travaux de recherche, en se coordonnant d’abord pour mon mast`ere et ensuite pour ma th`ese. Je les remercie particuli`erement pour leurs critiques et leurs suggestions sans lesquelles ce travail n’aurait pu aboutir.

Je remercie ´egalement les professeurs Mohamed LIMAM et Pierre CAZES, pour m’avoir accueilli au sein de leurs ´equipes et accept´e de prendre cette th`ese en cotutelle sous leur responsabilit´e.

Je remercie tous les membres de jury, et plus particuli`erement, Monsieur Andr´e HARDY et Monsieur Yves LECHEVALLIER pour avoir accept´e d’ˆetre rapporteurs de ma th`ese.

Je voudrais aussi remercier tous les d´eveloppeurs des packages R et Latex que j’ai uti-lis´es intensivement durant cette th`ese.

Je remercie mon p`ere Mustapha EL MOUBARKI, ma m`ere Nafissa NAJAR, ma femme Wafa BRIKI, mes fr`eres et mes sœurs, qui ont su me soutenir pendant les moments dif-ficiles.

Un remerciement particulier `a mes amis de l’ISG : Mohamed HMIDEN, Bechir DHAOUADI et Belgacem JENDLI.

Et pour finir, je remercie mes amis au CEREMADE, Mohamed RAHAL et Anouar HOUMIA, pour la bonne ambiance qui r`egne entre les doctorants.

(4)

“L’Universit´e n’entend donner aucune approbation ni improbation aux opinions ´emises dans la th`ese : ces opinions doivent ˆetre consid´er´ees comme propres `a leurs auteurs”

(5)

Table des mati`

eres

Introduction 9

1 Revue des m´ethodes de validation d’un partitionnement fond´ees sur

le crit`ere d’ad´equation 15

1.1 Indice de Cali`nski et Harabasz . . . 16

1.2 Indice de Krzanowski et Lai . . . 17

1.3 Statistique Silhouette . . . 18

1.4 Indice Jump . . . 20

1.5 M´ethode Gap Statistique . . . 20

1.6 Conclusion . . . 22

2 Revue des m´ethodes de validation d’un partitionnement fond´ees sur le crit`ere de stabilit´e 23 2.1 M´ethodes de perturbation des donn´ees . . . 25

2.2 Stabilit´e mesur´ee `a l’aide d’indice de co-appartenance . . . 26

2.2.1 Approche de Ben-Hur, Elisseef et Guyon . . . 26

2.2.2 M´ethode Prediction strength . . . 28

2.2.3 M´ethode Clest . . . 30

2.2.4 Indice In-group proportion . . . 31

2.3 Stabilit´e mesur´ee par comparaison de partitions avec la m´ethode hongroise 33 2.3.1 M´ethode de Roth, Lange, Braun et Buhmann . . . 33

2.3.2 Approche de Volkovich, Barzily et Morozensky . . . 36

2.4 Mesure de l’influence d’un individu sur la stabilit´e d’une partition . . . 39

2.5 Propri´et´es th´eoriques d’une mesure de stabilit´e d’une partition . . . 40

(6)

2.5.2 Approche de Tishby et Shamir . . . 44

2.6 Conclusion . . . 49

3 Mesures de stabilit´e selon les crit`eres de coh´esion et d’isolation des classes 51 3.1 R`egles de validit´e d’une classe et d’une partition selon les crit`eres de coh´esion et d’isolation . . . 52

3.2 Mod´elisation statistique des r`egles de stabilit´e d’une partition et de ses classes . . . 53

3.2.1 Indices de validit´e d’une partition et de ses classes . . . 54

3.2.2 Coh´esion d’une partition . . . 55

3.2.3 Coh´esion d’une classe . . . 56

3.2.4 Isolation d’une partition . . . 56

3.2.5 Isolation d’une classe . . . 57

3.2.6 Exemple d’illustration . . . 57

3.3 D´ecomposition de quelques mesures de stabilit´e selon les crit`eres de coh´esion et d’isolation . . . 58

3.3.1 D´ecomposition de l’isolation d’une partition en fonction de l’iso-lation des classes . . . 59

3.3.2 D´ecomposition de la coh´esion d’une partition en fonction de la coh´esion des classes . . . 60

3.3.3 D´ecomposition de l’indice de Rand . . . 61

3.3.4 D´ecomposition de l’indice de Jaccard . . . 64

3.3.5 Prediction Strength et indice de confiance . . . 64

3.3.6 Distance de Hamming et indice de confiance . . . 65

3.4 Propri´et´es th´eoriques des indices de coh´esion . . . 66

3.4.1 Tableau crois´e . . . 67

3.4.2 Borne inf´erieure de l’indice de coh´esion d’une classe . . . 68

3.4.3 Borne inf´erieure de l’indice de Coh´esion d’une partition . . . 77

3.5 Conclusion . . . 79

4 Liens objets-classes 81 4.1 Appartenance d’un objet `a une classe . . . 82

(7)

4.2 Co-appartenance d’un objet `a une classe . . . 84

4.3 Filiation d’un objet `a une classe . . . 85

4.4 Co-filiation d’un objet `a une classe . . . 86

4.5 Pouvoir de coh´esion d’un objet sur une classe . . . 86

4.6 Ressemblance entre objets mesur´ee par la stabilit´e . . . 87

4.7 D´ecomposition de mesures de stabilit´e selon les liens objets classes . . . 88

4.7.1 D´ecomposition du crit`ere de coh´esion en fonction du score de filiation . . . 88

4.7.2 D´ecomposition du crit`ere d’isolation en fonction du score de filiation 89 4.8 Conclusion . . . 90

5 Experimentations 91 5.1 Param´etrage des m´ethodes de validation . . . 92

5.2 Justification du choix de la m´ethode de classification . . . 96

5.2.1 Cas d’un jeu de donn´ees uniforme . . . 96

5.2.2 Cas d’un jeu de donn´ees form´e par deux classes gaussiennes . . 101

5.2.3 Cas d’un jeu de donn´ees structur´ees en cinq classes non convexes 104 5.3 Recherche du ou des bons nombres de classes . . . 110

5.3.1 Algorithme . . . 110

5.3.2 Les mod`eles des jeux de donn´ees simul´ees . . . 111

5.3.3 R´esultats . . . 116

5.4 Application sur des donn´ees r´eelles . . . 121

5.5 Conclusion . . . 127

Conclusion 129

(8)

LISTE DES SYMBOLES

X donn´ees de r´ef´erence `a classifier et `a analyser. x, x ou y un ´el´ement de X.

n nombre d’´el´ements de l’ensemble X.

Xj j`eme variable descriptive des ´el´ements de X.

sdj ´ecart-type de la variable Yj.

X espace des donn´ees de X muni d’une distribution de probabilit´e D. S ou Sj ´echantillon de X.

X0 perturbation de X.

m taille de S.

mC nombre d’objets de la classe C pr´esents dans l’ensemble S.

p(.) densit´e de probabilit´e de la distribution D.

P(.) l’op´erateur probabilit´e de r´ealisation d’un ´ev`enement. E l’op´erateur esp´erance math´ematique.

q dimension de X.

Sap ´echantillon d’apprentissage tir´e de X.

Ste ´echantillon test tir´e de X.

k nombre de classes.

Ak(.) ou A(.) op´eration de classification en k classes en utilisant l’algorithme A.

P ou Pk partition de X en k classes.

C ou Ci une classe arbitraire de la partition P .

Q partition obtenue sur un ´echantillon ou forme bruit´ee de X.

Qap partition de Sap.

Qte partition de Ste.

Classe(x) libell´e d’un objet x dans une partition. ClasseQ(x) ou Q(x) libell´e d’un objet x dans la partition Q.

CQ une classe de la partition Q.

nC ou |C| taille de la classe C.

map taille de Sap.

mte taille de Ste.

T nombre total d’it´erations d’un algorithme donn´e.

N nombre d’´echantillons impliqu´es dans un processus de validation. Stab ou Stabk une mesure de stabilit´e d´efinie par l’utilisateur.

(9)

Introduction

La classification automatique a pour but de r´epartir les objets d’un ensemble de donn´ees en plusieurs classes homog`enes voire simplement connexes, chaque classe ´etant bien diff´erenci´ee des autres classes. Diff´erentes structures en classes ont ´et´e propos´ees, parmi lesquelles les partitions et les hi´erarchies. Par ailleurs, la plupart des m´ethodes utilis´ees en classification automatique sont des heuristiques dont le but est la d´etermination de solutions localement optimales. De nombreux algorithmes automatisant la construction des classifications ont ainsi ´et´e propos´es (cf. les trait´es g´en´eraux de Lerman [33], Har-tigan [25], Jain et Dubes [28], Gordon [22]).

Toutefois, quelque soit la structure des donn´ees initiales et donc y compris dans le cas de donn´ees homog`enes, l’application d’un algorithme de classification, produit toujours une partition comportant le nombre de classes demand´ees par l’utilisateur. Ainsi, rien ne garantit a priori, la qualit´e des r´esultats obtenus. Il s’av`ere donc qu’une ´etape de validation des r´esultats g´en´er´es par une classification automatique est indispensable.

Un proc´ed´e (ou une m´ethode) de validation en classification automatique a pour ob-jectif de trouver une r´eponse aux trois questions suivantes : (i) Quel est le type de structure en classes qui existe dans l’ensemble de donn´ees `a ´etudier ? (ii) Quelle est la meilleure m´ethode de classification qu’il faut utiliser ? (iii) Quel(s) est(sont) le(s) bon(s) nombre(s) de classes ? La premi`ere question est un probl`eme de d´efinition (d´efinition de la notion de classe). Alors que les deux autres questions concernent la validation des r´esultats obtenus par l’application d’un algorithme de classification donn´e. Deux approches diff´erentes ont ´et´e propos´ees afin de valider les r´esultats d’une classification.

(10)

Une premi`ere approche (Bailey et Dubes [3], Gordon [20], Cali´nski et Harabasz [13], Kr-zanowski et Lai [31], Sugar et James [45], Rousseeuw [40]) consiste `a mesurer l’ad´ equa-tion des r´esultats avec les donn´ees initiales. La plupart des indices d’ad´equation pro-pos´es sont fond´es sur le calcul de la dispersion des points entre les classes (inter-classes) et la dispersion des points dans les classes (intra-classes). Selon cette approche, une partition valide doit avoir une faible dispersion intra-classes et une forte dispersion inter-classes. En d’autres termes, plus la dispersion intra-classes est faible, plus les indi-vidus au sein d’une mˆeme classe sont homog`enes, et plus la dispersion inter-classes est forte, plus les individus au sein de deux classes diff´erentes sont h´et´erog`enes. Du point de vue g´eom´etrique, ces deux types de dispersion ´evaluent la compacit´e des classes et l’isolation des classes entre elles. Si le probl`eme est de trouver le meilleur nombre de classes dans les donn´ees, alors il faut choisir la partition qui garantit au mieux ces deux propri´et´es, souvent en choisissant la valeur maximale du crit`ere. La question qui se pose alors est la suivante : si nous choisissons la meilleure partition au sens du crit`ere d’ad´equation, comment juger si la valeur du crit`ere obtenue indique que la structure g´en´er´ee est valide ? Pour r´epondre `a cette question Bailey et Dubes [3], par exemple, ont utilis´e la m´ethode Monte Carlo (cf. Barnard [4] ainsi que Hope [26]). Le principe de cette m´ethode est de comparer la valeur obtenue du crit`ere `a sa distribution sous une hypoth`ese nulle exprimant l’absence de structure en classes. Pour d´eterminer la distri-bution de l’indice sous l’hypoth`ese nulle, on simule des jeux de donn´ees sans structure. Puis, pour chacun de ces jeux de donn´ees, on calcule la valeur du crit`ere qui ´evalue la structure g´en´er´ee par la m´ethode de classification utilis´ee sur les donn´ees initiales. Enfin, on teste si la valeur de l’indice obtenue sur les donn´ees initiales est en accord avec les valeurs mesur´ees sur les donn´ees simul´ees. A l’issue de ce test on d´ecide si la valeur du crit`ere est significative ou pas, la structure en classes ´etant valid´ee dans le cas d’une valeur significative.

La deuxi`eme approche de validation des structures consiste `a ´evaluer la stabilit´e des r´esultats d’une classification par rapport aux diff´erentes perturbations que les donn´ees peuvent subir. Cette perturbation peut prendre plusieurs formes : ajout d’un bruit blanc aux donn´ees initiales (cf. Milligan [36]), omission d’une classe de la partition `a valider (cf. Fisher et Van Ness [17]), omission d’une partie des donn´ees (on parle alors de l’´echantillonnage, cf. Bertrand et Bel Mufti [10], Ben-Hur et al. [9]), omission ou

(11)

ajout de variables (cf. Milligan [36]), ajout ou omission d’un individu (cf. Cheng et Milligan [14], [15]). La stabilit´e des r´esultats de la classification est mesur´ee par l’´ecart entre deux types de structures. Ben-Hur et al. [9], par exemple, mesurent l’´ecart entre deux partitions obtenues sur deux ´echantillons al´eatoires simples tir´es des donn´ees ini-tiales. Une autre m´ethode mesurant la stabilit´e d’une partition, consiste `a retirer, `a chaque fois, un ´el´ement de l’ensemble des donn´ees, puis `a mesurer l’influence du retrait de cet ´el´ement sur la classification. Cette approche a ´et´e ´etudi´ee par Gordon et Cata [23] ainsi que par Cheng et Milligan [15] qui distinguent deux types d’individus : ceux qui favorisent une certaine structure de classification sur les donn´ees et ceux qui, au contraire, lui sont d´efavorables ou inhibiteurs.

Une autre fa¸con de mesurer la stabilit´e d’une partition est d’appliquer la technique de validation crois´ee. Le principe de cette technique est d’´evaluer l’´ecart entre les classifica-tions obtenues sur un ´echantillon d’apprentissage et celles obtenues sur un ´echantillon test. Cette approche consiste ici `a diviser al´eatoirement les donn´ees de base en M sous-´echantillons, puis appliquer la mˆeme m´ethode de partitionnement d’une part, `a un ´echantillon de taille m (´echantillon d’apprentissage), et d’autre part, `a un ´echantillon test constitu´e des ´el´ements n’appartenant pas `a l’´echantillon d’apprentissage (on peut choisir M = 2). Ensuite, on mesure l’´ecart entre la partition obtenue sur l’´echantillon test et celle obtenue en affectant les ´el´ements de l’´echantillon test `a la partition obtenue sur l’´echantillon d’apprentissage et ce en utilisant une r`egle d’affectation pr´ealablement d´efinie. Ainsi, plus cet ´ecart est faible, plus la partition g´en´er´ee par la m´ethode de classification sur l’ensemble tout entier est valide. Cette technique a ´et´e d´evelopp´ee par McIntyre et Blashfield [35], Smith et Dubes [44], Breckenridge [12] et a ´et´e r´ecemment utilis´ee par Tibshirani et Walther [47], Kapp et Tibshirani [29], Dudoit et Fridlyand [16], Roth et al. [39].

Les m´ethodes de validation bas´ees sur la stabilit´e des structures sont de plus en plus uti-lis´ees dans la pratique, mais relativement peu d’attention a ´et´e accord´ee `a leurs aspects th´eoriques. Les m´ethodes de stabilit´e propos´ees ne tiennent pas compte de l’influence du choix de l’algorithme de classification. R´ecemment, Ben-David et von Luxburg [7] et Ben-David et al. [8] ont montr´e que si la fonction objectif d’un algorithme de classifica-tion `a centre poss`ede un optimum unique et que si la taille des donn´ees est importante,

(12)

alors, mˆeme si la partition ´etudi´ee n’est pas valide, elle peut ˆetre stable. Par ailleurs, si la fonction objectif poss`ede plusieurs optimums locaux, alors la partition devient instable. Dans ces analyses th´eoriques, les donn´ees `a analyser ne sont pas consid´er´ees comme des populations compl`etes `a analyser mais comme des ´echantillons tir´es d’un espace de donn´ees, qui est de taille infinie, et muni d’une distribution de probabilit´e inconnue. En partant de cette mod´elisation, Ben-David et von Luxburg [7] d´efinissent une notion g´en´erale de stabilit´e d’une partition. Ensuite, ils introduisent la notion d’al-gorithme “risque-convergent” et montrent par la suite que ce type d’ald’al-gorithme est stable sur n’importe quelle partition o`u l’optimum est unique et instable dans le cas contraire. Ces conclusions ont ´et´e reprises par Bertrand et al. [11], o`u elles ont ´et´e illustr´ees par des simulations sur des m´elanges de lois gaussiennes ainsi que sur des donn´ees simul´ees uniform´ement. Tr`es r´ecemment Shamir et Tishby [43, 42] ont propos´e une solution possible au probl`eme soulev´e par Ben-David et von Luxburg [7]. La solu-tion propos´ee consiste `a multiplier le crit`ere d’instabilit´e par la racine carr´e de la taille de l’´echantillon. Shamir et Tishby [43] [42] ont montr´e formellement, pour une classe d’algorithmes de classification, qu’en normalisant ainsi les mesures de stabilit´e, celles-ci prennent en compte l’importance de la densit´e des points sur les fronti`eres des classes ainsi que l’importance de la variance de chacune des classes de la partition ´etudi´ee.

Un des probl`emes majeurs en classification automatique est qu’il n’existe pas une d´efinition pr´ecise de la notion de classe. La plupart des m´ethodes de validation fond´ees sur le crit`ere d’ad´equation sont le plus souvent bas´ees sur la mesure de la dispersion des points entre les classes et dans les classes. Ainsi, ces m´ethodes favorisent g´en´eralement les partitions ayant une structure en classes sph´eriques et convexes. Cependant, la di-versit´e des donn´ees recueillies dans diff´erentes disciplines scientifiques montre que la structure des classes est souvent beaucoup plus complexe. Les mesures de stabilit´e d’une partition, propos´ees dans la litt´erature, ne supposent pas d’avance une forme g´eom´etrique pr´ecise des classes. Cet aspect est plutˆot d´etermin´e par le crit`ere de la m´ethode de classification utilis´ee. Ainsi, l’approche bas´ee sur le crit`ere de stabilit´e poss`ede l’avantage d’ˆetre plus efficace pour identifier des structures en classes plus di-verses et plus complexes. Par ailleurs, la majorit´e des m´ethodes de stabilit´e propos´ees utilisent des valeurs globales, i.e. elles servent essentiellement `a informer l’utilisateur si la partition ´etudi´ee est globalement stable (valide) ou non. D’autre part, peu d’attention

(13)

a ´et´e accord´ee aux classes elles-mˆemes de la partition ´etudi´ee. L’analyse de la validit´e de chaque classe est utile. Cette analyse met `a la disposition de l’utilisateur des infor-mations suppl´ementaires capables de faciliter l’interpr´etation typologique des classes d’une partition. A titre d’exemple, si un algorithme de classification fournit une parti-tion contenant une classe tr`es compacte, ceci signifie qu’il existe une forte ressemblance entre les objets de cette classe. Dans le mˆeme sens, si une partition contient deux classes faiblement isol´ees entre elles, alors ils existent des objets de ces deux classes qui poss`edent une ou plusieurs propri´et´es typologiques communes aux deux classes. L’int´erˆet de ce type d’analyse devient plus important lorsque les donn´ees sont de forte dimensionnalit´e et lorsque la visualisation plane des donn´ees est impossible.

L’objectif principal de ce travail de recherche est de proposer, en utilisant le crit`ere de stabilit´e, une strat´egie g´en´erale de validation d’une partition en ´etudiant les aspects de coh´esion et d’isolation des classes. Cette strat´egie vise `a am´eliorer l’analyse de stabilit´e d’une partition en montrant que celle-ci s’explique par les aspects de coh´esion et d’iso-lation des classes, et aussi par les propri´et´es h´erit´ees par un individu de sa propre classe.

Dans un premier chapitre, nous exposons les principaux indices mesurant l’ad´equation et qui ont eu une importance de plus en plus accrue dans la litt´erature. Nous pr´esentons les indices de Cali`nski et Harabasz [13], Krzanowski et Lai [31], Silhouette [40], Jump [45] ainsi que la proc´edure Gap statistique de Tibshirani et al. [48]. Dans un deuxi`eme chapitre, nous pr´esentons les m´ethodes de validation fond´ees sur le crit`ere de stabilit´e d’une partition.

En utilisant les r`egles de stabilit´e, propos´ees par Bertrand et Bel Mufti [10], nous d´efinissons dans le troisi`eme chapitre nos indices de coh´esion et d’isolation d’une parti-tion et de ses classes. Nous illustrons l’utilit´e th´eorique de ces indices en montrant que la coh´esion et l’isolation d’une partition peuvent ˆetre d´ecompos´ees en fonction de l’iso-lation et de la coh´esion d’une classe. Nous montrons ´egalement que d’autres indices de stabilit´e, tel que l’indice de Rand et l’indice de Jaccard [27], sont aussi d´ecomposables en fonction de l’isolation et de la coh´esion des classes d’une partition.

(14)

d’une partition, nous d´efinissons des mesures de lien entre objets et classes d’une parti-tion, parmi lesquelles nous citons l’indice de filiation d’un objet `a une classe. Cet indice estime le pourcentage de propri´et´es h´erit´ees par un objet d’une classe donn´ee. A la fin de ce chapitre, nous montrons que la coh´esion ainsi que l’isolation d’une classe sont d´ecomposables en fonction de cet indice de filiation des objets.

Dans le dernier chapitre, nous d´efinissons notre strat´egie de validation bas´ee sur l’estima-tion de la coh´esion et de l’isolation des classes. Ensuite, nous pr´esentons des illustrations de notre strat´egie de validation sur des jeux de donn´ees r´eelles et simul´ees. A la fin de ce chapitre, nous pr´esentons des simulations intensives visant `a comparer notre strat´egie de validation aux autres m´ethodes de validation en testant son efficacit´e en ce qui concerne la recherche du ou des bon(s) nombre(s) de classes.

(15)

Chapitre 1

Revue des m´

ethodes de validation

d’un partitionnement fond´

ees sur le

crit`

ere d’ad´

equation

Plusieurs m´ethodes de classification de diff´erents types ont ´et´e propos´ees et sont actuel-lement toujours employ´ees pour l’analyse de donn´ees recueillies dans diverses disciplines scientifiques. Parall`element, relativement peu d’attention a ´et´e accord´ee `a la proposition de m´ethodes g´en´erales de validation des r´esultats obtenus par ces m´ethodes. La premi`ere approche empirique qui a ´et´e propos´ee en validation d’une classification consiste `a d´efinir un indice d’ad´equation entre la structure en classes et l’ensemble de donn´ees ´etudi´ees. Ces m´ethodes sont g´en´eralement bas´ees sur le calcul de crit`eres ´evaluant la disper-sion intra-classes et la disperdisper-sion inter-classes. Quelques revues de la litt´erature ont ´et´e propos´ees sur la validation en utilisant des crit`eres d’ad´equation parmi lesquelles nous citons l’article de Milligan et Cooper [37].

Dans ce chapitre, nous nous proposons de pr´esenter des m´ethodes de validation ´evaluant les crit`eres de coh´esion et d’isolation d’une partition en utilisant des indices mesurant la dispersion des points dans les classes et la dispersion des points entre les classes. Les crit`eres que nous pr´esentons par la suite diff`erent essentiellement par leurs fa¸cons de mesurer ces deux types de dispersion. Nous commen¸cons par pr´esenter le crit`ere de Cali`nski et Harabasz [13] ainsi que celui de Krzanowski et Lai [31] qui sont class´es comme les meilleurs crit`eres d’ad´equation parmi les 30 crit`eres test´es dans l’article de

(16)

Milligan et Cooper [37]. Ces deux crit`eres reposent sur le calcul de la variance dans les classes et la variance entre les classes. Nous pr´esentons ´egalement les approches de validation Silhouette [40], Jump [45] et Gap statistique [48] qui ont propos´e une fa¸con originale pour mesurer la dispersion des points dans les classes d’une partition.

Dans ce chapitre, ainsi que dans les chapitres qui suivent, nous notons X l’ensemble (de r´ef´erence) des objets `a classifier, n la taille de X, P une partition de X en k classes, q le nombre de variables d´ecrivant les objets de X et C une classe arbitraire de la partition P . Nous d´esignerons indiff´eremment les ´el´ements de l’ensemble X soit par le terme individu soit par le terme objet.

1.1

Indice de Cali`

nski et Harabasz

Partant de l’id´ee qu’une partition valide est une partition pr´esentant un bon niveau de coh´esion ainsi qu’un bon niveau d’isolation, Cali`nski et Harabasz [13] ont propos´e un rapport pond´er´e des inerties inter-classes et intra-classes not´es respectivement par Bk

et Wk. La quantit´e Wk est la somme des carr´es des distances s´eparant les objets de X

aux centres de leurs propres classes. Alors que la quantit´e Bk est ´egale `a la somme des

carr´es des distances s´eparant les centres de gravit´e de chaque classe au centre de gravit´e de l’ensemble du nuage de points. Ces deux quantit´es sont d´efinies ainsi :

Wk(P ) = k X j=1 X i∈Cj d(xi, gj)2, Bk(P ) = 1 n k X j=1 njd(gj, g)2.

avec g le centre de gravit´e de l’ensemble de donn´ees, gj le centre de gravit´e de la classe

Cj, xi l’individu num´ero i (i = 1, ..., n) et nj le cardinal de la classe Cj. L’indice de

Cali`nski et Harabasz [13] ´evaluant conjointement les crit`eres isolation et coh´esion d’une partition P de X est d´efini par l’expression suivante :

CH(P ) = Bk(P )/(k − 1) Wk(P )/(n − k)

(17)

D’apr`es l’expression de l’indice CH, plus les classes sont compactes plus l’inertie intra-classes (Wk) a tendance `a diminuer et plus les classes sont isol´ees plus l’inertie

inter-classes (Bk) a tendance `a augmenter. Ainsi une forte valeur de CH indique un bon

niveau de coh´esion ainsi qu’un bon niveau d’isolation de la partition ´etudi´ee. L’indice CH est `a double usage : il est utilis´e pour valider le choix du bon nombre de classes k, mais aussi pour comparer deux ou plusieurs partitions obtenues par diff´erentes m´ethodes de classification. Soit Ω un ensemble de partitions `a comparer : par exemple, Ω peut ˆetre un ensemble de partitions ayant le mˆeme nombre de classes mais obtenues par des m´ethodes de classification diff´erentes. Mais Ω peut aussi ˆetre un ensemble de partitions obtenues par la mˆeme m´ethode de classification mais ayant des nombres de classes diff´erents. La meilleure partition P? au sens de l’indice CH est :

P? = arg max

P ∈Ω

CH(P ). (1.2)

L’indice CH est le plus performant selon les tests effectu´es par Milligan et Cooper [37]. Toutefois, celui-ci poss`ede deux inconv´enients majeurs. Le premier inconv´enient est que cet indice n’est pas d´efini dans le cas o`u k = 1. Il est, par cons´equent, incapable d’identifier le cas d’absence de structure en classes. Le second inconv´enient est que, vu son expression math´ematique bas´ee sur le calcul de variance, cet indice a tendance `a favoriser les classes ayant une forme sph´erique et `a d´efavoriser les classes ayant une structure allong´ee ou non convexe.

1.2

Indice de Krzanowski et Lai

Tout comme l’indice CH, l’indice propos´e par Krzanowski et Lai [31] utilise la variance dans les classes Wk mais en ´evaluant son ´evolution par rapport aux partitions en k − 1

et en k + 1 classes. Plus pr´ecis´ement, Krzanowski et Lai [31] ont propos´e un indice, validant essentiellement le choix du nombre de classes, bas´e sur le calcul d’une diff´erence pond´er´ee de l’inertie intra-classes lorsque les donn´ees sont partitionn´ees en k, en k − 1 et en k + 1 classes. L’indice propos´e est d´efini ainsi :

(18)

KL(Pk) = |

DIF F (k) DIF F (k + 1)|, avec

DIF F (k) = (k − 1)2/qWk−1− k2/qWk.

A noter que cette quantit´e fait intervenir la dimension q de l’ensemble des donn´ees. Soit Ω un ensemble de partitions de X, not´e Pk (k = 2, . . . , kmax) ayant des nombres

de classes diff´erents et obtenues par une mˆeme m´ethode de classification. La partition ayant le nombre optimal de classes au sens de l’indice KL est :

Pk? = arg max

Pk∈Ω

KL(Pk).

De mˆeme que l’indice CH, l’indice KL ne peut pas identifier le cas d’absence de struc-ture en classes. Toutefois, l’indice KL est mieux adapt´e que l’indice CH pour valider une partition ayant une structure en classes allong´ees (cf. Bertrand et al. [6]). Par ailleurs, vu son expression math´ematique reposant uniquement sur la dispersion intra-classes, l’indice KL aurait tendance `a ˆetre moins performant lorsque la partition `a valider contient des classes de faible isolation.

1.3

Statistique Silhouette

La statistique Silhouette, propos´ee par Rousseeuw [40], est aussi fond´ee sur l’´evaluation des crit`eres de dispersion intra-classes et inter-classes. Etant donn´e un objet xj de Ci,

l’indice Silhouette fait intervenir une premi`ere quantit´e qui mesure la moyenne des distances s´eparant l’objet xj des autres objets de sa propre classe (i.e. la coh´esion

autour du point xj) : a(xj) = 1 nCi − 1 X xt∈Ci d(xj, xt).

(19)

aux autres classes, soit b(xj) = min s6=i 1 nCs X xt∈Cs d(xj, xt).

o`u d(xj, xt) est la distance entre les objets xj et xt. La quantit´e a(xj) est la moyenne

des distances s´eparant l’objet xj des autres objets de sa propre classe. Par contre, la

quantit´e b(xj) est la moyenne des distances entre l’objet xj et les objets de la classe la

plus proche de xj. La statistique Silhouette, mesurant conjointement les deux crit`eres

d’isolation et de coh´esion, propos´ee par Rouseeuw [40] est la suivante :

Silhouette(Pk) = 1 n n X j=1 b(xj) − a(xj) max{b(xj), a(xj)} . (1.3)

Selon cette m´ethode, la meilleure partition est celle maximisant la valeur de Silhouette(Pk).

Cette quantit´e peut ˆetre d´ecompos´ee de la mani`ere suivante :

Silhouette(Pk) = 1 n  n X j=1 b(xj) max{b(xj), a(xj)}  − 1 n  n X j=1 a(xj) max{b(xj), a(xj)}  (1.4) = 1 n  k X s=1 X xj∈Cs b(xj) max{b(xj), a(xj)}  | {z } (1) − 1 n  k X s=1 X xj∈Cs a(xj) max{b(xj), a(xj)}  | {z } (2) (1.5)

D’apr`es la relation 1.5 nous concluons que la statistique Silhouette se d´ecompose en deux quantit´es. Une premi`ere quantit´e qui mesure la dispersion inter-classes, ou encore l’isolation entre les classes, et une deuxi`eme quantit´e qui mesure la dispersion intra-classes, en d’autres termes la coh´esion des classes. Si Ω est l’ensemble de partitions `a comparer, la meilleure partition au sens de l’indice Silhouette est :

P? = arg max

P ∈Ω

Silhouette(P ).

Cette statistique est `a double usage : elle peut ˆetre utilis´ee pour valider le nombre de classes mais aussi pour comparer plusieurs partitions obtenues par des m´ethodes de classification diff´erentes.

(20)

1.4

Indice Jump

L’indice J ump, propos´e par Sugar et James [45], rejoint le principe de l’indice KL dans la mesure o`u il compare la dispersion des points dans les classes de deux partitions n’ayant pas le mˆeme nombre de classes. Toutefois, l’indice J ump poss`ede une originalit´e par rapport `a l’indice KL dans la mesure o`u il est d´efini dans le cas o`u k = 1 et donc il est apte `a identifier le cas d’absence de structure en classes. A noter que l’indice J ump fait aussi intervenir la dimension de l’ensemble des donn´ees X. L’indice J ump mesurant la dispersion intra-classes est fond´e sur la quantit´e :

Distorionk = 1 nq n X i=1 min j=1,...,kd(xi, cj) (Distortion0 = 0), (1.6)

o`u d(xi, cj) est la distance euclidienne s´eparant l’objet xi du centre cj de la classe Cj.

L’indice J ump est fond´e essentiellement sur l’id´ee d’´evaluer l’importance de l’´ecart de la dispersion intra-classes entre les partitions en k et en k − 1 classes :

J ump(Pk) = Distorion −γ

k − Distorion −γ

k−1. (1.7)

Sugar et James [45] conseillent d’utiliser une valeur de γ ´egale `a q

2. La partition ayant le nombre optimal de classes selon le crit`ere J ump est :

Pk∗ = arg max

Pk∈Ω

J ump(Pk).

1.5

ethode Gap Statistique

Tout comme les autres m´ethodes que nous avons pr´esent´ees dans ce chapitre, la m´ethode Gap statistique (cf. Tibshirani et Walther [47]) repose sur le calcul de la dispersion des points dans les classes de la partition ´etudi´ee. Par ailleurs, ce qui distingue la m´ethode Gap statistique des autres m´ethodes c’est sa fa¸con d’interpr´eter la quantit´e Wk. Plus pr´ecis´ement, la m´ethode Gap statistique consiste `a comparer la dispersion

intra-classes Wk obtenue sur les donn´ees de r´ef´erence X `a la dispersion intra-classes

estim´ee sous l’hypoth`ese d’un mod`ele nul exprimant l’absence de structure en classes. Plusieurs mod`eles nuls exprimant l’absence de structure en classes sont possibles (cf. Gordon [21]). Parmi ces mod`eles, Tibshirani et Walther [47] proposent d’utiliser les

(21)

deux mod`eles suivants : le premier consiste `a simuler al´eatoirement et uniform´ement n points dans l’hyper-rectangle ayant pour bornes les valeurs minimales et maximales de chacune des variables descriptives. Le second mod`ele consiste `a simuler al´eatoirement et uniformement des points en se r´ef´erant `a l’orientation des composante principales des donn´ees de r´ef´erence. Les ´etapes d´ecrivant le processus de g´en´eration des points selon ce mod`ele sont les suivantes :

– Centrer les colonnes de la matrice X par rapport `a leurs moyennes, soit Y la matrice r´esultante.

– Effectuer la d´ecomposition en valeurs singuli`eres de la matrice Y : Y = U D VT. – Transformer la matrice Y : Y0 = Y V .

– G´en´erer uniformement un ensemble de n points dans l’hyper-rectangle ayant pour bornes les valeurs minimales et maximales de chacune des colones de Y0. La matrice r´esultante est Z0.

– Transformer la matrice Z0 : Z = Z0 VT.

L’indice Gap statistique propos´e pour valider le choix du nombre de classes est essen-tiellement une normalisation de la quantit´e Wk par rapport `a un model nul exprimant

l’absence de structure en classes. Le processus de classification et de simulation d´ecrivant la m´ethode Gap statistique est r´esum´e par l’algorithme 1.

Algorithme 1 : M´ethode Gap statistique

Entr´ees :

• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,

• A : algorithme de classification,

• H0 : hypoth`ese nulle exprimant l’absence de structure en classes,

• Zb

H0 : donn´ees num´ero b (b = 1, . . . , B) simul´ees sous H0.

Sorties : k∗ : le nombre optimal de classes .

1: pour k = 1 `a kmax faire

2: Classifier les donn´ees X en k classes, en utilisant l’algorithme A, et calculer la dispersion intra-classes Wk.

3: Classifier, en utilisant l’algorithme A, chacun des jeux de donn´ees ZHb0 en k classes et calculer, pour chacune des partitions obtenues, l’inertie intra-classes Wk,b.

(22)

4: Calculer l’´ecart : Gap(k) = (1/B) B X b=1 log(Wk,b) − log(Wk). 5: Calculer la moyenne l = B1 PB

b=1log(Wk,b) et en d´eduire l’´ecart-type corrig´e :

sk = v u u t(1 + 1 B) 1 B B X b=1  log(Wk,b) − l 2 . 6: fin pour

7: D´eduire le nombre optimal de classes : k∗ = min

k=1,...,kmax

{k | Gap(k) ≥ Gap(k + 1) − sk+1}.

1.6

Conclusion

Un des probl`emes majeurs en classification automatique est qu’il n’existe pas de d´efinition exacte de la notion de classe. Intuitivement, d´efinir une classe consiste `a d´efinir un crit`ere qui garantit l’isolation et la coh´esion de celle-ci. Les indices pr´esent´es dans ce chapitre reposent sur une d´efinition contraignante de la notion de classe. Selon ces crit`eres une classe valide est constitu´ee par des individus plus proches les uns des autres que n’im-porte quel autre individu d’une autre classe. Ainsi g´eom´etriquement, ces indices auront tendance `a favoriser les structures en classes sph´eriques, ce qui n’est pas r´eellement toujours le cas. De plus, ces m´ethodes ne tiennent pas compte du crit`ere utilis´e pour classifier l’ensemble de donn´ees de r´ef´erence. Par exemple il est contradictoire, de va-lider une partition obtenue par la m´ethode de lien minimum, capable d’identifier des structures en classes allong´ees et mˆeme non convexes, par l’indice de CH favorisant les structures en classes sph´eriques. Ainsi, il s’av`ere n´ecessaire de d´evelopper de nouvelles approches reposant sur un crit`ere de validation moins contraignant comme le crit`ere de stabilit´e d’une partition que nous nous proposons de pr´esenter dans le chapitre suivant.

(23)

Chapitre 2

Revue des m´

ethodes de validation

d’un partitionnement fond´

ees sur le

crit`

ere de stabilit´

e

Dans ce chapitre nous nous int´eressons `a l’approche empirique de validation en classifi-cation qui consiste `a estimer la stabilit´e des r´esultats d’une classification. Une classifi-cation est g´en´eralement suppos´ee stable si en effectuant des petits changements sur les donn´ees, les classes initiales restent inchang´ees. Une revue de la litt´erature sur la stabi-lit´e en classification a ´et´e propos´ee dans Cheng et Milligan [15]. Mais depuis, plusieurs nouvelles approches de validation mesurant la stabilit´e des r´esultats, ont ´et´e introduites, comme par exemple celles de Ben-Hur et al. [9], Tibshirani et Walther [47], Kapp et Tibshirani [29], Roth et al. [39], et Bertrand et Bel Mufti [10]. Les m´ethodes de valida-tion relevant de cette approche peuvent ˆetre divis´ees en trois types.

Le premier type de m´ethodes, utilisant le crit`ere de stabilit´e d’une partition, est fond´e sur la comparaison de la co-appartenance des paires d’objets de l’ensemble de donn´ees de r´ef´erence. Parmi ces m´ethodes, nous citons celles de Ben-Hur et al. [9], Tibshirani et Walther [47], Bertrand et Bel Mufti [10] (cf. section 2).

Le deuxi`eme type de m´ethode consiste `a comparer l’appartenance de chacun des objets des donn´ees de r´ef´erence en utilisant la m´ethode hongroise (cf. Kuhn [32], Roth et al. [39], Volkovich et al. [49]). La m´ethode hongroise est utilis´ee par ce type d’approche

(24)

afin de r´esoudre le probl`eme d’affectation al´eatoire des libell´es des classes qui, le plus souvent, est dˆu `a la sensibilit´e des m´ethodes de classification utilis´ees aux perturbations auxquelles les donn´ees sont soumises (cf. section 3).

Enfin, une troisi`eme approche consiste `a mesurer l’influence d’un individu sur la sta-bilit´e d’une partition. Cette approche a ´et´e propos´ee par Cheng et Milligan [14]. En ´etudiant l’effet de l’absence d’un individu sur la stabilit´e d’une partition, cette approche vise `a diviser l’ensemble des objets de la population en trois groupes : groupe d’indi-vidus inhibiteurs, groupe d’indid’indi-vidus facilitateurs et groupe d’indid’indi-vidus sans influence (cf. section 4).

Contrairement `a l’approche fond´ee sur le crit`ere ad´equation, les m´ethodes de valida-tion fond´ees sur le crit`ere de stabilit´e d’une partition ne supposent pas une d´efinition particuli`ere de la notion de classe. Les propri´et´es des classes r´esultent du crit`ere de la m´ethode de classification utilis´ee. La question qui se pose `a ce niveau est “existe-il un lien entre le crit`ere de stabilit´e d’une partition et le crit`ere de la m´ethode de classi-fication utilis´ee pour retrouver les classes dans l’ensemble de donn´ees de r´ef´erence ” ? R´ecemment, Ben-David et von Luxburg [7] ont montr´e que lorsque les donn´ees sont de tr`es grande taille, ils existent des cas o`u les r´esultats de certaines m´ethodes de classi-fication sont stables mˆeme si les donn´ees sont sans structure. Ainsi Ben-David et von Luxburg [7] ont mis en cause la fiabilit´e des r´esultats des m´ethodes de validation fond´ees sur le crit`ere de stabilit´e d’une partition. Plus r´ecemment, Shamir et Tishby [43, 42] ont propos´e une solution simple et originale `a ce probl`eme. Cette solution consiste `a normaliser le crit`ere de stabilit´e par rapport `a la taille des donn´ees. Plus pr´ecisemment, la normalisation qu’ils ont propos´ee consiste `a multiplier l’indice d’instabilit´e par la racine carr´e de la taille des ´echantillons.

La plupart des proc´edures de validation, que nous nous proposons de pr´esenter dans ce chapitre, sont expos´ees comme ´etant des m´ethodes de d´etermination du bon nombre de classes. Ces m´ethodes sont pr´esent´ees ainsi car, dans la litt´erature, le probl`eme le plus abord´e par ces m´ethodes est celui de la recherche du bon nombre de classes. Toutefois, la plupart d’entre elles peuvent aussi servir `a comparer des partitions obtenues par des m´ethodes de classification diff´erentes.

(25)

Par abus de notation, nous d´esignons par X la matrice individus-variables repr´esentant l’ensemble de donn´ees de r´ef´erence contenant n objets d´ecrits par q variables Xj (i.e.

Xj est la j`eme colonne de la matrice X). Nous notons aussi Classe(x) le libell´e, i.e. le

num´ero de classe, d’un objet x ∈ X dans la partition P .

2.1

ethodes de perturbation des donn´

ees

Selon l’approche fond´ee sur la stabilit´e, une partition est stable si en perturbant un peu les donn´ees, les classes restent inchang´ees ou ne changent pas beaucoup. Ainsi, le choix de la technique de perturbation est crucial pour cette approche. Nous verrons dans le chapitre exp´erimentation que le choix de la technique de perturbation peut influencer notablement les r´esultats fournis par le crit`ere de stabilit´e.

Dans notre contexte, la perturbation de l’ensemble de donn´ees consiste `a effectuer une l´eg`ere modification sur l’ensemble X des individus. Dans ce qui suit, nous pr´esentons 2 types de perturbations, `a savoir le r´eechantillonnage et le bruitage.

R´e´echantillonnage des donn´ees

Il existe deux fa¸cons de perturber les donn´ees en les r´e´echantillonnant. La premi`ere consiste `a ´eliminer au hasard plusieurs objets de l’ensemble X (cf. Ben-Hur et al. [9]). Plus pr´ecis´ement, cette technique consiste `a tirer, au hasard et sans remise, m (m < n) objets de l’ensemble X. Chaque objet de X a la mˆeme probabilit´e 1

n d’ˆetre choisi. Dans certains cas, l’´elimination peut ˆetre effectu´ee `a tour de rˆole sur un seul individu de l’ensemble X : c’est, par exemple, le cas de l’approche de Cheng et Milligan [15]. La seconde fa¸con consiste `a appliquer le principe de la validation crois´ee. Cette tech-nique consiste `a diviser au hasard l’ensemble X des donn´ees de r´ef´erence en deux blocs de tailles pouvant ˆetre in´egales. Un des blocs constitue l’´echantillon d’apprentissage sur lequel est formul´e le mod`ele et sont ´elabor´ees les r`egles de d´ecision ou d’affectation. L’autre bloc constitue l’´echantillon test sur lequel sont appliqu´ees et estim´ees les per-formances du mod`ele. L’utilisation de la validation crois´ee pour valider une partition a ´et´e introduite par Breckenridge [12], puis reprise par d’autres auteurs comme Kapp et

(26)

Tibshirani [29] qui l’ont utilis´ee pour d´eterminer le bon nombre de classes.

Bruitage des donn´ees

Une autre mani`ere de perturber les donn´ees consiste `a faire bouger l´eg`erement l’en-semble de tous les points du nuage form´e par la matrice X. Soit xij la coordonn´es de

l’objet i (i = 1, . . . , n) sur la j`eme dimension (j = 1, . . . , q) et sd(X

j) l’´ecart-type de la

variable Xj. L’op´eration de bruitage consiste, par exemple, `a ajouter une valeur

dis-tribu´ee uniform´ement dans l’intervalle [−5%sd(Xj), +5%sd(Xj)] `a chacune des valeurs

xij de la colonne j de la matrice X.

2.2

Stabilit´

e mesur´

ee `

a l’aide d’indice de

co-apparte-nance

Dans ce paragraphe nous pr´esentons les m´ethodes de validation ´evaluant la stabilit´e d’une partition en comparant la co-appartenance des paires d’objets dans deux parti-tions diff´erentes d’une mˆeme partie S de l’ensemble X. Les proc´edures de validation, pr´esent´ees dans la suite du texte, sont bas´ees sur des indices de co-appartenance mesu-rant la similitude entre des partitions obtenues sur des donn´ees perturb´ees.

2.2.1

Approche de Ben-Hur, Elisseef et Guyon

La m´ethode propos´ee par Ben-Hur et al. [9] a pour objectif de mesurer la similarit´e entre deux partitions obtenues sur des ´echantillons extraits des donn´ees de base. Des similarit´es ´elev´ees entre les paires de partitions indiquent la validit´e de la partition de r´ef´erence. Pour mesurer la similarit´e entre deux partitions, plusieurs indices ont ´et´e propos´es (cf. Hubert et Arabie [27]). Soient deux partitions diff´erentes Q1 et Q2 d’un

mˆeme ensemble S ⊆ X, et soit N11 le nombre de paires d’objets class´es ensemble selon

Q1 et Q2, N10 le nombre de paires d’objets class´es ensemble selon Q1 et s´epar´es selon

Q2, N00 le nombre de paires d’objets s´epar´es selon Q1 et Q2 et N01 le nombre de paires

(27)

similarit´e entre deux partitions, rappelons la d´efinition de l’indice de corr´elation, l’indice de Rand et l’indice de Jaccard :

Cor(Q1, Q2) = N11 p(N11+ N10)(N01+ N11) , (2.1) RAND(Q1, Q2) = N11+ N00 N11+ N10+ N01+ N00 , (2.2) J ac(Q1, Q2) = N11 N11+ N10+ N01 . (2.3) Algorithme

En pratique la proc´edure de validation propos´ee se r´esume par l’algorithme 2. Algorithme 2 : M´ethode de Ben-Hur et al. [9]

Entr´ees :

• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,

• A : algorithme de classification, • N : nombre maximum d’´echantillons, • f : taux d’´echantillonnage.

Sorties : k∗ : nombre optimal de classes.

1: G´en´erer, al´eatoirement et sans remise, N ´echantillons de taille bnf c1 de X. La taille

de N d´epend du nombre T de paires que nous cherchons `a comparer.

2: Tirer, sans remise, T paires d’´echantillons de l’ensemble de N ´echantillons. Ici le nombre T d´epend du niveau de pr´ecision d´esir´e par l’utilisateur.

3: pour k = 2 `a kmax faire

4: Partitionner chacun des ´echantillons figurant dans ces T paires, en k classes, en utilisant la mˆeme m´ethode A de classification.

5: Calculer l’indice de stabilit´e Stabt,k (t = 1, ..., T ) (i.e. l’indice de similarit´e) entre

les T paires de partitions, par exemple, en utilisant l’indice de RAND. A la fin

(28)

de cette ´etape, nous obtenons le vecteur StabT,k de taille T .

6: fin pour

7: Comparer les distributions empiriques des vecteurs StabT,k lorsque k varie. Le

meilleur nombre de classes, k∗, est le plus grand nombre k ayant une distribution de similarit´es concentr´ee sur une valeur proche de 1.

Pour choisir le bon nombre de classes, Ben-Hur et al. [9] d´efinissent une strat´egie g´en´erale qui consiste `a comparer les fonctions de r´epartition des kmax s´eries de

va-leurs de similarit´e StabT,k. La meilleure partition est celle ayant le nombre de classes

le plus ´elev´e tout en ´etant globalement stable. En pratique, nous pouvons utiliser le crit`ere de la moyenne de ces s´eries de valeurs et choisir ainsi le bon nombre de classes :

k∗ = max k=2,...,Kmax {k : 1 T B X t=1 Stabt,k > seuil},

o`u seuil est une valeur de stabilit´e `a partir de laquelle une partition peut ˆetre consid´er´ee comme ´etant stable, par exemple, seuil = 0.9.

2.2.2

ethode Prediction strength

La m´ethode de Ben-Hur et al. [9], comme l’indice Prediction strength propos´ee par Tibshirani et Walther [47], repose sur la comparaison de la co-appartenance des paires d’individus mais en appliquant la technique de la validation crois´ee. L’objectif principal de cette m´ethode est d’identifier le bon nombre de classes. La m´ethode propos´ee est d´ecrite ci-dessous selon la proc´edure de l’algorithme 3. Le nombre optimal de classes est d´etermin´e `a l’´etape 11 de l’algorithme dans laquelle la moyenne de l’indice stabilit´e est compar´ee `a une valeur seuil. Tibshirani et Walther [47] n’ont pas d´efini de strat´egie objective qui permette d’estimer la valeur du param`etre seuil. Ce param`etre d´epend essentiellement des exigences de l’utilisateur et varie g´en´eralement entre 0.8 et 0.95. Algorithme 3 : M´ethode Prediction strength

Entr´ees :

• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,

(29)

• A : algorithme de classification, • T : nombre total d’it´erations,

• seuil : une valeur entre 0.8 et 0.95 pr´ealablement d´efinie par l’utilisateur, • fte : fraction de l’´echantillon test.

Sorties : k∗ : nombre optimal de classes.

1: pour k = 1 `a kmax faire

2: pour t = 1 `a T faire

3: Diviser al´eatoirement l’ensemble de donn´ees X en deux sous-´echantillons Ste

et Sap selon la fraction fte.

4: Classifier, en utilisant la m´ethode A, Sap en k classes. La partition obtenue est

Qap = C1ap, . . . , C ap k .

5: Classifier, en utilisant la mˆeme m´ethode A, Ste en k classes. La partition

obte-nue est Q1te = C1te, . . . , Ckte.

6: Classifier chaque objet de Ste en l’affectant au centre de la classe de la partition

Qap qui lui est la plus proche. La partition obtenue est not´ee Q2te.

7: Soient N11(Cite) le nombre de paires d’objets de la classe Cite (i = 1, . . . , k)

qui sont class´es ensemble dans la partition Q2

te et ntei la taille de la classe Cite.

Calculer l’indice Prediction strength :

pst(k) = min Cte i ∈Q1te N11(Cite) nte i (ntei − 1)/2 . 8: fin pour 9: Calculer la moyenne psk= T1 T P t=1 pst(k) et l’´ecart-type sd k= T1 T P t=1 (pst(k) − ps k)2. 10: fin pour

11: D´eduire le nombre optimal de classes : k∗ = max

k=1,...,kmax

{k | psk+ sdk ≥ seuil}.

La quantit´e pst(k), calcul´ee `a l’´etape 7, est la proportion de paires d’objets de la classe Cte

i qui sont class´es ensemble dans la partition Q2te. Nous verrons dans le chapitre

suivant que cette quantit´e correspond au minimum des indices de coh´esion des classes de la partition Q1

(30)

2.2.3

ethode Clest

La m´ethode Clest , propos´ee par Dudoit et Fridlyand [16], constitue un compromis entre la m´ethode Gap statistique et la m´ethode Prediction strength. En utilisant la technique de la validation crois´ee, le principe de cette m´ethode se rapproche de celui de la m´ethode Prediction strength. D’autre part, et comme la m´ethode Gap statistique, elle interpr`ete la valeur de son crit`ere de stabilit´e par rapport `a un mod`ele nul exprimant l’absence de structure en classes. Les mod`eles nuls applicables avec cette m´ethode sont les mˆemes que ceux utilis´es par la m´ethode Gap statistique. Le processus de validation de cette m´ethode est r´esum´e dans l’algorithme 4.

Algorithme 4 : M´ethode Clest

Entr´ees :

• X : ensemble de donn´ees de r´ef´erence `a classifier, • Kmax : nombre maximum de classes `a tester,

• A : algorithme de classification, • T : nombre total d’it´erations, • fte : fraction de l’´echantillon test,

• pmax, δmin : deux seuils de significativit´e pr´ed´efinis par l’utilisateur.

Sorties : k∗ : nombre optimal de classes.

1: pour k = 1 `a kmax faire

2: pour t = 1 `a T faire

3: Diviser X en deux sous-´echantillons, un ´echantillon apprentissage Sap et un

´echantillon test Ste de taille bnftec.

4: Classifier le sous-´echantillon Sap en k classes en utilisant la m´ethode A. La

partition r´esultante est not´ee Qap.

5: Construire une r`egle de classification en appliquant une analyse diagonale lin´eaire discriminante (classifieur na¨ıve de Bayes2) `a la partition Qap. Ensuite,

classifier le sous-´echantillon Ste en utilisant cette r`egle de classification. La

partition obtenue est not´ee Q1 te.

6: Classifier Ste en k classes en utilisant la m´ethode A. La partition r´esultante est

Q2 te.

(31)

7: Comparer les deux partitions Q1

te et Q2te en utilisant l’indice de Rand [18]. Soit

RANDt,k la valeur de cet indice pour l’it´eration t et pour le nombre de classes

k.

8: fin pour

9: fin pour

10: Une fois que toutes les valeurs RANDt,k sont obtenues, calculer pour chaque k la

m´ediane M ek= median(RAND1,k, ..., RANDt,k, ..., RANDT ,k).

11: Pour B ensembles de donn´ees de r´ef´erence g´en´er´ees selon un mod`ele nul pr´ealablement d´efini, refaire toutes les ´etapes pr´ec´edentes. Ainsi pour chaque jeu de donn´ees de r´ef´erence et pour chaque k = 1, ..., kmax, on obtient M e∗b,k, o`u b d´esigne le b`eme

ensemble de donn´ees de r´ef´erence (b = 1, ..., B).

12: Soient M e∗ k = B1 PBb=1M e∗b,k, pk = card{M e∗b,k|M e∗ b,k≥M ek} B , et l’´ecart δk = M ek − M e∗

k. La proportion pk ici repr´esente le niveau de signification empirique relatif `a

la valeur M ek.

13: Soit l’ensemble K = {2 ≤ k ≤ kmax : pk ≤ pmax, δk ≥ δmin}. Si l’ensemble K est

vide alors le nombre optimal de classes est k∗ = 1. Sinon, k∗ = arg max

k∈K

δk.

Soient x = x1, . . . , xq les q coordonn´ees d’un objet x de Ste, cj = cj1, . . . , cjq les

coor-donn´ees du centre de la jeme` classe de la partition Q

ap, et sdj = sd1, . . . , sdqla diagonale

de la matrice variances-covariances de la j`eme classe. L’op´eration de classification des objets du sous-´echantillon Ste, ´evoqu´ee `a l’´etape 5 de l’algorithme 4, est r´ealis´ee ainsi :

Classe(x) = arg min

1≤j≤k q X i=1 (xi− cji)2 sd2 j . (2.4)

2.2.4

Indice In-group proportion

La m´ethode In-group proportion propos´ee par Kapp et Tibshirani [29], utilise la tech-nique de la validation crois´ee. Toutefois, la mesure de stabilit´e propos´ee par ces au-teurs est originale dans la mesure o`u celle-ci implique dans son expression un crit`ere d’ad´equation de la partition aux donn´ees de r´ef´erence. Ainsi, l’indice propos´e appel´e IGP est une forme de compromis entre l’approche stabilit´e et l’approche ad´equation. Soient xj un objet de X, et N N (xj) l’objet de X le plus proche de xj et diff´erent de

(32)

IGPi =

card{xj|Classe(xj) = Classe(N N (xj)) = i}

card{xj|Classe(xj) = i}

. (2.5)

L’indice IGP d’une classe i est ´egale `a la proportion d’´el´ements de la classe i tels que leur plus proche voisin appartient `a la classe i. Il est clair, selon l’´equation 2.5, que l’indice IGP prend en compte le facteur distance entre les ´el´ements d’une mˆeme classe et les ´el´ements qui ne sont pas dans une mˆeme classe. Les ´etapes d´ecrivant la m´ethode In-group proportion sont r´esum´ees dans l’algorithme 5.

Algorithme 5 : M´ethode In-group proportion

Entr´ees :

• X : ensemble de donn´ees de r´ef´erence `a classifier, • kmax : nombre maximum de classes `a tester,

• A : algorithme de classification, • T : nombre total d’it´erations, • fte : fraction de l’´echantillon test,

• seuil : un seuil entre 0 et 1 pr´ealablement d´efini par l’utilisateur. Sorties : k∗ : nombre optimal de classes.

1: Diviser al´eatoirement T fois l’ensemble X en deux sous-´echantillons d’apprentissage et de test. Les r´esultats de chaque division sont un ´echantillon d’apprentissage St

apde

taille map et un ´echantillon test Stet de taille mte, avec map+ mte = n et t = 1, ..., T .

2: pour k = 1 `a kmax faire

3: pour t = 1 `a T faire

4: Classifier St

ap en k classes en utilisant la m´ethode A. La partition obtenue est

not´ee Qt ap.

5: Affecter chaque ´el´ement de Stet au centre de la classe de la partition Qtap qui lui est le plus proche. La partition obtenue est not´ee Qt

te.

6: Calculer les IGPi (i = 1, ..., k) des k classes de la partition Qtte. Si une classe i

de la partition Qtte est vide alors IGPi = N A.

7: Soit Vt

k = min

i=1,...,kIGPi. Si au moins une des classes de la partition Q t

te est vide

alors Vt

(33)

8: Affecter chaque objet de X au centre de la classe de la partition Qap qui lui

est le plus proche. Ensuite calculer les IGPi des classes obtenues, et d´eduire la

quantit´e Z1tk ´egale au minimum de ces IGPi.

9: fin pour

10: fin pour

11: pour k = 1 `a kmax faire

12: Classifier X en k classes en utilisant l’algorithme A. La partition obtenue est not´e Pk.

13: Affecter chaque objet de X au centre de la classe de Pk qui lui est le plus proche.

Calculer les IGPi des classes de la partition obtenue, et d´eduire la quantit´e Z2k

´egale au minimum de ces IGPi. Calculer l’indice :

Ik = 1 T T X t=1 Vkt− Z1t k) + Z2k. 14: fin pour

15: D´eduire le nombre optimal de classes : k∗ = max

k=1,...,Kmax

{k|Ik≥ seuil}.

2.3

Stabilit´

e mesur´

ee par comparaison de partitions

avec la m´

ethode hongroise

Dans cette section nous pr´esentons deux approches de validation utilisant la m´ethode hongroise. Ces approches ont pour objectif d’estimer la proportion d’objets qui sont mal class´es. Pour savoir si, apr`es perturbation des donn´ees, un objet est class´e avec sa propre classe ou non, il faut tout d’abord r´esoudre le probl`eme de changement al´eatoire des libell´es des classes. Ce probl`eme peut se r´esoudre par la m´ethode hongroise (cf. Kuhn [32]).

2.3.1

ethode de Roth, Lange, Braun et Buhmann

Tout comme les proc´edures de validation Prediction strength et In-group proportion, la m´ethode propos´ee par Roth et al. [39] utilise le sch´ema de r´eechantillonnage de la

(34)

validation crois´ee. Cette approche se distingue essentiellement des autres approches par sa fa¸con de normaliser la mesure d’instabilit´e propos´ee.

Mesure d’instabilit´e

Selon cette approche, les donn´ees sont divis´ees en deux sous ´echantillons, un ´echantillon d’apprentissage Sap (de taille map) et un ´echantillon test Ste (de taille mte). La mesure

d’instabilit´e de base propos´ee par Roth et al. [39] est une dissimilarit´e entre la partition obtenue sur Ste en utilisant un algorithme de classification A et la partition obtenue

apr`es affectation des individus de l’´echantillon test aux centres des classes de la par-tition de l’´echantillon d’apprentissage. La r`egle d’affectation est d´efinie en se basant sur la partition Ak(Sap), par exemple, en affectant chaque individu `a la classe dont le

centre lui est le plus proche. Nous d´esignons par αap(Ste) ∈ {1, ..., k}mte, cette op´eration

d’affectation. La mesure d’instabilit´e utilis´ee par Roth et al. [39] est d´efinie par :

Ins00  Ak(Ste), αap(Ste)  = 1 mte mte X i=1 I{yi 6= αap(xi)}, (2.6)

o`u yi est le libell´e de l’individu xi de l’´echantillon test dans la partition Ak(Ste). Cette

mesure s’interpr`ete comme ´etant la probabilit´e empirique que la r`egle αap pr´evoit mal

les libell´es des individus de l’´echantillon Ste.

En appliquant un algorithme de classification `a deux ´echantillons, extrait d’un mˆeme ensemble X, il est tr`es probable d’obtenir globalement les mˆemes classes mais, ce qui peut changer, ce sont les libell´es des classes. Par exemple, si nous appliquons la m´ethode de classification k-means deux fois `a un mˆeme ensemble de donn´ees X, il est possible que le libell´e d’une classe donn´ee ne soit pas le mˆeme dans les deux partitions obtenues. Ceci signifie qu’il y a eu une permutation al´eatoire des num´eros des classes. Si le nombre de classes choisi est k, alors, il existe k! permutations possibles. Soit π l’ensemble de toutes ces permutations possibles, pour r´esoudre le probl`eme de permutation al´eatoire des libell´es des classes, il faut proc´eder `a la minimisation de la fonction suivante :

Ins0  Ak(Ste), αap(Ste)  = min π Ins 00 Ak(Ste), αap(Ste)  . (2.7)

(35)

est ´egale `a 5040. Ainsi l’utilisateur se trouve face `a un probl`eme de minimisation d’un niveau de complexit´e tr`es important. Afin de r´esoudre ce probl`eme de complexit´e, Roth et al. [39] appliquent la m´ethode hongroise (cf. Kuhn [32]).

Normalisation

Pour adapter la mesure d’instabilit´e propos´ee (cf. ´equation 2.7) au probl`eme de valida-tion du nombre de classes, les auteurs proposent une forme particuli`ere de normalisation. Celle-ci est un rapport d’esp´erance empirique de deux mesures d’instabilit´e. Soit ρ un pr´edicteur qui affecte al´eatoirement et uniform´ement les libell´es des individus. Alors la normalisation propos´ee par Roth et al. [39] est la suivante :

Insk = E  Ins0(Ak(Ste), αap(Ste))  E  Ins0(ρ(Ste, k), αap(Ste))  . (2.8) Algorithme

Nous r´esumons la m´ethode de validation propos´ee par Roth et al. [39] dans l’algorithme 6.

Algorithme 6 : M´ethode de Roth et al. [39]

Entr´ees :

• X : ensemble de donn´ees de r´ef´erence `a classifier de taille n, • kmax : nombre maximum de classes `a tester,

• A : algorithme de classification, • T : nombre total d’it´erations, • fte : fraction de l’´echantillon test,

• α(.) : une r`egle d’affectation,

Sorties : k∗ : nombre optimal de classes.

1: pour k = 1 `a kmax faire

2: pour t = 1 `a T faire

3: Diviser al´eatoirement l’ensemble X en deux parties Sap et Ste de tailles

(36)

4: Classifier Sap et Ste en k classes en utilisant l’algorithme A.

5: Effectuer l’op´eration αap(Ste).

6: R´esoudre le probl`eme de changement al´eatoire des libell´es entre les partitions Ak(Ste) et αap(Ste).

7: Une fois la correction des libell´es des classes est r´ealis´ee, calculer Ins0t(Ak(Ste), αap(Ste)).

8: fin pour

9: Calculer la moyenne Ins0k = T1

T

P

t=1

Ins0t. Normaliser la moyenne Ins0k en utilisant la m´ethode de pr´ediction al´eatoire. La valeur r´esultante est Insk.

10: fin pour

11: Le nombre optimal de classes est : k∗ = arg min

k=1,...,kmax

Insk.

2.3.2

Approche de Volkovich, Barzily et Morozensky

Volkovich et al. [49] ont propos´e une approche, utilisant la m´ethode hongroise, qui prend en compte l’importance de la densit´e des objets sur les fronti`eres des classes. La m´ethode propos´ee est fond´ee sur la comparaison de la distribution de probabilit´e des donn´ees de r´ef´erence `a la distribution de probabilit´e des noyaux des classes de la parti-tion `a valider. Plus l’´ecart entre ces deux distributions est faible plus la densit´e sur les fronti`eres des classes est faible (i.e. les classes de la partition de r´ef´erence sont isol´ees). Ainsi, l’indice mesurant cet ´ecart peut ˆetre consid´er´e comme une mesure d’isolation entre les classes car il d´epend du niveau de s´eparation des classes. Pour estimer les deux densit´es de probabilit´e `a comparer, Volkovich et al. [49] ont propos´e la m´ethode des k-plus proches voisins (k-nearest neighbor ). L’utilisation de cette technique est jus-tifi´ee par son avantage au niveau du choix du param`etre de lissage qui d´epend des k plus proches individus de chaque ´el´ement de la population ´etudi´ee.

En premier lieu, nous introduisons les notations et les d´efinitions relatives `a cette ap-proche. Ensuite, nous exposons l’algorithme d´ecrivant le processus de r´eechantillonnage et de classification de cette m´ethode de validation.

Notations et d´efinitions

Dans la suite de ce paragraphe, nous introduisons les d´efinitions et les notations n´ecessaires pour pr´esenter l’algorithme de l’approche de Volkovich et al. [49].

(37)

– D : distribution de probabilit´e des donn´ees de r´ef´erence ayant la densit´e de probabilit´e p(.),

– V : distribution de probabilit´e des noyaux des classes ayant la densit´e de probabilit´e,

g(x) = exp(ap(x)/c(a)), ∀x ∈ X, avec c(a) = X

x∈X

exp(ap(x)),

a est une constante positive qui repr´esente le param`etre de lissage,

– Sj(1) : ´echantillon num´ero j (j = 1, . . . , N ) de X tir´e suivant la distribution D, – Sj(2) : ´echantillon de X tir´e suivant la distribution des noyaux V,

– Sj(0) = Sj(1)∪ Sj(2), – Q(1)kj = Ak(S (1) j ) = C (1) 1j , . . . , C (1) kj , la partition de S (1)

j en k classes, obtenue en

appli-quant l’algorithme de classification A `a Sj(1), – Q(2)kj = Ak(S (2) j ) = C (2) 1j , . . . , C (2) kj et Q (0) kj = Ak(S (0) j ) = C (0) 1j , . . . , C (0) kj , – |Cij(.)| : cardinal de la classe Cij(.), – d(x, y) = ||x − y||r, 0 < r ≤ 2, – Cij0(1) = Sj(1)∩ Cij(0), Cij0(2) = Sj(2)∩ Cij(0), i = 1, . . . , k.

Tout comme Roth et al. [39], pour retrouver la correspondance entre les libell´es des classes, Volkovich et al. [49] appliquent la m´ethode hongroise. L’indice de base propos´e par Volkovich et al. [49] est une distance comparant la partition obtenue sur l’´echantillon de r´ef´erence Sj(1) (tir´e suivant D) et la partition obtenue sur l’´echantillon noyau Sj(2) (tir´e suivant V).

D´efinition 1 La distance dDis est une distance empirique entre la partition obtenue sur l’´echantillon noyau tir´e suivant la distribution V, et la partition obtenue sur l’´echantillon

(38)

tir´e suivant la distribution D : d Dis(Sj(1), Sj(2)) = 1 k k X i=1 d Dis(Cij(1), Cij(2)) = 1 k k X i=1  2 bLi(Cij0(1), C (2) ij0) − bLi(Cij(1), C (1) ij ) − bLi(Cij(2), C (2) ij )  avec : b Li(C (1) ij0, C (2) ij0) = 1 |Cij0(1)||Cij0(2)| X x∈Cij0(1) X y∈Cij0(2) d(x, y), b Li(C (1) ij , C (1) ij ) = 1 |Cij(1)|(|Cij(1)| − 1) X x∈C(1)ij X y∈C(1)ij d(x, y), b Li(C (2) ij , C (2) ij ) = 1 |Cij(2)|(|Cij(2)| − 1) X x∈C(2)ij X y∈C(2)ij d(x, y). Algorithme

Les ´etapes d´ecrivant le processus d’´echantillonnage et de validation propos´ees par Vol-kovich et al. [49] sont r´esum´ees dans l’algorithme 7. Au niveau de l’´etape 10, plusieurs techniques de normalisation sont applicables. Parmi ces techniques, nous citons la nor-malisation par rapport `a un mod`ele nul, comme le mod`ele de l’enveloppe convexe ou le mod`ele de recouvrement. Ainsi, il est possible d’appliquer la technique d’affectation al´eatoire des libell´es `a la mani`ere de Roth et al. [39]. En ce qui concerne le choix de l’indice de concentration `a l’´etape 11, Volkovich et al. [49] sugg`erent l’utilisation de la moyenne ou du quantile d’ordre 0.25 (q0.25) de la s´erie des valeurs {Inst}.

Algorithme 7 M´ethode de Volkovich et al. [49]

Entr´ees :

• N : nombre d’´echantillons, • m : taille de l’´echantillon,

• Kmax : maximum nombre de classes `a tester,

• A : algorithme de classification,

(39)

• T : nombre d’it´erations n´ecessaires pour atteindre un niveau de convergence donn´e.

Sorties : k∗ : nombre optimal de classes.

1: pour k = 1 `a kmax faire

2: pour t = 1 `a T faire 3: pour j = 1 `a N faire 4: Sj(1) = ech(X, m, D). 5: Sj(2) = ech(X, m, V). 6: Calculer Dj = dDis(S (1) j , S (2) j ). 7: fin pour 8: Calculer Inst = N1 PN j=1Dj. 9: fin pour

10: Normaliser le vecteur {Inst}.

11: Calculer un indicateur de concentration Ik de la s´erie des valeurs {Inst}.

12: fin pour 13: k∗ = arg min

k=1,...,kmax

Ik.

2.4

Mesure de l’influence d’un individu sur la

sta-bilit´

e d’une partition

Cheng et Milligan [15] ont propos´e une approche de validation fond´ee sur la mesure de l’influence d’un individu sur la stabilit´e d’une structure. Les auteurs d´efinissent deux types de mesures selon qu’il s’agit de la mesure de l’influence externe ou de l’influence interne. Dans le premier cas, les classes sont suppos´ees connues d’avance, alors que dans le second cas, la partition de r´ef´erence est celle obtenue en effectuant l’op´eration de classification sur l’ensemble entier des donn´ees.

Dans le cas de la mesure de l’influence interne d’un individu, la proc´edure consiste tout d’abord, `a classifier en k classes l’ensemble des donn´ees `a ´etudier contenant n objets. Soit Pn la partition de r´ef´erence ainsi obtenue. Ensuite, nous ´eliminons un ´el´ement i

(40)

de donn´ees qui contient n − 1 individus. Enfin, nous classifions ce nouvel ensemble de donn´ees en obtenant ainsi la partition Pn\i. La mesure de l’influence se fait en mesurant

l’´ecart entre les partitions Pnet Pn\i. Il s’agit de voir si l’absence de l’individu i a affect´e

la structure de Pn. Selon le type de l’influence, l’ensemble des individus est divis´e en

trois groupes, `a savoir, un groupe inhibiteur, un groupe facilitateur et un groupe sans influence. Un individu est dit inhibiteur si dans le cas de son absence, l’algorithme de classification arrive mieux `a identifier les classes. Cependant, un individu est dit facili-tateur, si dans le cas de son absence l’algorithme de classification d´ecouvre moins bien les classes. Pour mesurer l’influence de l’individu i, il existe une vari´et´e d’indices dans la litt´erature mais les auteurs de cet article [15] utilisent l’indice de Hubert et Arabie [27].

2.5

Propri´

et´

es th´

eoriques d’une mesure de stabilit´

e

d’une partition

Dans cette section, nous exposons les principaux travaux th´eoriques ´etudiant le lien entre les m´ethodes de classification `a centres, comme la m´ethode k-means, et le crit`ere de stabilit´e d’une partition (cf. Ben-David et von Luxburg [7], Shamir et Tishby [43, 42]). Ces travaux montrent que dans certains cas, les m´ethodes de classification `a centres sont insensibles `a l’importance de la densit´e des points sur les fronti`eres des classes. Plus pr´ecis´ement, Ben-David et von Luxburg [7] ont montr´e, formellement, que lorsque l’optimum du crit`ere de classification est unique et la taille des donn´ees est tr`es grande, alors le r´esultat fourni par un algorithme de classification `a centres est stable mˆeme si les donn´ees sont sans structure. Ce r´esultat th´eorique prouv´e dans un contexte asymp-totique, a remis en cause la fiabilit´e de toutes les approches de validation fond´ees sur le crit`ere de stabilit´e. En se basant sur ce r´esultat, Shamir et Tishby [43, 42], ont propos´e une normalisation des mesures de stabilit´e, qui permet de prendre en compte l’impor-tance de la densit´e des points sur les fronti`eres des classes. Dans une premi`ere section nous pr´esentons les travaux de Ben-David et von Luxburg [7] montrant que si l’opti-mum du crit`ere de classification est unique et si les donn´ees sont de taille tr`es grande, alors la partition est stable. Par contre, si l’optimum n’est pas unique alors la partition

Figure

Figure 2.1 – Cas d’un optimum unique : les partitions mises en cause sont repr´ esent´ ees par une ligne continue obtenue par la m´ ethode k-means
Figure 2.2 – Cas d’une structure sym´ etrique
Figure 2.3 – Illustration de l’int´ erieur d’une classe et de la fronti` ere entre deux classes
Table 3.1 – Tableau crois´ e
+7

Références

Documents relatifs

Dans la suite, afin d'associer à un ensemble probabilisé muni d'une classification hiérarchique une décomposition des mesures et fonctions, on considérera un système

Les mod` eles 2D ` a l’´ echelle r´ egionale ont pour but de coupler les donn´ ees de t´ el´ ed´ etection multi-capteur avec la mod´ e- lisation de surface en inversant des

Nous comparons enfin les mod` eles g´ en´ er´ es ` a partir des diff´ erentes sources de donn´ ees. 5.2 La distribution des hauteurs, un

Nous comparons enfin les mod` eles g´ en´ er´ es ` a partir des diff´ erentes sources de donn´ ees. 5.2 La distribution des hauteurs, un

Dans ce mémoire, un nouveau modèle animal (Scantlebury et al., 2005) est utilisé afin de mieux comprendre le lien entre les CF atypiques chez un cerveau prédisposé

avec le logiciel Smart PLS - via une procédure de bootstrap - (Ringle, Wende, et Will, 2005), nous conduit à identifier trois relations significatives parmi les neuf possibles.

En fait, parmi les dernières recommandations du Gouvernement du Québec, l’accent est mis sur la prestation des services adaptés pour les femmes enceintes ayant un problème

Dans ces mod` eles, les baryons (en premier lieu, les nucl´ eons : protons et neutrons) sont repr´ esent´ es ` a l’aide de solutions, dites solutions soliton, du champ des pions ;