Décomposition et évaluation des mesures de stabilité d'un partitionnement

(1)

Universit´e de Tunis Universit´e

Institut Sup´erieur Paris-Dauphine

de Gestion

D´

ECOMPOSITION ET ´

EVALUATION DES

MESURES DE STABILIT´

E D’UN

PARTITIONNEMENT

Thèse de doctorat en cotutelle présentée et soutenue à

l’Universit´

e Paris-Dauphine

pour obtenir le grade de

Docteur en informatique

sp´

ecialit´

e

:

Statistique exploratoire multidimensionnelle

par

El MOUBARKI Lassad

soutenue devant le jury compos´e de

Pr´esident Mohamed LIMAM

Professeur à l’Institut Supérieur de Gestion et vice président de l’université de Tunis

Directeur Pierre CAZES

Professeur `a l’Universit´e Paris-Dauphine

Rapporteurs Yves LECHEVALLIER

Directeur de Recherche `a l’INRIA Andr´e HARDY

Professeur aux Facult´es Universitaires Notre-Dame de la Paix - Namur Co-directeur

scientifique

Patrice BERTRAND

Maˆıtre de conférences à l’Université Paris-Dauphine Date de soutenance 17 Décembre 2009

´

(2)

(3)

Remerciements

Je remercie tout d’abord vivement Messieurs Patrice BERTRAND et Ghazi BEL MUFTI qui ont suivi et encadré scientifiquement mes travaux de recherche, en se coordonnant d’abord pour mon mastère et ensuite pour ma thèse. Je les remercie particulièrement pour leurs critiques et leurs suggestions sans lesquelles ce travail n’aurait pu aboutir.

Je remercie également les professeurs Mohamed LIMAM et Pierre CAZES, pour m’avoir accueilli au sein de leurs équipes et accepté de prendre cette thèse en cotutelle sous leur responsabilité.

Je remercie tous les membres de jury, et plus particulièrement, Monsieur André HARDY et Monsieur Yves LECHEVALLIER pour avoir accepté d’être rapporteurs de ma thèse.

Je voudrais aussi remercier tous les développeurs des packages R et Latex que j’ai uti-lisés intensivement durant cette thèse.

Je remercie mon père Mustapha EL MOUBARKI, ma mère Nafissa NAJAR, ma femme Wafa BRIKI, mes frères et mes sœurs, qui ont su me soutenir pendant les moments dif-ficiles.

Un remerciement particulier `a mes amis de l’ISG : Mohamed HMIDEN, Bechir DHAOUADI et Belgacem JENDLI.

Et pour finir, je remercie mes amis au CEREMADE, Mohamed RAHAL et Anouar HOUMIA, pour la bonne ambiance qui r`egne entre les doctorants.

(4)

“L’Université n’entend donner aucune approbation ni improbation aux opinions émises dans la thèse : ces opinions doivent être considérées comme propres à leurs auteurs”

(5)

Table des mati`

eres

Introduction 9

1 Revue des m´ethodes de validation d’un partitionnement fond´ees sur

le crit`ere d’ad´equation 15

1.1 Indice de Cali`nski et Harabasz . . . 16

1.2 Indice de Krzanowski et Lai . . . 17

1.3 Statistique Silhouette . . . 18

1.4 Indice Jump . . . 20

1.5 M´ethode Gap Statistique . . . 20

1.6 Conclusion . . . 22

2 Revue des méthodes de validation d’un partitionnement fondées sur le critère de stabilité 23 2.1 Méthodes de perturbation des données . . . 25

2.2 Stabilité mesurée à l’aide d’indice de co-appartenance . . . 26

2.2.1 Approche de Ben-Hur, Elisseef et Guyon . . . 26

2.2.2 M´ethode Prediction strength . . . 28

2.2.3 M´ethode Clest . . . 30

2.2.4 Indice In-group proportion . . . 31

2.3 Stabilité mesurée par comparaison de partitions avec la méthode hongroise 33 2.3.1 Méthode de Roth, Lange, Braun et Buhmann . . . 33

2.3.2 Approche de Volkovich, Barzily et Morozensky . . . 36

2.4 Mesure de l’influence d’un individu sur la stabilit´e d’une partition . . . 39

2.5 Propriétés théoriques d’une mesure de stabilité d’une partition . . . 40

(6)

2.5.2 Approche de Tishby et Shamir . . . 44

3 Mesures de stabilité selon les critères de cohésion et d’isolation des classes 51 3.1 Règles de validité d’une classe et d’une partition selon les critères de cohésion et d’isolation . . . 52

3.2 Modélisation statistique des règles de stabilité d’une partition et de ses classes . . . 53

3.2.1 Indices de validit´e d’une partition et de ses classes . . . 54

3.2.2 Coh´esion d’une partition . . . 55

3.2.3 Coh´esion d’une classe . . . 56

3.2.4 Isolation d’une partition . . . 56

3.2.5 Isolation d’une classe . . . 57

3.2.6 Exemple d’illustration . . . 57

3.3 Décomposition de quelques mesures de stabilité selon les critères de cohésion et d’isolation . . . 58

3.3.1 D´ecomposition de l’isolation d’une partition en fonction de l’iso-lation des classes . . . 59

3.3.2 Décomposition de la cohésion d’une partition en fonction de la cohésion des classes . . . 60

3.3.3 D´ecomposition de l’indice de Rand . . . 61

3.3.4 D´ecomposition de l’indice de Jaccard . . . 64

3.3.5 Prediction Strength et indice de confiance . . . 64

3.3.6 Distance de Hamming et indice de confiance . . . 65

3.4 Propriétés théoriques des indices de cohésion . . . 66

3.4.1 Tableau crois´e . . . 67

3.4.2 Borne inf´erieure de l’indice de coh´esion d’une classe . . . 68

3.4.3 Borne inf´erieure de l’indice de Coh´esion d’une partition . . . 77

4 Liens objets-classes 81 4.1 Appartenance d’un objet `a une classe . . . 82

(7)

4.2 Co-appartenance d’un objet `a une classe . . . 84

4.3 Filiation d’un objet `a une classe . . . 85

4.4 Co-filiation d’un objet `a une classe . . . 86

4.5 Pouvoir de coh´esion d’un objet sur une classe . . . 86

4.6 Ressemblance entre objets mesur´ee par la stabilit´e . . . 87

4.7 D´ecomposition de mesures de stabilit´e selon les liens objets classes . . . 88

4.7.1 Décomposition du critère de cohésion en fonction du score de filiation . . . 88

4.7.2 D´ecomposition du crit`ere d’isolation en fonction du score de filiation 89 4.8 Conclusion . . . 90

5 Experimentations 91 5.1 Param´etrage des m´ethodes de validation . . . 92

5.2 Justification du choix de la m´ethode de classification . . . 96

5.2.1 Cas d’un jeu de donn´ees uniforme . . . 96

5.2.2 Cas d’un jeu de donn´ees form´e par deux classes gaussiennes . . 101

5.2.3 Cas d’un jeu de donn´ees structur´ees en cinq classes non convexes 104 5.3 Recherche du ou des bons nombres de classes . . . 110

5.3.1 Algorithme . . . 110

5.3.2 Les modèles des jeux de données simulées . . . 111

5.3.3 R´esultats . . . 116

5.4 Application sur des donn´ees r´eelles . . . 121

Conclusion 129

(8)

LISTE DES SYMBOLES

X données de référence à classifier et à analyser. x, x ou y un élément de X.

n nombre d’´el´ements de l’ensemble X.

Xj jème variable descriptive des éléments de X.

sdj ´ecart-type de la variable Yj.

X espace des données de X muni d’une distribution de probabilité D. S ou Sj échantillon de X.

X0 perturbation de X.

m taille de S.

mC nombre d’objets de la classe C pr´esents dans l’ensemble S.

p(.) densit´e de probabilit´e de la distribution D.

P(.) l’opérateur probabilité de réalisation d’un évènement. E l’opérateur espérance mathématique.

q dimension de X.

Sap ´echantillon d’apprentissage tir´e de X.

Ste ´echantillon test tir´e de X.

k nombre de classes.

Ak(.) ou A(.) op´eration de classification en k classes en utilisant l’algorithme A.

P ou Pk partition de X en k classes.

C ou Ci une classe arbitraire de la partition P .

Q partition obtenue sur un ´echantillon ou forme bruit´ee de X.

Qap partition de Sap.

Qte partition de Ste.

Classe(x) libell´e d’un objet x dans une partition. ClasseQ(x) ou Q(x) libell´e d’un objet x dans la partition Q.

CQ _{une classe de la partition Q.}

nC ou |C| taille de la classe C.

map taille de Sap.

mte taille de Ste.

T nombre total d’it´erations d’un algorithme donn´e.

N nombre d’échantillons impliqués dans un processus de validation. Stab ou Stabk une mesure de stabilité définie par l’utilisateur.

(9)

Introduction

La classification automatique a pour but de répartir les objets d’un ensemble de données en plusieurs classes homogènes voire simplement connexes, chaque classe étant bien différenciée des autres classes. Différentes structures en classes ont été proposées, parmi lesquelles les partitions et les hiérarchies. Par ailleurs, la plupart des méthodes utilisées en classification automatique sont des heuristiques dont le but est la détermination de solutions localement optimales. De nombreux algorithmes automatisant la construction des classifications ont ainsi été proposés (cf. les traités généraux de Lerman [33], Har-tigan [25], Jain et Dubes [28], Gordon [22]).

Toutefois, quelque soit la structure des données initiales et donc y compris dans le cas de données homogènes, l’application d’un algorithme de classification, produit toujours une partition comportant le nombre de classes demandées par l’utilisateur. Ainsi, rien ne garantit a priori, la qualité des résultats obtenus. Il s’avère donc qu’une étape de validation des résultats générés par une classification automatique est indispensable.

Un procédé (ou une méthode) de validation en classification automatique a pour ob-jectif de trouver une réponse aux trois questions suivantes : (i) Quel est le type de structure en classes qui existe dans l’ensemble de données à étudier ? (ii) Quelle est la meilleure méthode de classification qu’il faut utiliser ? (iii) Quel(s) est(sont) le(s) bon(s) nombre(s) de classes ? La première question est un problème de définition (définition de la notion de classe). Alors que les deux autres questions concernent la validation des résultats obtenus par l’application d’un algorithme de classification donné. Deux approches différentes ont été proposées afin de valider les résultats d’une classification.

(10)

Une première approche (Bailey et Dubes [3], Gordon [20], Caliński et Harabasz [13], Kr-zanowski et Lai [31], Sugar et James [45], Rousseeuw [40]) consiste à mesurer l’ad´ equa-tion des résultats avec les données initiales. La plupart des indices d’adéquation pro-posés sont fondés sur le calcul de la dispersion des points entre les classes (inter-classes) et la dispersion des points dans les classes (intra-classes). Selon cette approche, une partition valide doit avoir une faible dispersion intra-classes et une forte dispersion inter-classes. En d’autres termes, plus la dispersion intra-classes est faible, plus les indi-vidus au sein d’une même classe sont homogènes, et plus la dispersion inter-classes est forte, plus les individus au sein de deux classes différentes sont hétérogènes. Du point de vue géométrique, ces deux types de dispersion évaluent la compacité des classes et l’isolation des classes entre elles. Si le problème est de trouver le meilleur nombre de classes dans les données, alors il faut choisir la partition qui garantit au mieux ces deux propriétés, souvent en choisissant la valeur maximale du critère. La question qui se pose alors est la suivante : si nous choisissons la meilleure partition au sens du critère d’adéquation, comment juger si la valeur du critère obtenue indique que la structure générée est valide ? Pour répondre à cette question Bailey et Dubes [3], par exemple, ont utilisé la méthode Monte Carlo (cf. Barnard [4] ainsi que Hope [26]). Le principe de cette méthode est de comparer la valeur obtenue du critère à sa distribution sous une hypothèse nulle exprimant l’absence de structure en classes. Pour déterminer la distri-bution de l’indice sous l’hypothèse nulle, on simule des jeux de données sans structure. Puis, pour chacun de ces jeux de données, on calcule la valeur du critère qui évalue la structure générée par la méthode de classification utilisée sur les données initiales. Enfin, on teste si la valeur de l’indice obtenue sur les données initiales est en accord avec les valeurs mesurées sur les données simulées. A l’issue de ce test on décide si la valeur du critère est significative ou pas, la structure en classes étant validée dans le cas d’une valeur significative.

La deuxième approche de validation des structures consiste à évaluer la stabilité des résultats d’une classification par rapport aux différentes perturbations que les données peuvent subir. Cette perturbation peut prendre plusieurs formes : ajout d’un bruit blanc aux données initiales (cf. Milligan [36]), omission d’une classe de la partition à valider (cf. Fisher et Van Ness [17]), omission d’une partie des données (on parle alors de l’échantillonnage, cf. Bertrand et Bel Mufti [10], Ben-Hur et al. [9]), omission ou

(11)

ajout de variables (cf. Milligan [36]), ajout ou omission d’un individu (cf. Cheng et Milligan [14], [15]). La stabilité des résultats de la classification est mesurée par l’écart entre deux types de structures. Ben-Hur et al. [9], par exemple, mesurent l’écart entre deux partitions obtenues sur deux échantillons aléatoires simples tirés des données ini-tiales. Une autre méthode mesurant la stabilité d’une partition, consiste à retirer, à chaque fois, un élément de l’ensemble des données, puis à mesurer l’influence du retrait de cet élément sur la classification. Cette approche a été étudiée par Gordon et Cata [23] ainsi que par Cheng et Milligan [15] qui distinguent deux types d’individus : ceux qui favorisent une certaine structure de classification sur les données et ceux qui, au contraire, lui sont défavorables ou inhibiteurs.

Une autre fa¸con de mesurer la stabilité d’une partition est d’appliquer la technique de validation croisée. Le principe de cette technique est d’évaluer l’écart entre les classifica-tions obtenues sur un échantillon d’apprentissage et celles obtenues sur un échantillon test. Cette approche consiste ici à diviser aléatoirement les données de base en M sous-échantillons, puis appliquer la même méthode de partitionnement d’une part, à un échantillon de taille m (échantillon d’apprentissage), et d’autre part, à un échantillon test constitué des éléments n’appartenant pas à l’échantillon d’apprentissage (on peut choisir M = 2). Ensuite, on mesure l’écart entre la partition obtenue sur l’échantillon test et celle obtenue en affectant les éléments de l’échantillon test à la partition obtenue sur l’échantillon d’apprentissage et ce en utilisant une règle d’affectation préalablement définie. Ainsi, plus cet écart est faible, plus la partition générée par la méthode de classification sur l’ensemble tout entier est valide. Cette technique a été développée par McIntyre et Blashfield [35], Smith et Dubes [44], Breckenridge [12] et a été récemment utilisée par Tibshirani et Walther [47], Kapp et Tibshirani [29], Dudoit et Fridlyand [16], Roth et al. [39].

Les méthodes de validation basées sur la stabilité des structures sont de plus en plus uti-lisées dans la pratique, mais relativement peu d’attention a été accordée à leurs aspects théoriques. Les méthodes de stabilité proposées ne tiennent pas compte de l’influence du choix de l’algorithme de classification. Récemment, Ben-David et von Luxburg [7] et Ben-David et al. [8] ont montré que si la fonction objectif d’un algorithme de classifica-tion à centre possède un optimum unique et que si la taille des données est importante,

(12)

alors, même si la partition étudiée n’est pas valide, elle peut être stable. Par ailleurs, si la fonction objectif possède plusieurs optimums locaux, alors la partition devient instable. Dans ces analyses théoriques, les données à analyser ne sont pas considérées comme des populations complètes à analyser mais comme des échantillons tirés d’un espace de données, qui est de taille infinie, et muni d’une distribution de probabilité inconnue. En partant de cette modélisation, Ben-David et von Luxburg [7] définissent une notion générale de stabilité d’une partition. Ensuite, ils introduisent la notion d’al-gorithme “risque-convergent” et montrent par la suite que ce type d’ald’al-gorithme est stable sur n’importe quelle partition où l’optimum est unique et instable dans le cas contraire. Ces conclusions ont été reprises par Bertrand et al. [11], où elles ont été illustrées par des simulations sur des mélanges de lois gaussiennes ainsi que sur des données simulées uniformément. Très récemment Shamir et Tishby [43, 42] ont proposé une solution possible au problème soulevé par Ben-David et von Luxburg [7]. La solu-tion proposée consiste à multiplier le critère d’instabilité par la racine carré de la taille de l’échantillon. Shamir et Tishby [43] [42] ont montré formellement, pour une classe d’algorithmes de classification, qu’en normalisant ainsi les mesures de stabilité, celles-ci prennent en compte l’importance de la densité des points sur les frontières des classes ainsi que l’importance de la variance de chacune des classes de la partition étudiée.

Un des problèmes majeurs en classification automatique est qu’il n’existe pas une définition précise de la notion de classe. La plupart des méthodes de validation fondées sur le critère d’adéquation sont le plus souvent basées sur la mesure de la dispersion des points entre les classes et dans les classes. Ainsi, ces méthodes favorisent généralement les partitions ayant une structure en classes sphériques et convexes. Cependant, la di-versité des données recueillies dans différentes disciplines scientifiques montre que la structure des classes est souvent beaucoup plus complexe. Les mesures de stabilité d’une partition, proposées dans la littérature, ne supposent pas d’avance une forme géométrique précise des classes. Cet aspect est plutôt déterminé par le critère de la méthode de classification utilisée. Ainsi, l’approche basée sur le critère de stabilité possède l’avantage d’être plus efficace pour identifier des structures en classes plus di-verses et plus complexes. Par ailleurs, la majorité des méthodes de stabilité proposées utilisent des valeurs globales, i.e. elles servent essentiellement à informer l’utilisateur si la partition étudiée est globalement stable (valide) ou non. D’autre part, peu d’attention

(13)

a été accordée aux classes elles-mêmes de la partition étudiée. L’analyse de la validité de chaque classe est utile. Cette analyse met à la disposition de l’utilisateur des infor-mations supplémentaires capables de faciliter l’interprétation typologique des classes d’une partition. A titre d’exemple, si un algorithme de classification fournit une parti-tion contenant une classe très compacte, ceci signifie qu’il existe une forte ressemblance entre les objets de cette classe. Dans le même sens, si une partition contient deux classes faiblement isolées entre elles, alors ils existent des objets de ces deux classes qui possèdent une ou plusieurs propriétés typologiques communes aux deux classes. L’intérêt de ce type d’analyse devient plus important lorsque les données sont de forte dimensionnalité et lorsque la visualisation plane des données est impossible.

L’objectif principal de ce travail de recherche est de proposer, en utilisant le critère de stabilité, une stratégie générale de validation d’une partition en étudiant les aspects de cohésion et d’isolation des classes. Cette stratégie vise à améliorer l’analyse de stabilité d’une partition en montrant que celle-ci s’explique par les aspects de cohésion et d’iso-lation des classes, et aussi par les propriétés héritées par un individu de sa propre classe.

Dans un premier chapitre, nous exposons les principaux indices mesurant l’adéquation et qui ont eu une importance de plus en plus accrue dans la littérature. Nous présentons les indices de Cali`nski et Harabasz [13], Krzanowski et Lai [31], Silhouette [40], Jump [45] ainsi que la procédure Gap statistique de Tibshirani et al. [48]. Dans un deuxième chapitre, nous présentons les méthodes de validation fondées sur le critère de stabilité d’une partition.

En utilisant les règles de stabilité, proposées par Bertrand et Bel Mufti [10], nous définissons dans le troisième chapitre nos indices de cohésion et d’isolation d’une parti-tion et de ses classes. Nous illustrons l’utilité théorique de ces indices en montrant que la cohésion et l’isolation d’une partition peuvent être décomposées en fonction de l’iso-lation et de la cohésion d’une classe. Nous montrons également que d’autres indices de stabilité, tel que l’indice de Rand et l’indice de Jaccard [27], sont aussi décomposables en fonction de l’isolation et de la cohésion des classes d’une partition.

(14)

d’une partition, nous définissons des mesures de lien entre objets et classes d’une parti-tion, parmi lesquelles nous citons l’indice de filiation d’un objet à une classe. Cet indice estime le pourcentage de propriétés héritées par un objet d’une classe donnée. A la fin de ce chapitre, nous montrons que la cohésion ainsi que l’isolation d’une classe sont décomposables en fonction de cet indice de filiation des objets.

Dans le dernier chapitre, nous définissons notre stratégie de validation basée sur l’estima-tion de la cohésion et de l’isolation des classes. Ensuite, nous présentons des illustrations de notre stratégie de validation sur des jeux de données réelles et simulées. A la fin de ce chapitre, nous présentons des simulations intensives visant à comparer notre stratégie de validation aux autres méthodes de validation en testant son efficacité en ce qui concerne la recherche du ou des bon(s) nombre(s) de classes.

(15)

Chapitre 1

Revue des m´

ethodes de validation

d’un partitionnement fond´

ees sur le

crit`

ere d’ad´

equation

Plusieurs méthodes de classification de différents types ont été proposées et sont actuel-lement toujours employées pour l’analyse de données recueillies dans diverses disciplines scientifiques. Parallèlement, relativement peu d’attention a été accordée à la proposition de méthodes générales de validation des résultats obtenus par ces méthodes. La première approche empirique qui a été proposée en validation d’une classification consiste à définir un indice d’adéquation entre la structure en classes et l’ensemble de données étudiées. Ces méthodes sont généralement basées sur le calcul de critères évaluant la disper-sion intra-classes et la disperdisper-sion inter-classes. Quelques revues de la littérature ont été proposées sur la validation en utilisant des critères d’adéquation parmi lesquelles nous citons l’article de Milligan et Cooper [37].

Dans ce chapitre, nous nous proposons de présenter des méthodes de validation évaluant les critères de cohésion et d’isolation d’une partition en utilisant des indices mesurant la dispersion des points dans les classes et la dispersion des points entre les classes. Les critères que nous présentons par la suite diffèrent essentiellement par leurs fa¸cons de mesurer ces deux types de dispersion. Nous commen¸cons par présenter le critère de Cali`nski et Harabasz [13] ainsi que celui de Krzanowski et Lai [31] qui sont classés comme les meilleurs critères d’adéquation parmi les 30 critères testés dans l’article de

(16)

Milligan et Cooper [37]. Ces deux critères reposent sur le calcul de la variance dans les classes et la variance entre les classes. Nous présentons également les approches de validation Silhouette [40], Jump [45] et Gap statistique [48] qui ont proposé une fa¸con originale pour mesurer la dispersion des points dans les classes d’une partition.

Dans ce chapitre, ainsi que dans les chapitres qui suivent, nous notons X l’ensemble (de référence) des objets à classifier, n la taille de X, P une partition de X en k classes, q le nombre de variables décrivant les objets de X et C une classe arbitraire de la partition P . Nous désignerons indifféremment les éléments de l’ensemble X soit par le terme individu soit par le terme objet.

1.1 Indice de Cali`

nski et Harabasz

Partant de l’idée qu’une partition valide est une partition présentant un bon niveau de cohésion ainsi qu’un bon niveau d’isolation, Cali`nski et Harabasz [13] ont proposé un rapport pondéré des inerties inter-classes et intra-classes notés respectivement par Bk

et Wk. La quantité Wk est la somme des carrés des distances séparant les objets de X

aux centres de leurs propres classes. Alors que la quantité Bk est égale à la somme des

carrés des distances séparant les centres de gravité de chaque classe au centre de gravité de l’ensemble du nuage de points. Ces deux quantités sont définies ainsi :

Wk(P ) = k X j=1 X i∈Cj d(xi, gj)2, Bk(P ) = 1 n k X j=1 njd(gj, g)2.

avec g le centre de gravité de l’ensemble de données, gj le centre de gravité de la classe

Cj, xi l’individu num´ero i (i = 1, ..., n) et nj le cardinal de la classe Cj. L’indice de

Cali`nski et Harabasz [13] évaluant conjointement les critères isolation et cohésion d’une partition P de X est défini par l’expression suivante :

CH(P ) = Bk(P )/(k − 1) Wk(P )/(n − k)

(17)

D’après l’expression de l’indice CH, plus les classes sont compactes plus l’inertie intra-classes (Wk) a tendance à diminuer et plus les classes sont isolées plus l’inertie

inter-classes (Bk) a tendance `a augmenter. Ainsi une forte valeur de CH indique un bon

niveau de cohésion ainsi qu’un bon niveau d’isolation de la partition étudiée. L’indice CH est à double usage : il est utilisé pour valider le choix du bon nombre de classes k, mais aussi pour comparer deux ou plusieurs partitions obtenues par différentes méthodes de classification. Soit Ω un ensemble de partitions à comparer : par exemple, Ω peut être un ensemble de partitions ayant le même nombre de classes mais obtenues par des méthodes de classification différentes. Mais Ω peut aussi être un ensemble de partitions obtenues par la même méthode de classification mais ayant des nombres de classes différents. La meilleure partition P? _{au sens de l’indice CH est :}

P? = arg max

P ∈Ω

CH(P ). (1.2)

L’indice CH est le plus performant selon les tests effectués par Milligan et Cooper [37]. Toutefois, celui-ci possède deux inconvénients majeurs. Le premier inconvénient est que cet indice n’est pas défini dans le cas où k = 1. Il est, par conséquent, incapable d’identifier le cas d’absence de structure en classes. Le second inconvénient est que, vu son expression mathématique basée sur le calcul de variance, cet indice a tendance à favoriser les classes ayant une forme sphérique et à défavoriser les classes ayant une structure allongée ou non convexe.

1.2 Indice de Krzanowski et Lai

Tout comme l’indice CH, l’indice proposé par Krzanowski et Lai [31] utilise la variance dans les classes Wk mais en évaluant son évolution par rapport aux partitions en k − 1

et en k + 1 classes. Plus précisément, Krzanowski et Lai [31] ont proposé un indice, validant essentiellement le choix du nombre de classes, basé sur le calcul d’une différence pondérée de l’inertie intra-classes lorsque les données sont partitionnées en k, en k − 1 et en k + 1 classes. L’indice proposé est défini ainsi :

(18)

KL(Pk) = |

DIF F (k) DIF F (k + 1)|, avec

DIF F (k) = (k − 1)2/qWk−1− k2/qWk.

A noter que cette quantité fait intervenir la dimension q de l’ensemble des données. Soit Ω un ensemble de partitions de X, noté Pk (k = 2, . . . , kmax) ayant des nombres

de classes différents et obtenues par une même méthode de classification. La partition ayant le nombre optimal de classes au sens de l’indice KL est :

Pk? = arg max

Pk∈Ω

KL(Pk).

De même que l’indice CH, l’indice KL ne peut pas identifier le cas d’absence de struc-ture en classes. Toutefois, l’indice KL est mieux adapté que l’indice CH pour valider une partition ayant une structure en classes allongées (cf. Bertrand et al. [6]). Par ailleurs, vu son expression mathématique reposant uniquement sur la dispersion intra-classes, l’indice KL aurait tendance à être moins performant lorsque la partition à valider contient des classes de faible isolation.

1.3 Statistique Silhouette

La statistique Silhouette, proposée par Rousseeuw [40], est aussi fondée sur l’évaluation des critères de dispersion intra-classes et inter-classes. Etant donné un objet xj de Ci,

l’indice Silhouette fait intervenir une première quantité qui mesure la moyenne des distances séparant l’objet xj des autres objets de sa propre classe (i.e. la cohésion

autour du point xj) : a(xj) = 1 nCi − 1 X xt∈Ci d(xj, xt).

(19)

aux autres classes, soit b(xj) = min s6=i 1 nCs X xt∈Cs d(xj, xt).

o`u d(xj, xt) est la distance entre les objets xj et xt. La quantit´e a(xj) est la moyenne

des distances s´eparant l’objet xj des autres objets de sa propre classe. Par contre, la

quantit´e b(xj) est la moyenne des distances entre l’objet xj et les objets de la classe la

plus proche de xj. La statistique Silhouette, mesurant conjointement les deux crit`eres

d’isolation et de coh´esion, propos´ee par Rouseeuw [40] est la suivante :

Silhouette(Pk) = 1 n n X j=1 b(xj) − a(xj) max{b(xj), a(xj)} . (1.3)

Selon cette m´ethode, la meilleure partition est celle maximisant la valeur de Silhouette(Pk).

Cette quantité peut être décomposée de la manière suivante :

Silhouette(Pk) = 1 n n X j=1 b(xj) max{b(xj), a(xj)} − 1 n n X j=1 a(xj) max{b(xj), a(xj)} (1.4) = 1 n k X s=1 X xj∈Cs b(xj) max{b(xj), a(xj)} | {z } (1) − 1 n k X s=1 X xj∈Cs a(xj) max{b(xj), a(xj)} | {z } (2) (1.5)

D’après la relation 1.5 nous concluons que la statistique Silhouette se décompose en deux quantités. Une première quantité qui mesure la dispersion inter-classes, ou encore l’isolation entre les classes, et une deuxième quantité qui mesure la dispersion intra-classes, en d’autres termes la cohésion des classes. Si Ω est l’ensemble de partitions à comparer, la meilleure partition au sens de l’indice Silhouette est :

P? = arg max

P ∈Ω

Silhouette(P ).

Cette statistique est à double usage : elle peut être utilisée pour valider le nombre de classes mais aussi pour comparer plusieurs partitions obtenues par des méthodes de classification différentes.

(20)

1.4 Indice Jump

L’indice J ump, proposé par Sugar et James [45], rejoint le principe de l’indice KL dans la mesure où il compare la dispersion des points dans les classes de deux partitions n’ayant pas le même nombre de classes. Toutefois, l’indice J ump possède une originalité par rapport à l’indice KL dans la mesure où il est défini dans le cas où k = 1 et donc il est apte à identifier le cas d’absence de structure en classes. A noter que l’indice J ump fait aussi intervenir la dimension de l’ensemble des données X. L’indice J ump mesurant la dispersion intra-classes est fondé sur la quantité :

Distorionk = 1 nq n X i=1 min j=1,...,kd(xi, cj) (Distortion0 = 0), (1.6)

o`u d(xi, cj) est la distance euclidienne s´eparant l’objet xi du centre cj de la classe Cj.

L’indice J ump est fondé essentiellement sur l’idée d’évaluer l’importance de l’écart de la dispersion intra-classes entre les partitions en k et en k − 1 classes :

J ump(Pk) = Distorion −γ

k − Distorion −γ

k−1. (1.7)

Sugar et James [45] conseillent d’utiliser une valeur de γ ´egale `a q

2. La partition ayant le nombre optimal de classes selon le crit`ere J ump est :

Pk∗ = arg max

Pk∈Ω

J ump(Pk).

1.5 M´

ethode Gap Statistique

Tout comme les autres méthodes que nous avons présentées dans ce chapitre, la méthode Gap statistique (cf. Tibshirani et Walther [47]) repose sur le calcul de la dispersion des points dans les classes de la partition étudiée. Par ailleurs, ce qui distingue la méthode Gap statistique des autres méthodes c’est sa fa¸con d’interpréter la quantité Wk. Plus précisément, la méthode Gap statistique consiste à comparer la dispersion

intra-classes Wk obtenue sur les données de référence X à la dispersion intra-classes

estimée sous l’hypothèse d’un modèle nul exprimant l’absence de structure en classes. Plusieurs modèles nuls exprimant l’absence de structure en classes sont possibles (cf. Gordon [21]). Parmi ces modèles, Tibshirani et Walther [47] proposent d’utiliser les

(21)

deux modèles suivants : le premier consiste à simuler aléatoirement et uniformément n points dans l’hyper-rectangle ayant pour bornes les valeurs minimales et maximales de chacune des variables descriptives. Le second modèle consiste à simuler aléatoirement et uniformement des points en se référant à l’orientation des composante principales des données de référence. Les étapes décrivant le processus de génération des points selon ce modèle sont les suivantes :

– Centrer les colonnes de la matrice X par rapport `a leurs moyennes, soit Y la matrice r´esultante.

– Effectuer la d´ecomposition en valeurs singuli`eres de la matrice Y : Y = U D VT. – Transformer la matrice Y : Y0 = Y V .

– Générer uniformement un ensemble de n points dans l’hyper-rectangle ayant pour bornes les valeurs minimales et maximales de chacune des colones de Y0. La matrice résultante est Z0.

– Transformer la matrice Z0 : Z = Z0 VT.

L’indice Gap statistique proposé pour valider le choix du nombre de classes est essen-tiellement une normalisation de la quantité Wk par rapport à un model nul exprimant

l’absence de structure en classes. Le processus de classification et de simulation décrivant la méthode Gap statistique est résumé par l’algorithme 1.

Algorithme 1 : M´ethode Gap statistique

Entr´ees :

• X : ensemble de données de référence à classifier, • kmax : nombre maximum de classes à tester,

• A : algorithme de classification,

• H0 : hypoth`ese nulle exprimant l’absence de structure en classes,

• Zb

H0 : données numéro b (b = 1, . . . , B) simulées sous H0.

Sorties : k∗ : le nombre optimal de classes .

1: pour k = 1 `a kmax faire

2: Classifier les donn´ees X en k classes, en utilisant l’algorithme A, et calculer la dispersion intra-classes Wk.

3: Classifier, en utilisant l’algorithme A, chacun des jeux de donn´ees Z_Hb₀ en k classes et calculer, pour chacune des partitions obtenues, l’inertie intra-classes Wk,b.

(22)

4: Calculer l’´ecart : Gap(k) = (1/B) B X b=1 log(Wk,b) − log(Wk). 5: Calculer la moyenne l = _B1 PB

b=1log(Wk,b) et en déduire l’écart-type corrigé :

sk = v u u t(1 + 1 B) 1 B B X b=1 log(Wk,b) − l 2 . 6: fin pour

7: D´eduire le nombre optimal de classes : k∗ = min

k=1,...,kmax

{k | Gap(k) ≥ Gap(k + 1) − sk+1}.

1.6 Conclusion

Un des problèmes majeurs en classification automatique est qu’il n’existe pas de définition exacte de la notion de classe. Intuitivement, définir une classe consiste à définir un critère qui garantit l’isolation et la cohésion de celle-ci. Les indices présentés dans ce chapitre reposent sur une définition contraignante de la notion de classe. Selon ces critères une classe valide est constituée par des individus plus proches les uns des autres que n’im-porte quel autre individu d’une autre classe. Ainsi géométriquement, ces indices auront tendance à favoriser les structures en classes sphériques, ce qui n’est pas réellement toujours le cas. De plus, ces méthodes ne tiennent pas compte du critère utilisé pour classifier l’ensemble de données de référence. Par exemple il est contradictoire, de va-lider une partition obtenue par la méthode de lien minimum, capable d’identifier des structures en classes allongées et même non convexes, par l’indice de CH favorisant les structures en classes sphériques. Ainsi, il s’avère nécessaire de développer de nouvelles approches reposant sur un critère de validation moins contraignant comme le critère de stabilité d’une partition que nous nous proposons de présenter dans le chapitre suivant.

(23)

Chapitre 2

Revue des m´

ethodes de validation

d’un partitionnement fond´

ees sur le

crit`

ere de stabilit´

e

Dans ce chapitre nous nous intéressons à l’approche empirique de validation en classifi-cation qui consiste à estimer la stabilité des résultats d’une classification. Une classifi-cation est généralement supposée stable si en effectuant des petits changements sur les données, les classes initiales restent inchangées. Une revue de la littérature sur la stabi-lité en classification a été proposée dans Cheng et Milligan [15]. Mais depuis, plusieurs nouvelles approches de validation mesurant la stabilité des résultats, ont été introduites, comme par exemple celles de Ben-Hur et al. [9], Tibshirani et Walther [47], Kapp et Tibshirani [29], Roth et al. [39], et Bertrand et Bel Mufti [10]. Les méthodes de valida-tion relevant de cette approche peuvent être divisées en trois types.

Le premier type de méthodes, utilisant le critère de stabilité d’une partition, est fondé sur la comparaison de la co-appartenance des paires d’objets de l’ensemble de données de référence. Parmi ces méthodes, nous citons celles de Ben-Hur et al. [9], Tibshirani et Walther [47], Bertrand et Bel Mufti [10] (cf. section 2).

Le deuxième type de méthode consiste à comparer l’appartenance de chacun des objets des données de référence en utilisant la méthode hongroise (cf. Kuhn [32], Roth et al. [39], Volkovich et al. [49]). La méthode hongroise est utilisée par ce type d’approche

(24)

afin de résoudre le problème d’affectation aléatoire des libellés des classes qui, le plus souvent, est dû à la sensibilité des méthodes de classification utilisées aux perturbations auxquelles les données sont soumises (cf. section 3).

Enfin, une troisième approche consiste à mesurer l’influence d’un individu sur la sta-bilité d’une partition. Cette approche a été proposée par Cheng et Milligan [14]. En étudiant l’effet de l’absence d’un individu sur la stabilité d’une partition, cette approche vise à diviser l’ensemble des objets de la population en trois groupes : groupe d’indi-vidus inhibiteurs, groupe d’indid’indi-vidus facilitateurs et groupe d’indid’indi-vidus sans influence (cf. section 4).

Contrairement à l’approche fondée sur le critère adéquation, les méthodes de valida-tion fondées sur le critère de stabilité d’une partition ne supposent pas une définition particulière de la notion de classe. Les propriétés des classes résultent du critère de la méthode de classification utilisée. La question qui se pose à ce niveau est “existe-il un lien entre le critère de stabilité d’une partition et le critère de la méthode de classi-fication utilisée pour retrouver les classes dans l’ensemble de données de référence ” ? Récemment, Ben-David et von Luxburg [7] ont montré que lorsque les données sont de très grande taille, ils existent des cas où les résultats de certaines méthodes de classi-fication sont stables même si les données sont sans structure. Ainsi Ben-David et von Luxburg [7] ont mis en cause la fiabilité des résultats des méthodes de validation fondées sur le critère de stabilité d’une partition. Plus récemment, Shamir et Tishby [43, 42] ont proposé une solution simple et originale à ce problème. Cette solution consiste à normaliser le critère de stabilité par rapport à la taille des données. Plus précisemment, la normalisation qu’ils ont proposée consiste à multiplier l’indice d’instabilité par la racine carré de la taille des échantillons.

La plupart des procédures de validation, que nous nous proposons de présenter dans ce chapitre, sont exposées comme étant des méthodes de détermination du bon nombre de classes. Ces méthodes sont présentées ainsi car, dans la littérature, le problème le plus abordé par ces méthodes est celui de la recherche du bon nombre de classes. Toutefois, la plupart d’entre elles peuvent aussi servir à comparer des partitions obtenues par des méthodes de classification différentes.

(25)

Par abus de notation, nous désignons par X la matrice individus-variables représentant l’ensemble de données de référence contenant n objets décrits par q variables Xj (i.e.

Xj est la j`eme colonne de la matrice X). Nous notons aussi Classe(x) le libell´e, i.e. le

num´ero de classe, d’un objet x ∈ X dans la partition P .

2.1 M´

ethodes de perturbation des donn´

ees

Selon l’approche fondée sur la stabilité, une partition est stable si en perturbant un peu les données, les classes restent inchangées ou ne changent pas beaucoup. Ainsi, le choix de la technique de perturbation est crucial pour cette approche. Nous verrons dans le chapitre expérimentation que le choix de la technique de perturbation peut influencer notablement les résultats fournis par le critère de stabilité.

Dans notre contexte, la perturbation de l’ensemble de données consiste à effectuer une légère modification sur l’ensemble X des individus. Dans ce qui suit, nous présentons 2 types de perturbations, à savoir le réechantillonnage et le bruitage.

Rééchantillonnage des données

Il existe deux fa¸cons de perturber les données en les rééchantillonnant. La première consiste à éliminer au hasard plusieurs objets de l’ensemble X (cf. Ben-Hur et al. [9]). Plus précisément, cette technique consiste à tirer, au hasard et sans remise, m (m < n) objets de l’ensemble X. Chaque objet de X a la même probabilité 1

n d’être choisi. Dans certains cas, l’élimination peut être effectuée à tour de rôle sur un seul individu de l’ensemble X : c’est, par exemple, le cas de l’approche de Cheng et Milligan [15]. La seconde fa¸con consiste à appliquer le principe de la validation croisée. Cette tech-nique consiste à diviser au hasard l’ensemble X des données de référence en deux blocs de tailles pouvant être inégales. Un des blocs constitue l’échantillon d’apprentissage sur lequel est formulé le modèle et sont élaborées les règles de décision ou d’affectation. L’autre bloc constitue l’échantillon test sur lequel sont appliquées et estimées les per-formances du modèle. L’utilisation de la validation croisée pour valider une partition a été introduite par Breckenridge [12], puis reprise par d’autres auteurs comme Kapp et

(26)

Tibshirani [29] qui l’ont utilis´ee pour d´eterminer le bon nombre de classes.

Bruitage des donn´ees

Une autre manière de perturber les données consiste à faire bouger légèrement l’en-semble de tous les points du nuage formé par la matrice X. Soit xij la coordonnés de

l’objet i (i = 1, . . . , n) sur la j`eme _{dimension (j = 1, . . . , q) et sd(X}

j) l’´ecart-type de la

variable Xj. L’op´eration de bruitage consiste, par exemple, `a ajouter une valeur

dis-tribuée uniformément dans l’intervalle [−5%sd(Xj), +5%sd(Xj)] à chacune des valeurs

xij de la colonne j de la matrice X.

2.2 Stabilit´

e mesur´

ee `

a l’aide d’indice de

co-apparte-nance

Dans ce paragraphe nous présentons les méthodes de validation évaluant la stabilité d’une partition en comparant la co-appartenance des paires d’objets dans deux parti-tions différentes d’une même partie S de l’ensemble X. Les procédures de validation, présentées dans la suite du texte, sont basées sur des indices de co-appartenance mesu-rant la similitude entre des partitions obtenues sur des données perturbées.

2.2.1 Approche de Ben-Hur, Elisseef et Guyon

La méthode proposée par Ben-Hur et al. [9] a pour objectif de mesurer la similarité entre deux partitions obtenues sur des échantillons extraits des données de base. Des similarités élevées entre les paires de partitions indiquent la validité de la partition de référence. Pour mesurer la similarité entre deux partitions, plusieurs indices ont été proposés (cf. Hubert et Arabie [27]). Soient deux partitions différentes Q1 et Q2 d’un

mˆeme ensemble S ⊆ X, et soit N11 le nombre de paires d’objets class´es ensemble selon

Q1 et Q2, N10 le nombre de paires d’objets classés ensemble selon Q1 et séparés selon

Q2, N00 le nombre de paires d’objets s´epar´es selon Q1 et Q2 et N01 le nombre de paires

(27)

similarité entre deux partitions, rappelons la définition de l’indice de corrélation, l’indice de Rand et l’indice de Jaccard :

Cor(Q1, Q2) = N11 p(N11+ N10)(N01+ N11) , (2.1) RAND(Q1, Q2) = N11+ N00 N11+ N10+ N01+ N00 , (2.2) J ac(Q1, Q2) = N11 N11+ N10+ N01 . (2.3) Algorithme

En pratique la procédure de validation proposée se résume par l’algorithme 2. Algorithme 2 : Méthode de Ben-Hur et al. [9]

Entr´ees :

• A : algorithme de classification, • N : nombre maximum d’´echantillons, • f : taux d’´echantillonnage.

Sorties : k∗ : nombre optimal de classes.

1: Générer, aléatoirement et sans remise, N échantillons de taille bnf c1 _{de X. La taille}

de N d´epend du nombre T de paires que nous cherchons `a comparer.

2: Tirer, sans remise, T paires d’échantillons de l’ensemble de N échantillons. Ici le nombre T dépend du niveau de précision désiré par l’utilisateur.

4: Partitionner chacun des échantillons figurant dans ces T paires, en k classes, en utilisant la même méthode A de classification.

5: Calculer l’indice de stabilit´e Stabt,k (t = 1, ..., T ) (i.e. l’indice de similarit´e) entre

les T paires de partitions, par exemple, en utilisant l’indice de RAND. A la fin

(28)

de cette ´etape, nous obtenons le vecteur StabT,k de taille T .

6: fin pour

7: Comparer les distributions empiriques des vecteurs StabT,k lorsque k varie. Le

meilleur nombre de classes, k∗, est le plus grand nombre k ayant une distribution de similarit´es concentr´ee sur une valeur proche de 1.

Pour choisir le bon nombre de classes, Ben-Hur et al. [9] définissent une stratégie générale qui consiste à comparer les fonctions de répartition des kmax séries de

va-leurs de similarit´e StabT,k. La meilleure partition est celle ayant le nombre de classes

le plus élevé tout en étant globalement stable. En pratique, nous pouvons utiliser le critère de la moyenne de ces séries de valeurs et choisir ainsi le bon nombre de classes :

k∗ = max k=2,...,Kmax {k : 1 T B X t=1 Stabt,k > seuil},

où seuil est une valeur de stabilité à partir de laquelle une partition peut être considérée comme étant stable, par exemple, seuil = 0.9.

2.2.2 M´

ethode Prediction strength

La méthode de Ben-Hur et al. [9], comme l’indice Prediction strength proposée par Tibshirani et Walther [47], repose sur la comparaison de la co-appartenance des paires d’individus mais en appliquant la technique de la validation croisée. L’objectif principal de cette méthode est d’identifier le bon nombre de classes. La méthode proposée est décrite ci-dessous selon la procédure de l’algorithme 3. Le nombre optimal de classes est déterminé à l’étape 11 de l’algorithme dans laquelle la moyenne de l’indice stabilité est comparée à une valeur seuil. Tibshirani et Walther [47] n’ont pas défini de stratégie objective qui permette d’estimer la valeur du paramètre seuil. Ce paramètre dépend essentiellement des exigences de l’utilisateur et varie généralement entre 0.8 et 0.95. Algorithme 3 : Méthode Prediction strength

Entr´ees :

(29)

• A : algorithme de classification, • T : nombre total d’it´erations,

• seuil : une valeur entre 0.8 et 0.95 préalablement définie par l’utilisateur, • fte : fraction de l’échantillon test.

2: pour t = 1 `a T faire

3: Diviser aléatoirement l’ensemble de données X en deux sous-échantillons Ste

et Sap selon la fraction fte.

4: Classifier, en utilisant la m´ethode A, Sap en k classes. La partition obtenue est

Qap = C1ap, . . . , C ap k .

5: Classifier, en utilisant la mˆeme m´ethode A, Ste en k classes. La partition

obte-nue est Q1_te = C₁te, . . . , C_kte.

6: Classifier chaque objet de Ste en l’affectant au centre de la classe de la partition

Qap qui lui est la plus proche. La partition obtenue est not´ee Q2te.

7: Soient N11(Cite) le nombre de paires d’objets de la classe Cite (i = 1, . . . , k)

qui sont class´es ensemble dans la partition Q2

te et ntei la taille de la classe Cite.

Calculer l’indice Prediction strength :

pst(k) = min Cte i ∈Q1te N11(Cite) nte i (ntei − 1)/2 . 8: fin pour 9: Calculer la moyenne ps_k= _T1 T P t=1 pst_{(k) et l’´}_{ecart-type sd} k= _T1 T P t=1 (pst_{(k) − ps} k)2. 10: fin pour

11: D´eduire le nombre optimal de classes : k∗ = max

k=1,...,kmax

{k | ps_k+ sdk ≥ seuil}.

La quantité pst(k), calculée à l’étape 7, est la proportion de paires d’objets de la classe Cte

i qui sont class´es ensemble dans la partition Q2te. Nous verrons dans le chapitre

suivant que cette quantit´e correspond au minimum des indices de coh´esion des classes de la partition Q1

(30)

2.2.3 M´

ethode Clest

La méthode Clest , proposée par Dudoit et Fridlyand [16], constitue un compromis entre la méthode Gap statistique et la méthode Prediction strength. En utilisant la technique de la validation croisée, le principe de cette méthode se rapproche de celui de la méthode Prediction strength. D’autre part, et comme la méthode Gap statistique, elle interprète la valeur de son critère de stabilité par rapport à un modèle nul exprimant l’absence de structure en classes. Les modèles nuls applicables avec cette méthode sont les mêmes que ceux utilisés par la méthode Gap statistique. Le processus de validation de cette méthode est résumé dans l’algorithme 4.

Algorithme 4 : M´ethode Clest

Entr´ees :

• X : ensemble de données de référence à classifier, • Kmax : nombre maximum de classes à tester,

• A : algorithme de classification, • T : nombre total d’it´erations, • fte : fraction de l’´echantillon test,

• pmax, δmin : deux seuils de significativité prédéfinis par l’utilisateur.

3: Diviser X en deux sous-´echantillons, un ´echantillon apprentissage Sap et un

´echantillon test Ste de taille bnftec.

4: Classifier le sous-´echantillon Sap en k classes en utilisant la m´ethode A. La

partition r´esultante est not´ee Qap.

5: Construire une règle de classification en appliquant une analyse diagonale linéaire discriminante (classifieur na¨ıve de Bayes2) à la partition Qap. Ensuite,

classifier le sous-´echantillon Ste en utilisant cette r`egle de classification. La

partition obtenue est not´ee Q1 te.

6: Classifier Ste en k classes en utilisant la m´ethode A. La partition r´esultante est

Q2 te.

(31)

7: Comparer les deux partitions Q1

te et Q2te en utilisant l’indice de Rand [18]. Soit

RANDt,k la valeur de cet indice pour l’it´eration t et pour le nombre de classes

k.

8: fin pour

9: fin pour

10: Une fois que toutes les valeurs RANDt,k sont obtenues, calculer pour chaque k la

m´ediane M ek= median(RAND1,k, ..., RANDt,k, ..., RANDT ,k).

11: Pour B ensembles de données de référence générées selon un modèle nul préalablement défini, refaire toutes les étapes précédentes. Ainsi pour chaque jeu de données de référence et pour chaque k = 1, ..., kmax, on obtient M e∗b,k, où b désigne le bème

ensemble de données de référence (b = 1, ..., B).

12: Soient M e∗ k = _B1 PB_b=1M e∗b,k, pk = card{M e∗_b,k|M e∗ b,k≥M ek} B , et l’´ecart δk = M ek − M e∗

k. La proportion pk ici repr´esente le niveau de signification empirique relatif `a

la valeur M ek.

13: Soit l’ensemble K = {2 ≤ k ≤ kmax : pk ≤ pmax, δk ≥ δmin}. Si l’ensemble K est

vide alors le nombre optimal de classes est k∗ = 1. Sinon, k∗ = arg max

k∈K

δk.

Soient x = x1, . . . , xq les q coordonn´ees d’un objet x de Ste, cj = cj1, . . . , cjq les

coor-donn´ees du centre de la jeme` _{classe de la partition Q}

ap, et sdj = sd1, . . . , sdqla diagonale

de la matrice variances-covariances de la jème classe. L’opération de classification des objets du sous-échantillon Ste, évoquée à l’étape 5 de l’algorithme 4, est réalisée ainsi :

Classe(x) = arg min

1≤j≤k q X i=1 (xi− cji)2 sd2 j . (2.4)

2.2.4 Indice In-group proportion

La méthode In-group proportion proposée par Kapp et Tibshirani [29], utilise la tech-nique de la validation croisée. Toutefois, la mesure de stabilité proposée par ces au-teurs est originale dans la mesure où celle-ci implique dans son expression un critère d’adéquation de la partition aux données de référence. Ainsi, l’indice proposé appelé IGP est une forme de compromis entre l’approche stabilité et l’approche adéquation. Soient xj un objet de X, et N N (xj) l’objet de X le plus proche de xj et différent de

(32)

IGPi =

card{xj|Classe(xj) = Classe(N N (xj)) = i}

card{xj|Classe(xj) = i}

. (2.5)

L’indice IGP d’une classe i est égale à la proportion d’éléments de la classe i tels que leur plus proche voisin appartient à la classe i. Il est clair, selon l’équation 2.5, que l’indice IGP prend en compte le facteur distance entre les éléments d’une même classe et les éléments qui ne sont pas dans une même classe. Les étapes décrivant la méthode In-group proportion sont résumées dans l’algorithme 5.

Algorithme 5 : M´ethode In-group proportion

Entr´ees :

• seuil : un seuil entre 0 et 1 pr´ealablement d´efini par l’utilisateur. Sorties : k∗ : nombre optimal de classes.

1: Diviser aléatoirement T fois l’ensemble X en deux sous-échantillons d’apprentissage et de test. Les résultats de chaque division sont un échantillon d’apprentissage St

apde

taille map et un ´echantillon test Stet de taille mte, avec map+ mte = n et t = 1, ..., T .

4: Classifier St

ap en k classes en utilisant la m´ethode A. La partition obtenue est

not´ee Qt ap.

5: Affecter chaque élément de S_tet au centre de la classe de la partition Qt_ap qui lui est le plus proche. La partition obtenue est notée Qt

te.

6: Calculer les IGPi (i = 1, ..., k) des k classes de la partition Qtte. Si une classe i

de la partition Qt_te est vide alors IGPi = N A.

7: Soit Vt

k = min

i=1,...,kIGPi. Si au moins une des classes de la partition Q t

te est vide

alors Vt

(33)

8: Affecter chaque objet de X au centre de la classe de la partition Qap qui lui

est le plus proche. Ensuite calculer les IGPi des classes obtenues, et d´eduire la

quantit´e Z1t_k ´egale au minimum de ces IGPi.

9: fin pour

10: fin pour

12: Classifier X en k classes en utilisant l’algorithme A. La partition obtenue est not´e Pk.

13: Affecter chaque objet de X au centre de la classe de Pk qui lui est le plus proche.

Calculer les IGPi des classes de la partition obtenue, et d´eduire la quantit´e Z2k

´egale au minimum de ces IGPi. Calculer l’indice :

Ik = 1 T T X t=1 V_kt− Z1t k) + Z2k. 14: fin pour

15: D´eduire le nombre optimal de classes : k∗ = max

k=1,...,Kmax

{k|Ik≥ seuil}.

2.3 Stabilit´

e mesur´

ee par comparaison de partitions

avec la m´

ethode hongroise

Dans cette section nous présentons deux approches de validation utilisant la méthode hongroise. Ces approches ont pour objectif d’estimer la proportion d’objets qui sont mal classés. Pour savoir si, après perturbation des données, un objet est classé avec sa propre classe ou non, il faut tout d’abord résoudre le problème de changement aléatoire des libellés des classes. Ce problème peut se résoudre par la méthode hongroise (cf. Kuhn [32]).

2.3.1 M´

ethode de Roth, Lange, Braun et Buhmann

Tout comme les procédures de validation Prediction strength et In-group proportion, la méthode proposée par Roth et al. [39] utilise le schéma de réechantillonnage de la

(34)

validation croisée. Cette approche se distingue essentiellement des autres approches par sa fa¸con de normaliser la mesure d’instabilité proposée.

Mesure d’instabilit´e

Selon cette approche, les données sont divisées en deux sous échantillons, un échantillon d’apprentissage Sap (de taille map) et un échantillon test Ste (de taille mte). La mesure

d’instabilité de base proposée par Roth et al. [39] est une dissimilarité entre la partition obtenue sur Ste en utilisant un algorithme de classification A et la partition obtenue

après affectation des individus de l’échantillon test aux centres des classes de la par-tition de l’échantillon d’apprentissage. La règle d’affectation est définie en se basant sur la partition Ak(Sap), par exemple, en affectant chaque individu à la classe dont le

centre lui est le plus proche. Nous d´esignons par αap(Ste) ∈ {1, ..., k}mte, cette op´eration

d’affectation. La mesure d’instabilité utilisée par Roth et al. [39] est définie par :

Ins00 Ak(Ste), αap(Ste) = 1 mte mte X i=1 I{yi 6= αap(xi)}, (2.6)

où yi est le libellé de l’individu xi de l’échantillon test dans la partition Ak(Ste). Cette

mesure s’interprète comme étant la probabilité empirique que la règle αap prévoit mal

les libell´es des individus de l’´echantillon Ste.

En appliquant un algorithme de classification à deux échantillons, extrait d’un même ensemble X, il est très probable d’obtenir globalement les mêmes classes mais, ce qui peut changer, ce sont les libellés des classes. Par exemple, si nous appliquons la méthode de classification k-means deux fois à un même ensemble de données X, il est possible que le libellé d’une classe donnée ne soit pas le même dans les deux partitions obtenues. Ceci signifie qu’il y a eu une permutation aléatoire des numéros des classes. Si le nombre de classes choisi est k, alors, il existe k! permutations possibles. Soit π l’ensemble de toutes ces permutations possibles, pour résoudre le problème de permutation aléatoire des libellés des classes, il faut procéder à la minimisation de la fonction suivante :

Ins0 Ak(Ste), αap(Ste) = min π Ins 00 Ak(Ste), αap(Ste) . (2.7)

(35)

est égale à 5040. Ainsi l’utilisateur se trouve face à un problème de minimisation d’un niveau de complexité très important. Afin de résoudre ce problème de complexité, Roth et al. [39] appliquent la méthode hongroise (cf. Kuhn [32]).

Normalisation

Pour adapter la mesure d’instabilité proposée (cf. équation 2.7) au problème de valida-tion du nombre de classes, les auteurs proposent une forme particulière de normalisation. Celle-ci est un rapport d’espérance empirique de deux mesures d’instabilité. Soit ρ un prédicteur qui affecte aléatoirement et uniformément les libellés des individus. Alors la normalisation proposée par Roth et al. [39] est la suivante :

Insk = E Ins0(Ak(Ste), αap(Ste)) E Ins0(ρ(Ste, k), αap(Ste)) . (2.8) Algorithme

Nous résumons la méthode de validation proposée par Roth et al. [39] dans l’algorithme 6.

Algorithme 6 : M´ethode de Roth et al. [39]

Entr´ees :

• X : ensemble de données de référence à classifier de taille n, • kmax : nombre maximum de classes à tester,

• α(.) : une r`egle d’affectation,

3: Diviser al´eatoirement l’ensemble X en deux parties Sap et Ste de tailles

(36)

4: Classifier Sap et Ste en k classes en utilisant l’algorithme A.

5: Effectuer l’op´eration αap(Ste).

6: Résoudre le problème de changement aléatoire des libellés entre les partitions Ak(Ste) et αap(Ste).

7: Une fois la correction des libellés des classes est réalisée, calculer Ins0_t(Ak(Ste), αap(Ste)).

8: fin pour

9: Calculer la moyenne Ins0_k = _T1

T

P

t=1

Ins0_t. Normaliser la moyenne Ins0_k en utilisant la méthode de prédiction aléatoire. La valeur résultante est Insk.

10: fin pour

11: Le nombre optimal de classes est : k∗ = arg min

k=1,...,kmax

Insk.

2.3.2 Approche de Volkovich, Barzily et Morozensky

Volkovich et al. [49] ont proposé une approche, utilisant la méthode hongroise, qui prend en compte l’importance de la densité des objets sur les frontières des classes. La méthode proposée est fondée sur la comparaison de la distribution de probabilité des données de référence à la distribution de probabilité des noyaux des classes de la parti-tion à valider. Plus l’écart entre ces deux distributions est faible plus la densité sur les frontières des classes est faible (i.e. les classes de la partition de référence sont isolées). Ainsi, l’indice mesurant cet écart peut être considéré comme une mesure d’isolation entre les classes car il dépend du niveau de séparation des classes. Pour estimer les deux densités de probabilité à comparer, Volkovich et al. [49] ont proposé la méthode des k-plus proches voisins (k-nearest neighbor ). L’utilisation de cette technique est jus-tifiée par son avantage au niveau du choix du paramètre de lissage qui dépend des k plus proches individus de chaque élément de la population étudiée.

En premier lieu, nous introduisons les notations et les définitions relatives à cette ap-proche. Ensuite, nous exposons l’algorithme décrivant le processus de réechantillonnage et de classification de cette méthode de validation.

Notations et d´efinitions

Dans la suite de ce paragraphe, nous introduisons les définitions et les notations nécessaires pour présenter l’algorithme de l’approche de Volkovich et al. [49].

(37)

– D : distribution de probabilité des données de référence ayant la densité de probabilité p(.),

– V : distribution de probabilité des noyaux des classes ayant la densité de probabilité,

g(x) = exp(ap(x)/c(a)), ∀x ∈ X, avec c(a) = X

x∈X

exp(ap(x)),

a est une constante positive qui repr´esente le param`etre de lissage,

– S_j(1) : échantillon numéro j (j = 1, . . . , N ) de X tiré suivant la distribution D, – S_j(2) : échantillon de X tiré suivant la distribution des noyaux V,

– S_j(0) = S_j(1)∪ S_j(2), – Q(1)_kj = Ak(S (1) j ) = C (1) 1j , . . . , C (1) kj , la partition de S (1)

j en k classes, obtenue en

appli-quant l’algorithme de classification A `a S_j(1), – Q(2)_kj = Ak(S (2) j ) = C (2) 1j , . . . , C (2) kj et Q (0) kj = Ak(S (0) j ) = C (0) 1j , . . . , C (0) kj , – |C_ij(.)| : cardinal de la classe C_ij(.), – d(x, y) = ||x − y||r_{, 0 < r ≤ 2,} – C_ij0(1) = S_j(1)∩ C_ij(0), C_ij0(2) = S_j(2)∩ C_ij(0), i = 1, . . . , k.

Tout comme Roth et al. [39], pour retrouver la correspondance entre les libellés des classes, Volkovich et al. [49] appliquent la méthode hongroise. L’indice de base proposé par Volkovich et al. [49] est une distance comparant la partition obtenue sur l’échantillon de référence S_j(1) (tiré suivant D) et la partition obtenue sur l’échantillon noyau S_j(2) (tiré suivant V).

Définition 1 La distance dDis est une distance empirique entre la partition obtenue sur l’échantillon noyau tiré suivant la distribution V, et la partition obtenue sur l’échantillon

(38)

tir´e suivant la distribution D : d Dis(S_j(1), S_j(2)) = 1 k k X i=1 d Dis(C_ij(1), C_ij(2)) = 1 k k X i=1 2 bLi(Cij0(1), C (2) ij0) − bLi(Cij(1), C (1) ij ) − bLi(Cij(2), C (2) ij ) avec : b Li(C (1) ij0, C (2) ij0) = 1 |C_ij0(1)||C_ij0(2)| X x∈C_ij0(1) X y∈C_ij0(2) d(x, y), b Li(C (1) ij , C (1) ij ) = 1 |C_ij(1)|(|C_ij(1)| − 1) X x∈C(1)_ij X y∈C(1)_ij d(x, y), b Li(C (2) ij , C (2) ij ) = 1 |C_ij(2)|(|C_ij(2)| − 1) X x∈C(2)_ij X y∈C(2)_ij d(x, y). Algorithme

Les étapes décrivant le processus d’échantillonnage et de validation proposées par Vol-kovich et al. [49] sont résumées dans l’algorithme 7. Au niveau de l’étape 10, plusieurs techniques de normalisation sont applicables. Parmi ces techniques, nous citons la nor-malisation par rapport à un modèle nul, comme le modèle de l’enveloppe convexe ou le modèle de recouvrement. Ainsi, il est possible d’appliquer la technique d’affectation aléatoire des libellés à la manière de Roth et al. [39]. En ce qui concerne le choix de l’indice de concentration à l’étape 11, Volkovich et al. [49] suggèrent l’utilisation de la moyenne ou du quantile d’ordre 0.25 (q0.25) de la série des valeurs {Inst}.

Algorithme 7 M´ethode de Volkovich et al. [49]

Entr´ees :

• N : nombre d’´echantillons, • m : taille de l’´echantillon,

• Kmax : maximum nombre de classes `a tester,

• A : algorithme de classification,

(39)

• T : nombre d’itérations nécessaires pour atteindre un niveau de convergence donné.

2: pour t = 1 `a T faire 3: pour j = 1 `a N faire 4: S_j(1) = ech(X, m, D). 5: S_j(2) = ech(X, m, V). 6: Calculer Dj = dDis(S (1) j , S (2) j ). 7: fin pour 8: Calculer Inst = _N1 PN j=1Dj. 9: fin pour

10: Normaliser le vecteur {Inst}.

11: Calculer un indicateur de concentration Ik de la s´erie des valeurs {Inst}.

12: fin pour 13: k∗ = arg min

k=1,...,kmax

Ik.

2.4 Mesure de l’influence d’un individu sur la

sta-bilit´

e d’une partition

Cheng et Milligan [15] ont proposé une approche de validation fondée sur la mesure de l’influence d’un individu sur la stabilité d’une structure. Les auteurs définissent deux types de mesures selon qu’il s’agit de la mesure de l’influence externe ou de l’influence interne. Dans le premier cas, les classes sont supposées connues d’avance, alors que dans le second cas, la partition de référence est celle obtenue en effectuant l’opération de classification sur l’ensemble entier des données.

Dans le cas de la mesure de l’influence interne d’un individu, la procédure consiste tout d’abord, à classifier en k classes l’ensemble des données à étudier contenant n objets. Soit Pn la partition de référence ainsi obtenue. Ensuite, nous éliminons un élément i

(40)

de donn´ees qui contient n − 1 individus. Enfin, nous classifions ce nouvel ensemble de donn´ees en obtenant ainsi la partition Pn\i. La mesure de l’influence se fait en mesurant

l’´ecart entre les partitions Pnet Pn\i. Il s’agit de voir si l’absence de l’individu i a affect´e

la structure de Pn. Selon le type de l’influence, l’ensemble des individus est divis´e en

trois groupes, à savoir, un groupe inhibiteur, un groupe facilitateur et un groupe sans influence. Un individu est dit inhibiteur si dans le cas de son absence, l’algorithme de classification arrive mieux à identifier les classes. Cependant, un individu est dit facili-tateur, si dans le cas de son absence l’algorithme de classification découvre moins bien les classes. Pour mesurer l’influence de l’individu i, il existe une variété d’indices dans la littérature mais les auteurs de cet article [15] utilisent l’indice de Hubert et Arabie [27].

2.5 Propri´

et´

es th´

eoriques d’une mesure de stabilit´

e

d’une partition

Dans cette section, nous exposons les principaux travaux théoriques étudiant le lien entre les méthodes de classification à centres, comme la méthode k-means, et le critère de stabilité d’une partition (cf. Ben-David et von Luxburg [7], Shamir et Tishby [43, 42]). Ces travaux montrent que dans certains cas, les méthodes de classification à centres sont insensibles à l’importance de la densité des points sur les frontières des classes. Plus précisément, Ben-David et von Luxburg [7] ont montré, formellement, que lorsque l’optimum du critère de classification est unique et la taille des données est très grande, alors le résultat fourni par un algorithme de classification à centres est stable même si les données sont sans structure. Ce résultat théorique prouvé dans un contexte asymp-totique, a remis en cause la fiabilité de toutes les approches de validation fondées sur le critère de stabilité. En se basant sur ce résultat, Shamir et Tishby [43, 42], ont proposé une normalisation des mesures de stabilité, qui permet de prendre en compte l’impor-tance de la densité des points sur les frontières des classes. Dans une première section nous présentons les travaux de Ben-David et von Luxburg [7] montrant que si l’opti-mum du critère de classification est unique et si les données sont de taille très grande, alors la partition est stable. Par contre, si l’optimum n’est pas unique alors la partition