• Aucun résultat trouvé

Le crit` ere de Correlation clustering de Demaine et Immorlica (2002) 73

5.2 Crit` eres lin´ eaires en X

5.2.7 Le crit` ere de Correlation clustering de Demaine et Immorlica (2002) 73

Le probl`eme dit de ”correlation clustering” fut pos´e initialement par N. Bansal, A.

Blum, et S. Chawla dans Bansal et al. [2002] :” ´Etant donn´e un graphe complet d’ordre N o`u chaque arˆete poss`ede soit une ´etiquette + si ses sommets sont consid´er´es comme similaires soit une ´etiquette −si ses sommets sont consid´er´es comme diff´erents”. Le but est de trouver une partition qui :

◦ Soit maximise le nombre d’accords : nombre d’arˆetes + intra-classe ainsi que le nombre d’arˆetes −inter-classes.

◦ Soit minimise le nombre de d´esaccords : nombre d’arˆetes + inter-classes ainsi que le nombre d’arˆetes −intra-classe.

Etant donn´´ e un graphe G = (V, E) pond´er´e avec des poids r´eels, i.e. wii0 ∈ R (`a la fois positifs et n´egatifs), le but est de trouver une partition des sommets de fa¸con `a minimiser les arˆetes `a poids positif inter-classes et les arˆetes `a poids n´egatif intra-classe14. Les grands poids positifs repr´esentent une forte corr´elation entre les points extrˆemes alors que les grands poids n´egatifs repr´esentent une forte r´epulsion, et les poids `a valeur absolue proche de z´ero repr´esentent peu d’information. Pour r´esoudre ce probl`eme, dansDemaine and Immorlica [2003] (voir aussi Demaine et al.[2006]) les auteurs proposent la fonction de coˆut `a minimiser suivante :

FCC(P) =cost(P) =costp(P) +costm(P) (5.36) (nous notons cette fonction FCC pour correlation clustering),

o`u :

◦ P est une partition deV :P={C1, C2, ..., Cκ}.

◦ cost(P) coˆut total de la partitionP.

◦ costp(P) = P

{|wii0|: (i, i0) ∈ E;wii0 > 0;∀j,|{i, i0} ∩Cj| ≤ 1}; soit la somme des poids positifs entre deux sommets qui ne sont pas dans la mˆeme classe.

◦ costm(P) =P

{|wii0|: (i, i0) ∈ E;wii0 < 0;∃j,|{i, i0} ∩Cj|= 2}; soit la somme des poids n´egatifs entre deux sommets qui sont dans la mˆeme classe.

Soit Y une matrice d’ordre N repr´esentant la variable relationnelle dont le terme g´en´eral est d´efini de la fa¸con suivante :

yii0 :

(1 si ieti0 ne sont pas dans la mˆeme classe,

0 si ieti0 sont dans la mˆeme classe. (5.37) Clairement la variableYii0 = ¯Xii0,∀i, i0 ∈V. En notations relationnelles les deux termes de l’´equation (5.36) deviennent :

costp(Y) = 1 2

X

i,i0

wii0yii01(wii0>0) (5.38) costm(Y) = 1

2 X

i,i0

|wii0|(1−yii0)1(wii0<0), (5.39)

o`u :

◦ Le coefficient 1/2 vient du fait que l’on somme les poids deux fois.

◦ 1Y est la fonction indicatrice de l’ensembleY.

◦ Le terme costp(S) repr´esente la somme des poids positifs inter-classes.

◦ Le terme costm(S) correspond `a la somme des poids n´egatifs intra-classe.

Avec ces notations le coˆut total `a minimiser sera :

14. Ou `a maximiser les arˆetes `a poids positif intra-classe et les arˆetes `a poids n´egatif inter-classes

5.2. Crit`eres lin´eaires en X 75

L’´equation (5.40) est la forme duale de Condorcet pr´esent´ee dans l’´equation (2.14). En effet, en rempla¸cant Y par ¯Xet ¯Y parX : L’´equation (5.41) est une formulation tr`es voisine du crit`ere ”Dual de Condorcet” pour un graphe pond´er´e avec des poids r´eels. Cette r´e´ecriture a d´ej`a ´et´e propos´ee dans les tra-vaux deLabiod [2008].

L’expression (5.41) montre que ce crit`ere est lin´eaire, s´eparable il poss`ede la propri´et´e d’´equilibre g´en´eral. En revanche, le fait qu’il soit ´equilibr´e localement ou globalement d´ependra des valeurs prises par les poidsw+ii0 etwii0.

L’expression (5.40) peut encore ˆetre simplifi´ee : FCC(Y) =X ainsi la fonction `a minimiser devient :

FCC(Y) =X Nous allons montrer que cette expression est une ´ecriture tr`es proche de l’expression (2.7) :

Ce qui ´equivaut `a maximiser l’expression :

FCC(X) =X

ii0

(wii+0−wii0)xii0.

Cette expression n’est autre que l’expression du crit`ere de Condorcet (2.7) avec :cii0 = wii+0 et ¯cii0 =wii0.

5.2.8 Le crit`ere de Condorcet pond´er´e en A (1991)

Ce crit`ere a ´et´e introduit pour la premi`ere fois dans Marcotorchino [1991] afin de faire la liaison entre l’Analyse Relationnelle et Analyse Factorielle. Ce crit`ere cherche `a maximiser l’expression suivante :

FCP ond(X) =

N

X

i=1 N

X

i0=1

ˆ

aii0xii0 + ¯ˆaii0ii0

, (5.43)

o`u ˆaii0 et ¯aˆii0 sont respectivement d´efinis au travers des ´equations (2.15) et (2.19).

Pour garantir que l’optimisation du crit`ere (5.43) permette d’obtenir une partition,X doit v´erifier les contraintes d’une relation d’´equivalence, ´enonc´ees dans (5.2).

Compte tenu de la d´efinition de A¯ˆ (´equation (2.19)), maximiser l’expression (5.43) revient `a maximiser l’expression :

FCP ond(X) =

N

X

i=1 N

X

i0=1

2ˆaii0 −ˆaii+ ˆai0i0 2

xii0. (5.44)

L’´ecriture relationnelle (5.44) met en ´evidence la lin´earit´e de ce crit`ere et par cons´equent sa s´eparabilit´e. `A partir de l’expression (5.44) nous d´eduisons que le crit`ere est poss`ede la propri´et´e d’´equilibre g´en´eral si sa matrice d’adjacence v´erifie la condition :PN

i=1ii>0⇔ PN

i=1 aii

ai. >0. Le degr´e de chaque sommet ´etant toujours strictement positif, cette condi-tion implique que le graphe doit ˆetre r´eflexif, i.e. les sommets doivent avoir des boucles.

Comme mentionn´e dans la d´efinition de la propri´et´e d’´equilibre lin´eaire (voir chapitre 4) le non-respect de cette condition a pour cons´equence l’obtention de la solution grossi`ere o`u tous les sommets sont class´es dans une seule classe. Ainsi, l’utilisation de ce crit`ere se restreint aux graphes non pond´er´es et r´eflexifs. Comme nous le verrons au chapitre 7, si le graphe n’est pas r´eflexif nous lui rendrons r´eflexif en ajoutant des boucles sur chaque sommet avant d’employer ce crit`ere.

Ce crit`ere v´erifie aussi la propri´et´e fondamentale de la m´etrique du χ2, `a savoir : l’´equivalence Distributionnelle. La solution optimale de ce crit`ere n’est pas triviale et est obtenue sans fixer le nombre de classes de la partition cherch´ee, comme dans le contexte du Crit`ere de Condorcet.

5.3. Les crit`eres s´eparables de fonctions non-lin´eaires de X 77