• Aucun résultat trouvé

1.1 Généralisation de certains critères au cas des graphes pondérés

1.1.5 Critère de Demaine et Immorlica

Ce critère, introduit dans [60] et aussi appeléCorrelation Clustering, s’applique sur des graphes pondérés à valeurs réelles d’un type différent de ceux que nous avons vus jusqu’à présent : une arête de poids positif représente une similarité entre les sommets qu’elle relie, similarité d’autant plus grande que le poids sera important. A l’inverse, un poids négatif sur une arête correspond à une dissimilarité entre les deux sommets correspondants. Naturellement, on veut mettre dans une même classe des sommets

1

2

3

4

+4

-1

+1

-1

-2

+5

E

+

=

{(1, 2), (1, 4), (3, 4))}

=

{(i, j) : a

i,j

> 0}

E

=

{(1, 3), (2, 3), (2, 4)}

=

{(i, j) : a

i,j

< 0}

FCC(A, X) = X (i,j)∈E+ ai,jxi,j− X (i,j)∈E− ai,jxi,j

Figure 1.7 : Dans le graphe de gauche, les liens en vert représentent des similarités entre les noeuds qu’ils relient. L’ensemble de ces arêtes est noté E+. Les arêtes en orange

représentent des dissimilarités entre les noeuds qu’elles lient. L’ensemble de ces arêtes est noté E−. Le critère de Correlation Clustering, donné en-dessous, compte le nombre

d’arête positives intra-communautés et d’arêtes négatives inter-communautés.

similaires : “maximizing agreement”, et dans des classes différentes des sommets différents : “minimizing disagreement”. Ainsi, pour une matrice A ∈ Mn(R) et un partitionnement X, le critère de Correlation Clustering FCC mesure le nombre d’arêtes positives à l’intérieur

des classes et le nombre d’arêtes négatives entre les classes. Un exemple est donnée Figure 1.7. En posant ∀i, j ∈ {1, ..., n}, a+ i,j = ( ai,j si ai,j > 0 0 sinon et a − i,j = (

−ai,j si ai,j < 0

0 sinon ,

on peut ré-écrire la formule en bas de la Figure 1.7 comme : FCC(A, X) =

X

i,j

(a+i,jxi,j+ a−i,jxi,j)

=X

i,j



a+i,jxi,j+ a−i,j(1 − xi,j



=X

i,j



a+i,j− a−i,jxi,j +

X

i,j

a−i,j

Céspedes ré-écrit ce critère dans sa thèse comme : FCC(A, X) =

X

i,j

a+i,j− a−i,jxi,j,

ce qui permet d’arriver à la forme très simple : FCC(A, X) =

X

i,j

ai,jxi,j (1.10)

Le problème qui se pose alors pour l’utilisation de ce critère dans notre cas d’étude, c’est que nos matrices sont à valeurs dans R+. L’élément qui maximise le critère donné

par l’équation (1.10) est alors trivialement le partitionnement ayant une seule classe regroupant tous les sommets. Cependant, nous envisageons trois façons de généraliser ce critère, qui dépendent essentiellement de l’interprétation que nous faisons des entrées nulles de la matrice creuse considérée. Dans la suite de cette section, on s’intéressera au critère associé à une matrice A ∈ Sn(R+).

Comme le plus fort cas de dissimilarité

On considère ici A comme une matrice pleine, les éléments nuls dans A étant donc considérés comme n’importe quelle autre entrée de A. On peut “centrer” A, c’est-à-dire appliquer le critère de Demaine et Immorlica comme défini dans [60], non pas sur A mais

sur A −2m

n2 J, avec 2m =

P

i,j

ai,j. En faisant cela, on suppose que

2m

n2 , l’élément moyen

de A, représente l’indifférence entre deux sommets. Les sommets de A liés par un poids plus grand vont être considérés comme similaires, et ceux liés par un poids plus petit, comme différents, y compris ceux liés par un poids nul – qui seront nécessairement les liens entre les sommets les plus différents. Dans ce cas, le critère devient

FCC(A, X) = X i,j ai,j− 2m n2 xi,j (1.11)

ce qui correspond exactement au critère dit d’écart à l’uniformité présenté dans [61], que nous allons voir dans la suite.

Comme un manque d’information

On peut appliquer le raisonnement précédant tout en conférant à la partie creuse de A une caractéristique : il s’agit d’un manque d’information. C’est-à-dire que les entrées nulles de A sont les entrées pour lesquelles des données sont manquantes. L’élément moyen

ne doit alors pas dépendre de ces éléments nuls : il s’agira de 2m

nnz, avec 2m défini comme précédemment, et nnz le nombre d’entrées non nulles dans A. On note G = (V, E, w) le graphe associé à A, alors le critère de Demaine et Immorlica se généralise comme suit :

FCC(A, X) = X (i,j)∈E ai,j− 2m nnzxi,j (1.12)

Ici, les éléments de la structure creuse de A ne jouent aucun rôle, ni dans le calcul de l’élément moyen, ni dans la recherche du meilleur partitionnement, puisque l’on ne s’intéresse qu’aux couples d’indices dans E. Pour les autres arêtes, comme au point précédent, elles représentent une similarité quand leur poids est supérieur à l’élément moyen, et une dissimilarité sinon.

Comme le seul cas de dissimilarité

On considère maintenant que toute entrée strictement positive dans A, aussi petite soit-elle, signifie qu’il existe une similarité entre les deux sommets concernés, et que les seuls cas de dissimilarité correspondent à la partie creuse de A. Dans ce cas, la dissimilarité entre deux éléments n’est pas mesurée : elle existe ou non, mais on ne peut pas savoir si deux éléments sont peu ou très différents. On va donc conférer à cette dissimilarité une valeur arbitraire. Elle sera toujours la même puisqu’on ne dispose pas d’information complémentaire sur cette dissimilarité. Notons λ cette valeur. λ va dépendre de comment on veut rendre pénalisante la prise en compte d’une dissimilarité dans le partitionnement. On peut par exemple envisager λ = −max

i,j (ai,j), ou λ = −

2m

nnz. Plus généralement, toute autre valeur négative peut être envisagée. En notant G = (V, E, w) le graphe associé à A, et quelle que soit la valeur choisie pour λ < 0, on aura :

FCC(A, X) = X (i,j)∈E ai,jxi,j+ λ X (i,j) /∈E xi,j. (1.13)

En conclusion, pour ce critère, nous choisirons la généralisation proposée à l’équation (1.13) pour la suite de notre étude. En effet, choisir celle de l’équation (1.11) ne présente pas d’intérêt dans ce rapport puisque ce critère est strictement équivalent à un autre critère que nous allons étudier. Nous n’étudierons pas non plus en profondeur la généralisation proposée à l’équation (1.12), car dans le cas de matrices doublement stochastiques obtenues à partir des matrices d’adjacence de graphes simples, cette approche nous semble plus logique. En effet, dans un tel graphe, une arête entre deux sommets signifie que ces deux sommets sont en relation. Si deux sommets ne sont pas en relation – et sont donc

dissimilaires –, cela se traduit par l’absence de l’arête, et donc par un élément nul dans la matrice d’adjacence, ainsi que dans son équilibrage doublement stochastique. Il nous semble donc important de considérer les entrées nulles de nos matrices bi-stochastiques comme la caractéristique d’une dissimilarité entre des sommets.

Remarque 4. Le récent papier de Veldt et al. [52] montre que nous ne sommes pas les seuls à nous intéresser à la généralisation de cette mesure dans le cas des graphes simples. Et nous verrons à la fin de ce chapitre que cela paraît cohérent car cette mesure est capable de produire de très bons résultats lorsqu’on l’utilise avec un choix judicieux de λ.