• Aucun résultat trouvé

4.2 Approches de d´ecouverte d’une solution unique

4.2.1 M´ethodes spectrales

Le clustering est une des techniques les plus utilis´ees pour l’analyse ex- ploratoire des donn´ees. Pratiquement, dans tous les domaines scientifiques portant sur des donn´ees empiriques, les utilisateurs cherchent `a faire une premi`ere impression sur leurs donn´ees en essayant d’identifier les groupes de ”comportement similaire”. Par rapport aux algorithmes ”‘traditionnels”’ tels que k-means. La classification spectrale pr´esente de nombreux avantages fondamentaux.

Au cours des derni`eres ann´ees, la classification spectrale est devenue l’un des algorithmes les plus populaires de clustering modernes. Cet algorithme se caract´erise par sa simplicit´e de mise en oeuvre, il surpasse souvent les algorithmes de clustering traditionnels tels que l’algorithme K-means. Au premier coup d’oeil la classification spectrale apparaˆıt un peu myst´erieuse.

La m´ethode spectrale se base sur la mesure d’affinit´e entre tous les couples de points de donn´ees, g´en´eralement, cette m´ethode ne s’int´eresse pas `a l’´etude des formes des classes (ou cluster). Le param`etre de l’affinit´e `a un rˆole impor- tant dans le regroupement des membres et il n’existe pas a priori de solution pour trouver un param`etre optimal.

La m´ethode de clustering spectral [34] consiste `a extraire les vecteurs propres associ´es aux plus grandes valeurs propres d’une matrice affinit´e nor- malis´ee, issue d’un noyau de Mercer [55] .

Les vecteurs propres constituent un espace de dimension r´eduit dans le- quel les donn´ees transform´ees seront lin´eairement s´eparables.

Deux grandes principales classes d’algorithmes de classification spectrale ont ´et´e propos´es `a partir de la division de graphes [129] .

La premi`ere classe d’algorithme est fond´ee sur un partitionnement bi- partite r´ecursif en se basant sur le vecteur propre associ´e `a la seconde plus grande valeur propre du graphe du Laplacien normalis´e [71, 123], ou vecteur de Fiedler [28] dans le cas non-normalis´e.

La deuxi`eme projette les donn´ees originales dans un espace d´efini par les k plus grands vecteurs propres d’une matrice d’adjacence normalis´ee (ou matrice similaire `a celle-ci), et applique un algorithme de classification ainsi que le k-means sur ces nouvelles points calcul´es [106, 96] .

Nous allons d´etailler uniquement la derni`ere classe dans un souci de sim- plicit´e algorithmique. Y.Weiss et al [106] pr´esentent cette derni`ere classe d’al- gorithmes 5 pour partitionner un ensemble de points S = x1, . . . , xN ⊂ ℜp en k clusters o`u k est fix´e.

Par contre, g´en´eralement o`u les clusters ne sont pas nettement s´epar´es par une distance importante, matrice affinit´e est plus ou moins compromise et peut ˆetre consid´erablement alt´er´ee par le choix de la valeur du param`etre de l’affinit´e (σ).

Ce param`etre, en facteur de la norme entre chaque couple de points, sert de pond´erateur. Il peut donc, suivant sa valeur, diminuer l’affinit´e intra- cluster et augmenter celle entre les clusters.

Algorithm 5 Algorithme de partitionnement spectral Require: Ensemble des donn´ees S, Nombre de clusters k

1: Construction de la matrice affinit´e A ∈ ℜN ×N d´efinie par :

Aij =    exp(− kxi− xjk2/2σ2 si i = j 0 sinon

2: Construction de la matrice normalis´ee L = D−1/2AD−1/2 o`u D matrice

diagonale d´efinie par

Di,i =PNj=1Aij.

3: Construction de la matrice X = [X1, X2, . . . , Xk] ∈ ℜN ×N form´ee `a partir

de k plus grands vecteurs propres xi, i = {1, . . . , k} de L.

4: Construction de la matrice Y form´ee en normalisant les lignes de X :

Yij = Xij

(P jX2 ij)

1/2

5: Traiter chaque ligne de Y comme un point de ℜk et les classer en k

clusters via la m´ethode K-means.

6: Assigner le point original xi au cluster j si et seulement si la ligne i de la

Parmi les diff´erents noyaux de Mercer [55], g´en´eralement, le noyau Gaus- sien est utilis´e. L’affinit´e entre deux points de donn´ees distincts xi et xj de ℜp est alors d´efinie par :

Aij = exp(− kxi− xjk 2

/2σ2 si i = j

0 sinon

o`u σ est un param`etre et k.k2 est la norme euclidienne habituelle.

Le principe de la classification spectrale se base sur la mesure d’affi- nit´e. Or, la fonction de l’affinit´e gaussienne d´epend du param`etre σ. Cette donn´ee influe directement sur la m´ethode.En effet, le param`etre σ influe sur la s´eparabilit´e des points dans l’espace de projection spectrale.

Dans notre cas, il sera difficile de repr´esenter les membres dans un espace spectrale. La repr´esentation de la matrice de probabilit´e de propagations de donn´ees entre les diff´erents membres ne permet pas un partionnement ad´equat en ´equipes comp´etitives et collaboratives tout en minimisant la fuite de donn´ees entre les diff´erentes ´equipes concurrentes.

Cette approche permet de r´esoudre le probl`eme en proposant une solu- tion unique et approximative en terme de fuite de donn´ees. Cette solution ne pourra pas ˆetre valid´e du fait qu’elle ne respecte pas la contrainte de la fuite de donn´ees.

Une approximation ne garantit en aucun cas le bon d´eroulement du pro- cessus de crowdsourcing dans notre cas. Concernant le ”Caller” cela repr´esente une fuite de donn´ees qui est susceptible de fragiliser l’intˆeret de ce dernier au passage au crowdsourcing. Et concernant l’int´elligence humaine, cela per- met de maximiser le risque de perte de la r´ecompense attach´ee `a l’appel du ”Caller”.