M´ethodes spectrales - Approches de d´ecouverte d’une solution unique

4.2 Approches de d´ecouverte d’une solution unique

4.2.1 M´ethodes spectrales

Le clustering est une des techniques les plus utilisées pour l’analyse ex- ploratoire des données. Pratiquement, dans tous les domaines scientifiques portant sur des données empiriques, les utilisateurs cherchent à faire une première impression sur leurs données en essayant d’identifier les groupes de ”comportement similaire”. Par rapport aux algorithmes ”‘traditionnels”’ tels que k-means. La classification spectrale présente de nombreux avantages fondamentaux.

Au cours des dernières années, la classification spectrale est devenue l’un des algorithmes les plus populaires de clustering modernes. Cet algorithme se caractérise par sa simplicité de mise en oeuvre, il surpasse souvent les algorithmes de clustering traditionnels tels que l’algorithme K-means. Au premier coup d’oeil la classification spectrale apparaˆıt un peu mystérieuse.

La méthode spectrale se base sur la mesure d’affinité entre tous les couples de points de données, généralement, cette méthode ne s’intéresse pas à l’étude des formes des classes (ou cluster). Le paramètre de l’affinité à un rôle impor- tant dans le regroupement des membres et il n’existe pas a priori de solution pour trouver un paramètre optimal.

La méthode de clustering spectral [34] consiste à extraire les vecteurs propres associés aux plus grandes valeurs propres d’une matrice affinité nor- malisée, issue d’un noyau de Mercer [55] .

Les vecteurs propres constituent un espace de dimension réduit dans le- quel les données transformées seront linéairement séparables.

Deux grandes principales classes d’algorithmes de classification spectrale ont été proposés à partir de la division de graphes [129] .

La première classe d’algorithme est fondée sur un partitionnement bi- partite récursif en se basant sur le vecteur propre associé à la seconde plus grande valeur propre du graphe du Laplacien normalisé [71, 123], ou vecteur de Fiedler [28] dans le cas non-normalisé.

La deuxième projette les données originales dans un espace défini par les k plus grands vecteurs propres d’une matrice d’adjacence normalisée (ou matrice similaire à celle-ci), et applique un algorithme de classification ainsi que le k-means sur ces nouvelles points calculés [106, 96] .

Nous allons détailler uniquement la dernière classe dans un souci de sim- plicité algorithmique. Y.Weiss et al [106] présentent cette dernière classe d’algorithmes 5 pour partitionner un ensemble de points S = x1, . . . , xN ⊂ ℜp en k clusters où k est fixé.

Par contre, généralement où les clusters ne sont pas nettement séparés par une distance importante, matrice affinité est plus ou moins compromise et peut être considérablement altérée par le choix de la valeur du paramètre de l’affinité (σ).

Ce paramètre, en facteur de la norme entre chaque couple de points, sert de pondérateur. Il peut donc, suivant sa valeur, diminuer l’affinité intra- cluster et augmenter celle entre les clusters.

Algorithm 5 Algorithme de partitionnement spectral Require: Ensemble des donn´ees S, Nombre de clusters k

1: Construction de la matrice affinit´e A ∈ ℜN ×N d´efinie par :

Aij =    exp(− kxi− xjk2/2σ2 _{si i = j} 0 sinon

2: Construction de la matrice normalis´ee L = D−1/2AD−1/2 o`u D matrice

diagonale d´efinie par

Di,i =PN_j=1Aij.

3: Construction de la matrice X = [X1, X2, . . . , Xk] ∈ ℜN ×N form´ee `a partir

de k plus grands vecteurs propres xi, i = {1, . . . , k} de L.

4: Construction de la matrice Y form´ee en normalisant les lignes de X :

Yij = Xij

(P jX2 ij)

1_/2

5: Traiter chaque ligne de Y comme un point de ℜk et les classer en k

clusters via la m´ethode K-means.

6: Assigner le point original xi au cluster j si et seulement si la ligne i de la

Parmi les différents noyaux de Mercer [55], généralement, le noyau Gaus- sien est utilisé. L’affinité entre deux points de données distincts xi et xj de ℜp _{est alors définie par :}

Aij = exp(− kxi− xjk 2

/2σ2 _{si i = j}

0 sinon

o`u σ est un param`etre et k.k₂ est la norme euclidienne habituelle.

Le principe de la classification spectrale se base sur la mesure d’affi- nité. Or, la fonction de l’affinité gaussienne dépend du paramètre σ. Cette donnée influe directement sur la méthode.En effet, le paramètre σ influe sur la séparabilité des points dans l’espace de projection spectrale.

Dans notre cas, il sera difficile de représenter les membres dans un espace spectrale. La représentation de la matrice de probabilité de propagations de données entre les différents membres ne permet pas un partionnement adéquat en équipes compétitives et collaboratives tout en minimisant la fuite de données entre les différentes équipes concurrentes.

Cette approche permet de résoudre le problème en proposant une solution unique et approximative en terme de fuite de données. Cette solution ne pourra pas être validé du fait qu’elle ne respecte pas la contrainte de la fuite de données.

Une approximation ne garantit en aucun cas le bon déroulement du pro- cessus de crowdsourcing dans notre cas. Concernant le ”Caller” cela représente une fuite de données qui est susceptible de fragiliser l’intêret de ce dernier au passage au crowdsourcing. Et concernant l’intélligence humaine, cela permet de maximiser le risque de perte de la récompense attachée à l’appel du ”Caller”.

Dans le document Gestion de la collaboration et compétition dans le crowdsourcing : une approche avec prise en compte de fuites de données via les réseaux sociaux (Page 82-84)