• Aucun résultat trouvé

4.5 Classification bas´ee sur le mod`ele parall`ele

4.5.3 Les exp´erimentations

Pour ces exp´eriences, nous avons utilis´e un r´eseau social g´en´er´e sur la base de la loi de Metcalfe avec 12497500 relations pour 5000 utilisateurs. Nous avons construit un ensemble de solution avec tous les utilisateurs afin de pr´eserver la divulgation de donn´ees lors du processus de d´ecouverte des ´equipes. L’approche PPCA propos´ee est utilis´ee sur l’´echantillon pour d´ecouvrir les valeurs cach´ees de propagation de donn´ees.

- k-means et DLTD parall`ele bas´e sur Ω :

On a analys´e les diff´erents r´esultats g´en´er´es par l’algorithme k-means utilisant la distance Ω et les productions de l’algorithme DLTD parall`ele uti- lisant la mˆeme distance Ω. Notre analyse est focalis´ee sur les fuites de donn´ees priv´ees.

Ω l’algorithme DLTD parall`ele n’enregistre aucune fuite de donn´ees entre les clusters g´en´er´es mˆeme quand la taille du r´eseau social augmente. L’in- existence de fuite de donn´ees s’explique par le fait que les membres qui se partagent les donn´ees priv´ees avec une propagation sup´erieure au seuil fix´e par l’algorithme seront group´es dans le mˆeme cluster. Par contre, avec le K- means utilisant la distance Ω, nous percevons des fuites de donn´ees priv´ees entre 1% et 4% pour 20 clusters et de 2% `a 5% pour 30 clusters (voir la figure 4.14).

Figure 4.14 – Comparaison des fuites de donn´ees

- Les solutions r´esultat en variant le seuil et le nombre d’enre- gistrement :

Dans une premi`ere exp´erience, on a fix´e le nombre d’utilisateur du crowd- sourcing enregistr´es pour r´epondre `a la requˆete, le seuil est fix´e `a 68% et on fait varier le nombre de membres enregistr´es. Avec 1000 enregistrement, on obtient 158 solutions sans fuite de donn´ees, et pour 5000 enregistrement, on obtient 241 solutions possibles (voir figure 4.15-a).

Dans une deuxi`eme exp´erience, on a fix´e le nombre d’enregistrement pour la r´eponse `a la requˆete `a 1000 et on a fait varier le seuil maximum de propa- gation autoris´e dans le but de d´ecouvrir le nombre de solutions possible sans fuite de donn´ees en utilisant le mˆeme r´eseau social.

Par exemple, quand le seuil est fix´e `a 10% l’algorithme DLTD parall`ele retourne 13 solutions possibles sans fuite de donn´ees, en utilisant la mˆeme

structure du r´eseau et en variant le seuil `a 45%, on obtient 88 solutions pos- sibles sans fuite de donn´ees (Voir figure 4.15-b).

Ces exp´eriences nous permet de remarquer que les solutions g´en´er´ees sont d´ependantes du nombre d’utilisateurs et du seuil de propagation des donn´ees ainsi que les valeurs de propagations des donn´ees.

Figure 4.15 – Les r´esultats du DLTD parall`ele

Ces exp´eriences nous montrent que l’algorithme DLTD parall`ele n’enre- gistre aucune fuite de donn´ees entre les clusters puisque sont m´ecanisme se base sur le groupement des utilisateurs du crowdsourcing ayant une forte pro- pagation de donn´ees entre eux, qui interdit la dispersion de ces utilisateurs dans diff´erents clusters.

Les r´esultats du DLTD parall`ele montr´e dans la figure 4.15 confirme que les solutions g´en´er´ees par cet algorithme d´ependent du nombre d’utilisateur `a classifier et du param´etrage du seuil limite de propagation autoris´e sans pouvoir l’identifi´e comme fuite de donn´ees.

L’algorithme DLTD parall`ele enregistre une nette am´elioration du temps de calcul par rapport au DLTD classique, suite `a l’utilisation du syst`eme parall`ele le traitement en n processus diff´erents puis rassemble les r´esultats par clusters.

Ce traitement nous permet de gagner en temps d’ex´ecution.

Par contre, le temps de calcul reste toujours important et n’est pas fa- cilement applicable sur un r´eseau social de grande taille (exemple Facebook contenant des milliards de relations).

Mˆeme en utilisant le mod`ele parall`ele, cela ne permet pas d’all´eger ce temps de calcul en une valeur acceptable pour un r´eseau social important.

L’application de cette approche reste th´eorique, parce qu’il impossible d’allouer une ressource mat´erielle pour chaque processus du mod`ele parall`ele (un tr`es grand nombre de machine `a pr´evoir), pour arriver `a un temps d’ex´ecution acceptable.

4.6

Discussion

Dans ce chapitre nous avons pr´esent´e diff´erentes techniques pour chercher les groupement possibles des utilisateurs du crowdsourcing pour r´epondre `a un appel d’une personne physique ou morale.

L’algorithme K-means ne permet pas d’arriver `a produire des r´esultats fiables sans fuite de donn´ees entre les clusters. L’adaptation de l’algorithme K-means nous a permit d’arriver `a produire des r´esultats respectant la vie priv´ee entre les clusters, par contre, cela ne permet pas d’explorer les meilleures solutions possibles de classement.

L’algorithme de classification hi´erarchique n’offre pas la possibilit´e des g´en´erer des ´equipes sans fuites de donn´ees mˆeme en utilisant la distance maximale de propagation. De mˆeme il permet de d´ecouvrir uniquement une solution de groupement possible et ne permet pas l’exploration des diff´erentes possibilit´es de classification.

L’approche DLTD nous a permit d’explorer toutes les solutions possibles de classification, sauf, que cette approche bas´ee sur le mod`ele glouton, est tr`es lente en temps de calcul, qui nous am`ene `a utiliser une technique de parall´elisation dans l’approche du DLTD parall`ele afin de r´eduire le temps d’ex´ecution de l’algorithme.

Les approches propos´ees ne nous permettent pas de clˆoturer le sujet du classement des utilisateurs du crowdsourcing dans des ´equipes comp´etitives et collaboratives, puisque, on n’est pas encore arriv´e `a avoir des solutions sans fuites de donn´ees en explorant un ensemble important de solutions pos- sibles dans un temps de calcul raisonnable.

L’utilisation des heuristiques s’imposent dans notre cas pour r´eduire le temps de calcul de l’algorithme et l’exportation de diff´erentes solutions de groupement.

Chapitre 5

La d´ecouverte des ´equipes en

pr´eservant la vie priv´ee bas´ee

sur les heuristiques

Dans ce chapitre, nous nous int´eressons au domaine de simulation. Compte tenu du grand nombre de possibilit´es de classification, il n’est pas possible d’explorer toutes les possibilit´es de groupement des membres et garder ceux satisfaisant les crit`eres de fuite de donn´ees. Le but de cette section est d’expli- quer le besoin d’utiliser des heuristiques pour estimer les solutions optimales et de proposer un mod`ele de d´ecouverte d’´equipes comp´etitives et collabora- tives.

5.1

Le recours aux heuristiques

Nous d´emontrons que le probl`eme de formation d’´equipes comp´etitives et collaboratives est NP complet en le r´eduisant d’abord `a un probl`eme d’ob- jectif simple. Nous supposons que pour une comp´etence particuli`ere ”‘s”’ tous les experts avec un niveau d’expertise en dessus d’un certain seuil sont ´egalement bien convenu. Ainsi, le probl`eme est r´eduit `a la d´ecouverte de la structure d’´equipe avec l’interm´ediaire de liens plus fort entre tous les membres.

Ce probl`eme est li´e `a la d´etermination d’une clique dans un graphe pond´er´e. Cependant, il est peu clair combien d’experts font partie de la meilleure ´equipe.

Aussi il est peu probable que cette ´equipe expose en r´ealit´e un sous-graphe enti`erement connect´e. Par cons´equent, nous ne pouvons pas encore chercher directement la meilleure clique. Nous mod´elisons les comp´etences et la struc- ture d’interaction comme un graphe orient´e.

Un graphe orient´e est un graphe dont les arˆetes sont d´efinies par leur ori- gine et leur extr´emit´e, c’est-`a-dire dont les arˆetes sont orient´ees, munies d’un sens. Une arˆete d’un graphe orient´e est d´efinie par la donn´ee d’un couple de sommets.

Pour notre probl`eme, l’ensemble de comp´etences exig´ees correspond aux ensembles de k clusters `a d´ecouvrir. En fin de compte, chaque ensemble consiste en un tuple qui contient la ou les comp´etences ”‘s”’ exig´ees. Tous les experts fournissent cette ou ces comp´etences tout en pr´eservant la vie priv´ee de chaque ´equipe.

Une s´election d’un cluster `a partir d’une solution de classification consti- tue une ´equipe valable o`u chaque membre peut ˆetre connect´e ou non `a chaque membre dans la mˆeme ´equipe, et doit avoir une propagation inf´erieure au seuil maximum de propagation autoris´e avec les membres des autres ´equipes. En aplanissant le graphe orient´e dans un graphe r´egulier : (i) n’im- porte quelle ´equipe valable sera une clique et (ii) la taille de clique maxi- male est k. La meilleure ´equipe est alors une question de d´ecouverte de la clique minimale-pond´er´ee en fonction de la propagation des donn´ees entre les diff´erents membres. Ceci est trivialement transform´e dans un probl`eme de clique maximal en inversant les poids des arˆetes. Il est g´en´eralement connu que le probl`eme de clique maximal est NP-complet. Ainsi, nous pouvons d´eduire aussi que le probl`eme de d´ecouverte d’´equipe observ´e est NP-complet.