Les expérimentations - Classification basée sur le modèle parallèle

4.5 Classification basée sur le modèle parallèle

4.5.3 Les exp´erimentations

Pour ces expériences, nous avons utilisé un réseau social généré sur la base de la loi de Metcalfe avec 12497500 relations pour 5000 utilisateurs. Nous avons construit un ensemble de solution avec tous les utilisateurs afin de préserver la divulgation de données lors du processus de découverte des équipes. L’approche PPCA proposée est utilisée sur l’échantillon pour découvrir les valeurs cachées de propagation de données.

- k-means et DLTD parall`ele bas´e sur Ω :

On a analysé les différents résultats générés par l’algorithme k-means utilisant la distance Ω et les productions de l’algorithme DLTD parallèle utilisant la même distance Ω. Notre analyse est focalisée sur les fuites de données privées.

Ω l’algorithme DLTD parallèle n’enregistre aucune fuite de données entre les clusters générés même quand la taille du réseau social augmente. L’in- existence de fuite de données s’explique par le fait que les membres qui se partagent les données privées avec une propagation supérieure au seuil fixé par l’algorithme seront groupés dans le même cluster. Par contre, avec le K- means utilisant la distance Ω, nous percevons des fuites de données privées entre 1% et 4% pour 20 clusters et de 2% à 5% pour 30 clusters (voir la figure 4.14).

Figure 4.14 – Comparaison des fuites de donn´ees

- Les solutions r´esultat en variant le seuil et le nombre d’enregistrement :

Dans une première expérience, on a fixé le nombre d’utilisateur du crowdsourcing enregistrés pour répondre à la requête, le seuil est fixé à 68% et on fait varier le nombre de membres enregistrés. Avec 1000 enregistrement, on obtient 158 solutions sans fuite de données, et pour 5000 enregistrement, on obtient 241 solutions possibles (voir figure 4.15-a).

Dans une deuxième expérience, on a fixé le nombre d’enregistrement pour la réponse à la requête à 1000 et on a fait varier le seuil maximum de propagation autorisé dans le but de découvrir le nombre de solutions possible sans fuite de données en utilisant le même réseau social.

Par exemple, quand le seuil est fixé à 10% l’algorithme DLTD parallèle retourne 13 solutions possibles sans fuite de données, en utilisant la même

structure du réseau et en variant le seuil à 45%, on obtient 88 solutions possibles sans fuite de données (Voir figure 4.15-b).

Ces expériences nous permet de remarquer que les solutions générées sont dépendantes du nombre d’utilisateurs et du seuil de propagation des données ainsi que les valeurs de propagations des données.

Figure 4.15 – Les r´esultats du DLTD parall`ele

Ces expériences nous montrent que l’algorithme DLTD parallèle n’enregistre aucune fuite de données entre les clusters puisque sont mécanisme se base sur le groupement des utilisateurs du crowdsourcing ayant une forte propagation de données entre eux, qui interdit la dispersion de ces utilisateurs dans différents clusters.

Les résultats du DLTD parallèle montré dans la figure 4.15 confirme que les solutions générées par cet algorithme dépendent du nombre d’utilisateur à classifier et du paramétrage du seuil limite de propagation autorisé sans pouvoir l’identifié comme fuite de données.

L’algorithme DLTD parallèle enregistre une nette amélioration du temps de calcul par rapport au DLTD classique, suite à l’utilisation du système parallèle le traitement en n processus différents puis rassemble les résultats par clusters.

Ce traitement nous permet de gagner en temps d’ex´ecution.

Par contre, le temps de calcul reste toujours important et n’est pas fa- cilement applicable sur un r´eseau social de grande taille (exemple Facebook contenant des milliards de relations).

Même en utilisant le modèle parallèle, cela ne permet pas d’alléger ce temps de calcul en une valeur acceptable pour un réseau social important.

L’application de cette approche reste théorique, parce qu’il impossible d’allouer une ressource matérielle pour chaque processus du modèle parallèle (un très grand nombre de machine à prévoir), pour arriver à un temps d’exécution acceptable.

4.6 Discussion

Dans ce chapitre nous avons présenté différentes techniques pour chercher les groupement possibles des utilisateurs du crowdsourcing pour répondre à un appel d’une personne physique ou morale.

L’algorithme K-means ne permet pas d’arriver à produire des résultats fiables sans fuite de données entre les clusters. L’adaptation de l’algorithme K-means nous a permit d’arriver à produire des résultats respectant la vie privée entre les clusters, par contre, cela ne permet pas d’explorer les meilleures solutions possibles de classement.

L’algorithme de classification hiérarchique n’offre pas la possibilité des générer des équipes sans fuites de données même en utilisant la distance maximale de propagation. De même il permet de découvrir uniquement une solution de groupement possible et ne permet pas l’exploration des différentes possibilités de classification.

L’approche DLTD nous a permit d’explorer toutes les solutions possibles de classification, sauf, que cette approche basée sur le modèle glouton, est très lente en temps de calcul, qui nous amène à utiliser une technique de parallélisation dans l’approche du DLTD parallèle afin de réduire le temps d’exécution de l’algorithme.

Les approches proposées ne nous permettent pas de clôturer le sujet du classement des utilisateurs du crowdsourcing dans des équipes compétitives et collaboratives, puisque, on n’est pas encore arrivé à avoir des solutions sans fuites de données en explorant un ensemble important de solutions possibles dans un temps de calcul raisonnable.

L’utilisation des heuristiques s’imposent dans notre cas pour r´eduire le temps de calcul de l’algorithme et l’exportation de diff´erentes solutions de groupement.

Chapitre 5

La d´ecouverte des ´equipes en

préservant la vie privée basée

sur les heuristiques

Dans ce chapitre, nous nous intéressons au domaine de simulation. Compte tenu du grand nombre de possibilités de classification, il n’est pas possible d’explorer toutes les possibilités de groupement des membres et garder ceux satisfaisant les critères de fuite de données. Le but de cette section est d’expli- quer le besoin d’utiliser des heuristiques pour estimer les solutions optimales et de proposer un modèle de découverte d’équipes compétitives et collaboratives.

5.1 Le recours aux heuristiques

Nous démontrons que le problème de formation d’équipes compétitives et collaboratives est NP complet en le réduisant d’abord à un problème d’ob- jectif simple. Nous supposons que pour une compétence particulière ”‘s”’ tous les experts avec un niveau d’expertise en dessus d’un certain seuil sont également bien convenu. Ainsi, le problème est réduit à la découverte de la structure d’équipe avec l’intermédiaire de liens plus fort entre tous les membres.

Ce problème est lié à la détermination d’une clique dans un graphe pondéré. Cependant, il est peu clair combien d’experts font partie de la meilleure équipe.

Aussi il est peu probable que cette équipe expose en réalité un sous-graphe entièrement connecté. Par conséquent, nous ne pouvons pas encore chercher directement la meilleure clique. Nous modélisons les compétences et la structure d’interaction comme un graphe orienté.

Un graphe orienté est un graphe dont les arêtes sont définies par leur ori- gine et leur extrémité, c’est-à-dire dont les arêtes sont orientées, munies d’un sens. Une arête d’un graphe orienté est définie par la donnée d’un couple de sommets.

Pour notre problème, l’ensemble de compétences exigées correspond aux ensembles de k clusters à découvrir. En fin de compte, chaque ensemble consiste en un tuple qui contient la ou les compétences ”‘s”’ exigées. Tous les experts fournissent cette ou ces compétences tout en préservant la vie privée de chaque équipe.

Une sélection d’un cluster à partir d’une solution de classification consti- tue une équipe valable où chaque membre peut être connecté ou non à chaque membre dans la même équipe, et doit avoir une propagation inférieure au seuil maximum de propagation autorisé avec les membres des autres équipes. En aplanissant le graphe orienté dans un graphe régulier : (i) n’im- porte quelle équipe valable sera une clique et (ii) la taille de clique maximale est k. La meilleure équipe est alors une question de découverte de la clique minimale-pondérée en fonction de la propagation des données entre les différents membres. Ceci est trivialement transformé dans un problème de clique maximal en inversant les poids des arêtes. Il est généralement connu que le problème de clique maximal est NP-complet. Ainsi, nous pouvons déduire aussi que le problème de découverte d’équipe observé est NP-complet.

Dans le document Gestion de la collaboration et compétition dans le crowdsourcing : une approche avec prise en compte de fuites de données via les réseaux sociaux (Page 120-126)