• Aucun résultat trouvé

Deux id´ees originales d’application de la m´ethode

5.5.1 Une vision communautaire des capitalistes sociaux sur

Twitter

Les capitalistes sociaux sont des utilisateurs essayant de gagner en popularit´e, afin que leurs tweets aient plus de visibilit´e, en appliquant des m´ethodes de type FMIFY (Follow Me and I Follow You : l’utilisateur assure `a ses followers qu’il les suivra en retour) et IFYFM (I Follow You, Follow Me : ces utilisateurs suivent d’autres utilisateurs en esp´erant que ceux-ci les suivent en retour). D’importants profils Twitter sont connus pour avoir utilis´e cette m´ethode `a leurs d´ebuts, tels que ceux de Barack Obama, Britney Spears ou easyJet [56].

0 500 1000 1500 2000 2500 3000 3500 4000 k 0.0 0.2 0.4 0.6 0.8 1.0 PROPORT ION DGLG KATZ T et F CAROP DISTANCE

Figure 5.7 – Proportion des nœuds tests parmi les k nœuds les mieux class´es en fonction de k pour le meilleur classement individuel obtenu pour notre m´ethode “DGLG” et les m´ethodes de l’´etat de l’art : “DISTANCE”, “T and F”, “CAROP” et “KATZ”.

Ces utilisateurs peuvent aussi cr´eer de faux comptes et les connecter entre eux et vers l’ext´erieur. Ils peuvent donc ˆetre apparent´es `a des Sybils1. D´etecter ces utilisateurs malhonnˆetes est crucial car ils peuvent polluer le r´eseau par des spams ; s’ils sont nombreux, ils peuvent ´egalement cr´eer de l’astroturfing i.e., manipuler l’opinion des populations `a des fins commerciales ou politiques en ´emettant la mˆeme information `a travers diff´erentes sources pour faire croire aux utilisateurs normaux que l’avis g´en´eral de la population est le leur ou cr´eer des hoax.

´

Etant donn´es ces m´ecanismes de connexion (FMIFY, IFYFM et Sybil), un capitaliste social a tendance `a ˆetre li´e `a beaucoup d’autres capitalistes sociaux et `a peu d’utilisateurs normaux (comme montr´e dans [69], 68% des capitalistes sociaux ont plus de 50% de ca-pitalistes sociaux parmi leurs followers). L’ensemble des caca-pitalistes sociaux pourrait donc former `a grande ´echelle une communaut´e bien d´efinie. L’id´ee de communaut´e multi-´ego-centr´ee semble donc tr`es appropri´ee pour ce probl`eme : ´etant donn´es quelques capitalistes sociaux, on pourrait chercher leur communaut´e multi-´ego-centr´ee et ainsi obtenir, dans l’id´eal, l’ensemble des capitalistes sociaux pr´esents sur Twitter.

Nous avons essay´e d’appliquer la m´ethode de compl´etion de communaut´e d´ecrite dans ce chapitre `a ce probl`eme, mais nous n’avons cependant pas rencontr´e de grands succ`es. Les seuls r´eseaux Twitter disponibles ´etant ant´erieurs `a 2009, nous pensons que le capitalisme social n’´etait pas assez d´evelopp´e `a cette ´epoque et que les capitalistes sociaux consti-tuaient plusieurs petites communaut´es d´econnect´ees et donc difficiles `a d´etecter avec notre m´ethode. Nous avons cependant mis au point une m´ethode de d´etection des capitalistes 1. Dans les r´eseaux sociaux un Sybil est un utilisateur cr´eant plusieurs comptes dans le but de spammer ou de faire de l’astroturfing.

sociaux diff´erente que nous d´etaillons dans le chapitre 7.

Cette id´ee que ces utilisateurs malhonnˆetes qui essayent de gagner en visibilit´e se trouvent “au premier ordre” entre eux et isol´es du reste du r´eseau a ´et´e, par ailleurs, utilis´ee pour ´etablir des mesures de confiance dans les r´eseaux sociaux en ligne [86]. L’id´ee g´en´erale de ce travail est qu’un utilisateur malhonnˆete de ce type a des connexions avec d’autres utilisateurs malhonnˆetes et ne se connecte que rarement `a des utilisateurs honnˆetes `a travers des connexions dites “connexions d’attaque”. Ainsi, une marche al´eatoire partant d’un tel utilisateur serait plus longue `a converger vers sa distribution de probabilit´e fi-nale que celle partant d’un utilisateur “normal”. Une mesure de confiance d’un utilisateur pourrait donc ˆetre d´eduite de ce temps de convergence.

5.5.2 Communaut´e des requˆetes p´edophiles effectu´ees sur un

r´eseau pair-`a-pair

Les r´eseaux pair-`a-pair (P2P) constituent un moyen populaire d’´echanger de grands volumes de donn´ees sur Internet. La p´edophilie est un enjeu de soci´et´e important qui a un impact sur la r´egularisation de l’Internet. Des travaux de recherche r´ecents [91] ont d´evelopp´e un filtre s´emantique dans le but de d´etecter les requˆetes p´edophiles effectu´ees sur un tel r´eseau reposant sur la combinaison de mots-clefs. La proportion des ´echanges de fichiers p´edopornographiques a ainsi pu ˆetre estim´ee.

Nous pensons qu’il est possible d’am´eliorer ce filtre s´emantique en compl´etant la com-munaut´e des requˆetes d´ej`a ´etiquet´ees comme p´edophiles par le filtre. On consid`ere pour cela le graphe utilisateurs-requˆetes associ´e. Ce graphe ´etant ici biparti, une adaptation de la m´ethode est n´ecessaire ; nous exposons des travaux pr´eliminaires allant dans ce sens dans le chapitre 9. Notre approche nous permet d’identifier des requˆetes non d´etect´ees comme p´edophiles, et donc de nouvelles combinaisons de mots-clefs. Nous pr´esentons ´egalement quelques mesures pour v´erifier la pertinence des cat´egories initialement d´efinies dans le filtre.

5.6 Conclusion et perspectives

Nous avons pr´esent´e dans ce chapitre une m´ethodologie qui, ´etant donn´e un ensemble de nœuds, calcule un score de proximit´e entre tous les nœuds du graphe et cet ensemble. Notre m´ethodologie utilise une proximit´e param´etr´ee, apprend ces param`etres `a partir des nœuds donn´es en entr´ee et combine les classements individuels obtenus pour chacun des nœuds de cet ensemble. De plus, l’´etude des classements individuels pour un nœud donn´e permet de savoir s’il est plutˆot central ou p´eriph´erique par rapport `a l’ensemble.

Si la majorit´e des nœuds de l’ensemble de d´epart appartiennent `a une communaut´e, une structure en “plateau / d´ecroissance / plateau” de la courbe des scores de proximit´e (en fonction du classement) est obtenue et une coupe `a la d´eriv´ee seconde la plus grande permet une d´etection pr´ecise de la communaut´e, dite multi-ego-centr´ee. Nous avons valid´e

la m´ethodologie avec des tests sur des graphes jouets et sur le benchmark de [87], ainsi qu’en compl´etant des cat´egories (annot´ees par les utilisateurs) dans Wikip´edia.

Une possible extension de ces travaux est l’´etude de communaut´es multi-ego-centr´ees pond´er´ees, possiblement avec des poids n´egatifs.

Chapitre 6

D´etection de communaut´es

recouvrantes