Calcul des propagations bas´ee sur le mod`ele de Markov

de Markov

3.4.1 Définitions et propriétés

Une chaˆıne de Markov est constituée d’un ensemble dénombrable S éventuellement fini, appelé l’espace d’état, avec une famille dénombrable de variables aléatoires

X0, X1, X2, · · · avec des valeurs de S tels que : D´efinition 3 (Les chaˆınes de Markov)

P [Xl+1 = s|Xl= sl, Xl−1 = sl−1,...X0 = s0] = P [Xl + 1 = s|Xl = s1].

Nous nous référons à cette équation fondamentale comme la propriété de Mar- kov. Les variables aléatoires X0, X1, X2, · · · sont dépendantes. Les chaˆınes de Markov sont parmi les quelques séquences de variables aléatoires dépendantes qui sont de caractère général et ont été étudiés avec succès avec des résultats profonds sur leur comportement.

On pense souvent que l’indice l de la variable aléatoire Xl représente le temps (discrètement), et les variables aléatoires représentent l’évolution d’un système dont le comportement est connu seulement de manière probabiliste. La propriété de Markov exprimant l’hypothèse de la connaissance du présent (i.e., Xl = sl) se rapporte à des prévisions sur l’avenir du système. Cepen- dant, toute information supplémentaire sur le passé (Xj = sj, j ≤ l − 1) est imprévisible.

Etant donné que l’espace d’état est dénombrable, ou même fini, il est ordi- naire dans certain cas d’utiliser : les entiers Z ou un sous-ensemble tel que Z+ (entiers non négatifs), les nombres naturels N = 1, 2, 3, · · · ou 0, 1, 2, · · · , m comme l’espace d’état. La chaˆıne spécifique de Markov détermine, souvent, la notation naturelle pour l’espace d’état. Dans le cas général où aucune chaˆıne de Markov spécifique n’est choisie, nous utilisons souvent N ou Z+ comme l’espace d’état. L’équation que nous proposons est la suivante :

P_ijl,l+1= P [Xl+1 = j|Xl= i]

Quand l est fixe (éventuellement infini) la matrice Pl = (P_ijl,l+1) est appelée la matrice de transition (à l’instant l). Sauf indication contraire, toutes les chaˆınes de Markov prise en compte dans cette thèse sont homogènes dans le temps. L’indice l est donc omis. Nous représentons simplement la matrice de transition comme P = (Pij). P est appelée la matrice de transition.

Partant de cette définition formelle, la probabilité qu’un membre donné obtient des données, dépend de la probabilité de l’obtention uniquement à partir de ses amis directs.

3.4.2 Algorithme de d´ecouverte des relations cach´ees

(HDPD) utilisant MapReduce

MapReduce est un framework qui permet d’écrire des programmes qui traitent de grandes quantités de données non structurées d’une fa¸con pa- rallèle et distribués sur un groupe de processeurs ou d’ordinateurs autonomes.

Le framework est divis´e en deux parties :

– Map, une fonction qui traite les travaux sur diff´erents noeuds du cluster distribu´e.

– Reduce, une autre fonction qui rassemble le travail et r´esout les r´esultats en une seule valeur.

Dans le framework MapReduce chaque noeud du cluster devrait remonter les mises à jour des tâches ainsi que leurs états. Si un noeud reste silencieux pendant un intervalle donné, un noeud maˆıtre ré-attribue la tâche à d’autres noeuds.

Etant donné que l’objectif de l’approche est d’estimer le risque maximal de propagation de données, la fonction qui nous estime la probabilité maxi- male est donc celle la plus appropriée. L’algorithme proposé nommé HDPD

permet de calculer la probabilité de propagation des données pij de la matrice de propagation. Cela se fait en utilisant l’approche de MapReduce pour réduire la complexité. L’algorithme HDPD calcule en parallèle les lignes de la matrice de propagation. Son traitement se compose en deux étapes :

1. Etape 1 : La fonction Map

La Map récupère en entrée une liste de membres, pour chaque membre, elle calcule la probabilité de propagation des données d’un utilisateur mi vers tous les autres en utilisant la matrice du réseau social à partir du contexte. Cela veut dire qu’elle calcule les probabilités pik, (i 6= k) de la ligne i (membre mi) dans la matrice de propagation en utilisant la fonction d’énergie définie. Par conséquent, l’algorithme peut utiliser autant de Map que de membres.

2. Etape 2 : La fonction Reduce

Le reducer génère la matrice de propagation par l’agrégation des résultats des Maps.

Réseau Social

m₁ (p₁₁, p₁₂, …, p_1n) …

Reduce

Map₁

Matrice de propagation

m₂ (p₂₁, p₂₂, …, p_2n) m_n (p_n1, p_n2, …, p_nn) Map₂ Map_n

Figure 3.3 – Algorithme HDPD utilisant MapReduce

L’algorithme de propagation HDPD proposé (Algorithme 1) calcule la fonction d’énergie optimale Po∗ = (po1, po2, ..., pon) qui représente la probabi- lité de propagation des données du membre mo au membres {mi}_i∈[1,n]

Algorithm 1 Mapper function of the High Data Propagation Discovery (HDPD)

Require: InputM ap – The list of members to be computed mo – owner of the data

mr – recipient member of data that we want calculate the propagation probability

Ensure: P S – all the implicit data propagation from mo

1: PS = (ps1, . . . , pso, . . . , psn) – Energy function.

2: G hM, A, P M i ← Social Network Recovery Function() – labeled directed

graph of the social network where P M is the propagation matrix

3: for each member mi in InputMap do 4: po = 1 and ∀i 6= o, pi = 0 {I}terations 5: for each member mi 6= mo do

6: psi = 1 − ( Q mk∈Nmi (pk× (1 − pki))) 7: end for 8: Collect (P S) 9: end for

Et la fonction Reducer se pr´esente comme suit :

Algorithm 2 Reducer function of the High Data Propagation Discovery (HDPD)

Require: InputM ap – List of propagations

1: while InputM ap has more value do

2: p –all the implicit data propagation from mo

3: Collect(mo,p) – Collect propagation of the member mo 4: end while

donne le r´esultat suivant :        

Bob Alice John David M ickael George

Bob 1 0.28 0, 09 0.16 0.38 0.7 Alice 0.12 1 0.28 0.48 0.9 0.18 John 0.01 0.09 1 0.2 0.1 0.02 David 0.07 0.46 0.15 1 0, 5 0.1 M ickael 0.14 0.9 0.31 0.5 1 0.2 George 0.7 0.3 0.18 0.19 0.32 1        

Dans la figure 3.4, on note que l’algorithme HDPD découvre les relations cachées entre Alice et David et met à jour la matrice de propagation en modifiant la valeur de propagation de zéro avec une propagation au-dessus du seuil. Pour des raisons de visibilité la figure contient uniquement les mises à jour pour Alice, Bob et John.

Figure 3.4 – R´esultats du HDPD ´

Etant donnée n le nombre de membres enregistrés, m le nombre de relations et f (n) la complexité de la fonction de propagation. Cette fonction est

composée de n ∗ m appel récursif. Ensuite, la complexité de cette fonction est : O(n ∗ m). Dans le pire des cas, le nombre relation est égal au nombre de membres.

Si on considère le cas théorique extrême, alors, la complexité de l’algorithme est de O(n2_).

Dans le document Gestion de la collaboration et compétition dans le crowdsourcing : une approche avec prise en compte de fuites de données via les réseaux sociaux (Page 68-73)