• Aucun résultat trouvé

de Markov

3.4.1

D´efinitions et propri´et´es

Une chaˆıne de Markov est constitu´ee d’un ensemble d´enombrable S ´eventuellement fini, appel´e l’espace d’´etat, avec une famille d´enombrable de variables al´eatoires

X0, X1, X2, · · · avec des valeurs de S tels que : D´efinition 3 (Les chaˆınes de Markov)

P [Xl+1 = s|Xl= sl, Xl−1 = sl−1,...X0 = s0] = P [Xl + 1 = s|Xl = s1].

Nous nous r´ef´erons `a cette ´equation fondamentale comme la propri´et´e de Mar- kov. Les variables al´eatoires X0, X1, X2, · · · sont d´ependantes. Les chaˆınes de Markov sont parmi les quelques s´equences de variables al´eatoires d´ependantes qui sont de caract`ere g´en´eral et ont ´et´e ´etudi´es avec succ`es avec des r´esultats profonds sur leur comportement.

On pense souvent que l’indice l de la variable al´eatoire Xl repr´esente le temps (discr`etement), et les variables al´eatoires repr´esentent l’´evolution d’un syst`eme dont le comportement est connu seulement de mani`ere probabiliste. La propri´et´e de Markov exprimant l’hypoth`ese de la connaissance du pr´esent (i.e., Xl = sl) se rapporte `a des pr´evisions sur l’avenir du syst`eme. Cepen- dant, toute information suppl´ementaire sur le pass´e (Xj = sj, j ≤ l − 1) est impr´evisible.

´

Etant donn´e que l’espace d’´etat est d´enombrable, ou mˆeme fini, il est ordi- naire dans certain cas d’utiliser : les entiers Z ou un sous-ensemble tel que Z+ (entiers non n´egatifs), les nombres naturels N = 1, 2, 3, · · · ou 0, 1, 2, · · · , m comme l’espace d’´etat. La chaˆıne sp´ecifique de Markov d´etermine, souvent, la notation naturelle pour l’espace d’´etat. Dans le cas g´en´eral o`u aucune chaˆıne de Markov sp´ecifique n’est choisie, nous utilisons souvent N ou Z+ comme l’espace d’´etat. L’´equation que nous proposons est la suivante :

Pijl,l+1= P [Xl+1 = j|Xl= i]

Quand l est fixe (´eventuellement infini) la matrice Pl = (Pijl,l+1) est appel´ee la matrice de transition (`a l’instant l). Sauf indication contraire, toutes les chaˆınes de Markov prise en compte dans cette th`ese sont homog`enes dans le temps. L’indice l est donc omis. Nous repr´esentons simplement la matrice de transition comme P = (Pij). P est appel´ee la matrice de transition.

Partant de cette d´efinition formelle, la probabilit´e qu’un membre donn´e obtient des donn´ees, d´epend de la probabilit´e de l’obtention uniquement `a partir de ses amis directs.

3.4.2

Algorithme de d´ecouverte des relations cach´ees

(HDPD) utilisant MapReduce

MapReduce est un framework qui permet d’´ecrire des programmes qui traitent de grandes quantit´es de donn´ees non structur´ees d’une fa¸con pa- rall`ele et distribu´es sur un groupe de processeurs ou d’ordinateurs autonomes.

Le framework est divis´e en deux parties :

– Map, une fonction qui traite les travaux sur diff´erents noeuds du cluster distribu´e.

– Reduce, une autre fonction qui rassemble le travail et r´esout les r´esultats en une seule valeur.

Dans le framework MapReduce chaque noeud du cluster devrait remonter les mises `a jour des tˆaches ainsi que leurs ´etats. Si un noeud reste silencieux pendant un intervalle donn´e, un noeud maˆıtre r´e-attribue la tˆache `a d’autres noeuds.

´

Etant donn´e que l’objectif de l’approche est d’estimer le risque maximal de propagation de donn´ees, la fonction qui nous estime la probabilit´e maxi- male est donc celle la plus appropri´ee. L’algorithme propos´e nomm´e HDPD

permet de calculer la probabilit´e de propagation des donn´ees pij de la ma- trice de propagation. Cela se fait en utilisant l’approche de MapReduce pour r´eduire la complexit´e. L’algorithme HDPD calcule en parall`ele les lignes de la matrice de propagation. Son traitement se compose en deux ´etapes :

1. Etape 1 : La fonction Map

La Map r´ecup`ere en entr´ee une liste de membres, pour chaque membre, elle calcule la probabilit´e de propagation des donn´ees d’un utilisateur mi vers tous les autres en utilisant la matrice du r´eseau social `a partir du contexte. Cela veut dire qu’elle calcule les probabilit´es pik, (i 6= k) de la ligne i (membre mi) dans la matrice de propagation en utilisant la fonction d’´energie d´efinie. Par cons´equent, l’algorithme peut utiliser autant de Map que de membres.

2. Etape 2 : La fonction Reduce

Le reducer g´en`ere la matrice de propagation par l’agr´egation des r´esultats des Maps.

Réseau Social

m1 (p11, p12, …, p1n)

Reduce

Map1

Matrice de propagation

m2 (p21, p22, …, p2n) mn (pn1, pn2, …, pnn) Map2 Mapn

Figure 3.3 – Algorithme HDPD utilisant MapReduce

L’algorithme de propagation HDPD propos´e (Algorithme 1) calcule la fonction d’´energie optimale Po∗ = (po1, po2, ..., pon) qui repr´esente la probabi- lit´e de propagation des donn´ees du membre mo au membres {mi}i∈[1,n]

Algorithm 1 Mapper function of the High Data Propagation Discovery (HDPD)

Require: InputM ap – The list of members to be computed mo – owner of the data

mr – recipient member of data that we want calculate the propa- gation probability

Ensure: P S – all the implicit data propagation from mo

1: PS = (ps1, . . . , pso, . . . , psn) – Energy function.

2: G hM, A, P M i ← Social Network Recovery Function() – labeled directed

graph of the social network where P M is the propagation matrix

3: for each member mi in InputMap do 4: po = 1 and ∀i 6= o, pi = 0 {I}terations 5: for each member mi 6= mo do

6: psi = 1 − ( Q mk∈Nmi (pk× (1 − pki))) 7: end for 8: Collect (P S) 9: end for

Et la fonction Reducer se pr´esente comme suit :

Algorithm 2 Reducer function of the High Data Propagation Discovery (HDPD)

Require: InputM ap – List of propagations

1: while InputM ap has more value do

2: p –all the implicit data propagation from mo

3: Collect(mo,p) – Collect propagation of the member mo 4: end while

donne le r´esultat suivant :        

Bob Alice John David M ickael George

Bob 1 0.28 0, 09 0.16 0.38 0.7 Alice 0.12 1 0.28 0.48 0.9 0.18 John 0.01 0.09 1 0.2 0.1 0.02 David 0.07 0.46 0.15 1 0, 5 0.1 M ickael 0.14 0.9 0.31 0.5 1 0.2 George 0.7 0.3 0.18 0.19 0.32 1        

Dans la figure 3.4, on note que l’algorithme HDPD d´ecouvre les relations cach´ees entre Alice et David et met `a jour la matrice de propagation en modifiant la valeur de propagation de z´ero avec une propagation au-dessus du seuil. Pour des raisons de visibilit´e la figure contient uniquement les mises `a jour pour Alice, Bob et John.

Figure 3.4 – R´esultats du HDPD ´

Etant donn´ee n le nombre de membres enregistr´es, m le nombre de rela- tions et f (n) la complexit´e de la fonction de propagation. Cette fonction est

compos´ee de n ∗ m appel r´ecursif. Ensuite, la complexit´e de cette fonction est : O(n ∗ m). Dans le pire des cas, le nombre relation est ´egal au nombre de membres.

Si on consid`ere le cas th´eorique extrˆeme, alors, la complexit´e de l’algo- rithme est de O(n2).