• Aucun résultat trouvé

Méthodes basées sur l’apprentissage

Soit u, v ∈ V les noeuds d’un graphe G(V, E) et lu,vl’étiquette de l’instance de paires des noeuds (u, v). Nous pouvons avoir :



+1 si u, v ∈ E

−1 sinon

où une paire de noeuds peut être étiquetée positive s’il existe un lien reliant les noeuds ; sinon la paire est étiquetée négative. Il s’agit donc d’un problème de classification binaire typique qui peut être résolu par des nombreux modèles d’apprentissage par classification supervisée, à savoir les arbres de décision, les machines à vecteurs de support, Bayes, etc(Lu et al., 2010, u et al., 2010).

Pujari et Kanawati ont suggéré une nouvelle approche de prédiction de lien topolo-gique dyadique appliquant un algorithme de choix social supervisé(Pujari and Kanawati, 2012, ujari and Kanawati, 2012). Ils ont employé ces données pour apprendre les poids associés à chaque entité calculée en fonction de la capacité de chaque attribut à prédire les liens observés. Ces poids ont ensuite été appliqués dans des algorithmes de choix sociaux supervisés pour prédire de nouveaux liens. Pour utiliser les réseaux sociaux auxiliaires ou

les réseaux de proximité disponibles, Lu et al. ont proposé une méthode d’apprentissage supervisé capable d’appréhender, de manière efficace, la dynamique des réseaux sociaux en présence des réseaux auxiliaires, puis de construire une grande variété de caractéristiques basées sur des chemins en utilisant plusieurs sources pour la prédiction des liens (Lu et al., 2010, u et al., 2010).

Dans un réseau social, une valeur de probabilité, par exemple une similarité topolo-gique ou une probabilité de transition en marche aléatoire, peut être attribuée à un lien entre chaque paire de noeuds. Il s’agit d’un graphe probabiliste. Plusieurs techniques de prédiction de liens basées sur l’apprentissage ont été proposées en exploitant le modèle de graphe probabiliste. Des études ont suggéré que de nombreux réseaux présentent une structure hiérarchique dans laquelle les noeuds se divisent en groupes pouvant être sub-divisés en sous-groupes des groupes, et ainsi de suite sur diverses échelles. Clauset et al. (Clauset et al., 2008, lauset et al., 2008) ont proposé un modèle pour déduire la structure hiérarchique du réseau et l’appliquer pour résoudre le problème de la prédiction des liens. En fait, un réseau hiérarchique est représenté par un dendrogramme appelé graphe aléa-toire hiérarchique où N feuilles correspondent aux noeuds du réseau et chaque N-1 noeud interne correspond à une probabilité pr où r est l’ancêtre commun le plus bas des deux noeuds. Soit G un réseau, D un dendrogramme, Er le nombre des arêtes, où r est l’ancêtre commun le plus bas des deux noeuds et Lr et Rr les nombres de feuilles des sous-arbres de gauche et de droite prenant racine en r. Alors, la probabilité du réseau est :

L(D, P r) = ΠrP rEr(1 − P r)LrEr−Rr (3.17)

La probabilité des noeuds internes est facile à déterminer en maximisant L(D, P rx,y). Pour prédire si une paire de noeuds non-connectés (x et y) sont connectés, un ensemble de dendrogrammes est, d’abord, échantillonné avec une probabilité proportionnelle à leur vrai semblance. Puis, la probabilité moyenne px,y sur les dendrogrammes d’échantillon est calculée en faisant la moyenne de la probabilité correspondante px,y. Le modèle de graphe aléatoire hiérarchique est capable d’exprimer une structure d’association et de désassorti-ment et d’obtenir des prévisions précises pour un large éventail de réseaux. Toutefois, cela prend beaucoup de temps de calcul et s’applique généralement aux réseaux contenant des milliers de noeuds.

Wang et al. ont développée une méthode qui utilisait trois types de caractéristiques, à savoir les caractéristiques de probabilité de cooccurrence, les caractéristiques de topologie et les caractéristiques sémantiques, pour résoudre le problème de la prédiction de liaison (Wang et al., 2007, ang et al., 2007). Pour dériver la probabilité de co-occurrence (la pro-babilité de liaison entre deux noeuds), un modèle de graphe probabiliste local utilisant des champs aléatoires de Markov (MRF) a été introduit. Pour prédire si deux noeuds (x et y) seront liés, trois étapes sont nécessaires : (1) utiliser les informations topologiques pour identifier l’ensemble de voisinage central de x et y ; (2) sélectionner des ensembles d’éléments qui appartiennent entièrement à cet ensemble et les employer comme données d’apprentissage pour former un modèle probabiliste local (ici, le processus de formation est traduit en un problème d’optimisation d’entropie maximum) ; et (3) estimer les ca-ractéristiques de probabilité de co-occurrence par inférence sur le modèle local. Ensuite, la régression logistique a été utilisée en tant que classificateur pour former les données

combinant ses trois types des entités.

Factorisation Matricielle

Menon et al.(Menon and Elkan, 2011, enon and Elkan, 2011)ont traité la prédiction de lien en tant que problème d’achèvement de matrice et ont étendu la méthode de factorisation matricielle pour résoudre ce problème. Ils ont factorisé le graphe G en L ( U ∧ UT ) pour U ∈ Rn,k, et ∧ ∈ Rk,koù n est le nombre des noeuds et k le nombre des caractéristiques latentes. Chaque noeud x a un vecteur latent correspondant

ux ∈ Rn . Ensuite, le score prédit par le modèle pour la paire (x ; y) est L ( ux

T ∧ uy ). Un grand nombre de méthodes de prédiction des liens sont limitées aux réseaux ho-mogènes avec des arêtes et des noeuds de type unique, par contre les réseaux sociaux pratiques ont généralement plusieurs types de relations et de noeuds. Par exemple, un ré-seau bibliographique hétérogène contient des noeuds, tels que les publications, les auteurs et les lieux, et des contours comme le co-auteur, cite et workin. En outre, il est important de résoudre le problème de prédiction des liens dans de réseaux sociaux hétérogènes.

3.5 Conclusion

Dans ce chapitre, nous avons mené une étude du suivi de changement de communauté dynamique et du problème de prédiction des liens dans laquelle nous avons décrit les méthodes proposées dans ce travail de recherche. Nous remarquons, suite à cette étude de l’état de l’art, que les travaux de suivi de l’évolution et de prédiction des liens ont négligé la définition, la sélection et la collection des fonctionnalités appropriées des réseaux sociaux. Diverses techniques de prédiction des liens dans les réseaux sociaux n’ont pris en compte que les caractéristiques et les attributs topologiques. Peu de travaux ont considéré la structure communautaire dans les réseaux sociaux. En fait, l’intérêt du lien social sont différentes les unes des autres même si elles appartiennent au même groupe. Un modèle d’affinité pour quantifier, extraire et analyser les forces des liens sociaux au sein des groups est nécessaire. Ce problème est un point d’intérêt dans nos contributions présentées dans la partie suivante.

Chapitre

4