• Aucun résultat trouvé

2.3 Conclusions et Perspectives

3.1.2 Inférence de Graphes de Diffusion

Divers travaux ont concerné l’apprentissage du graphe d’influence utilisé par les modèles de diffu-sion, basés sur des jeux d’épisode d’entraînementD. Typiquement, chaque épisode D = (UD, TD) ∈ D, qui correspond à la diffusion d’un item particulier sur le réseau, est défini par un ensemble d’uti-lisateurs infectés UD⊆ U et TD= {tuD∈ N + ∞}u∈U l’ensemble des temps d’infection associés, avec

tuDcorrespondant au temps d’infection de u pour tout nœud u ∈ UD, et valant ∞ pour les nœuds non infectés dans l’épisode D. Les temps d’infection dans TDsont des temps relatifs par rapport au temps du premier nœud infecté (i.e., la ou les sources de la diffusion, pour qui tuDvaut 1). Dans ce qui suit, on note UD<v l’ensemble des nœuds ayant été infecté avant le nœud v dans la diffusion D :

U<vD = {u ∈ U |tuD< tvD}. Notons que les épisodes correspondent à ce que l’on peut généralement

ob-server d’une diffusion : ils décrivent quels nœuds participent à une diffusion et quand, mais pas les chemins pris par la diffusion. Notons également que nous nous restreignons aux seuls évènements observables sur le réseau. C’est à dire par exemple que pour un cas typique où l’on n’est capable que d’observer les publications des utilisateurs d’un réseau social, les nœuds ayant été atteints par un contenu d’intérêt mais ne l’ayant pas re-partagé sur le réseau ne sont pas considérés comme infectés. Enfin, les épisodes considérés dans ce qui suit ne reportent que la première participation de chaque nœud à la diffusion (e.g., si un nœud re-partage plusieurs fois le même contenu, son temps d’infection correspond à l’instant du premier re-partage pour l’épisode correspondant).

Les cascades correspondent à des structures plus riches que les épisodes de diffusion, car elles expliquent la manière dont une diffusion se déroule. Une cascade CD= (UD, TD, ID) correspond à un graphe dirigé acyclique partant des sources de la diffusion D et atteignant l’ensemble des nœuds in-fectés UD⊆ U , selon des transmissions depuis des nœuds émetteurs contenus dans ID, aux temps d’infection donnés dans TD. ID = {IDu ∈ 2UDu}u∈UD est donc l’ensemble des infecteurs dans D, où IDu contient l’ensemble des noeuds ayant réussi à infecter u (vaut ; pour les sources de la diffusion). De nombreuses structures de cascade peuvent alors correspondre à un épisode de diffusion observé. Les modèles de cascade émettent généralement des hypothèses sur ces structures de cascade latentes pour l’extraction du graphe de diffusion.

L’objectif des modèles de cascade est donc de définir le graphe de diffusion G = (U ,Θ), avec Θ contenant les relations d’influence du réseau. Notons que dans ce qui suit nous ne distiguons pas les relations d’influence (i.e., des relations (u → v) de type "u cause l’infection de v avec une probabilité θu,v") de la correlation temporelle (i.e., des relations (u → v) de type "à l’infection de u succède celle de v avec une probabilitéθu,v"). Selon les cas,Θ peut être restreint à des liens explicites donnés par le réseau social étudié. Cependant, divers travaux ont montré que ces relations explicites sont rarement représentatives des vrais canaux de diffusion sur le réseau [Ver Steeg and Galstyan, 2013, Yang and Les-kovec, 2010, Najar et al., 2012]. Par ailleurs, dans de nombreux contextes, ces relations ne sont que très partiellement disponibles. À l’instar de [Gomez-Rodriguez et al., 2011], nous considérons l’inférence sur des graphes complets. Une heuristique consistant à retirer tous les liens (u → v) n’ayant aucun exemple d’épisode avec v infecté après u dans l’ensemble d’entraînement peut néanmoins permettre de réduire drastiquement la complexité de l’apprentissage des poidsΘ selon les cas, sans altérer la solution obtenue pour l’ensemble des algorithmes considérés dans la suite (i.e.,θu,v, si conservé dans Θ, convergerait rapidement vers une valeur nulle pour tout lien (u → v) sans exemple de possible diffusion en apprentissage).

Dans ce chapitre, nous nous appuyons très largement sur la méthode d’apprentissage du mo-dèle IC donnée dans [Saito et al., 2008], qui constitue une amélioration de l’approche de [Gruhl et al., 2004], en remplaçant l’hypothèse simplificatrice “exactement un influenceur par infection” par une hypothèse “au moins un influenceur par infection”, qui correspond plus fidèlement aux dynamiques du modèle IC, plusieurs transmissions pouvant réussir simultanément. Selon IC, la probabilité pour tout v ∈ U d’être infecté, connaissant un ensemble d’infecteurs potentiels I ⊆ U , correspond à la pro-babilité qu’au moins un nœud u ∈ I réussisse à infecter v :

PΘ(v|I) = 1 −Y u∈I

(1 − θu,v) (3.1)

Dans le modèle IC classique, lorsqu’une nouvelle infection d’un nœud v ∈ U est provoquée par un nœud u ∈ UDpour une diffusion D donnée, elle survient au temps tvD= tuD+ 1. La vraisemblance d’un épisode de diffusion D est alors donnée par :

PΘ(D) = Y v∈UD

PΘ(v|{u ∈ UD|tuD= tvD− 1}) Y v∈U

(1 − PΘ(v|{u ∈ UD|tuD< tvD− 1})) (3.2) où le terme de gauche correspond à la probabilité que tous les infectés de l’épisode le soient à leur temps d’infection connaissant les infectés du pas de temps précédent dans D, et le terme de droite correspond à la probabilité qu’aucun nœud ne soit infecté avant son temps d’infection observé. No-tons que l’on prend arbitrairement PΘ(v|;) = 1 pour tout v ∈ UDpour ignorer les infections non ex-pliquées dans les données. Comme énoncé précédemment, ceci aurait pu être contourné de manière alternative à la manière de [Gruhl et al., 2004], en considérant un nœud fictif u0représentant le monde extérieur, ajouté dans tout ensemble I considéré dans l’équation (3.1), permettant alors l’explication de toutes les infections observées, y compris des sources et des nœuds infectés sans prédécesseurs infectés au pas de temps précédant leur infection.

La log-vraisemblanceL (Θ;D) d’un ensemble d’épisodes d’apprentissage D est alors donnée par : L (Θ;D) = X D∈D log(PΘ(D)) = X D∈D X v∈UD l og (PDv) + X v∈U X u∈UD, tD u<tD v−1 l og (1 − θu,v) (3.3)

où PDv est un raccourci pour PΘ(v|{u ∈ UD|tuD= tDv − 1}). Cette log-vraisemblance est cependant très difficile à optimiser directement, du fait de la formulation de PvDdonnée en équation 3.1. Néanmoins,

si nous connaissions quelles tentatives d’infection ont réussi et lesquelles ont échoué dans les pro-cessus de diffusion observés, l’optimisation du problème devriendrait alors beaucoup plus simple. Cela motive l’emploi d’un algorithme type Espérance-Maximisation (EM), à la manière de [Dempster et al., 1977], en considérant les succès ou échecs des tentatives d’infection comme facteurs latents. L’espérance de log-vraisemblance des épisodesD, selon les paramètres courants ˆΘ pour l’estimation des probabilités de succès des tentatives d’infection, est donnée par :

Q(Θ| ˆΘ) = X D∈D ΦD(Θ| ˆΘ) + X v∈U X u∈UD, tD u<tDv−1 l og (1 − θu,v) (3.4)

avecΦD(Θ| ˆΘ) correspondant à la valeur espérée selon ˆΘ, pour un épisode de diffusion D, du premier terme de la log-vraisemblance de D (i.e.,P

v∈UDl og (PvD)), qui correspond à la log-vraisemblance sur les infections de D (la vraisemblance sur les non-infections reste inchangée car ne dépendant d’aucun facteur caché). Selon les estimations courantes ˆΘ, un nœud v est infecté dans D au temps tD

v avec une probabilité ˆPDv = PΘˆ(v|{u ∈ UD|tuD= tvD− 1}). Pour tout D ∈ D et tout v ∈ UD, sachant que v est infecté au temps tvD, pour tout u ∈ UDtel que tuD= tvD− 1, la probabilité conditionnelle ˆPDu→vque l’infection de v à partir de u ait réussi est donnée par ˆPDu→v= ˆθu,v/ ˆPDv. On a alors :

ΦD(Θ| ˆΘ) = X v∈UD X u∈UD, tD u=tvD−1 ˆθu,v ˆ

PDv log(θu,v) + (1 −ˆθu,v ˆ

PvD ) log(1 − θu,v) (3.5)

Notons alors que notre problème de maximisation deQ(θ|ˆθ) se décompose en un ensemble de problèmes de maximisation indépendants, avec un problème individuel par paramètreθu,v∈ Θ. Or, pour chaqueθu,v ∈ Θ, le problème de maximisation est concave. En annulant la dérivée de Q(θ|ˆθ) selon chaque paramètreθu,v∈ Θ, on obtient alors la règle de mise à jour suivante :

θu,v= P D∈D+ u,v ˆθu,v ˆ PDv |Du,v+ | + |Du,v | (3.6) avec : D+ u,v={D ∈ D|tD(v) = tD(u) + 1} (3.7) D u,v={D ∈ D|tD(v) > tD(u) + 1} (3.8) Alors queD+

u,vcorrespond à l’ensemble des épisodes deD tel que v est possiblement infecté par u (temps d’infection consécutifs),D

u,v représente l’ensemble des épisodes deD tels que l’infection de

v par u a échoué (u appartient à D et v n’est ni infecté avant u, ni infecté au temps succédant celui de u). Suivant les principes de l’algorithme EM, il est possible de montrer que la répétition de ces étapes

d’Espérance (calcul de ˆPDv pour tout D et tout v) et de Maximisation (définie en (3.6)), converge vers un optimum local de la log-vraisemblance donnée en (3.3) (en utilisant notamment l’inégalité de Gibbs). Cet algorithme, proposé par [Saito et al., 2008], est à la base de nombreuses extensions, notam-ment une version en temps continu CTIC donnée dans [Saito et al., 2009], et d’une bonne partie de nos contributions données dans la suite. CTIC considère deux paramètres distincts pour chaque couple (u, v) ∈ U2: une probabilité ku,v∈ [0; 1] d’infection de v par u et un paramètre de délai d’in-fection ru,v. Un algorithme similaire de type EM est proposé pour ce cas (voir les détails en section

3.3). Notons l’approche NetInf [Gomez Rodriguez et al., 2010], qui vise à filtrer un sous-ensemble de liens d’influence dans le graphe obtenu par un modèle type IC ou CTIC, selon des recherches d’arbres couvrants (cascades de diffusion) de poids maximaux pour chaque épisode, puis en exploitant la pro-priété de sous-modularité du problème d’optimisation associé. D’autres approches d’inférence de graphe de diffusion existent, telles que NetRate [Gomez-Rodriguez et al., 2011], qui correspond à une version en temps continu similaire à CTIC, mais où un seul paramètre par lien est utilisé pour déter-miner les temps d’infection dans chaque épisode. Cette approche présente l’avantage considérable de permettre la formulation du problème d’inférence de graphe sous la forme d’une minimisation convexe, ce qui lui a valu une forte popularité et de nombreuses extensions [Du et al., 2012, Gomez-Rodriguez et al., 2013a, Daneshmand et al., 2014]. Cependant, cette formulation du problème m’est toujours apparue beaucoup plus limitée que le modèle CTIC, un noeud v pouvant être peu fréquem-ment infecté par un noeud u mais dans un délai très court (et inversefréquem-ment), ce qui ne peut pas être modélisé dans des modèles synchrones comme NetRate et ses extensions. Nos expérimentations sur des problèmes avec données réelles ont confirmé cette intuition, les performances de NetRate s’avé-rant souvent très mauvaises sur ces données. Notons enfin l’approche InfoPath [Gomez-Rodriguez et al., 2013b], qui applique NetRate de manière séquentielle pour la découverte de relations dans des contextes de distributions d’influence non stationnaires.