2.3 Applications sociales interactives

3.1.4 Fouille de données

Afin d’analyser les données et extraire des connaissances, des algorithmes du domaine de fouille de données (Data Mining) sont appliqués. Il existe différentes techniques utili-sées suivant les modèles de profils utilisateurs, qui sont les suivantes :

3.1.4.1 Modélisation comportementale

Les comportements des utilisateurs sont enregistrés dans des structures de données historiques. Différentes méthodes existent pour la modélisation du comportement comme les règles d’association, les modèles de Markov et les arbres de décision.

3.1.4.2 Modélisation des centres d’intérêt

Une fonction de préférence est définie afin de représenter le degré d’intérêt ou désin-térêt d’un utilisateur à un concept ou sujet donné. L’extraction des préférences se fait à l’aide d’approches directes en demandant explicitement aux utilisateurs de dire ce qu’ils préfèrent ; ou approches semi-directes en leur demandant de noter les centres d’intérêt ou utiliser des approches indirectes en capturant les préférences à partir des données dispo-nibles.

Pour une meilleure compréhension des contenus publiés par les utilisateurs, notre but est d’identifier automatiquement les sujets qui les intéressent en fonction de leurs publica-tions. En effet, généralement, les utilisateurs n’expriment pas explicitement leurs centres d’intérêt. Dans cette perspective, une solution possible consiste à utiliser les “hashtags” qu’ils publient. Cependant, il y a parfois des faibles usages du “hashtag” dans les en-sembles de données, ce qui le rend inapproprié à être utilisé comme centre d’intérêt.

La modélisation automatique des thématiques est par contre couramment utilisée pour analyser de grands volumes de contenus non étiquetés et extraire automatiquement les su-jets d’intérêt, parfois appelés structures thématiques latentes. C’est dans ce but que nous appliquons le modèle LDA (Latent Dirichlet Allocation) [Blei et al., 2003b] pour identi-fier les intérêts latents des utilisateurs à partir d’une collection de documents représentant leurs publications. Il s’agit d’une technique d’apprentissage automatique non supervisé qui traite chaque document comme un vecteur de mots. Sur la base de cette hypothèse, un document est représenté comme une distribution de probabilité sur certains sujets d’inté-rêt, tandis qu’un sujet est représenté comme une distribution de probabilité sur un certain nombre de mots.

TABLE3.1 – Matrice “documents-mots”

mot 1 mot 2 ... mot p doc 1

... doc n

TABLE3.2 – Matrice “sujets-mots”

mot 1 mot 2 ... mot p sujet 1

... sujet k

TABLE3.3 – Matrice “documents-sujets”

topic 1 topic 2 ... topic k doc 1

... doc n

L’ensemble des données peut être initialement décrit sous forme de trois matrices : qui sont décrites dans les tableaux3.1,3.2et3.3.

Soient k le nombre des sujets d’intérêt, n le nombre des documents et p le nombre des mots. Les valeurs dans les matrices caractérisent l’association pouvant s’agir de coeffi-cients de combinaison linéaire ou des probabilités.

Etant un modèle probabiliste génératif, LDA suppose un processus pour générer chaque document à l’aide de facteurs latents, comme suit :

• Sélection d’un sujet k pour le mot j ;

• Distribution des mots pour chaque sujet suivant la distribution de Dirichlet [Blei and Jordan,2006] ;

• Sélection d’un sujet pour chaque couple “mot-document” ;

• Distribution des sujets pour chaque document.

FIGURE 3.2 – Représentation graphique du modèle LDA.

Une représentation graphique du modèle LDA est décrite dans la figure 3.2. Le mo-dèle a deux paramètres à inférer à partir des données observées, qui sont les distributions des variables latentes θ (document-sujet) et φ (sujet-mot). En déterminant ces deux distri-butions, il est possible d’obtenir les sujets d’intérêt sur lesquels les utilisateurs écrivent. Pour cette inférence, et vue sous l’angle de la maximisation de la log-vraisemblance, nous passons par des heuristiques. Dans notre travail, nous avons recours à Gibbs Sam-pling. Il s’agit d’une méthode de Monte-Carlo. D’abord, elle assigne aléatoirement les sujets. Ensuite, elle calcule les distributions conditionnelles sur des échantillons et, selon une certaine probabilité, assigne les sujets aux mots. Ainsi, cela recommence un grand nombre de fois pour obtenir une bonne approximation des distributions.

1. DT, une matrice n × k, où DTi,j contient le nombre de fois un mot dans les do-cuments correspondants aux publications d’un utilisateur i a été assigné au sujet

tj;

2. WT, une matrice p × q, où W Ti,jcontient le nombre de fois un mot wia été assigné au sujet tj;

3. Z, un vecteur 1 × p, où Ziest l’assignement d’un sujet à un mot wi.

En particulier, nous nous intéressons particulièrement à la matrice DT contenant le nombre de fois un mot dans une publication d’un utilisateur été assigné à un sujet donné. Nous la normalisons sous forme d’une matrice DT0telle que kDTi.0k = 1 pour toute ligne

DTi.0. Chaque ligne de DT0 représente la distribution de probabilité de l’utilisateur i sur les k sujets, c’est-à-dire chaque élément DTij0 contient la probabilité qu’un utilisateur i est intéressé au sujet j.

3.1.4.3 Modélisation des intentions

La modélisation des intentions repose sur des systèmes de classification comportant des catégories prédéfinies. Cette modélisation se présente à un niveau plus élevé que les deux autres types de modélisation. En effet, elle est plus approfondie, et tient compte du contexte comme étant une information utilisée pour caractériser la participation de l’utilisateur lors de l’interaction.

Parmi ces techniques, nous allons utiliser des algorithmes de classification semi super-visée (pour la classification des sentiments des utilisateurs) et d’autres de prédiction (une classification supervisée pour la prédiction des intérêts) de la catégorie de la modélisation des intentions (intention modeling).

Dans le document Une approche de détection des communautés d'intérêt dans les réseaux sociaux : application à la génération d'IHM personnalisées (Page 73-76)