• Aucun résultat trouvé

Techniques de valorisation de l’information

CHAPITRE 2 REVUE DE LA LITTÉRATURE

2.3 Twitter et les techniques de valorisations d’informations

2.3.2 Techniques de valorisation de l’information

Dans cette partie, les techniques de récupération et de structuration des données issues des réseaux sociaux seront présentées.

2.3.2.1 Les données et les techniques informatiques Fouille de données

À raison de plusieurs millions de messages publiés chaque jour sur le réseau social, un raffinage des données (data mining) est nécessaire pour rendre les messages utilisables. La fouille, ou le forage de données consiste en cela à extraire des informations à partir d’une grande quantité de données.

Zhang et Zhou (2004) considèrent que les nouvelles techniques de fouilles de données ont permis de découvrir des moyens de prédire des tendances futures en particulier sur les comportements au sein des marchés financiers. Ils ajoutent aussi que de bonnes techniques de data mining permettent d’obtenir des avantages compétitifs sur les revenus et sur les coûts tout en améliorant la réactivité sur les marchés. Les techniques de fouilles de données sont nombreuses et ont des applications dans tous les domaines comme la biologie, le biomédical ou la physique (Wu et al. 2014).

D’autres se sont intéressés à la fouille de données issues des médias sociaux (social media

mining) comme Tang, Chang, & Liu (2014) qui se sont demandés si les différentes théories

sociales actuelles pouvaient être appliquées aux données issues des médias sociaux. En se basant sur trois théories sociales, (1) la corrélation sociale, (2) la théorie de la balance et (3) la théorie du statut, ils ont voulu déterminer si les relations sociales sur les médias sociaux pouvaient s’apparenter à celles du quotidien. Ils en ont conclu que ces théories pouvaient s’appliquer aux réseaux sociaux. Cette découverte offre des nouvelles perspectives dans le domaine de la fouille de données. En particulier, on peut déduire de ces théories des modèles capables d’extraire les informations importantes issues des médias sociaux et omettre le reste. Pour déterminer ces modèles, Tang, Chang, & Liu (2014) ont découpé l’information issue des médias sociaux en trois catégories de données.

Figure 2.6 : Théories sociales dans la fouille de données issues des médias sociaux (Tang et al., 2014)

Les informations sur l’utilisateur

Le premier type d’information est celui qui concerne le(s) utilisateur(s). Mieux connaître l’utilisateur, ses goûts et ses centres d’intérêts, c’est mieux contrôler son influence. Dans le cadre d’une entreprise et de son e-réputation, obtenir des informations sur ses principaux détracteurs permet de mieux anticiper leurs réactions et donc de prévenir des possibles crises.

Trois techniques existent pour extraire des informations sur les utilisateurs. La première est la détection de communautés. La détection de communautés permet de définir des groupes rassemblant des utilisateurs plus connectés les uns aux autres qu’au reste de leurs réseaux. C’est l’outil qui permet de reconnaître ses détracteurs.

Le groupe étant connu, le second outil permet de connaître le profil de ceux qui en font partie, c’est la classification des utilisateurs. Cet outil consiste à inférer le profil d’un utilisateur en se basant sur les profils des personnes de son réseau.

Les profils des détracteurs étant créés, la dernière étape consiste à s’assurer qu’ils sont bien réels. En effet, les médias sociaux permettent de diffuser de l’information très rapidement et à très

grande échelle. C’est donc un véhicule important de spam11. Les spammeurs introduisent un biais dans les analyses des réseaux sociaux, il est donc important de les identifier. Ces informations posent cependant beaucoup de problèmes éthiques, identifier un utilisateur en particulier étant une intrusion dans des informations privées.

Les informations sur les relations

Le second type d’information se porte sur les relations entre utilisateurs. Connaître les relations entre différents utilisateurs permet de savoir ce qu’ils vont se partager.

La première question à se poser est donc sur la proximité du lien. En effet, on ne partage pas la même chose avec sa famille ou avec ses amis. Avoir l’information sur la proximité permet donc de connaître le type de contenu qui sera partagé. Ensuite, quelle est la force de ce lien ? Un utilisateur va porter plus d’attentions aux personnes de son réseau proche, omettant les informations des autres, moins importantes. Ce type d’informations est cependant difficile à obtenir sur Twitter.

Le contenu en tant que tel

La dernière information, et peut-être la plus importante, porte directement sur le contenu en tant que tel. Pour une entreprise, il est plus pertinent de savoir ce qui se dit sur elle plutôt que de savoir qui en parle. Le problème est que ces données sont très souvent bruitées et non structurées. Il est donc important de les travailler pour pouvoir les utiliser.

Tout d’abord, on peut utiliser l’outil de recommandation sociale qui permet de déterminer un groupe d’utilisateurs en se basant sur le contenu des messages échangés. À la différence de la détection de communautés, cet outil se base sur l’hypothèse que les utilisateurs vont suivre les recommandations de leurs réseaux proches pour choisir quoi regarder, quoi acheter, qui aimer etc. À partir de ces échanges, on peut déterminer à quel groupe appartient un utilisateur.

Ensuite, il est important de savoir le type d’information que l’on sélectionne. Une photo? Un texte ? etc. C’est la sélection du contenu.

Mais le plus important pour une compagnie est toujours de savoir ce que les consommateurs pensent de l’entreprise. Le meilleur moyen pour cela est encore l’analyse de sentiments qui prend non seulement en compte les détracteurs mais aussi les partisans. Il n’est donc pas nécessaire de déterminer un groupe en particulier, ni d’identifier qui que ce soit.

En menant cette analyse sur Twitter, et en ne prenant en compte que les messages en tant que textes, on peut omettre tout les autres types de contenu et se concentrer sur l’analyse de sentiments (détaillée en 2.3.4).