• Aucun résultat trouvé

Plateforme d’étiquetage dynamique pour la fouille d’opinion

N/A
N/A
Protected

Academic year: 2022

Partager "Plateforme d’étiquetage dynamique pour la fouille d’opinion"

Copied!
18
0
0

Texte intégral

(1)

pour la fouille d’opinion

Coralie Reutenauer, Tanguy Urvoy

Orange Labs

2 avenue Pierre Marzin 22300 Lannion, France

coralie.reutenauer@gmail.com, tanguy.urvoy@orange.com

RÉSUMÉ. Les plateformes sociales (Twitter, blogs, forums), vecteurs de la diversité des points de vue de la collectivité, constituent un vivier de données convoité pour la fouille d’opinion et l’analyse de sentiments. Dans ce cadre, les méthodes appliquées en classification n’apprennent souvent que des sorties relativement frustes : celles-ci se réduisent à une polarité ou à une gradation linéaire. Est-il possible d’apprendre des motifs plus riches avec un nombre raisonnable d’exemples ? Notre démarche est appliquée au ressenti à l’égard de marques. L’enjeu est d’analyser l’image de marque à l’aide d’un ensemble de traits lexicaux, structurés par leurs relations sémantiques. Pour prédire un tel motif par apprentissage supervisé, il est avant tout nécessaire de disposer d’un jeu de données étiquetées. Pour cela, nous avons mis en place une plateforme collaborative pour l’étiquetage de messages issus du web social en traits sémantiques et sentiments. Afin d’optimiser les étiquetages, la plateforme est sous-tendue par des mécanismes dynamiques à double vocation : filtrer les messages non pertinents et restructurer la grille d’analyse spécifique à chaque marque au fur et à mesure des annotations.

ABSTRACT. Social networks mirror public opinion. As such, they are of great interest for opinion mining and sentiment analysis. In most cases, sentiment is classified according to a polarity criterion or a linear gradation. Is it possible to learn more complex patterns with limited itemsets? In this article, we investigate brand equity. The goal is to analyse how social groups perceive a given brand. Brand identity is described with a structured set of adjectives, considered as semantic features. Since supervised pattern recognition requires labelled datasets, a platform was set up for social networks sentiment analysis. The platform relies on collaborative and dynamic principles designed to relevance-based filtering and semantic features reconfiguration.

MOTS-CLÉS : apprentissage statistique, image de marque, réseaux sociaux, annotation, IHM, analyse de sentiments, classification multi-label.

KEYWORDS: machine learning, brand reputation, social networks, tagging, sentiment analysis, multi-label classification.

DOI:10.3166/DN.17.1.85-101 © 2014 Lavoisier

(2)

1. Introduction

Les plateformes sociales constituent un vivier de données particulièrement attractif pour la veille informationnelle. Elles ont des propriétés favorables à la fouille de données : les contenus sont accessibles, présents en grande quantité, ils suivent une dynamique de temps réel et se structurent en réseaux, ce qui permet de réduire la dimension de l’espace exploré. De plus, l’information peut être appréhendée et consolidée à travers des canaux variés. Cependant, ces données présentent une hétérogénéité interne encore mal maîtrisée. Ainsi, l’exploitation des relations multiples (liens entre utilisateurs, références introduites par des url...) a fait l’objet d’investigations (Jacob et al., 2011), mais reste un champ peu exploré. Un autre point de questionnement concerne la qualité informationnelle des messages : dans quelle mesure le contenu est-il suffisamment riche et peut-il se prêter à des analyses approfondies ?

Par ailleurs, les discours sur les réseaux sociaux sont considérés comme la voix de la collectivité et le reflet de l’usage. Ils font l’objet d’attentions particulières pour l’analyse de sentiments et la fouille d’opinion. Les sentiments ou opinions peuvent être relatifs à une entité donnée, en particulier à une marque. Baromètres de sa réputation, ils constituent un angle d’approche pour appréhender l’image de marque.

Pour modéliser l’image de marque, des travaux dans le sillage de ceux de Aaker (1997) s’inspirent de représentations de la personnalité humaine. Les marques sont décrites par des descripteurs lexicaux, les traits, regroupés et structurés hiérarchiquement en grandes catégories. Ces représentations constituent un support pour confronter deux facettes de l’image de marque : d’une part, l’image revendiquée ; d’autre part, l’image de marque telle qu’elle est perçue. Alors que l’image revendiquée prend souvent la forme d’une liste explicite de valeurs choisies par la marque, l’image perçue est plus difficile à saisir, notamment telle qu’elle ressort des discours in vivo, sur les plateformes sociales.

Un double enjeu se dessine :

1) Développer des stratégies pour exploiter la richesse qualitative des plateformes sociales : l’enjeu est de déterminer dans quelle mesure les données des plateformes sociales permettent une analyse fine de l’image de marque précédemment évoquée. Un autre enjeu est d’appliquer des approches mixtes contenu-structure, par des représentations des données multi-relationnelles (Jacob et al., 2011) et en fonction de grandes unités sémantiques (Valette et al., 2008) ;

2) Prédire automatiquement l’image de marque telle que perçue sur les réseaux sociaux : l’enjeu est d’identifier les indices textuels pertinents pour apparier les données discursives à la représentation générique de l’image de marque.

La mise en œuvre de techniques adaptées nécessite de disposer d’un jeu de données étiquetées en fonction du ressenti vis-à-vis de la marque. Certains travaux d’analyse de sentiments (Go et al., 2009 ; Pak et al., 2010) recourent à de l’étiquetage automatique, à partir de critères formels. Dans ce type de travaux, la prédiction de sentiments se résume généralement à une polarité, ou éventuellement à une gradation. Dans notre cadre, l’étiquetage en sentiments correspond à une

(3)

analyse plus approfondie. Les outils d’analyse traditionnels sont souvent mis en échec sur les données du web social. En effet, ils sont adaptés à de la langue « bien écrite », c’est-à-dire qui respecte une forme standard. Les productions discursives des nouveaux modes de communication, telles que les tweets ou les blogs, constituent une forme dynamique avec des standards qui évoluent (Véronis et al., 2006). Pour mener des analyses pointues et apprendre rapidement ces nouveaux standards, il paraît opportun de mettre en place un étiquetage efficace et de l’apprentissage statistique. L’étiquetage humain a un coût d’autant plus élevé qu’il repose sur une structure d’annotation complexe et exige une analyse sémantique fine. Il est donc nécessaire de développer des outils qui facilitent cette tâche.

Dans le présent travail, nous proposons une plateforme pour l’étiquetage de l’image de marque à partir de données issues du web social. Cette plateforme repose sur de la participation collaborative et des mécanismes d’apprentissage statistique.

Nous présentons dans un premier temps le jeu de données et la façon dont il est constitué. Dans un second temps, nous détaillons la représentation de l’image de marque retenue pour l’étiquetage. Dans un troisième temps, nous décrivons l’interface mise en place pour visualiser et étiqueter les données. Puis, nous abordons les mécanismes d’apprentissage statistique qui sous-tendent la plateforme.

Enfin, nous discutons des perspectives applicatives, notamment pour de la prédiction de sentiments par apprentissage structuré.

2. Constitution du corpus

Le corpus est constitué de données en langue française provenant de trois types de plateformes sociales, qualifiés de canaux par la suite : 1) des tweets (messages issus du réseau de microblogging Twitter) ; 2) des blogs ; 3) des articles de presse collectés sur le web. On emploie le terme message comme appellation générique, pour désigner soit un tweet, soit un article de blog, soit un article de presse.

2.1. Collecte des données

Les messages ont été sélectionnés sur critère de présence de mots-clés spécifiques à une vingtaine de marques. Par exemple, les mots-clés France Télécom, orange et francetelecom ont été associés à Orange ; sncf, tgv et ferroviaire à la SNCF. Les mots-clés ont été définis manuellement pour chaque marque et canal1.

Le mode de collecte des données est propre à chaque canal. Les tweets ont été téléchargés en temps réel à partir de l’API de Twitter de juillet à octobre 2012. Les articles de blogs proviennent d’une base existante mise à disposition par la société Blogspirit, partenaire du projet coopératif DIFAC. Ils ont été produits entre 2004 et

1. Les mots-clés sont ici des sous-chaînes de caractère, définis par leur forme et non leur contenu sémantique, de façon insensible à la casse. Ce choix a été motivé par des contraintes techniques de collecte, en particulier au niveau de l’API de Twitter, et du fait de l’accolement de mots spécifique aux hashtags de Twitter.

(4)

août 2012. Les articles de presse ont été collectés entre juillet et novembre 2012 sur le web par abonnement aux flux RSS de sites de presse institutionnels. L’outil de collecte est celui de la plateforme actualité du portail Orange (http://actu.orange.fr/).

2.2. Description du corpus

À l’issue de la collecte, le corpus se subdivise en sous-corpus spécifiques à chaque marque. Six marques ont été sélectionnées par paires dans les domaines de la téléphonie, l’énergie et les transports : Orange et SFR, EDF et GDF, la SNCF et la RATP. Par la suite, les résultats seront présentés relativement à ces six marques.

Pour chaque marque, on dispose de quelques dizaines de milliers de tweets, plusieurs centaines d’articles de blogs et quelques centaines d’articles de presse.

Tableau 1. Répartition des données du corpus

Orange SFR EDF GDF SNCF RATP

Tweets 76593 45865 24754 3564 46622 26503 Blogs 1809 513 733 452 1280 237

Presse 181 96 149 102 338 74

Les informations des messages se subdivisent en deux sous-ensembles :

1) le contenu du message : texte des tweets ; titre, chapeau et corps de texte pour la presse ; titre et corps de texte pour les blogs ;

2) des informations contextuelles : date, nom de l’émetteur (nom du journal, nom du blog ou émetteur du tweet), description éventuelle de l’émetteur, lien vers la page source.

2.3. Qualité des données et moyens mis en œuvre pour l’améliorer

La collecte automatique sur simple critère d’occurrence de chaînes de caractères génère des données bruitées. Sur la forme, des problèmes de lisibilité liés à l’encodage ou du contenu parasite ont été prétraités spécifiquement2 et normalisés.

Sur le fond, la qualité du corpus est affectée par les problèmes suivants : le hors- sujet, le manque et l’excès d’information.

2.3.1. Hors sujet

Les messages ne sont pas tous pertinents. La procédure de collecte renvoie des messages hors sujet lorsque le mot-clé (chaîne de caractères) est inclus dans une

2. Les données ont été traitées de façon à obtenir un encodage en utf-8, les espaces ou sauts de ligne multiples ont été éliminés, etc.

(5)

unité lexicale sans aucun lien sémantique avec la marque. Par exemple, des messages ont été sélectionnés pour les marques SFR et Orange parce qu’ils contenaient respectivement transfrontalier ou florange.

Des messages non pertinents ont également été sélectionnés en raison de l’homonymie des mots-clés. Par exemple, le corpus contient des messages à propos de la marque Orange, de la ville d’Orange, de l’orange fruit ou de la couleur orange.

De même, l’acronyme EDF est fréquemment utilisé dans les tweets pour désigner l’Equipe De France (football, basketball, etc).

Ajoutons que certains messages ne sont pas en langue française, comme « PPF ups EPH stake with an eye on expansion http://t.co/cflrIhvh $GSZ #GDF #Suez ».

Enfin, certains messages sont peu informatifs par rapport à ce que nous cherchons à observer : ils évoquent bien la marque, mais sans aucun regard évaluatif. Il n’est question ni de ses valeurs, ni de ressenti à son égard. Par exemple, le tweet « I am at Gare SNCF de Lille Europe » est sans rapport avec l’image de la SNCF, il n’y a pas de jugement porté sur elle. Les messages de ce type ne sont pas à proprement parler hors sujet, mais ils apportent peu d’information discriminante.

Deux stratégies sont possibles : soit rattacher ces messages aux messages de type hors sujet, soit considérer qu’ils reflètent un ressenti neutre.

Diverses techniques permettent de faire face à ce type de problème, de même nature que celui du spam (Castillo et al., 2006 ; Heymann et al., 2007). Deux stratégies ont été adoptées pour traiter les messages hors sujet :

– L’application d’un petit nombre de règles manuelles pour filtrer des messages sur la base d’expressions régulières. Ce prétraitement, assez grossier, sert à éliminer une grande quantité de messages à partir d’expressions régulières fréquentes et assez immédiates à repérer (orangerie, [a-z]sfr[a-z]).

– L’application de mécanismes de filtrage collaboratif et d’ordonnancement par pertinence décroissance, fondé sur un apprentissage statistique et sur lequel nous reviendrons ultérieurement (cf. section 5).

2.3.2. Manque d’information

L’information contextuelle est parfois insuffisante pour interpréter les messages.

Ainsi, les fils de discussion n’ont pas été reconstitués pour les tweets et certaines répliques isolées telles que « orange je crois » sont ininterprétables isolément. De même, les informations provenant des flux RSS de presse sont quelquefois tronquées et ne suffisent pas à l’interprétation. Ajoutons que les tweets ne délivrent pas toujours explicitement l’information clé, mais ils fournissent des pointeurs vers des sources d’information sous forme de liens URL (par exemple : #finance Tarifs : de l’eau dans le gaz entre gdf Suez et les consommateurs http://t.co/8MG5Nh3A).

Ces liens peuvent être non accessibles. Enfin, certains messages sont intrinsèquement ininterprétables, comme le tweet « Aaaaah. Ish Orange ? ! O.o ».

(6)

Nous n’avons pas mis en place de stratégie spécifique pour compenser le manque d’information. Au moment de l’évaluation de tels messages, deux actions sont possibles : passer au message suivant sans se prononcer ou éliminer le message.

2.3.3. Excès d’information

L’excès d’information prend deux formes : la redondance excessive d’un même contenu et la surcharge informationnelle qui tend à masquer l’information essentielle.

Concernant le premier point, le corpus contient des ensembles de messages au contenu très similaire. C’est le cas des tweets, qui peuvent être repris massivement à travers des retweets (c’est-à-dire qu’ils sont réémis par d’autres individus que l’auteur, souvent à l’identique). Le problème n’est pas la redondance en elle-même, mais l’excès de redondance, à l’origine de deux types de perturbations : pour un nombre d’annotations donné, la trop grande redondance joue en défaveur de la diversité des contenus évalués ; par ailleurs, sur le plan psychologique, un annotateur qui rencontre trop souvent des messages quasi-identiques risque de se lasser. Deux dispositions ont été prises : d’une part, les messages commençant par le code d’identification des retweets « RT » n’ont pas été soumis à évaluation ; d’autre part, lors de l’évaluation des données, nous avons mis en place une navigation intelligente en fonction de la similarité des contenus (cf. section 5.1).

Concernant la surcharge informationnelle, les informations qui se rapportent véritablement à la marque sont parfois éclipsées par une masse d’informations secondaires. Dans la presse ou les blogs, la mention de la marque n’est pas toujours au cœur de l’article, elle n’intervient que tardivement. En pratique, une solution simple a été choisie : à l’affichage du message, les mots-clés associés à la marque sont mis en valeur par un fond coloré.

3. Définition d’une grille d’analyse

Nous souhaitons obtenir une représentation de l’image de marque vérifiant les propriétés suivantes :

– exhaustivité : tout jugement évaluatif de la marque doit pouvoir être analysé à l’aide de la représentation retenue ;

universalité : le format de représentation est commun et adapté à toutes les marques et tous les canaux ;

– pertinence : les unités descriptives doivent être adaptées pour qualifier l’image de chaque marque considérée et le ressenti à son égard ;

interprétabilité : les descripteurs doivent être explicites, assez immédiats à comprendre et non ambigus ;

niveau de granularité adapté : les descripteurs doivent être suffisamment précis pour permettre une analyse nuancée ; ils doivent être suffisamment généraux pour ne pas se situer en-deçà du seuil de sensibilité interprétative (Fuchs, 2008) ;

(7)

– compatibilité avec une tâche d’annotation : l’ensemble des descripteurs doit être calibré pour pouvoir être appréhendé aisément lors de l’étiquetage. Ils doivent être réduits en nombre et ne pas être accompagnés d’une surcharge d’information ;

homogénéité : les descripteurs choisis doivent respecter un même format et porter sur le même type de propriété.

Il est difficile de vérifier l’ensemble de ces propriétés. Certaines d’entre elles sont difficilement compatibles, par exemple l’exhaustivité, un niveau de granularité relativement fin et un nombre de descripteurs limité, ou encore l’interprétabilité sans la surcharge informationnelle. Il est d’autant plus délicat de vérifier ces différentes propriétés que les facettes de l’image de marque seront représentées formellement par des descripteurs lexico-sémantiques. Ces descripteurs lexico-sémantiques sont des unités qui restent soumises aux mécanismes interprétatifs : ils peuvent faire l’objet de divergences interprétatives ; leur interprétation est contextuelle donc non universelle ; ils ne sont pas indépendants mais entretiennent des relations sémantiques ; ils ne sont pas uniques et peuvent faire l’objet de reformulations à l’infini. La proposition que nous avons faite est un compromis. Après avoir présenté nos choix, nous préciserons dans quelle mesure chaque propriété a été validée.

3.1. Élaboration de la grille

La grille d’analyse a été construite à partir de travaux en psychologie et marketing visant à décrire l’image de marque (Aaker, 1997 ; Kapferer, 2008 ; Ferrandi et al., 2000). Diverses théories (Goldberg, 1981) proposent de représenter la personnalité humaine sous forme d’un ensemble hiérarchique de traits de personnalité structurés selon de grandes facettes ou catégories. Aaker (1997) a adapté cette représentation de la personnalité humaine à l’image de marque dans un contexte anglophone. Dans son sillage, divers auteurs (Ferrandi et al., 2000 ; Azoulay, 2008) ont transposé cette représentation au contexte français3.

Les descripteurs de l’image de marque sont des unités lexicales ou traits, ils se présentent sous forme d’adjectifs ou de substantifs relatifs à des aspects de la personnalité. Ils ont été obtenus par divers procédés (Azoulay, 2008) : recensement à partir de dictionnaires, propositions libres par des individus lors d’enquêtes d’expérience, validation et élagage par des experts. Notre propre ensemble de traits fait partie de descripteurs récurrents dans les travaux du domaine.

Les traits sont généralement organisés selon une structure hiérarchique. La structure comporte un petit nombre de grandes catégories, précisées par les traits.

Dans notre cadre, l’image de marque est également décrite par une structure hiérarchique à deux niveaux. En effet, ce type de structure permet d’avoir différentes strates d’analyse du contenu, à un niveau générique ou à un niveau plus précis.

3. Les représentations obtenues ne sont pas toutes consensuelles et ont fait l’objet de critiques.

Cependant, elles reposent sur des principes similaires et fournissent un cadre exploitable pour décrire l’image de marque (Ambroise, 2005).

(8)

Comme pour les traits, les catégories varient d’un auteur à l’autre, il n’y a pas de consensus général. Cependant, pour ce niveau générique, on retrouve des informations récurrentes et convergentes, qui ont inspiré notre propre choix. Les catégories que nous avons retenues4 sont :

– Le Savoir-faire : il correspond aux compétences de l’entreprise, sa capacité à gérer les situations et sa maîtrise technique.

– Le Faire : il correspond aux idées de conquête, de construction, d’action et de valeurs gagnantes.

– Le Savoir-être : il correspond au comportement de la marque sur les plans éthique, social, sociétal et relationnel (bonne conduite).

– Le Faire savoir : il correspond aux aspects de communication, d’échange ou de relationnel (interactions).

– Le Savoir plaire : il correspond aux idées de séduction, de paraître et de valorisation de la marque ou de son patrimoine.

Les divergences au niveau des traits spécifiques aux catégories sont plus marquées que pour les catégories. Ces divergences portent sur la nature et le nombre de traits. Le choix des traits est délicat, car il n’existe pas de description simple qui soit exempte de défaut. Afin de préciser la grande catégorie, nous avons choisi de conserver de tels descripteurs. À chaque catégorie est affecté un petit nombre de descripteurs initiaux, inspirés notamment des listes de valeurs de Wellhoff (2010) et des éléments présentés comme parmi les plus fréquemment revendiqués par les marques. Pour introduire une certaine souplesse reflétant l’incertitude sur la représentativité des traits, sur leur hiérarchie et sur leur incomplétude, nous avons introduit la possibilité d’enrichir le panel de traits proposés pour chaque catégorie au cours de l’annotation. Nous nous situons ainsi dans un cadre semi-fermé : l’annotateur a une liberté de proposition, mais il est guidé par la catégorie et par le contexte donné par les autres adjectifs de la même catégorie. La hiérarchie des traits est arbitraire au départ et évolue au fur et à mesure des annotations (cf. section 5.2).

Pour évaluer les opinions en discours, nous avons choisi une grille commune à toutes les marques plutôt qu’une grille spécifique (cf. tableau 2). Cette grille commune constitue un socle commun pour annoter les messages et, ultérieurement, pour projeter l’image revendiquée par chaque marque.

Les traits se présentent sous forme d’adjectifs, connotés positivement hors contexte (par exemple, nous proposons intègre alors que nous excluons malhonnête de la liste). Lors de l’évaluation de messages, trois connotations (positive, neutre ou négative) sont possibles pour chaque adjectif, en fonction de l’actualisation en contexte de l’adjectif. Par exemple, dans l’article de presse intitulé « Mobiles subventionnés : Free attaque SFR pour concurrence déloyale », il est question du caractère intègre de la marque SFR. Cette intégrité est remise en cause, la

4. Nous ne détaillons pas le choix des catégories dans le présent travail. À titre indicatif, celui-ci résulte de recoupements et compromis entre diverses grilles, présentées notamment par Ambroise (2005) et Wellhoff (2010).

(9)

connotation affectée au message sera négative concernant le caractère intègre de SFR.

Tableau 2. Répartition des données du corpus

Savoir-faire Faire Savoir-être Faire savoir Savoir plaire Compétente Dynamique Responsable Transparente Attractive

Fiable Innovante Respectueuse Accessible Conviviale

Rapide Réactive Solidaire Communicative Economique

Efficace Compétitive Intègre Originale

Écologique Concurrentielle

Équitable Ludique

Agréable

3.2. Discussion sur les limites de validité de la grille

La grille satisfait en partie à chacune des propriétés évoquées en début de section.

– Exhaustivité. Les catégories recouvrent un ensemble de possibles assez vaste.

La liberté laissée à l’annotateur de proposer ses propres traits permet d’adapter la liste initiale et de pallier des lacunes.

– Universalité. La grille initiale est la même pour toutes les marques. Toutefois, cette grille est susceptible d’être remodelée spécifiquement à chaque marque en fonction des choix de la communauté d’annotateurs (cf. section 5.2).

Pertinence. Nous avons choisi les descripteurs parmi les unités récurrentes dans les travaux de référence dédiés à l’analyse de l’image de marque.

– Interprétabilité. Les descripteurs peuvent être interprétés différemment selon les contextes d’emploi et selon les annotateurs. Nous avons proposé des définitions et des exemples illustratifs pour les catégories dans des fenêtres d’aide.

Niveau de granularité : une grille trop nuancée ? Les traits sont des descripteurs relativement précis. Ils peuvent introduire trop de nuances et se situer en-deçà du seuil de sensibilité interprétative. Une forme de garantie réside dans le fait qu’il y ait deux niveaux d’analyse : un niveau générique avec les catégories et un niveau plus fin avec les traits. Cependant, la diversité et la nuance favorisent un faible accord entre annotateurs et elles imposent d’évaluer la qualité des annotations en fonction d’indices adaptés (Fort et al., 2010).

– Compatibilité avec une tâche d’annotation. Par catégorie, le nombre de traits affichés explicitement est limité à trois. De ce fait, le nombre d’adjectifs proposés reste limité. Les traits correspondent à des adjectifs relativement courants. La richesse de la grille (structure hiérarchique, nombre de descripteurs plus important

(10)

que dans les analyses en sentiment classiques) exige cependant un effort interprétatif qui rend la tâche d’annotation plus difficile.

Homogénéité. Les descripteurs choisis initialement présentent une homogénéité (adjectifs de même nature, connotés positivement hors contexte). Mais l’annotateur a la liberté d’introduire ses propres unités descriptives, qui peuvent ne pas respecter le format initial (adjectifs connotés positivement, associés à la notion de valeurs). Cette liberté est cadrée : il ne s’agit pas d’annotation libre et de suggestions ouvertes, mais d’un espace semi-fermé. Par ailleurs, la hiérarchie initiale crée un biais en faveur de certains adjectifs. La taille initialement réduite de la liste facilite l’étiquetage, la liberté d’enrichir joue en faveur d’une exhaustivité.

4. Interface d’annotation

Pour annoter les messages, nous avons réalisé une interface (cf. figure 1), dans le même esprit que celle de Lafourcade et al. (2008). Elle est accessible à l’adresse : https://imago-difac-sql.orange-labs.fr/tweet/.

Figure 1. Aperçu de l’interface d’étiquetage

4.1. Visualisation des informations

Les éléments que présente l’interface résultent d’un compromis entre la richesse intrinsèque de l’information (grille d’analyse complexe, contenu du message parfois dense) et la simplicité nécessaire à la tâche d’annotation.

L’interface se subdivise en trois zones : un volet de navigation, pour choisir librement le type de source (tweet, blog ou presse) et la marque, initialisées aléatoirement ; une zone d’affichage du message à évaluer, avec son contenu et ses

(11)

informations contextuelles ; une zone d’annotation composée d’une part de la grille d’analyse (celle-ci comporte une rubrique pour le ressenti général, 5 rubriques pour chaque catégorie, elle-même précisée par 3 adjectifs et un champ libre, et une rubrique de saisie libre pour d’autres suggestions), d’autre part, des boutons d’action pour valider les messages, les supprimer s’ils sont non pertinents ou les passer en cas de doute interprétatif. Des modules d’aide et des éléments contribuant à la dimension ludique ou participative sont également ventilés à plusieurs endroits de l’interface5.

4.2. Actions possibles lors de l’évaluation

L’évaluateur est invité à lire le message puis à évaluer quelle image l’auteur donne de la marque. Il indique d’abord son sentiment général, selon que l’auteur lui paraît exprimer une opinion globalement négative, neutre ou positive à l’égard de la marque. Il précise ensuite son évaluation en identifiant les catégories dont il est question, puis les traits de ces catégories qui caractérisent la marque. L’évaluateur peut rester à un niveau générique (choix d’une ligne « autre » sans la préciser à l’aide d’un adjectif particulier) ou faire ses propres suggestions (saisie d’un adjectif dans la case « autre »). Pour chacun de ses choix, l’évaluateur doit affecter une connotation positive, neutre ou négative. Il peut ensuite effectuer trois actions :

– valider une évaluation lorsqu’il remplit au moins une ligne de la grille ;

passer le message en cas de doute. Le message ne sera plus soumis à l’évaluateur, mais il pourra être proposé à d’autres évaluateurs ;

supprimer un message qu’il juge non pertinent. Le message supprimé reste dans la base, mais il ne sera pas soumis à d’autres évaluateurs.

Les messages les moins annotés sont présentés en premiers. Ils apparaissent ensuite par score de pertinence décroissant (détaillé en section 5.1).

5. Mécanismes collaboratifs et apprentissage statistique

La plateforme repose sur des mécanismes collaboratifs destinés à instaurer : – un parcours d’évaluation intelligent qui tienne compte à la fois de la pertinence et de la variabilité des contenus ;

– une reconfiguration de la grille d’analyse pour privilégier les traits pertinents et évoluer vers une représentation spécifique à chaque marque.

Bien que notre objectif ait été d’obtenir un étiquetage de qualité sans a priori sur son utilisation future (apprentissage statistique, études linguistiques…), les

5. L’élaboration de l’interface résulte de compromis entre ergonomie et précision des informations présentes. Ces choix ont été effectués à l’issue de phases de tests, sur la base des retours d’acteurs variés (ergonome, concepteur d’interface collaborative, utilisateurs quelconques).

(12)

mécanismes empiriques que nous avons utilisés sont très comparables à ceux employés en apprentissage actif (Bondu et al., 2007 ; Ayache, Quénot 2008). Ils font partie des stratégies évoquées par Vu et al. (2006) pour l’ordonnancement de documents et ils doivent maintenir un compromis entre l’exploitation des connaissances acquises et l’exploration de nouvelles connaissances.

5.1. Parcours d’évaluation intelligent

5.1.1. Affichage des messages par pertinence décroissante

Parmi les messages proposés aux évaluateurs, un certain nombre d’entre eux sont non pertinents (messages hors sujet, ininterprétables, en langue étrangère, etc.). Pour que l’annotation soit réalisée en priorité sur les messages pertinents, un algorithme de « filtrage collaboratif » est mis en place. Cet algorithme est destiné à ordonner les messages par pertinence décroissante au fur et à mesure des étiquetages6.

Plus précisément, pour chaque marque et chaque canal, nous appliquons un algorithme simple de classification supervisée, le bayésien naïf. L’entraînement est réalisé sur les messages validés (exemples positifs) et les messages supprimés (exemples négatifs), le déploiement s’effectue sur l’ensemble de la base. La probabilité qu’un message soit pertinent est calculée sur des 8-grammes de caractères7. Le score s(M) affecté à chaque message M est obtenu par calcul d’un odds ratio :

s(M) n(u,M).log

n(u,Pos)1

 

n(Neg)1

n(u,Neg)1

  

n(Pos)1

u

(1)

n(u,M) est le nombre d’occurrences du 8-gramme u dans M, n(Pos) (resp.

n(Neg)) le nombre de messages positifs (resp. négatifs). Ce score est utilisé pour ordonner l’affichage des messages soumis à évaluation.

L’apprentissage est relancé régulièrement. Un bruit aléatoire est ajouté au score afin de continuer à alimenter l’ensemble des exemples négatifs et de garantir une meilleure qualité de la classification à chaque relance de l’algorithme. C’est la composante d’exploration du système.

5.1.2. Dédoublonnage à partir de clusters de similarité

Lors du calcul du score de pertinence, les messages formellement identiques ou très similaires ont des scores proches et sont affichés à la suite les uns des autres.

Nous avons mis en place une méthode pour éviter à l’annotateur d’évaluer plusieurs fois de suite des contenus identiques ou quasi identiques.

6. Nous utilisons le terme « filtrage collaboratif » parce que l’algorithme est basé sur les actions effectuées par l’ensemble des annotateurs (caractère collaboratif) et parce que la masse de messages, notamment pour les tweets, est telle que les messages en fin de liste suite au réordonnancement ne seront jamais soumis aux évaluateurs (filtrage).

7. Tous les caractères, y compris les espaces, sont inclus dans les 8-grammes.

(13)

En pratique, les messages sont regroupés selon un score de similarité. La similarité est calculée à partir d’une représentation des messages en 8-grammes de caractères. Chaque 8-gramme est pondéré selon la méthode classique du tf- idf:tf(u,M)Log

D/D(u)

tf ( u , M )

désigne la fréquence du n-gramme u dans le document

M

;

D

désigne le nombre total de documents, et

D (u )

le nombre de documents qui contiennent une occurrence deu. La proximité entre messages est calculée à partir de la mesure du cosinus. Ce calcul de similarité sert à générer des clusters de messages par une variante améliorée de l’algorithme incrémental Leader (Späth, 1980). Notre variante utilise plusieurs passes et deux seuils pour stabiliser le processus : un seuil de similarité basse et un seuil de similarité haute. Un nouvel item est agrégé à son cluster le plus proche si sa similarité dépasse le seuil haut. Il constitue un nouveau cluster si la similarité est en dessous du seuil bas. Dans le cas contraire, l’item est placé en attente. On rapproche les seuils progressivement à chaque passe jusqu’à avoir traité tout le corpus. On impose une très forte similarité. De ce fait, on obtient un grand nombre de clusters de faible taille, de façon à ce que les messages regroupés soient ceux qui font presque office de doublons. Aucun message d’un même cluster n’est présenté à un annotateur donné tant qu’il n’a pas parcouru tous les clusters.

5.2. Reconfiguration dynamique de la grille d’analyse

La grille d’analyse évolue au fur et à mesure des annotations vers une configuration spécifique à la marque et au canal considérés à partir de mécanismes collaboratifs. Deux types d’évolutions sont en jeu : l’ensemble des traits proposés à chaque annotateur s’enrichit de propositions faites par la communauté d’annotateur ; la hiérarchie des traits change en fonction de la popularité de chaque trait.

5.2.1. Enrichissement collectif de la grille

La grille comporte des champs de saisie libre, relatifs à chacune des catégories.

Chaque annotateur est libre de proposer un nouveau trait. Le nouveau trait est alors apparent pour tout annotateur dans un menu déroulant qui s’affiche lorsque l’annotateur positionne le curseur dans le champ ‘Autre’. La liste enrichie est spécifique à chaque marque. Par exemple, pour la SNCF, le trait ponctuelle, absent de la liste initiale, fait partie des suggestions émises par un annotateur et il est proposé par la suite à la collectivité.

5.2.2. Reconfiguration de la hiérarchie de traits

Rappelons que, à l’affichage, seuls trois traits apparaissent explicitement dans chaque catégorie. Les autres traits sont proposés dans le menu déroulant inhérent au champ de saisie « Autre ». Les traits affichés explicitement et leur ordre évoluent en fonction :

– du nombre de fois où le trait a été sélectionné par un annotateur pour évaluer un message (affichage des traits par nombre décroissant) ;

(14)

– du nombre d’annotateurs distincts : pour qu’un trait apparaisse explicitement, il doit avoir été sélectionné par au moins deux annotateurs différents.

Les traits sont affichés par nombre de sélections décroissant, puis, à nombre de sélections égal, par nombre décroissant d'annotateurs distincts. A popularité équivalente (même nombre de sélections et d'annotateurs), ils sont départagés aléatoirement.

Ainsi, les traits jugés adéquats par la communauté sont privilégiés, ils sont affichés en position dominante. L’objectif est de faire émerger en tête de liste les traits les plus à même de qualifier la marque considérée. Ainsi, le trait ponctuelle, initialement absent de la liste de traits de la catégorie Savoir-faire, s’est progressivement imposé en tête de liste pour les tweets de la SNCF, alors qu’il n’apparaît pas pour les autres marques.

6. Bilan et perspectives

Dans le cadre de ce travail, nous avons mis en place une plateforme d’étiquetage sous-tendue par des mécanismes collaboratifs. Cette plateforme présente deux intérêts principaux. D’une part, elle constitue un outil dont la structure peut être réutilisée dans d’autres contextes. En effet, elle permet une collecte multicanal de messages, leur affichage et leur annotation à l’aide d’une structure complexe d’analyse. Elle pourrait par exemple servir de support pour de l’analyse thématique (étiquettes hiérarchisées en thèmes et sous-thèmes) ou le repérage d’indices spécifiques à certains phénomènes (par exemple, marqueurs de stylométrie, indices de néologie, etc).

D’autre part, elle présente l’originalité de confronter des descriptions riches de l’image de marque issues de travaux en psycho-socio-marketing aux données vivantes. Ainsi, elle offre la possibilité de valider ou invalider ces approches et elle fournit un socle commun pour comparer l’image de marque revendiquée et l’image perçue.

Concernant les résultats sur la participation et les résultats quantitatifs macroscopiques, la campagne d’évaluation, de novembre 2012 à février 2013, a permis d’étiqueter environ 9 400 messages et, du fait de l’annotation multi-étiquette, d’obtenir environ 34 000 étiquettes. Parmi les évaluateurs, issus majoritairement de communautés internes à Orange et par ailleurs de communautés scientifiques externes, 873 personnes se sont inscrites et 431 ont effectivement étiqueté des messages. D’après les retours explicites des utilisateurs, les consignes ont été perçues comme claires et l’interface conviviale. La pertinence de la grille a fait l’objet de prises de position explicites contradictoires (par exemple, grille jugée tantôt trop riche, tantôt trop complexe). De fait, les actions des utilisateurs indiquent que la grille est trop complexe : les utilisateurs ont eu tendance à sélectionner en priorité les adjectifs affichés en clair sur l’écran, dans une moindre mesure les adjectifs proposés dans le champ de sélection et très peu de suggestions libres ont été faites. L’assimilation de la grille et l’annotation fine demandent un effort cognitif et un temps d’apprentissage est nécessaire avant qu’un annotateur soit en mesure

(15)

d’effectuer des évaluations variées, nuancées et personnalisées. Les annotateurs se sont cependant efforcés de préciser leur ressenti sans se restreindre exclusivement au ressenti général, c’est-à-dire en sélectionnant des traits sémantiques. L’étiquetage est nettement plus massif sur les tweets, avec trois fois plus de tweets étiquetés que d’articles de blogs, eux-mêmes deux fois plus nombreux que les articles de presse.

Les étiquettes obtenues suite à la campagne d’étiquetage, ont été mises à disposition de la communauté par l’intermédiaire d’ELRA8. Sur le plan technique et qualitatif, les résultats obtenus ont mis en évidence deux défis à relever : la dispersion des données, due au nombre limité d’annotations par rapport à la complexité des sorties ; la divergence dans l’évaluation des messages, due à la subjectivité des annotateurs et au flou interprétatif. De ce fait, il n’est pas possible d’appliquer des méthodes d’apprentissage classique, en particulier si les sorties sont considérées comme interdépendantes. Deux perspectives s’ouvrent pour aborder le problème : 7

– Exploiter les relations entre les entrées et entre les sorties. Au niveau des sorties, les traits ne sont pas indépendants : ils entretiennent des relations sémantiques, qui peuvent se modéliser à travers des réseaux sémantiques, tels que les réseaux de synonymie de Ploux et al. (1998), les réseaux de proxémie de Gaume (2004) ou les réseaux obtenus à partir d’ontologies telles que SentiWordnet (Esuli et al., 2006). De même, les entrées entretiennent des relations multiples (appartenance à un même genre, une même thématique ; structure temporelle ; structure induite par les liens entre utilisateurs et caractéristique des réseaux sociaux). La description des entrées et des sorties sous forme multi-relationnelle permettrait de déployer des techniques telles que celles de (Jacob et al., 2011), qui permettent de se situer dans un espace de moindre dimension et de réduire le problème de la dispersion de l’information grâce aux relations présentes.

– Réaliser un apprentissage à partir de la macrostructure des messages plutôt que de leur microstructure. La part de subjectivité dans l’interprétation d’un message est importante : un même message peut donner lieu à plusieurs étiquettes. En revanche, on peut supposer que le choix d’une étiquette donnée s’explique par des macropropriétés, partagées par des ensembles de messages et à l’origine d’une macrostructure des données. L’enjeu serait donc dans un premier temps de dégager des regroupements caractéristiques de la macrostructure, par exemple en combinant une description des messages à l’aide d’attributs multiples, comme ceux proposés par Eensoo et al. (2012) dans un contexte de fouille d’opinion, avec des méthodes de statistique exploratoire, notamment du co-clustering. Pour apprendre l’image de marque, les algorithmes ne seraient pas appliqués à chaque message considéré isolément mais aux regroupements de messages.

8. Le catalogue de l’association ELRA (European Language Resources Association) est accessible sur http://catalog.elra.info/index.php?language=fr. Le corpus a pour référence ELRA-W0075.

(16)

Remerciements

Nous tenons à remercier les personnes qui se sont impliquées dans la réalisation et l’amélioration de l’interface : Fabien Dupont, Sylvie Tricot, Philippe Diverres, Sandrine Gallardon, Valérie Botherel, Mathieu Lafourcade, Fabienne Baider, l’équipe PROF qui a joué le rôle de bêta-testeurs et l’ensemble des contributeurs actifs à l’étiquetage. Merci également aux partenaires du projet DIFAC (FUI 12) à l’origine du financement de ces travaux, ainsi qu’aux relecteurs de l’article et à leurs remarques constructives.

Bibliographie

Aaker J. L. (1997). Dimensions of brand personality, Journal of Marketing Research, vol. 3, n° 34, p. 347-356.

Ambroise L. (2005). La personnalité de la marque : contributions théoriques, méthodologiques et managériales. Thèse de doctorat, Université Pierre Mendès-France, Grenoble 2.

Azoulay A. (2008). La personnalité des marques explique-t-elle les comportements? Mesure du concept et investigation empirique de l’influence de la personnalité des marques corporate sur le comportement du consommateur, de l’investisseur industriel et du candidat potentiel à un poste. Thèse de doctorat, Ecole des Hautes Etudes Commerciales de Paris.

Ayache S., Quénot G. (2008). Video corpus annotation using active learning. Proceedings of the 30th European Conference on Information Retrieval (ECIR’08), p. 187-198.

Bondu A., Lemaire V. (2007). Etat de l’art sur les méthodes d’apprentissage statistique actif, Revue des nouvelles technologies de l’information (RNTI), Numéro spécial sur l’apprentissage et la fouille de données.

Castillo C., Donato D., Becchetti L., Boldi P., Leonardi S., Santini M., Vigna S. (2006). A reference collection for web spam, ACM Sigir Forum, vol. 40, n° 2, p. 11-24.

Eensoo E., Valette M. (2012). Sur l’application de méthodes textométriques à la construction de critères de classification en analyse de sentiments, Actes de la conférence conjointe JEP-TALN-RECITAL 2012, Grenoble, France, p. 1215-1220, 4-8.

Esuli A., Sebastiani F. (2006). Sentiwordnet : a publicly available lexical resource for opinion mining, Proceedings of LREC, p. 417-422.

Ferrandi J.-M., Fine-Falcy S., Valette-Florence P. (2000). Aaker’s brand personality scale in a French contexte : a replication and a preliminary test of its validity, Academy of Marketing Science, vol. 23, p. 7-13.

Fort K., François C., Gribi M. (2010). Evaluer des annotations manuelles dispersées : les coefficients sont-ils suffisants pour estimer l’accord inter-annotateurs ? Traitement automatique des langues naturelles.

Fuchs C., (2008). L’incertitude interprétative dans l’activité du langage, Actes de savoirs, vol. 5, p. 41-57.

Gaume B. (2004). Balades aléatoires dans les petits mondes lexicaux, I3 information interaction intelligence, vol. 4, n° 2, p. 31-90.

(17)

Go A., Lei H., Bhayani R. (2009). Twitter sentiment analysis, Final Project from CS224N for Spring 2008/2009 at the Standford Natural Language Processing Group.

Goldberg L. R. (1981). Language and invidual differences: the search for universals in personality lexicons, Review of Personality and Social Psychology, vol. 2, p. 141-165.

Heymann P., Koutrika G., Garcia-Molina H. (2007). Fighting spam on social web sites: A survey of approaches and future challenges, Internet Computing, IEEE, vol. 11, n° 6, p. 36-45.

Jacob Y., Denoyer L., Gallinari P. (2011). Classification and annotation in social corpora using multiple relations, Proceedings of ICIKM, ACM, New York, p. 1215-1220.

Kapferer J.-N. (2008). Strategic brand management, Kogan Page, New York.

Lafourcade M., Joubert A. (2008). Détermination des sens d’usage dans un réseau lexical grâce à un jeu en ligne, Proceedings of TALN’08, Avignon.

Pak A., Paroubek P. (2010). Twitter as a corpus for sentiment analysis and opinion mining, Proceedings of LREC’10, European Language Resources Association (ELRA), Valletta, Malta.

Ploux S., Victorri B. (1998). Construction d’espaces sémantiques à l’aide de dictionnaires de synonymes, Traitement automatique des langues, vol. 39, p. 161-182.

Späth H.(1980). Cluster analysis algorithms for data reduction and classification of objects, Wiley & Sons, Incorporated, John.

Valette M., Slodzian M. (2008). Sémantique des textes et Recherche d’Information, Revue française de linguistique appliquée, vol. 13, n° 1, p. 119-133.

Véronis J., de Neef E. G. (2006). Le traitement de nouvelles formes de communication écrite, Compréhension automatique des langages et interaction, p. 227-248.

Vu H.-T., Gallinari P. (2006). Apprentissage statistique pour la constitution de corpus d’évaluation, Proceedings of CORIA 2006, Lyon, France, p. 85-86.

Wellhoff T. (2010). Les valeurs : donner du sens, guider la communication, construire la réputation, Eyrolles.

(18)

Références

Documents relatifs

Le projet de « protocoles pour la rédaction des certificats dans le cadre des soins sans consentement » a été inscrit au programme pluriannuel de la HAS

Suite à la concertation de l’ensemble des acteurs lors d’une réunion technique le 8 juin dernier et à la consultation du conseil départemental de l’eau, ce lundi 15 juin,

[r]

Le CETE Nord­Picardie a été missionné par la DREAL Nord­Picardie pour l’élaboration d’une méthodologie basée sur les fichiers fonciers, croisée éventuellement avec

n Ensemble complet rosaces et béquilles solidarisées avec carré de 7 mm et vis, pour portes épaisseur standard de 40 mm et serrure entraxe à 70 mm (carré de 8 mm, autres épaisseurs

Au niveau régional, la mise en oeuvre de réformes de grande ampleur dans le domaine des soins de santé et la reconnaissance croissante de la nécessité d’améliorer le suivi à

La Convention de Vienne fournit un corps de règles pour l’interprétation des traités – définis comme des accords interna- tionaux conclus par écrit entre États et régis par

Cependant, cette définition semble très globale et peut conduire, pour mesurer les traits de person- nalité de la marque, à intégrer des termes ad hoc n’existant dans aucun outil