• Aucun résultat trouvé

Les opinions trompeuses (spams)

Chapitre 2. L’Analyse des Sentiments

2.3. Les opinions trompeuses (spams)

que pour le marketing et la conception de produits, etc. Les opinions positives signifient souvent des profits et des gloires pour des entreprises et des internautes, ce qui, malheureusement, incite fortement les gens à jouer aux systèmes en affichant de fausses opinions ou critiques pour promouvoir ou discréditer certains produits, services, organisations, personnes et même des idées sans révéler leurs véritables intentions, ou la personne ou l'organisation pour laquelle ils travaillent secrètement. Ces personnes sont appelées spammeurs d'opinions et leurs activités sont appelées le spamming d'opinions [Jindal 2007, Jindal 2008]. Les spams sur des questions sociales et politiques peuvent même être effrayants car ils peuvent déformer les opinions et mobiliser les masses dans des positions contraires aux mœurs légales ou éthiques. On peut dire que les opinions dans les médias sociaux sont de plus en plus utilisées dans la pratique, le spam deviendra de plus en plus répandu et sophistiqué, ce qui représente un défi majeur pour leur détection. Cependant, ils doivent être détectés afin de s'assurer que les médias sociaux continuent d'être une source fiable d'opinions publiques, plutôt que d'être plein de fausses opinions, de mensonges et de tromperies.

La détection des spams en général a été étudiée dans de nombreux domaines. Les spams de web et de courrier électronique (pourriels) sont les deux types de spam les plus étudiés [Ravi 2015]. L’opinion spam est cependant très différente. Il existe deux principaux types de spam sur le Web, à savoir le spam des liens et le spam des contenus [Castillo 2010, Liu 2011]. Le spam de lien est un spam sur les hyperliens, qui n'existent pratiquement pas dans les commentaires. Bien que les liens publicitaires soient courants dans d'autres formes de médias sociaux, ils sont relativement faciles à détecter. Le spam de contenu ajoute des mots populaires (mais non pertinents) dans les pages web cibles afin de tromper les moteurs de recherche pour les rendre pertinents à de nombreuses requêtes de recherche, mais cela se produit à peine dans les messages d'opinion. Les pourriels font référence à des publicités non sollicitées, qui sont également rares dans les opinions en ligne.

Défi : Le principal défi de la détection du spam est que, contrairement aux autres formes de spam, il est très difficile, voire impossible, de reconnaître les fausses opinions en les lisant manuellement, ce qui rend difficile la recherche de données sur le spam d'opinion pour aider à concevoir et à évaluer les algorithmes de détection. Pour les autres formes de spam, on peut les reconnaître assez facilement.

En fait, dans le cas extrême, il est logiquement impossible de reconnaître le spam en le lisant simplement. Par exemple, on peut écrire une critique véridique pour un bon restaurant et

n'y a aucun moyen de détecter ce faux commentaire sans tenir compte de l'information au-delà du texte d'avis lui-même, simplement parce que le même commentaire ne peut pas être à la fois véridique et faux en même temps.

2.3.1. Types de spams et de spamming

Jindal et Liu, [Jindal 2008] ont identifié trois types d’opinions spams :

 Type 1 (Fausses opinions) : Elles s’agissent des critiques mensongères qui ne sont pas rédigées sur la base de l'expérience réelle des évaluateurs quant à l'utilisation des produits ou services, mais qui sont rédigées avec des motifs cachés. Elles contiennent souvent des opinions positives indignes sur certaines entités cibles (produits ou services) afin de promouvoir les entités et/ou les opinions négatives injustes ou fausses sur d'autres entités afin de nuire à leur réputation.

 Type 2 (Opinions sur les marques seulement) : Ces avis ne commentent pas les produits ou les services spécifiques qu'ils sont censés être évaluer, mais seulement les marques ou les fabricants des produits. Bien qu'ils puissent être authentiques, ils sont considérés comme du spam car ils ne ciblent pas les produits spécifiques et sont souvent biaisés. Par exemple, un avis pour une imprimante HP spécifique est "Je déteste HP, n'achètent jamais de leurs produits."

 Type 3 (Non-opinions) : Elles ne s'agissent pas de commentaires. Il y a deux sous-types principaux : les publicités et d’autres textes non pertinents qui ne contiennent aucune opinion (par exemple : questions, réponses et textes aléatoires). Plus précisément, elles ne s'agissent pas d'opinions spams car elles ne donnent pas d'avis d'utilisateurs.

Il a été démontré dans [Jindal 2008] que les opinions de type (2) et (3) sont rares et relativement faciles à détecter grâce à l'apprentissage supervisé. Même s'ils ne sont pas détectés, ce n'est pas un problème majeur car les lecteurs humains peuvent facilement les repérer pendant la lecture. La contribution présentée dans le chapitre 5 se concentre donc sur les fausses opinions de type (1).

Les fausses opinions peuvent être considérées comme une forme spéciale de tromperie [Hancock 2008, Rada 2009, Newman 2003, Pennebaker 2003, Vrij 2008, Zhou 2008]. Cependant, les tromperies traditionnelles se réfèrent généralement à des mensonges sur certains faits ou sur les sentiments réels d'une personne. Les chercheurs ont identifié de nombreux

lui, eux, plutôt que moi, moi-même, le mien, etc. Les menteurs utilisent aussi plus fréquemment des mots liés à la certitude pour cacher la" fausseté" ou pour mettre l'accent sur la "vérité". Les faux commentaires sont différents des mensonges. Premièrement, les spammeurs aiment utiliser je, moi-même, le mien, etc., pour donner aux lecteurs l'impression que leurs critiques expriment leurs vraies expériences. Deuxièmement, les fausses critiques ne sont pas nécessairement les mensonges traditionnels. Par exemple, l'un d'eux a écrit un livre et s'est fait passer pour un lecteur et a écrit une critique pour promouvoir le livre. L'opinion pourrait être le véritable sentiment de l'auteur. De plus, de nombreux faux commentateurs n'ont peut-être jamais utilisé les produits/services évalués, mais ils ont simplement essayé de donner des opinions positives ou négatives sur quelque chose qu'ils ne connaissent pas.

Documents relatifs