• Aucun résultat trouvé

2.2 Analyse des sentiments

2.2.1 Analyse des Sentiments au niveau publication

Afin de déterminer les sentiments exprimés dans les Réseaux Sociaux, plusieurs ap-proches ont été proposées. Traditionnellement, il y a eu des efforts principalement basés sur la classification de la polarité des sentiments des contenus textuels individuels sans te-nir compte de l’information sur les sentiments globaux des utilisateurs qui les ont publiés. Au niveau de la publication (post-level), la plupart des approches proposées peuvent être

regroupées en deux catégories : celles fondées sur le lexique et celles sur l’apprentissage automatique.

2.2.1.1 Approches basées sur le lexique

D’une part, les approches basées sur le lexique ont généralement tendance à compa-rer le nombre de mots positifs et négatifs en utilisant des ressources externes prédéfinies et des dictionnaires, ou d’appliquer une propagation d’étiquette sur un graphe d’allonge-ment des mots (lengthening words). Elles ont utilisé des dictionnaires de polarité ou des lexiques tels que SentiWordNet14, ANEW [Margaret and Peter,1999] ou MPQA15comme ressources externes pour détecter les polarités de sentiment des mots. Par exemple, MPQA a été utilisé pour déterminer les mots positifs et négatifs contenus dans les Tweets afin de détecter leurs sentiments. De plus, dans leur approche, Bollen et al. ont prouvé que les mots d’allongement emphatiques, tels que “cooooool” , sont fortement associés à la sub-jectivité et au sentiment [Bollen et al.,2011]. Donc, ils peuvent être considérés comme des mots d’opinion supplémentaires au lexique MPQA. Cependant, les termes qui ne sont pas inclus dans les lexiques préconstruits et dans les dictionnaires sont généralement igno-rés, ce qui peut fausser les résultats. Ainsi, l’inconvénient des méthodes basées sur le lexique est qu’elles en dépendent fortement. C’est-à-dire leur performance se dégrade considérablement avec la croissance exponentielle de la taille des lexiques. Par exemple, SentiStrength est un système de détection des sentiments basé sur le lexique dans les sites de microblogging [Thelwall et al.,2010]. Les auteurs ont construit leur propre lexique de sentiment composé d’abord de 298 termes positifs et 465 termes négatifs, puis de 2310 mots ainsi que des listes d’émoticônes. L’inconvénient de cette approche est qu’elle dé-pend fortement du lexique prédéfini.

2.2.1.2 Approches basées sur l’Apprentissage automatique

D’autre part, les algorithmes d’apprentissage automatique supervisé, tels que Naive Bayes, Maximum Entropy et Support Vector Machines, sont utilisés dans les approches basées sur l’apprentissage. Ces approches comportent deux phases : une phase d’entraî-nement et une phase de prédiction. Dans la première phase, les données d’apprentissage qui sont généralement libellées manuellement sont utilisées pour extraire un ensemble de caractéristiques pour générer un modèle de classification. Les sentiments correspondants aux données non libellées parmi les données de test sont prédites via le modèle de clas-sification précédemment construit. Parmi les caractéristiques qui peuvent être utilisées, il

14. http ://sentiwordnet.isti.cnr.it 15. http ://mpqa.cs.pitt.edu

y a les n-grammes, les bag-of-words, la syntaxe et les fonctionnalités propres à certains Réseaux Sociaux comme le hashtag et les émoticônes. L’inconvénient de ces approches est qu’elles nécessitent beaucoup de données étiquetées mais ceci est obtenu manuelle-ment. Afin de surmonter ce problème, il y avait des tentatives de collecte automatique des données d’apprentissage, appelée surveillance à distance. Un travail pionnier de [Go et al., 2009] a utilisé les émoticônes telles que “ :)” et “ :(” pour construire un corpus de tweets positifs et négatifs. Les auteurs ont prouvé que les méthodes SVM atteignent la meilleure performance soit 82.9%. Cependant, les émoticônes sont parfois rares pour préparer une grande quantité de données pour certains mots clés cibles. Alors d’autres approches ont été proposées telles que l’utilisation des hashtags comme indicateurs de sentiments ou bien des résultats de certains sites tiers d’Analyse des Sentiments tels que Twendz16, TweetFeel17 et Sentiment14018. De plus, un classifieur construit pour un do-maine donné, pourrait ne pas bien fonctionner pour un autre dodo-maine.

2.2.1.3 Approches hybrides

Récemment, certains travaux ont combiné ces deux approches. Ils ont obtenu de meilleurs résultats en termes de prédiction de polarité. Dans cette perspective, nous dis-tinguons deux catégories de méthodes. D’abord il y a eu des efforts pour construire un système qui intègre deux classifieurs développés séparément basés sur les deux approches déjà évoquées. Dans [Akshi and Teeja,2012], une méthode basée sur l’apprentissage au-tomatique a été utilisée pour détecter l’orientation sémantique des adjectifs et une autre méthode basée sur le lexique pour celle des verbes et des adverbes. Le sentiment glo-bal est ensuite calculé en utilisant une interpolation linéaire des deux méthodes. Dans un second temps, certaines méthodes ont proposé d’incorporer les informations de lexique dans un modèle de classification basé sur l’apprentissage automatique.

La plupart de ces travaux sont indépendants d’un centre d’intérêt (target), c’est-à-dire que classer la polarité des messages est général et non conforme à un sujet d’intérêt cible spé-cifique. Ils utilisent des classifieurs basés sur l’apprentissage automatique ou des lexiques où toutes les caractéristiques utilisées sont indépendantes de la cible. Cependant, les utili-sateurs peuvent se référer à plusieurs sujets cibles dans une seule publication, donc il n’est pas raisonnable d’utiliser des approches indépendantes de la cible. [Long et al.,2011] ont été les premiers à proposer des analyses de sentiment dépendantes des cibles dans le ré-seau social de Twitter.

16. http ://twendz.waggeneredstrom.com 17. http ://www.tweetfeel.com