Construction automatique d’un lexique de n-grammes pour la fouille d’opinion

(1)

de n-grammes pour la fouille d’opinion

Faisabilité et utilité

Yves Bestgen

Centre for English Corpus Linguistics, Université catholique de Louvain 10 Place Cardinal Mercier, B-1348 Louvain-la-Neuve, Belgique yves.bestgen@uclouvain.be

RÉSUMÉ. De nombreuses méthodes automatiques de fouille d’opinion s’appuient sur un lexique dans lequel à chaque entrée est associé un degré de polarité. La construction de telles ressources linguistiques est donc devenue un champ de recherche important en linguistique computationnelle. Des techniques automatiques ont été développées ces dix dernières années et leur efficacité a été confirmée. La présente recherche propose d’étendre de telles procédures à l’analyse de n-grammes de mots et de déterminer les éventuels bénéfices apportés par cette extension. Une expérience menée sur la base d’un vaste corpus de critiques de films indique non seulement que les n-grammes sont des indicateurs plus fiables de polarité que les mots simples, mais aussi que leur combinaison avec ces mêmes mots permet une meilleure prédiction de la polarité de textes. Soulignant les limitations de la présente étude, la conclusion propose plusieurs pistes pour des recherches futures.

ABSTRACT. Many automatic opinion mining methods make use of a lexicon in which each word is associated with a degree of polarity. The construction of such a kind of linguistic resources has become an important field of research in computational linguistics. Automatic techniques have been developed over the last decade and their effectiveness has been confirmed. This paper proposes to extend these techniques to the analysis of n-grams of words and to determine the potential benefits of this extension. An experiment based on a large corpus of movie reviews indicates that n-grams are more reliable indicators of polarity than words and that their combination with these words allows a better prediction of the polarity of texts.

Highlighting the limitations of this study, the conclusion discuses some suggestions for future research.

M^OTS-^CLÉS : fouille d’opinion, lexique de polarité, n-grammes de mots, analyse sémantique latente, critiques de films.

KEYWORDS: opinion mining, polarity lexicon, word n-grams, latent semantic analysis, movie reviews

(2)

1. Introduction

La fouille d’opinion, qu’il s’agisse de détecter si un énoncé est subjectif ou de déterminer s’il exprime une opinion plus ou moins favorable, connaît depuis une dizaine d’années un développement important en raison de ses nombreuses applications (Abbasi et al., 2008 ; Bestgen, 2002 ; Pang et al., 2002 ; Pang et Lee, 2008 ; Popescu et Etzioni, 2005 ; Taboada et al., 2011 ; Turney, 2002 ; Wiebe et al., 2004 ; Yu et Hatzivassiloglou, 2003). Deux approches sont principalement utilisées pour réaliser cette tâche (Taboada et al., 2011). Les techniques d’apprentissage supervisé, comme les machines à support vectoriel, dont l’efficacité est bien établie en catégorisation de textes (Joachims, 2002), sont employées pour sélectionner l’ensemble d’indices (mots, ponctuations, parfois n-grammes) susceptible de catégoriser le plus exactement possible des textes sur la base d’un matériel d’apprentissage. Les approches lexicales, non supervisées, se basent sur la polarité des mots qui composent un texte pour en estimer la polarité. Si les premières sont extrêmement efficaces lorsqu’elles sont appliquées à des textes du même genre que celui qui a servi à leur développement, leurs performances baissent fortement lorsqu’elles sont appliquées à d’autres genres de textes (Aue et Gamon, 2005).

Les approches lexicales ne présentent pas ce problème de généralisabilité (Taboada et al., 2011), mais elles requièrent des lexiques dans lesquels à chaque entrée est associé un degré de polarité (p.e., minable : ---, faible : -, correct : +, brillant : +++). Ces lexiques sont employés tels quels par les systèmes qui attribuent une polarité globale aux textes selon des statistiques sur la présence de mots subjectifs (Bestgen, 2008 ; Chesley et al., 2006 ; Ghorbel et Jacot, 2011 ; Turney, 2002). D’autres systèmes prennent en compte des phénomènes syntaxiques qui viennent modifier l’orientation sémantique de mots (Brooke, 2009 ; Gala et Brun, 2012 ; Vernier et al., 2009 ; Wilson et al., 2005). Pour celles-ci aussi, « la qualité du lexique à la base du système reste cruciale » comme l’ont souligné encore récemment Gala et Brun (2012). La construction de telles ressources linguistiques est donc devenue un champ de recherche important en fouille d’opinion, renouvelant des travaux nombreux en analyse de contenu et en psycholinguistique (p. e., Anderson et McMaster, 1982 ; Hogenraad et al., 1995 ; Messina et al., 1989).

La limite principale des lexiques de polarité actuellement disponibles est qu’ils ne contiennent presque jamais des groupes de mots, ou n-grammes de mots, alors que la polarité de ceux-ci peut être très différente de celle des mots qui les composent (Polanyi et Zaenen, 2006 ; Vernier et al., 2010). A titre d’exemple, on peut trouver dans un corpus de critiques de films : tenir la route, courrez le voir, le plus beau navet, faussement subversif, d’habitude excellent, parfaitement horripilant ou encore jamais ridicule. Afin de déterminer s’il est possible et surtout utile d’ajouter des n-grammes de mots dans un lexique de polarité, la présente recherche propose de modifier une technique efficace pour estimer la polarité de mots afin de lui permettre d’estimer la polarité de n-grammes. La section suivante synthétise les principales techniques proposées pour construire un lexique de polarité, les recherches qui étendent ce genre de lexiques aux n-grammes et leurs limites. La troisième section présente l’approche proposée. Ensuite, une expérience évaluant

(3)

son efficacité est rapportée. Soulignant les limitations de la présente étude, la conclusion propose plusieurs pistes pour des recherches futures.

D’un point de vue terminologique, n-gramme est employé ici pour faire référence aux séquences d’au moins deux mots (n > 1) et s’oppose ainsi à mot.

Terme, conformément à une de ses définitions, est employé pour désigner un mot ou un groupe de mots et désigne donc tant les mots que les n-grammes. Dans la présente étude, seuls les n-grammes composés exclusivement de noms, d’adjectifs, de verbes, d’adverbes et de conjonctions ont été analysés, mais l’approche peut être appliquée à tout type de n-grammes, y compris ceux incluant un article ou une préposition.

2. État de l’art

La procédure la plus évidente pour construire des lexiques de polarité consiste à demander à des personnes d’évaluer des listes de mots sur des échelles allant par exemple de évoquant une idée très désagréable à évoquant une idée très agréable.

Cette procédure est extrêmement coûteuse en temps et en ressources, ce qui réduit fortement le nombre de mots qui composent les lexiques. Or, plus la couverture du lexique est large, plus le nombre de mots identifiés dans un texte est élevé, et meilleure est la prédiction de la polarité (Bestgen, 1994 ; Cao et Zukerman, 2012).

Pour dépasser ces limitations, des techniques automatiques ou semi-automatiques ont été proposées, la majorité d’entre elles s’appuyant sur les similarités sémantiques entre les mots dont on veut estimer la polarité et des mots dont la polarité est connue.

Deux grands types d’approches peuvent être distingués : les approches basées sur des ressources linguistiques, comme WordNet, et celles basées sur des corpus de textes. Les premières calculent généralement la similarité entre les mots sur la base de leur relation de synonymie (par exemple : Hu et Liu, 2004 ; Kamps et Marx, 2002 ; Kim et Hovy, 2004). Partant d’un ensemble de mots germes dont la polarité est connue, elles emploient un algorithme de bootstrapping qui parcourt les liens synonymiques et antonymiques de la ressource linguistique et attribue la même orientation aux mots synonymes et vice-versa. La limitation principale de ces approches est qu’elles sont totalement dépendantes de la qualité des informations disponibles dans la ressource linguistique et de la quantité de termes présents dans celle-ci. Les mots peu fréquents dans une langue ou ceux qui ont un emploi spécifique dans un domaine d’application (abyssal, désopilant, navet ou encore nullard et chichiteux dans des critiques de films) y sont rarement pris en compte.

Les approches qui s’appuient sur des corpus partent également d’un ensemble de mots germes dont la polarité est connue a priori, mais calculent les similarités au moyen d’une analyse statistique des contextes de cooccurrences des mots, avec ou sans recours à des modèles d’espaces vectoriels représentant le contenu sémantique des mots sous la forme de vecteurs. Un mot est considéré comme d’autant plus positif qu’il est plus proche des germes positifs et plus éloigné des germes négatifs.

Pouvant être appliquées à des corpus de très grandes tailles (des milliards de mots

(4)

récoltés sur le web comme l’ont fait Velikovich et al., 2010) ou à des corpus spécifiques à une application (Harb et al., 2008), ces techniques répondent aux limitations des approches basées sur des ressources linguistiques, mais s’appuient sur des informations plus bruitées que celles qui sont encodées manuellement par des linguistes dans des ressources comme Wordnet ou comme un dictionnaire de synonymes. Récemment, Vincze et Bestgen (2012 ; Bestgen et Vincze, 2012) ont montré que les approches basées sur des corpus étaient plus efficaces que celles basées sur des ressources linguistiques et qu’elles permettaient de générer des normes lexicales ayant une fiabilité équivalente à celles obtenues en demandant à des juges d’évaluer les mots.

Comme indiqué dans l’introduction, rares sont les techniques automatiques d’estimation de la polarité qui ont tenté de prendre en compte des séquences de mots comme marquer un tournant, toucher le fond, porter son équipe, trouver ses marques (Vernier et Monceau, 2010) et aucune, à ma connaissance, n’a essayé de comparer le degré d’exactitude du score attribué à des n-grammes par rapport à celui atteint en moyenne par des mots, ni de déterminer le gain apporté par rapport à un lexique composé exclusivement de mots. Ainsi, Turney (2002) a proposé d’attribuer des scores de polarité à des bigrammes sur la base de leur proximité sémantique avec des mots germes positifs et négatifs, proximités mesurées à partir des réponses à des requêtes envoyées au moteur de recherche AltaVista, un service qui hélas n’est plus disponible, rendant l’approche obsolète. Il a montré que cette technique permet de prédire significativement la note attribuée à des critiques par leur auteur, mais Turney ne compare pas l’efficacité des bigrammes à celle des mots. De même, la technique développée par Velikovich et al. (2010), qui est basée sur la construction d’un graphe à partir des cooccurrences de mots et de n-grammes dans un corpus de 4 milliards de pages web, a été évaluée dans une tâche de classification de phrases annotées manuellement, mais sans distinguer les mots simples des séquences composées de plusieurs mots. Le problème majeur avec cette technique est qu’elle ne peut pas être mise en oeuvre sans l’accès aux ressources considérables de géants du Web comme Google.

D’autres travaux s’appuient sur des ressources plus limitées, mais, hélas, leurs objectifs le sont aussi. Vernier et al. (2010) ont proposé une méthode d’apprentissage pour enrichir automatiquement un lexique subjectif à partir de ressources plus accessibles. L’apprentissage se base sur des tests sémantiques, effectués à l’aide du moteur de recherche Yahoo, permettant de mesurer le degré de subjectivité de noms, adjectifs, verbes, mais aussi de groupes nominaux et verbaux.

Toutefois, cette technique ne détermine pas la polarité des termes et, si elle a permis de récolter près de 2 500 termes subjectifs, la proportion d’expressions composées de plusieurs mots n’est pas donnée. Levalley et al. (2010) proposent d’utiliser une procédure d’apprentissage supervisé basée sur des textes étiquetés en termes d’opinion pour récolter des mots et des n-grammes qui sont associés à des opinions positives ou négatives. Cette méthodologie n’est toutefois pas très différente de celle qui consiste à analyser les traits (mots, n-grammes ou les autres indices comme la longueur du texte) qui se voient attribués par une technique d’apprentissage supervisé les poids discriminants les plus élevés (Brooke, 2009; Bestgen, 2012). Elle

(5)

présente donc les mêmes limitations en termes de généralisabilité et elle n’est pas applicable à des textes non étiquetés en termes d’opinion comme des articles de presse ou des billets de blog. Par contre, cette recherche, ayant mis en évidence l’utilité des n-grammes pour l’estimation de la polarité d’un document, plaide en faveur de la construction de lexiques de polarité qui combinent mots et n-grammes.

Face à ces constats, l’objectif de la présente étude est de proposer une méthode pour construire de tels lexiques qui peut être appliquée à n’importe quel genre de textes et qui est efficace même lorsqu’elle est basée sur un corpus d’une taille limitée, aisément récoltable sur le web.

3. Extension de techniques d’estimation de la polarité à des n-grammes

L’approche proposée pour estimer la polarité de n-grammes repose sur une technique développée indépendamment par Turney et Littman (2003) et Bestgen (2002) pour estimer la polarité de mots. Elle se base sur la proximité sémantique entre le mot dont la polarité doit être estimée et des mots « points de repère » dont la polarité est considérée comme connue. Un mot est considéré comme d’autant plus positif qu’il est plus proche des points de repère positifs et plus éloigné des points de repère négatifs. Pour estimer la similarité sémantique, tant Turney et Littman que Bestgen ont recours à l’analyse sémantique latente (Latent Semantic Analysis, LSA), une technique mathématique qui vise à extraire un espace sémantique de très grande dimension à partir de l’analyse statistique des cooccurrences dans un corpus de textes (Deerwester et al., 1990). Cet espace sémantique est ensuite employé pour estimer la similarité sémantique entre des mots, des phrases, des paragraphes et même des textes. L’idée sous-jacente, bien établie en linguistique, est que des mots similaires apparaissent dans des contextes similaires.

Figure 1. Décomposition en valeurs singulières d’une matrice de fréquences Termes × Documents

(6)

Le point de départ de l’analyse est une matrice qui contient le nombre d’occurrences de chaque mot dans chacun des documents qui composent un corpus.

Pour extraire les dimensions sémantiques, ce tableau de fréquences fait l’objet d’une décomposition en valeurs singulières (voir figure 1), une sorte d’analyse factorielle, qui en extrait les dimensions orthogonales les plus importantes.

Plus précisément, la matrice de fréquences Mots × Documents est décomposée en produit de trois matrices : X = T S D’. T et D contiennent les vecteurs singuliers pour les lignes et pour les colonnes de la matrice originale alors que S est une matrice diagonale contenant les valeurs propres nécessaires pour que la matrice originale soit reconstituée lorsque les trois matrices sont multipliées. Si on élimine les valeurs les plus faibles de S, le produit des trois matrices donnera, non la matrice originale, mais la meilleure approximation possible de celle-ci au sens des moindres carrés. Cette opération de compression de la matrice initiale apporte deux bénéfices : elle élimine les cooccurrences les plus anecdotiques et elle permet la prise en compte, non seulement des relations de premier ordre, celles qui établissent comme similaires des mots qui apparaissent dans un même contexte, mais aussi des relations de deuxième ordre pour lesquelles deux mots sont similaires, même s’ils n’apparaissent pas dans un même contexte, parce que les contextes dans lesquels ils apparaissent sont similaires.

Interprétés d’un point de vue géométrique, les vecteurs singuliers pour les mots et pour les documents peuvent être considérés comme des points dans un espace de très grande dimension (le nombre de valeurs propres conservées). Les milliers de mots caractérisant les documents sont ainsi remplacés par des combinaisons linéaires ou dimensions sémantiques sur lesquelles peuvent être situés les mots originaux. Contrairement à une analyse factorielle classique, les dimensions extraites sont très nombreuses (plusieurs centaines) et non interprétables. Elles peuvent toutefois être vues comme analogues aux traits sémantiques fréquemment postulés pour décrire le sens des mots (Landauer et al., 1998).

Tant les mots que les documents originaux sont positionnés dans cet espace sémantique, ce qui permet de mesurer leur proximité. Plus précisément, le sens de chaque mot y est représenté par un vecteur. Pour mesurer la similarité sémantique entre deux mots, on calcule le cosinus entre les vecteurs qui les représentent. Plus deux mots sont sémantiquement proches, plus les deux vecteurs qui les représentent pointent dans la même direction et donc plus leur cosinus se rapproche de 1.

3.1. SO-LSA

La technique proposée par Turney et Littman (2003) pour estimer la polarité de mots, SO-LSA pour Semantic orientation - Latent Semantic Analysis, se base sur la proximité sémantique entre le mot cible et 14 points de repère : 7 à polarité positive (good, excellent...) et 7 à polarité négative (bad, poor...). Plus précisément, Turney et Littman calculent les cosinus entre le mot cible et chaque point de repère positif ainsi que les cosinus entre ce mot et chaque point de repère négatif. La différence entre ces deux groupes de cosinus indique la polarité du mot. Turney et Littman ont

(7)

évalué l’efficacité de leur technique en comparant l’orientation prédite à celle définie dans le General Inquirer Lexicon (Stone et al., 1966) qui contient une liste de 3596 mots étiquetés comme positifs ou négatifs. Calculée sur la base de corpus de millions de mots, SO-LSA étiquette correctement 65 % des mots.

3.2. DIC-LSA

La technique proposée par Bestgen (2002), DIC-LSA pour Dictionnary — Latent Semantic Analysis, est très similaire à celle de Turney et Littman. La principale différence est que SO-LSA emploie comme points de repère quelques mots sélectionnés a priori alors que DIC-LSA sélectionne un ensemble spécifique de points de repère pour chaque mot à évaluer parmi plusieurs milliers de mots dont la polarité est connue. Pour ce faire, DIC-LSA s’appuie sur un dictionnaire de 3 000 mots dont la polarité a été évaluée par une trentaine de juges (Hogenraad et al., 1995)¹. La polarité inconnue d’un mot correspond à la polarité moyenne de ses 30 plus proches voisins dont la polarité est connue, c’est-à-dire aux 30 mots ayant le plus grand cosinus avec le mot cible. Pour évaluer cette technique, Bestgen et Vincze (2012) ont comparé les valeurs prédites aux valeurs réelles telles que renseignées dans le dictionnaire et ont obtenu une corrélation de 0,71.

3.3. Extension aux n-grammes

Telles quelles, ni SO-LSA, ni DIC-LSA ne peuvent estimer la polarité de n- grammes parce que le tableau lexical qu’elles analysent ne contient que des mots.

Or, pour estimer la polarité d’un n-gramme, on a besoin de pouvoir calculer le cosinus entre ce n-gramme et les mots points de repère dont la polarité est connue. Il n’y a aucun problème technique à construire un tableau lexical sur la base des bigrammes (ou des trigrammes...), mais ce n’est pas utile parce qu’on ne dispose pas de bigrammes points de repère pour la polarité. Étendre aux n-grammes ces techniques d’estimation de la polarité nécessite donc de trouver une procédure pour calculer, dans le cadre d’une analyse sémantique latente, le cosinus entre un n- gramme et un mot. Dans la présente étude, deux approches permettant d’atteindre cet objectif sont évaluées.

3.3.1. Procédure CENTROIDE

En premier lieu, il est possible de contourner ce problème grâce à une propriété bien connue de la décomposition en valeur singulière et à l’origine de son emploi en recherche d’information (Deerwester et al., 1990) : la possibilité de calculer la similarité sémantique non seulement entre des mots, mais également entre des

1. La majorité des mots (les plus fréquents dans la langue) qui composent ce dictionnaire est fournie en annexe à Vincze et Bestgen (2011b, http://www.atala.org/IMG/pdf/Vincze- TAL52-3-annexe.pdf). Bestgen (1994) rapporte un coefficient d'accord inter-annotateurs (corrélation entre deux versions parallèles) de .87 pour cette tâche.

(8)

documents et surtout entre des pseudodocuments, c’est-à-dire des groupes de mots qui ne constituent pas un document analysé en tant que tel (comme des requêtes adressées à un moteur de recherche). Pour ce faire, on construit un espace sémantique sur la base des seuls mots présents dans le corpus. Ensuite, on projette le n-gramme en question dans l’espace des documents, le vecteur qui le représente correspondant au centroïde des mots qui le composent, c’est-à-dire à la somme des vecteurs de ces mots. Lorsque cette opération est effectuée pour un document présent dans le corpus original, le vecteur obtenu est identique au vecteur original.

Lorsqu’elle est effectuée séparément pour deux mots isolés (des unigrammes donc), le cosinus entre ces deux pseudodocuments dans l’espace des documents est identique à celui que l’on peut calculer entre ces mots dans l’espace des mots. Il est donc possible de calculer la similarité sémantique entre un n-gramme et un mot point de repère et donc d’appliquer directement aux n-grammes les techniques SO- LSA et DIC-LSA. Le principal défaut de cette procédure est qu’elle considère les n- grammes comme de simples sacs de mots (bags of words). Elle ne prend donc pas en compte l’ordre des mots qui composent le n-gramme et elle considère que le sens d’un n-gramme correspond à l’addition des sens des mots qui le composent.

3.3.2. Procédure MOTS&NGRAMMES

La seconde approche proposée ne présente pas ce défaut. Elle consiste à employer comme termes lors de la construction de l’espace sémantique tant les mots que les n-grammes. En d’autres mots, la matrice de fréquences soumise à la décomposition en valeur singulière comprend non seulement la fréquence de chaque mot dans chaque document, mais également celle de chaque n-gramme d’une longueur donnée, par exemple chaque bigramme) dans chaque document, d’où son nom : MOTS&NGRAMMES. De cette manière, le cosinus entre chaque n-gramme et les mots points de repère est calculable par l’entremise des vecteurs des termes et, donc, tant SO-LSA que DIC-LSA peuvent être employés, sans autre modification, pour estimer leur polarité. Cette procédure est également applicable aux trigrammes (quadrigrammes...) puisqu’il suffit de construire la matrice de fréquence pour les mots et pour les trigrammes.

4. Expérience 4.1. Objectifs

Afin de se faire une idée de l’intérêt qu’il y a d’étendre l’estimation automatique de la polarité de termes à des n-grammes, l’expérience tente d’abord de répondre à la question suivante : lorsque la technique prétend qu’un n-gramme est positif (ou négatif), l’est-il vraiment et surtout l’est-il plus souvent que lorsque cette technique fait la même prédiction pour un mot ? Pour répondre à cette question, il n’est pas possible d’employer la procédure classiquement utilisée pour évaluer les mots. En effet, celle-ci consiste à comparer les polarités prédites à celles disponibles dans des normes préexistantes, obtenues en demandant à des juges d’évaluer des mots sur cette dimension, comme c’est le cas dans les normes Valemo, F-POL ou encore le

(9)

General Inquirer dans sa version anglaise ou française (Turney et Littman, 2003;

Vincze et Bestgen, 2011a). Or, à ma connaissance, aucune norme de ce type n’est disponible pour les n-grammes. Pour pouvoir néanmoins évaluer la qualité de ceux- ci, la solution adoptée consiste à employer des textes dont la polarité est connue parce que les auteurs de ceux-ci leur ont attribué une note sur une échelle de polarité, comme c’est fréquemment le cas pour les critiques de films. Si une procédure d’estimation de la polarité est efficace, on doit s’attendre à observer plus fréquemment les termes (mots ou n-grammes) les plus négatifs dans les critiques négatives et les termes les plus positifs dans les critiques positives.

Cette première manière d’évaluer l’extension de SO-LSA et DIC-LSA aux n- grammes peut être qualifiée d’intrinsèque en ce sens qu’elle vise à déterminer la qualité des scores de polarité attribués automatiquement à des n-grammes en dehors de toute application concrète : c’est uniquement l’exactitude du score attribué à un n-gramme qui est évaluée. La deuxième analyse vise à déterminer si la prise en compte de n-grammes en plus des mots permet d’améliorer la prédiction de la polarité de textes, une application courante en fouille d’opinion.

Il est important de rappeler ici que la technique proposée ne requiert nullement un corpus de textes étiquetés en termes de polarité pour fonctionner. Elle peut donc être appliquée à n’importe quel genre de textes afin de construire un lexique de polarité spécifique au vocabulaire utilisé. Simplement, un corpus étiqueté en termes d’opinion est nécessaire pour pouvoir en évaluer l’efficacité.

4.2. Méthode

Cette section présente le matériel employé dans les expériences et décrit en détail la procédure utilisée pour estimer la polarité de mots et de n-grammes.

4.2.1. Corpus pour la construction des espaces sémantiques et pour la phase de test Bestgen (2008) ayant montré que tant SO-LSA que DIC-LSA étaient plus efficaces pour estimer des polarités lorsque le corpus à partir duquel l’espace sémantique est extrait contient des textes similaires à ceux qui doivent être évalués lors de la phase de test, les textes employés tant pour construire les espaces sémantiques que pour la phase de test ont été extraits d’un même site web, le site Allocine.fr. Ce site rassemble de nombreuses informations sur le cinéma, dont une ample section de partage social dans laquelle les spectateurs peuvent donner leur avis à propos de films.

Un programme Perl a été employé pour sélectionner dans la base de données tous les films produits entre 2006 et septembre 2012 qui ne relevaient pas des catégories Divers ou Documentaires, pour lesquels on disposait d’au moins une critique de presse (de sorte d’éliminer des séries télévisées) et qui avaient été commentés au moins 50 fois. Ce programme extrayait toutes les critiques de spectateurs disponibles en enregistrant le titre du film, le rédacteur de la critique, la date de diffusion de la critique, le texte de celle-ci et la note attribuée par l’auteur.

Cette note, au moment de la construction du corpus, était présentée sur une échelle

(10)

allant de 0 à 5 par pas d’un demi-point, 0 correspondant à un film nul et 5 à un chef- d’œuvre.

Chaque critique a été traitée par le programme TreeTagger (Schmid, 1994) afin d’être segmentée en tokens (mots, mais aussi signes de ponctuation, symboles...) et lemmatisée. En moyenne, la longueur des critiques est de 86 tokens avec un écart- type très élevé de 92 et une étendue allant de 1 à 4 434 tokens. Afin de réduire cette étendue, les critiques de moins de 30 tokens et de plus de 418 ont été supprimées, ces valeurs éliminant les critiques considérées arbitrairement comme trop courtes pour les inclure dans le tableau lexical et le pour-cent des critiques les plus longues.

Le corpus intégral est composé de 648 619 critiques à propos de 1 837 films différents et compte un peu plus de 65 millions de tokens. Comme indiqué ci-dessus, ce corpus a été employé pour la construction des espaces sémantiques et pour la phase de test. Afin de garantir autant d’indépendance que possible entre l’étape d’estimation des polarités et l’étape d’évaluation, le corpus intégral a été divisé aléatoirement en deux sous-corpus (A et B) contenant chacun approximativement 324 000 critiques. Le corpus B a été employé pour l’évaluation des polarités estimée sur la base d’une analyse sémantique latente du corpus A et l’inverse a été effectué lorsque le corpus A est utilisé pour la phase de test. Les résultats donnés dans la suite correspondent toujours à la moyenne des scores obtenus sur chaque demi- corpus.

4.2.2. Sélection des mots et des n-grammes

Pour la construction des tableaux lexicaux et la phase de test, on n’a conservé dans chaque critique que les mots apparaissant au moins cinq fois dans le corpus et appartenant à une des catégories grammaticales suivantes : nom, adjectif, verbe, adverbe et conjonction. Pour les termes composés de plus d’un mot, les mêmes conditions s’appliquent à chacun des mots qui les composent ainsi que la nécessité que tous les mots se suivent directement et fassent partie de la même phrase. Ceci implique que des n-grammes comme rater la scène et succès d’estime ne sont pas pris en compte en raison de la présence d’un article ou d’une préposition. Il serait toutefois très facile de les inclure parmi les n-grammes analysés. On a choisi dans la présente étude de se limiter aux n-grammes composés au maximum de quatre mots.

4.2.3. Construction des espaces sémantiques et estimation de la polarité

Les matrices de fréquences termes × critiques ont été soumises à une décomposition en valeurs singulières réalisée par le programme SvdpackC (Berry et al., 1993) et les 300 premiers vecteurs singuliers ont été conservés, ce nombre étant généralement considéré comme un optimum (Landauer et al., 2004). Ces vecteurs ont été employés pour mesurer les proximités entre les termes et les points de repère.

– Pour SO-LSA, les 14 points de repère de Turney et Littman (2003) ont été traduits en français. Il s’agit de bon, gentil, excellent, positif, heureux, correct, supérieur et de mauvais, méchant, médiocre, négatif, malheureux, faux, inférieur.

(11)

– Pour DIC-LSA, le dictionnaire de polarité est composé de 3 252 mots, chacun évalué par une trentaine d’étudiants d’établissements d’enseignement supérieur de la communauté Wallonie-Bruxelles sur une échelle à 7 points selon que le mot évoque une idée allant de très désagréable (1) à très agréable (7) (Hogenraad et al., 1995).

Le tableau 1 donne les valeurs attribuées à quelques mots extraits aléatoirement de ce dictionnaire.

Tableau 1. Polarité de mots sur une échelle allant de très désagréable (1,0) à très agréable (7,0)

Mot Polarité Mot Polarité

détresse 1,4 contrôlable 3,5

imbécile 1,4 outil 4,3

tristesse 1,6 risquer 4,5

hostilité 2,2 entier 4,9

impassible 2,6 revenir 5,0

superstitieux 2,8 admiratif 5,7

hâtes 3,1 doux 6,0

ambigus 3,2 sincérité 6,1

4.3. Analyses et résultats

Les analyses effectuées visent à déterminer l’efficacité des techniques SO-LSA et DIC-LSA pour estimer la polarité de n-grammes de différentes longueurs selon que les cosinus entre ces n-grammes et les mots points de référence ont été estimés par la procédure MOTS&NGRAMMES ou CENTROIDE. Afin de simplifier la présentation, la procédure MOTS&NGRAMMES, qui obtient les meilleurs résultats, sera considérée comme la procédure de référence et les résultats obtenus au moyen de la procédure CENTROIDE seront donnés sous la forme d’écart par rapport à celle-ci.

Au total, les techniques ont attribué une polarité à un peu plus de 18 000 mots, 105 000 bigrammes, 59 000 trigrammes et 17 000 quadrigrammes. A titre d’illustration, quelques termes ayant reçu les polarités les plus négatives et les plus positives sont présentés ci-dessous.

– Mots : (-) consterner, nullité, pitoyablement, ratage ; (+) bijou, épatant, envoûter, fabuleux.

– Bigrammes (2G) : (-) absolument affligeant, bouse intersidéral, cliché pleuvoir, navet total ; (+) air frais, aussi rocambolesque, découvrir absolument, dépaysement total.

(12)

– Trigrammes (3G) : (-) encore plus bas, faire jamais peur, seul aspect positif, tout simplement rater ; (+) avoir vraiment bouleverser, beau et attachant, pas hilarant mais, vrai petit bijou.

– Quadrigrammes (4G) : (-) absolument rien ne être, avoir rien avoir sauver, ne faire jamais peur, pas trop mauvais mais ; (+) drôle mais aussi émouvant, paraître plus vrai que, personnage être terriblement attachant, simple mais pas simpliste.

4.3.1. Analyse 1 : Efficacité de la procédure pour estimer la polarité de n-grammes La première analyse vise à déterminer si les n-grammes les plus négatifs s’observent dans les critiques les plus négatives et les n-grammes les plus positifs dans les critiques les plus positives. Pour répondre à cette question, les critiques de chaque corpus de test ont été divisées en trois tranches selon que la note attribuée par l’auteur est inférieure ou égale à 1,5, supérieure ou égale à 3,5 ou intermédiaire, cette dernière tranche n’étant pas employée dans les analyses. Les mots et les n- grammes de chaque longueur ont été indépendamment rangés du plus négatif au plus positif et divisés en tranches en fonction des pourcentiles² suivants : 1 %, 5 %, 10 %, 90 %, 95 % et 99 %. Pour les termes identifiés comme négatifs, la première tranche (1 %) inclut le pour cent des valeurs les plus négatives, la deuxième (5 %) les 4 % qui suivent et la troisième tranche (10 %) les 5 % qui suivent. Pour les termes identifiés comme positifs, la tranche 99 % inclut le pour cent des valeurs les plus positives, la tranche 95 % les 4 % qui suivent et la troisième tranche (90 %) les 5 % qui suivent. De cette manière, un terme n’est jamais inclus dans plusieurs tranches.

On a ensuite déterminé pour chaque terme de chaque tranche dans combien de critiques négatives et dans combien de critiques positives il apparaît. Si la procédure est efficace, on devrait observer plus de termes négatifs dans les critiques négatives et plus de termes positifs dans les critiques positives. L’indice d’efficacité pour un terme est donc la proportion de cas dans lesquels il apparaît dans une critique de la polarité attendue. Pour les termes négatifs, il correspond au rapport entre le nombre d’occurrences dans des critiques négatives divisé par le nombre total d’occurrences du terme. Pour les critiques positives, le numérateur est le nombre d’occurrences du terme dans des critiques positives.

Les tableaux 2 et 3 présentent les scores d’exactitude moyens pour les 4 types de termes et les 6 tranches calculés sur les deux sous-corpus de test et ce pour les deux techniques d’estimation. Pour chaque tranche, la première ligne donne ce score lorsque les cosinus ont été estimés par la procédure MOTS&NGRAMMES alors que la seconde ligne donne la différence entre ce score et celui obtenu lorsque la procédure CENTROIDE est employée³. Une valeur positive indique que la procédure MOTS&NGRAMMES est la plus efficace alors qu’une valeur négative indique que la procédure CENTROIDE est la plus efficace.

2. Le pourcentile est défini comme la valeur sous laquelle on trouve ce pourcentage de valeurs.

3. Dans le cas des mots, ces deux procédures produisent des scores de polarité identiques puisque calculés sur la base du même espace sémantique.

(13)

Tableau 2. Scores d’exactitude moyens pour SO-LSA

Tranche Mot 2G 3G 4G

--- 1% 0,73 0,76

,10 0,76

,06 0,74 ,07

5% 0,53 0,55

,08 0,60

,11 0,61

,13

- 10% 0,47 0,48

,07 0,53

,10 0,55 ,12

+ 90% 0,75 0,82

,03 0,86

,03 0,88

,02

95% 0,77 0,83

,03 0,87

,01 0,92

,03

+++ 99% 0,83 0,88

,10 0,92

,05 0,96 ,04

Tableau 3. Scores d’exactitude moyens pour DIC-LSA.

Tranche Mot 2G 3G 4G

--- 1% 0,49 0,47

,05 0,49

-,02 0,55 -,05

-- 5% 0,47 0,50

,11 0,56

,16 0,56

,16

- 10% 0,43 0,44

,08 0,49

,11 0,51 ,12

+ 90% 0,72 0,81

,04 0,86

,02 0,89

,03

++ 95% 0,75 0,83

,01 0,88

,01 0,91

,01

+++ 99% 0,81 0,89

,06 0,92

,03 0,95 ,04

Afin de mieux mettre en évidence les observations les plus importantes, la figure 2 présente graphiquement une partie des informations contenues dans ces tableaux.

Il s’agit des scores d’exactitude moyens de la procédure MOTS&NGRAMMES pour SO-LSA (gauche) et DIC-LSA (droite). Si on se concentre d’abord sur les scores pour la procédure d’estimation des cosinus MOTS&NGRAMMES (voir figure 2 et première ligne de chaque tranche dans les tableaux), on observe que les scores d’exactitude sont plus élevés pour les termes ayant les polarités les plus extrêmes, mais aussi qu’ils sont plus élevés pour les n-grammes que pour les mots, cette différence étant d’autant plus grande que le n-gramme est long. On note aussi

(14)

que les scores sont nettement meilleurs pour les termes positifs que pour les termes négatifs. Pour les termes négatifs, l’exactitude est même souvent inférieure à la valeur que produirait une attribution de la polarité par une procédure totalement aléatoire (0,50). Une performance aussi faible n’était pas attendue. Enfin, si SO- LSA est très nettement plus efficace (ou moins inefficace) que DIC-LSA pour les mots négatifs, les différences pour les n-grammes positifs sont très faibles et pas toujours à son avantage.

Figure 2. Scores d’exactitude moyens de la procédure MOTS&NGRAMMES pour SO-LSA (gauche) et DIC-LSA (droite)

Les tableaux 2 et 3 montrent aussi que MOTS&NGRAMMES est presque toujours plus efficace que CENTROIDE puisque la quasi-totalité des différences sont positives. Toutefois, les écarts sont relativement faibles sauf dans le cas de l’estimation des termes négatifs, mais il s’agit aussi des termes pour lesquels la technique est la moins efficace.

4.3.2. Analyse 2. Utilité des n-grammes pour prédire la polarité de textes

La deuxième analyse vise à déterminer si la prise en compte de n-grammes en plus des mots permet d’améliorer la prédiction de la polarité de textes. Pour ce faire, une procédure très simple, mais relativement efficace, d’estimation de la polarité d’un texte a été employée (Turney, 2002 ; Bestgen, 1994) ; elle considère que la polarité d’un texte est égale à la moyenne de toutes les polarités connues. Comme dans l’analyse précédente, les polarités des termes ont été calculées sur un des deux sous-corpus et le test a porté sur l’autre sous-corpus.

Le tableau 4 donne les corrélations entre la note attribuée aux critiques par les auteurs et la polarité estimée sur la base des mots, des unigrammes et des bigrammes (Mot-2G), des unigrammes, bigrammes et trigrammes (Mot-2G-3G) et de l’ensemble des termes disponibles (Mot-2G-3G-4G). Comme précédemment, la première ligne donne les corrélations lorsque la procédure MOT&NGRAMMES a

(15)

été employée et la seconde la différence entre cette corrélation et celle obtenue au moyen de la procédure CENTROIDE, une valeur positive indiquant que la procédure MOTS&NGRAMMES est plus efficace.

Ces valeurs peuvent être comparées à un niveau de base : la corrélation obtenue lorsqu’on estime la polarité des critiques au moyen du dictionnaire de polarité original, composé de 3 253 mots, chacun évalué par une trentaine de personnes.

Cette corrélation n’est que de 0,37. Il apparaît qu’étendre une norme de polarité même seulement à des mots améliore nettement la qualité de la prédiction puisqu’on passe d’une corrélation de 0,37 à 0,50. L’adjonction des bigrammes aux mots améliore aussi la prédiction, mais moins fortement. Le gain pour les n-grammes de taille supérieure est nettement plus limité. On observe aussi que SO-LSA est très légèrement plus efficace que DIC-LSA.

Dans cette analyse, la procédure d’estimation des cosinus MOT&NGRAMMES est plus efficace que la procédure CENTROIDE, tout particulièrement dans le cas de SO-LSA.

Tableau 4. Corrélations entre les polarités des critiques estimées par les procédures automatiques et les notes attribuées par les auteurs

Mot Mot-2G Mot-2G-3G Mot-2G-3G-4G

SO-LSA 0,52 0,58

,05 0,58

,06 0,58 ,06 DIC-LSA 0,50 0,54

,03

0,55 ,04

Une série d’analyses complémentaires ont été effectuées en faisant varier les termes employés pour prédire la polarité des critiques de manière à ne prendre en compte que les termes les plus extrêmes ou seulement les termes positifs. Cette dernière option a donné lieu à des performances très faibles. Se baser exclusivement sur les termes les plus extrêmes donne lieu à des corrélations très légèrement meilleures, mais a aussi pour conséquence de réduire le nombre de critiques auxquelles la technique peut attribuer un score parce que certaines critiques ne contiennent plus aucun terme dont la polarité a été estimée. Une comparaison avec les résultats obtenus sur l’ensemble du matériel de test devient donc discutable.

5. Discussion et conclusion

Cette recherche a pour objectif principal d’évaluer l’intérêt qu’il y a d’étendre l’estimation automatique de la polarité de termes à des n-grammes. Deux techniques efficaces pour estimer la polarité de mots ont été modifiées de manière à pouvoir attribuer un score de polarité à ce type d’expressions. Ces techniques estiment la polarité d’un mot à partir de sa proximité sémantique avec des mots points de repère dont la polarité est connue, la proximité sémantique étant obtenue par l’entremise

(16)

d’une analyse sémantique latente d’un grand corpus de textes. Deux procédures ont été proposées afin de permettre le calcul de la similarité sémantique entre un n- gramme et un mot point de repère. La première considère que le sens d’un n- gramme est égal à la somme du sens des mots qui le composent. La seconde traite les n-grammes comme des mots spécifiques, différents des mots qui les composent.

Même si les différences d’efficacité entre les deux procédures ne sont pas toujours très importantes, MOTS&NGRAMMES est clairement la plus efficace. Aussi, la suite de cette discussion est centrée sur celle-ci.

L’expérience rapportée indique que plus un n-gramme contient de mots, plus fréquemment il est observé dans une critique de même polarité que lui. Les valeurs obtenues pour les n-grammes positifs, surtout pour les expressions les plus extrêmes, peuvent être considérées comme très élevées étant donné qu’il n’est pas rare que des critiques globalement négatives mentionnent néanmoins quelques qualités et que, comme d’autres chercheurs l’ont déjà noté (Ghorbel et Jacot, 2011), un matériel de test composé de critiques de films n’est pas exempt d’erreurs. La critique reprise ci- dessous, trouvée par hasard sur le site allociné.fr et ne faisant pas partie du matériel expérimental, en est un exemple particulièrement manifeste : 1 - Très mauvais : Du grand Claude Chabrol. Une merveille ce film, une bouffée de bonheur ! Les acteurs s’amusent et le résultat est convaincant ; Philippe Noiret atteint la quasi-perfection dans son rôle d’animateur-télé-hypocrite, Robin Renucci est littéralement fondant, Bernadette Lafont est parfaitement horripilante dans son rôle de masseuse et Anne Brochet s’en tire bien pour un rôle difficile à jouer. Une trame qui tient la route et un décor parfait viennent s’ajouter à un film hors du commun !

Cette analyse a aussi mis en évidence un résultat inattendu. Les termes identifiés comme négatifs par la procédure automatique sont nettement moins souvent associés à des critiques négatives que les termes positifs à des critiques positives et ceci est vrai tant pour les mots que les n-grammes. On peut se demander si ce résultat ne devrait pas être interprété, en partie au moins, comme une faiblesse de la procédure d’évaluation et non de la procédure d’estimation des polarités. En effet, on trouve parmi les n-grammes négatifs fréquents dans des critiques positives des expressions comme pas vraiment mauvais mais, pouvoir être meilleur si ou encore être trop lisse. Ces n-grammes sont clairement négatifs, mais ils ont leur place dans une critique globalement positive qui souligne quelques éléments plus négatifs. Ce résultat s’explique sans doute aussi par le type de textes employés dans l’expérience.

Comparant différents types de critiques (film, banque, voiture...), Turney (2002) a observé que, contrairement aux autres types, le contenu du film (film d’horreur, drame social) peut aussi avoir une forte polarité sans que celle-ci soit liée au point de vue de l’auteur de la critique à propos de celui-ci : on peut apprécier fortement un film qui vous remplit d’effroi et on peut être heureux d’avoir versé de nombreuses larmes sur les malheurs des personnages. Il serait donc intéressant de reproduire l’expérience avec un matériel composé de critiques d’un tout autre type afin de déterminer si, dans celui-ci aussi, les termes identifiés comme négatifs sont peu souvent associés à des critiques négatives. Quoi qu’il en soit, une étude approfondie de l’estimation de la polarité de termes négatifs est indispensable.

(17)

La deuxième analyse indique que la prise en compte des n-grammes permet d’améliorer la prédiction de la polarité de critique de films. Dans cette analyse aussi, les résultats peuvent être vus comme très bons étant donné la nature particulièrement simpliste de la procédure d’assignation d’une polarité aux critiques : la simple moyenne de toutes les polarités connues dans le texte en question. Il n’en reste pas moins que le bénéfice le plus important s’observe lors de l’adjonction des bigrammes aux mots et que ni les trigrammes, ni les quadrigrammes n’ont un effet supplémentaire important.

Les différentes analyses effectuées mettent en évidence une légère supériorité de SO-LSA sur DIC-LSA. Cette observation s’explique probablement par le fait que les points de repère employés dans SO-LSA ont été sélectionnés par Turney et Littman (2003) parce qu’ils étaient justement associés à des critiques positives (excellent, bon) ou à des critiques négatives (mauvais, médiocre).

Concernant les différences entre les deux procédures d’estimation de la similarité sémantique entre un n-gramme et un mot point de repère, la supériorité de MOTS&NGRAMMES peut sembler faible tout particulièrement dans la première analyse qui porte spécifiquement sur la polarité des n-grammes. On peut penser qu’elle s’explique par le fait qu’un nombre non négligeable des n-grammes ne pâtit pas d’un traitement de type sacs de mots lorsqu’on cherche à en estimer la polarité.

Dans la critique donnée en exemple ci-dessus, seules les expressions parfaitement horripilante, rôle difficile à jouer, tient la route et hors du commun devraient poser problème à une telle approche alors que la critique compte 85 tokens et donc 84 bigrammes, 83 trigrammes... Cette analyse suggère qu’il pourrait être très intéressant dans des travaux futurs de rechercher les n-grammes dont les polarités selon MOTS&NGRAMMES et selon CENTROIDE sont les plus différentes puisqu’il devrait s’agir des expressions pour lesquels une analyse compositionnelle du sens est la moins adéquate.

Globalement, les résultats obtenus plaident en faveur de l’intégration de n- grammes dans les lexiques de polarité construits par une procédure automatique à partir d’un corpus. Non seulement les n-grammes semblent être des indicateurs plus fiables de polarité que les mots (analyse 1), mais leur combinaison avec ces mêmes mots permet une meilleure prédiction de la polarité de textes (analyse 2). Il faut toutefois rester prudent en raison des limitations de la présente étude. En premier lieu, les résultats ont été obtenus par l’analyse d’un seul type de textes : des critiques déposées sur des sites de partage social. Les généraliser à d’autres types de textes est indispensable. L’intérêt majeur des techniques employées est qu’elles ne prennent pas en compte les notes attribuées aux critiques lors de l’estimation de la polarité des termes. Ces techniques peuvent donc être appliquées à tout corpus, que celui-ci inclue ou non une évaluation de l’opinion émise dans le texte. Des billets de blogs, des commentaires de lecteurs et même des articles de presse peuvent être soumis à ces techniques pour étendre un lexique de polarité. Il sera seulement nécessaire d’utiliser une autre procédure d’évaluation des performances que celle employée dans la présente recherche.

(18)

Ensuite, les espaces sémantiques utilisés pour estimer les polarités sont uniquement extraits d’un corpus spécifique au matériel de test. Ce choix a permis de détecter comme très négatifs des termes tels que truelle que l’on trouve employé dans des expressions comme les blagues sont torchées à la truelle ou soulignant à la truelle. Il serait néanmoins intéressant de comparer l’efficacité des procédures d’estimation sur la base d’un corpus spécifique ou d’un corpus générique afin de déterminer si les observations de Bestgen (2008), obtenues dans une analyse de phrases extraites d’articles de presse, peuvent être reproduites avec des critiques.

Une autre question, plus fondamentale, à laquelle cette recherche ne répond pas est de déterminer si la construction des lexiques de polarité est le lieu où prendre en compte les facteurs contextuels qui affectent la polarité des mots. L’autre option consiste à laisser le traitement des effets contextuels pour d’autres modules du système d’analyse de l’opinion comme c’est fréquemment le cas pour la négation.

L’intérêt de l’approche basée sur les n-grammes est que les effets contextuels sont (potentiellement) découverts de manière automatique et non au travers de l’analyse manuelle et fine d’un corpus de textes. Il reste toutefois à prouver que cette manière de procéder est aussi efficace que le recours à des modules spécifiques.

Remerciements

Yves Bestgen est chercheur qualifié du F.R.S-FNRS. Il tient à remercier Nadja Vincze, auteure de la version préliminaire du programme Perl employé pour collecter les critiques.

Bibliographie

Abbsasi A., Chen H., Salem A. (2008). Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums, ACM Transactions on Information Systems 26.

Anderson C.W., McMaster G.E. (1982). Computer assisted modeling of affective tone in written documents. Computers and the Humanities, vol. 16, 1-9.

Aue A., Gamon M. (2005). Customizing sentiment classifiers to new domains: A case study.

Proceedings of the International Conference on Recent Advances in Natural Language Processing.

Berry M., Do T., O’brien G., Krishna V., Varadhan S.(1993).SVDPACKC : Version 1.0 user’s guide. Tech. Rep. CS-93-194, University of Tennessee, Knoxville, TN.

Bestgen Y. (1994). Can emotional valence in stories be determined from words? Cognition and Emotion, vol. 7, p. 21-36.

Bestgen Y. (2002). Détermination de la valence affective de termes dans de grands corpus de texte, Actes de CIFT’02, p. 81-94.

Bestgen Y. (2008). Building affective lexicons from specific corpora for automatic sentiment analysis, Proceedings of LREC 2008, 496-500.

(19)

Bestgen Y. (2012). DEFT2009 : essais d’optimisation d’une procédure de base pour la tâche 1. In C. Grouin et D. Forest (Eds.), Expérimentations et évaluations en fouille de textes : un panorama des campagnes DEFT. Paris, Hermes Lavoisier, p. 135-151.

Bestgen Y.,Vincze N. (2012). Checking and bootstrapping lexical norms by means of word similarity indexes. Behavior Research Methods, vol. 44, p. 998-1006.

Brooke J. (2009). A Semantic Approach to Automated Text Sentiment Analysis. M.A. thesis.

Simon Fraser University.

Cao M.D., Zukerman I. 2012. Experimental evaluation of a lexicon- and corpus-based ensemble for multi-way sentiment analysis. Proceedings of Australasian Language Technology Association Workshop, p. 52-60.

Chesley P., Vincent B., Xu L., Srihari R.K. (2006). Using verbs and adjectives to automatically classify blog sentiment. Proceedings of AAAI-CAAW-06, p. 27-29.

Deerwester S., Dumais S. T., Furnas G. W., Landauer T. K., Harshman R.. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, vol. 41, p. 391-407.

Gala N., Brun C. (2012). Propagation de polarités dans des familles de mots : impact de la morphologie dans la construction d’un lexique pour l’analyse d’opinion. Actes de Traitement Automatique des Langues Naturelles, Grenoble.

Ghorbel H., Jacot D. (2011). Sentiment Analysis of French Movie Reviews, In V. Pallotta, A.

Soro, and E. Vargiu (Eds.): Advances in DART, SCI 361, p. 97-108.

Harb A., Plantié M., Roche M., Dray G., Trousset F., Poncelet P. (2008). Détection d’opinion.

Comment déterminer les adjectifs d’opinion d’un domaine donné. Document numérique, vol. 11, n° 1-2/2008, p. 37-61.

Hogenraad R., Bestgen Y., Nysten J. L. (1995). Terrorist rhetoric: Texture and architecture, In E. Nissan et K.M. Schmidt (Eds.) From information to knowledge. Conceptual and content analysis by computer, Oxford, England: Intellect Books, p. 54-67.

Hu M., Liu B.. (2004). Mining opinion features in customer reviews, Proceedings of AAAI, 2004, p. 755-760.

Joachims T. (2002). Learning to classify text using support vector machines: Methods, theory and algorithms, Dordrecht, Kluwer.

Kamps J., Marx M. (2002). Words with attitude, Proceedings of the 1st Interational Conference on Global WordNet, p. 332-341.

Kim S. M., Hovy E. (2004). Determining the sentiment of opinions, Proceedings of COLING, p. 1367-1373.

Landauer T. K., Foltz P.W., Laham D. (1998). An introduction to latent semantic analysis.

Discourse Processes, vol. 25, p. 259-284.

Landauer T. K., Laham D., Derr M. (2004). From paragraph to graph: Latent semantic analysis for information visualization, Proceedings of the National Academy of Science 101, p. 5214-5219.

Lavalley R., Clavel C., Bellot P. (2010). Extraction probabiliste de chaînes de mots relatives à une opinion. Traitement Automatique des Langues, vol. 51, p. 101-130.

(20)

Messina D., Morais J., Cantraine F. (1989). Valeur affective de 904 mots de la langue française. C.P.C.: European Bulletin of Cognitive Psychology, vol. 9, 165-187.

Pang B., Lee L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, vol. 2, p. 1-135.

Pang B., Lee L., Vaithyanathan S. (2002). Thumbs up? Sentiment classification using machine learning techniques, Proceedings of the ACL-02, 79-86.

Polanyi L., Zaenen A. (2006). Contextual valence shifters. In J. Wiebe (ed.), Computing Attitude and Affect in Text: Theory and Applications. Springer, Dordrecht, p. 1–10.

Popescu A.-M., Etzioni O. (2005). Extracting product features and opinions from reviews, Proceedings of the HLT/EMNLP, p. 339-346.

Schmid H. (1994). Probabilistic part-of-speech tagging using decision trees, Proceedings of the International Conference on New Methods in Language Processing, p. 44-49.

Stone P.J., Dunphy D.C., Smith M.S., Ogilvie D.M. (1966). The General Inquirer: A Computer Approach to Content Analysis, MIT Press.

Taboada M., Brooke J., Tofiloskiy M. Vollz K., Stede M. (2011). Lexicon-based methods for sentiment analysis. Computational Linguistics, vol. 37, p. 267–307.

Turney P. (2002). Thumbs up or thumbs down? Sentiment orientation applied to unsupervised classification of reviews, Proceedings of the Annual Conference of the Association for Computational Linguistics.

Turney P., Littman M. (2003). Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems, vol. 21, p. 315- 346.

Velikovich L., Blair-Goldensohn S., Hannan K., McDonald R. (2010). The Viability of Web- derived Polarity Lexicons. Proceedings of NAACL, p. 777-785.

Vernier M., Monceaux L. (2010). Enrichissement d’un lexique de termes subjectifs à partir de tests sémantiques, Traitement automatique des langues, vol. 51, 125-149.

Vernier M., Monceaux L., Daille B. (2010). Learning subjectivity phrases missing from resources through a large set of semantic tests, Proceedings of LREC 2008.

Vernier M., Monceaux L., Daille B., Dubreil E. (2009). Catégorisation sémantico-discursives des évaluations exprimées dans la blogosphère. Actes de TALN 2009.

Vincze N., Bestgen Y. (2011a). Identification de mots germes pour la construction d’un lexique de valence au moyen d’une procédure supervisée, Actes de TALN’11, p. 223-234.

Vincze N., Bestgen Y. (2011b). Une procédure automatique pour étendre des normes lexicales par l’analyse des cooccurrences dans des textes. Traitement Automatique des Langues, vol. 52, p. 191-216.

Vincze N., Bestgen Y. (2012). Comparaison de l’usage d’un corpus et de WordNet pour l’extension de normes lexicales. Actes de JADT 2012, p. 965-976.

Wiebe J., Wilson T., Bruce R., Bell M., Martin M. (2004). Learning subjective language.

Computational Linguistics, vol. 30, p. 277-308.

(21)

Wilson T., Wiebe J., Hoffmann P. (2005). Rcognizing contextual polarity in phrase-level sentiment analysis, Proceedings of the 2005 Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing, p. 347-354.

Yu H., Hatzivassiloglou V. (2003). Toward answering opinion questions : Separating facts from opinions and identifying the polarity of opinion sentences, Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), p. 129- 136.

(22)