Chaîne de traitement pour une approche discursive de l'analyse d'opinion
1. Contexte scientifique et motivations
1.1. Opinion et évaluations
1.2.1. L'opinion au niveau du document : extraction d'un sentiment global sur un sujet principal
1.2.1.1. Déterminer le caractère subjectif d'un document
Si pour certains genres de corpus le caractère subjectif et porteur d'opinion d'un document ne fait pas de doute (par exemple, les commentaires web sur des restaurants ou des films sont par définition porteurs d'opinion), cela n'est pas le cas pour tous les types de textes. On peut par exemple se demander si un article de presse est purement objectif (i.e. factuel : par exemple, une dépêche d'agence de presse présentant des faits d'actualité sans les commenter), ou au contraire subjectif (par exemple, un article éditorial).
(Yu and Hatzivassiloglou 2003) proposent une classification d'articles de presse suivant quatre catégories du Wall Street Journal : Editorial, Letter to Editor, News, et Business. Ces quatre catégories sont théoriquement associées à des articles tous subjectifs ou tous objectifs. Le classifieur utilisé est un classifieur Bayésien naïf utilisant des unigrammes comme traits, sans stemmatisation. (Wiebe et al. 2004) utilisent un algorithme de classification basé sur les k plus proches voisins (Cover and Hart 1967) pour une classification de subjectivité au niveau du document. Celle‐ci s'appuie sur la détection au niveau local d'éléments potentiellement subjectifs (Potential Subjective Elements – PSE), c’est‐à‐dire d’éléments pouvant être subjectifs étant donné un certain contexte. Par exemple, en français, le terme « navet » peut être subjectif dans le domaine du cinéma, où il désigne un mauvais film et non un légume.
La campagne d’évaluations TREC (Text REtrieval Conference) comprenait jusqu’en 2008 un parcours d’extractions d’informations dans les blogs (Blog Track – (Ounis, Macdonald, and Soboroff 2008)). Ce parcours incluait une section de tâche de détection de l’opinion, consistant à détecter la présence d’une opinion dans des articles de blogs. Parmi les participants, (He et al. 2008) proposent un modèle de détection basé sur une classification Maximum Entropy sur chaque phrase du document : les résultats de ces classifications servent ensuite de traits pour un autre classifieur Maximum Entropy au niveau du document. La campagne DEFT'09 (Défi Fouille de Textes) comprend, pour le Français, l'Anglais, et l'Italien, une tâche de reconnaissance du caractère subjectif au niveau d'un document. Le corpus utilisé était un corpus d'articles de presse. Parmi les participants, les meilleurs résultats (Grouin et al. 2009)
33
Contexte scientifique et motivations
ont été obtenus pour le Français et l'Anglais par le système de (Bestgen and Lories 2009), qui propose une classification SVM standard, basée sur des unigrammes, bigrammes, et trigrammes lemmatisés et filtrés par seuil de fréquence ; différents essais d'optimisation des paramètres n'ont pas montré d'améliorations par rapport à ceux par défaut. Les autres participants ont proposé des approches basées sur l'algorithme des k plus proches voisins (Forest et al. 2009) et sur l'utilisation de lexiques spécialisés comme traits d'apprentissage pour SVM (Toprak and Gurevych 2009), sans toutefois atteindre les résultats de (Bestgen and Lories 2009). 1.2.1.2. Déterminer la polarité au niveau d'un document
Les travaux sur la classification de document par polarité ont pris leur essor au début des années 2000. Différentes approches ont été étudiées pour résoudre cette tâche : nous distinguons ici les approches par classification supervisée au niveau du document (sous‐section a) et les approches basées sur une analyse préalable de l’opinion au niveau local de l’expression d’opinion (sous‐section b). D’autres travaux ont également proposés des voies d’amélioration des résultats : nous regroupons ici les approches visant à adapter la classification au domaine (sous‐section c) et les approches par méta‐classification – i.e. se basant sur la combinaison de plusieurs classifieurs (sous‐section d). a. Approches par classification supervisée au niveau du document (Pang, Lee, and Vaithyanathan 2002) ont testé trois types de classifieurs automatiques supervisés – Machine à Support Vectoriel (SVM ‐ (Boser, Guyon, and Vapnik 1992)), Bayesien naïf (NB – (Mitchell 1997)), et Maximum Entropie (MaxEnt)– afin de déterminer la polarité d'un document. Leurs expérimentations, réalisées sur un corpus de commentaires web de films, testent également plusieurs intuitions sur les traits : unigrammes ou bigrammes, fréquences de traits ou présence de traits, nature grammaticale du mot. Les résultats montrent en général un avantage à la classification SVM sur les autres classifieurs utilisés. Le corpus utilisé pour les évaluations est disponible en ligne6. Dans cette lignée, (Dave, Lawrence, and Pennock 2003) ont utilisé un
classifieur Bayésien et se sont focalisés sur la sélection et l'optimisation des traits de classification, en proposant notamment des remplacements systématiques de méta‐données (nombres, noms de produit), et l'inclusion de chaînes de mots de longueurs variables (i.e. la détection automatique d'expressions pertinentes pour la classification). (Matsumoto, Takamura, and Okumura 2005) proposent quant à eux d'inclure au classifieur SVM des traits issus de la structure syntaxique du texte : ordre des mots dans le texte, arbre de dépendance syntaxique, et patrons syntaxiques fréquents. Les résultats obtenus sur le corpus de (Pang, Lee, and Vaithyanathan 2002) montrent un gain en pertinence (accuracy) important – de l'ordre de +5 %. Pour le Français et dans le contexte de l'évaluation DEFT'07, (Plantié et al. 2007) ont testé plusieurs classifieurs supervisés : un classifieur Naive Bayes, un classifieur SVM, un classifieur basé sur les réseaux de neurones RBF, et une approche basée sur les arbres de décision. Le classifieur SVM donne globalement les meilleurs résultats ; l'approche par réseaux RBF donne également de bons résultats sur certains
corpus, en particulier ceux de développement, mais les auteurs observent une dégradation importante sur certains des corpus de test.
b. Approches basées sur une analyse préalable au niveau local
(Turney 2002) propose quant à lui une méthode non supervisée de classification basée sur les informations d'opinion relevée au niveau du mot. À partir du calcul du point d'information mutuel (Pointwise Mutual Information – PMI) au niveau du mot, il détermine la polarité au niveau du document via une heuristique de moyenne des scores des adjectifs et adverbes repérés. Le PMI suit, pour x et y indépendants, la formule suivante : , log , L'idée de la classification à partir d'opinions ponctuelles relevées au niveau du mot a également été exploitée par plusieurs autres travaux. (Mullen and Collier 2004) ont quant à eux utilisé un classifieur SVM, et ont introduit dans leur jeu de traits de classification des informations issues du calcul de l'orientation sémantique au niveau du mot, suivant les méthodes présentées par (Turney 2002) (calcul du PMI, cf. paragraphe suivant) et (Kamps and Marx 2002) (proximité synonymique calculée avec WordNet, suivant les trois axes définis par Osgood (Osgood, Suci, and Tannenbaum 1967) : potency/force – faible ou forte, activity/activité – actif ou passif, et evaluative/évaluatif – bon ou mauvais). Les résultats obtenus montrent un gain significatif en pertinence (accuracy) (de l'ordre de +2 %). (Whitelaw, Garg, and Argamon 2005a) ont utilisé un classifieur SVM à partir d'informations lexicales issues du modèle Appraisal de (Martin 2005). (Denecke 2009) comparent une classification automatique supervisée (Simple Logistic Classifier, implémenté au sein de la distribution Weka7) à une approche à base de règles, toutes deux basées sur les scores de
sentiments de la ressource lexicale SentiWordNet (Esuli and Sebastiani 2006a)8, sur une sélection de corpus de commentaires portant sur des domaines distincts. Les résultats montrent une nette prédominance de la première solution sur l'ensemble des domaines (gain moyen de l'ordre de 15 % en pertinence/accuracy). c. Approches visant à traiter le problème d’adaptation au domaine (Aue and Gamon 2005) observant que le passage d'un domaine d'application à un autre nécessitait en général l'annotation de nouvelles données afin de ré‐entraîner les classifieurs, se sont penchés sur la problématique d'un classifieur multi‐domaine. Pour cela, ils ont étudié quatre pistes pour la création d'un classifieur optimal en minimisant la réannotation spécifique sur le domaine ciblé :
‐ L'entraînement sur un corpus mixte, constitué de données provenant de plusieurs autres domaines.
‐ L'entraînement sur corpus mixte, avec limitations des traits de classification à ceux observés dans le domaine cible.
7 http://www.cs.waikato.ac.nz/ml/weka/ 8 http://sentiwordnet.isti.cnr.it/
35
Contexte scientifique et motivations
‐ L'utilisation d'un ensemble de classifieurs, chacun entraînés sur un domaine distinct où des données sont disponibles. Le choix s'effectue suivant le résultat d'un meta‐ classifieur, entraîné sur les sorties des classifieurs de chaque domaine.
‐ L'entraînement d'un classifieur sur la combinaison d'une petite quantité de données annotées et d'une grande quantité de données non annotée sur le domaine ciblé. Pour cela, un classifieur intermédiaire est utilisé pour évaluer la classe des données non annotées à partir de celles annotées.
Parmi ces méthodes, la dernière montre de meilleurs résultats, pourvu que la quantité d'exemple annoté dans le domaine cible ne descende pas au dessous d'un certain seuil (entre 50 et 100 documents suivant les tests présentés). Sur le même sujet, (Blitzer, Dredze, and Pereira 2007) testent l'adaptation de leur algorithme d'apprentissage SCL (Structure Correspondence Learning (Blitzer, McDonald, and Pereira 2006)) au domaine de l'analyse de sentiments, et évaluent une mesure de distance entre domaines (A‐distance, (Ben‐David et al. 2006)). d. Approches par méta‐classification (classifications sur la base de plusieurs sous‐ classifieurs) (Torres‐Moreno et al. 2007; Torres‐Moreno et al. 2009), pour le Français et dans le cadre du Défi Fouille de Textes (DEFT'07 et DEFT'09) utilisent quant à eux une approche basée sur plusieurs classifieurs automatiques : ‐ le classifieur LIA‐SCT (Béchet, Nasr, and Genet 2000), basé sur les arbres de décisions sémantiques (Semantic Classification Tree – (Kuhn and De Mori 1995)), ‐ le classifieur BoosTexter (Schapire and Singer 2000), basé sur l'algorithme AdaBoost (Freund and Schapire 1996), ‐ le classifieur SVMTorch (Collobert, Bengio, and Mariéthoz 2002), basé sur SVM, ‐ le classifieur Timble (Daelemans et al. 2007), inspiré de l'algorithme des k plus proches voisins, ‐ une modélisation probabiliste simplifiée à base de n‐grammes lemmatisés Ces classifieurs sont ensuite utilisés en parallèle sur les textes à classer : la classification finale est déterminée par vote. Cette méthode de vote montre des résultats supérieurs à ceux des méthodes de classification utilisées seules, et a mené aux meilleurs résultats sur l'évaluation DEFT'07 (Grouin et al. 2007; Paroubek et al. 2007).
Dans le cadre de cette même évaluation, (Vernier et al. 2007) ont également proposé une approche mixte, basée sur deux classifieurs. Le premier classifieur se base sur l'apprentissage de n‐grammes caractéristiques d'une catégorie d'opinion (négative comme dans "une vraie
catastrophe", et positivie comme dans "très belle œuvre"), et inclut une série de traitements
linguistiques (lemmatisation, détection de la négation, représentation sémantique commune à une classe de synonymes). Le second classifieur se base sur une analyse linguistique fine de chaque phrase, prenant en compte des éléments lexicaux (expressions d'opinion, opérateurs linguistiques – négations, modalités, intensités), ainsi que certains éléments surfaciques ayant trait au discours (marques de concession, position de la phrase en début ou fin de texte) ; les indices ainsi relevés permettent de calculer deux scores, positifs et négatifs, s'additionnant pour donner un score au
niveau du document. Les résultats de ces deux classifieurs sont ensuite utilisés par un méta‐ classifieur supervisé afin de produire la classification finale.
Enfin, (Wang and Manning 2012), remarquent que les classifieurs SVM ont tendance à mieux se comporter sur des documents de taille classique, alors que les classifieurs Bayésiens se comportent mieux sur de courts extraits. Partant de cette observation, ils proposent d'inclure à un classifieur SVM des traits issus d'une classification Bayésienne. Les résultats obtenus dépassent les classifieurs SVM et Bayésiens seuls, quelque soit la longueur du document considéré.