• Aucun résultat trouvé

Déterminer le caractère subjectif d'un document

Chaîne de traitement pour une approche discursive de l'analyse d'opinion

1. Contexte scientifique et motivations

1.1. Opinion et évaluations

1.2.1. L'opinion au niveau du document : extraction d'un sentiment global sur un sujet principal

1.2.1.1. Déterminer le caractère subjectif d'un document

Si pour certains genres de corpus le caractère subjectif et porteur d'opinion d'un document ne fait  pas  de  doute  (par  exemple,  les  commentaires  web  sur  des  restaurants  ou  des  films  sont  par  définition  porteurs  d'opinion),  cela  n'est  pas  le  cas  pour  tous  les  types  de  textes.  On  peut  par  exemple se demander si un article de presse est purement objectif (i.e. factuel : par exemple, une  dépêche d'agence de presse présentant des faits d'actualité sans les commenter), ou au contraire  subjectif (par exemple, un article éditorial). 

(Yu  and  Hatzivassiloglou  2003)  proposent  une  classification  d'articles  de  presse  suivant  quatre  catégories  du  Wall  Street  Journal  :  Editorial,  Letter  to  Editor,  News,  et  Business.  Ces  quatre  catégories  sont  théoriquement  associées  à  des  articles  tous  subjectifs  ou  tous  objectifs.  Le  classifieur  utilisé  est  un  classifieur  Bayésien  naïf  utilisant  des  unigrammes  comme  traits,  sans  stemmatisation. (Wiebe et al. 2004) utilisent un algorithme de classification basé sur les k plus  proches  voisins  (Cover  and  Hart  1967)  pour  une  classification  de  subjectivité  au  niveau  du  document. Celle‐ci s'appuie sur la détection au niveau local d'éléments potentiellement subjectifs  (Potential Subjective Elements – PSE), c’est‐à‐dire d’éléments pouvant être subjectifs étant donné  un  certain  contexte.  Par  exemple,  en  français,  le  terme  «  navet  »  peut  être  subjectif  dans  le  domaine du cinéma, où il désigne un mauvais film et non un légume. 

La  campagne  d’évaluations  TREC  (Text  REtrieval  Conference)  comprenait  jusqu’en  2008  un  parcours  d’extractions  d’informations  dans  les  blogs  (Blog  Track  –  (Ounis,  Macdonald,  and  Soboroff 2008)). Ce parcours incluait une section de tâche de détection de l’opinion, consistant à  détecter la présence d’une opinion dans des articles de blogs. Parmi les participants, (He et al.  2008) proposent un modèle de détection basé sur une classification Maximum Entropy sur chaque  phrase du document : les résultats de ces classifications servent ensuite de traits pour un autre  classifieur Maximum Entropy au niveau du document.  La campagne DEFT'09 (Défi Fouille de Textes) comprend, pour le Français, l'Anglais, et l'Italien, une  tâche de reconnaissance du caractère subjectif au niveau d'un document. Le corpus utilisé était  un corpus d'articles de presse. Parmi les participants, les meilleurs résultats (Grouin et al. 2009) 

 

33

Contexte scientifique et motivations

ont  été  obtenus  pour  le  Français  et  l'Anglais  par  le  système  de  (Bestgen  and  Lories  2009),  qui  propose une classification SVM standard, basée sur des unigrammes, bigrammes, et trigrammes  lemmatisés et filtrés par seuil de fréquence ; différents essais d'optimisation des paramètres n'ont  pas montré d'améliorations par rapport à ceux par défaut. Les autres participants ont proposé des  approches basées sur l'algorithme des k plus proches voisins (Forest et al. 2009) et sur l'utilisation  de lexiques spécialisés comme traits d'apprentissage pour SVM (Toprak and Gurevych 2009), sans  toutefois atteindre les résultats de (Bestgen and Lories 2009).  1.2.1.2. Déterminer la polarité au niveau d'un document

Les  travaux  sur  la  classification  de  document  par  polarité  ont  pris  leur  essor  au  début  des  années 2000. Différentes approches ont été étudiées pour résoudre cette tâche : nous distinguons  ici  les  approches  par  classification  supervisée  au  niveau  du  document  (sous‐section  a)  et  les  approches basées sur une analyse préalable de l’opinion au niveau local de l’expression d’opinion  (sous‐section b). D’autres travaux ont également proposés des voies d’amélioration des résultats :  nous regroupons ici les approches visant à adapter la classification au domaine (sous‐section c) et  les approches par méta‐classification – i.e. se basant sur la combinaison de plusieurs classifieurs  (sous‐section d).  a. Approches par classification supervisée au niveau du document (Pang, Lee, and Vaithyanathan 2002) ont testé trois types de classifieurs automatiques supervisés  –  Machine  à  Support  Vectoriel  (SVM  ‐  (Boser,  Guyon,  and  Vapnik  1992)),  Bayesien  naïf  (NB  –  (Mitchell 1997)), et Maximum Entropie (MaxEnt)– afin de déterminer la polarité d'un document.  Leurs expérimentations, réalisées sur un corpus de commentaires web de films, testent également  plusieurs intuitions sur les traits : unigrammes ou bigrammes, fréquences de traits ou présence de  traits,  nature  grammaticale  du  mot.  Les  résultats  montrent  en  général  un  avantage  à  la  classification  SVM  sur  les  autres  classifieurs  utilisés.  Le  corpus  utilisé  pour  les  évaluations  est  disponible  en  ligne6.  Dans  cette  lignée,  (Dave,  Lawrence,  and  Pennock  2003)  ont  utilisé  un 

classifieur Bayésien et se sont focalisés sur la sélection et l'optimisation des traits de classification,  en proposant notamment des remplacements systématiques de méta‐données (nombres, noms  de produit), et l'inclusion de chaînes de mots de longueurs variables (i.e. la détection automatique  d'expressions  pertinentes  pour  la  classification).  (Matsumoto,  Takamura,  and  Okumura  2005)  proposent quant à eux d'inclure au classifieur SVM des traits issus de la structure syntaxique du  texte  :  ordre  des  mots  dans  le  texte,  arbre  de  dépendance  syntaxique,  et  patrons  syntaxiques  fréquents. Les résultats obtenus sur le corpus de (Pang, Lee, and Vaithyanathan 2002) montrent  un  gain  en  pertinence  (accuracy)  important  –  de  l'ordre  de  +5  %.  Pour  le  Français  et  dans  le  contexte de l'évaluation DEFT'07, (Plantié et al. 2007) ont testé plusieurs classifieurs supervisés :  un classifieur Naive Bayes, un classifieur SVM, un classifieur basé sur les réseaux de neurones RBF,  et  une  approche  basée  sur  les  arbres  de  décision.  Le  classifieur  SVM  donne  globalement  les  meilleurs résultats ; l'approche par réseaux RBF donne également de bons résultats sur certains 

       

corpus,  en  particulier  ceux  de  développement,  mais  les  auteurs  observent  une  dégradation  importante sur certains des corpus de test. 

b. Approches basées sur une analyse préalable au niveau local

(Turney  2002)  propose quant  à  lui une  méthode  non  supervisée de  classification  basée  sur  les  informations d'opinion relevée au niveau du mot. À partir du calcul du point d'information mutuel  (Pointwise  Mutual  Information  –  PMI)  au  niveau  du  mot,  il  détermine  la  polarité  au  niveau  du  document via une heuristique de moyenne des scores des adjectifs et adverbes repérés. Le PMI  suit, pour x et y indépendants, la formule suivante :  , log ,   L'idée de la classification à partir d'opinions ponctuelles relevées au niveau du mot a également  été exploitée par plusieurs autres travaux. (Mullen and Collier 2004) ont quant à eux utilisé un  classifieur SVM, et ont introduit dans leur jeu de traits de classification des informations issues du  calcul de l'orientation sémantique au niveau du mot, suivant les méthodes présentées par (Turney  2002) (calcul du PMI, cf. paragraphe suivant) et (Kamps and Marx 2002) (proximité synonymique  calculée avec WordNet, suivant les trois axes définis par Osgood (Osgood, Suci, and Tannenbaum  1967) : potency/force – faible ou forte, activity/activité – actif ou passif, et evaluative/évaluatif –  bon ou mauvais). Les résultats obtenus montrent un gain significatif en pertinence (accuracy) (de  l'ordre  de  +2  %).  (Whitelaw,  Garg,  and  Argamon  2005a)  ont  utilisé  un  classifieur  SVM  à  partir  d'informations lexicales issues du modèle Appraisal de (Martin 2005). (Denecke 2009) comparent  une  classification  automatique  supervisée  (Simple  Logistic  Classifier,  implémenté  au  sein  de  la  distribution  Weka7)  à  une  approche  à  base  de  règles,  toutes  deux  basées  sur  les  scores  de 

sentiments de la ressource lexicale SentiWordNet (Esuli and Sebastiani 2006a)8, sur une sélection  de corpus de commentaires portant sur des domaines distincts. Les résultats montrent une nette  prédominance de la première solution sur l'ensemble des domaines (gain moyen de l'ordre de 15  % en pertinence/accuracy).  c. Approches visant à traiter le problème d’adaptation au domaine (Aue and Gamon 2005) observant que le passage d'un domaine d'application à un autre nécessitait  en général l'annotation de nouvelles données afin de ré‐entraîner les classifieurs, se sont penchés  sur la problématique d'un classifieur multi‐domaine. Pour cela, ils ont étudié quatre pistes pour la  création d'un classifieur optimal en minimisant la réannotation spécifique sur le domaine ciblé : 

‐ L'entraînement  sur  un  corpus  mixte,  constitué  de  données  provenant  de  plusieurs  autres domaines. 

‐ L'entraînement  sur  corpus  mixte,  avec  limitations  des  traits  de  classification  à  ceux  observés dans le domaine cible. 

       

7 http://www.cs.waikato.ac.nz/ml/weka/  8 http://sentiwordnet.isti.cnr.it/ 

 

35

Contexte scientifique et motivations

‐ L'utilisation d'un ensemble de classifieurs, chacun entraînés sur un domaine distinct  où  des  données  sont  disponibles.  Le  choix  s'effectue  suivant  le  résultat  d'un  meta‐ classifieur, entraîné sur les sorties des classifieurs de chaque domaine. 

‐ L'entraînement d'un classifieur sur la combinaison d'une petite quantité de données  annotées et d'une grande quantité de données non annotée sur le domaine ciblé. Pour  cela,  un  classifieur  intermédiaire  est  utilisé  pour  évaluer  la  classe  des  données  non  annotées à partir de celles annotées. 

Parmi ces méthodes, la dernière montre de meilleurs résultats, pourvu que la quantité d'exemple  annoté  dans  le  domaine  cible  ne  descende  pas  au  dessous  d'un  certain  seuil  (entre  50  et  100  documents  suivant  les  tests  présentés).  Sur  le  même  sujet,  (Blitzer,  Dredze,  and  Pereira  2007)  testent l'adaptation de leur algorithme d'apprentissage SCL (Structure Correspondence Learning  (Blitzer, McDonald, and Pereira 2006)) au domaine de l'analyse de sentiments, et évaluent une  mesure de distance entre domaines (A‐distance, (Ben‐David et al. 2006)).  d. Approches par méta‐classification (classifications sur la base de plusieurs sous‐ classifieurs) (Torres‐Moreno et al. 2007; Torres‐Moreno et al. 2009), pour le Français et dans le cadre du Défi  Fouille  de  Textes  (DEFT'07  et  DEFT'09)  utilisent  quant  à  eux  une  approche  basée  sur  plusieurs  classifieurs automatiques :  ‐ le classifieur LIA‐SCT (Béchet, Nasr, and Genet 2000), basé sur les arbres de décisions  sémantiques (Semantic Classification Tree – (Kuhn and De Mori 1995)),  ‐ le classifieur BoosTexter (Schapire and Singer 2000), basé sur l'algorithme AdaBoost  (Freund and Schapire 1996),  ‐ le classifieur SVMTorch (Collobert, Bengio, and Mariéthoz 2002), basé sur SVM,  ‐ le classifieur Timble (Daelemans et al. 2007), inspiré de l'algorithme des k plus proches  voisins,  ‐ une modélisation probabiliste simplifiée à base de n‐grammes lemmatisés  Ces classifieurs sont ensuite utilisés en parallèle sur les textes à classer : la classification finale est  déterminée par vote. Cette méthode de vote montre des résultats supérieurs à ceux des méthodes  de classification utilisées seules, et a mené aux meilleurs résultats sur l'évaluation DEFT'07 (Grouin  et al. 2007; Paroubek et al. 2007). 

Dans  le  cadre  de  cette  même  évaluation,  (Vernier  et  al.  2007)  ont  également  proposé  une  approche mixte, basée sur deux classifieurs. Le premier classifieur se base sur l'apprentissage de  n‐grammes  caractéristiques  d'une  catégorie  d'opinion  (négative  comme  dans  "une  vraie 

catastrophe",  et  positivie  comme  dans  "très  belle  œuvre"),  et  inclut  une  série  de  traitements 

linguistiques  (lemmatisation,  détection  de  la  négation,  représentation  sémantique  commune  à  une classe de synonymes). Le second classifieur se base sur une analyse linguistique fine de chaque  phrase, prenant en compte des éléments lexicaux (expressions d'opinion, opérateurs linguistiques  – négations, modalités, intensités), ainsi que certains éléments surfaciques ayant trait au discours  (marques de concession, position de la phrase en début ou fin de texte) ; les indices ainsi relevés  permettent de calculer deux scores, positifs et négatifs, s'additionnant pour donner un score au 

niveau  du  document.  Les  résultats  de  ces  deux  classifieurs  sont  ensuite  utilisés  par  un  méta‐ classifieur supervisé afin de produire la classification finale. 

Enfin, (Wang and Manning 2012), remarquent que les classifieurs SVM ont tendance à mieux se  comporter  sur  des  documents  de  taille  classique,  alors  que  les  classifieurs  Bayésiens  se  comportent mieux sur de courts extraits. Partant de cette observation, ils proposent d'inclure à  un classifieur SVM des traits issus d'une classification Bayésienne. Les résultats obtenus dépassent  les classifieurs SVM et Bayésiens seuls, quelque soit la longueur du document considéré. 

1.2.2.

L'opinion au niveau local : extraction d'une opinion