• Aucun résultat trouvé

L'opinion au niveau local : extraction d'une opinion unitaire véhiculée par une portion de texte

Chaîne de traitement pour une approche discursive de l'analyse d'opinion

1. Contexte scientifique et motivations

1.1. Opinion et évaluations

1.2.2. L'opinion au niveau local : extraction d'une opinion unitaire véhiculée par une portion de texte

Si  la  problématique  d'identification  de  l'opinion  au  niveau  du  document  pouvait  facilement  s'apparenter  à  une  problématique  de  classification  de  textes,  l'extraction  d'opinions  au  niveau  local – i.e. interne à la phrase – relève plus d'un problème d'extraction d'information. Plusieurs  questions se posent pour cette tâche : 

‐ Quelle unité de texte est pertinente pour isoler une opinion unitaire ?   ‐ Comment caractériser les opinions ainsi extraites ? 

‐ Comment identifier les liens entre l'opinion et son contexte immédiat, i.e. comment  identifier  le  sujet,  l'émetteur  d'une  opinion  unitaire,  et  quels  opérateurs  viennent  impacter sur une opinion unitaire ? 

1.2.2.1. Catégoriser l’opinion au grain local

Parmi les traits de l'opinion, au‐delà de la simple polarité, certains travaux proposent une échelle  d'intensité  pour  les  opinions.  Dans  le  cadre  du  projet  MPQA  (Multi  Perspective  Question  Answering) et de la constitution du corpus éponyme, (Wiebe, Wilson, and Cardie 2005; Wilson,  Wiebe,  and  Hwa  2006)  distinguent  quatre  niveaux  d'intensité,  allant  de  faible  (low)  à  extrême  (extreme).  (Mathieu  2008)  relève  la  présence  d'intensifieurs  inclus  dans  certains  verbes  (par  exemple, "Les fantômes terrifient Luke" est équivalent à "Les fantômes effraient beaucoup Luke"),  leur  donnant  une  intensité  altérée  même  en  l’absence  d’opérateur.  (Asher,  Benamara,  and  Mathieu 2009) définissent une notion similaire de force, sur une échelle numérique allant de 1 à 3.  Au‐delà d’une classification en termes de positivité ou de négativité de l’opinion, certains travaux  se sont intéressés à une analyse linguistique, voire psychologique de cette notion. (Mathieu 2000;  Mathieu  and  Felbaum  2010)  proposent  une  taxinomie  des  sentiments  décrivant  27  catégories  pour le français, certaines étant associées à une polarité (par exemple, Amuse/Amuser de polarité  positive,  ou  Worry/Ennui  de  polarité  négative),  d’autres  ne  l’étant  pas  a  priori  (par  exemple, 

Astonish/Étonner). (Taboada et Grieve 2004), (Whitelaw, Garg, et Argamon 2005a), et (Whitelaw, 

Garg, et Argamon 2005b) utilisent le modèle Appraisal (Martin 2005), introduit précédemment  (cf. section 1.1), afin de situer chaque expression dans une large taxinomie. (Vernier et al. 2009)  divisent  l'évaluation  en  plusieurs  catégories  (modalités)  :  l'Opinion,  l’Accord  ou  le  Désaccord,  l’Acceptation ou le Refus, le Jugement, l’Appréciation. (Paroubek, Pak, et Mostefa 2010) pour le  projet  DoXa  proposent  quant  à  eux  17  catégories,  inspirées  des  catégories  de  sentiment  de  (Mathieu  2000;  Mathieu  and  Felbaum  2010).  (Nicholas  Asher,  Benamara,  et  Mathieu  2009) 

 

37

Contexte scientifique et motivations

distinguent  quant  à  eux  les  quatre  catégories  spécifiques  à  l'opinion  suivantes  :  Sentiment,  Jugement, Conseil, et Reportage. Par rapport aux catégories de Blogoscopie, nous traitons certains  Accord/Désaccord (notamment ceux de la forme "[oui], mais [non]" au niveau du discours via une  relation de Contraste.  1.2.2.2. Extraction de passages porteurs d'opinion Si le grain d’un document n’est pas toujours le plus adapté suivant les tâches, il n’est pas toujours  évident de déterminer quel niveau de granularité est pertinent pour extraire une opinion.   Plusieurs travaux se sont ainsi attachés à reconnaitre l’opinion au niveau de la phrase ou d’une  partie  définie  de  la  phrase.  (Hu  and  Liu  2004)  proposent  une  méthode  d’identification  de  la  polarité  d’une  opinion  au  niveau  de  la  phrase  en  se  basant  sur  le  repérage  et  le  comptage  d’adjectifs positifs ou négatifs portant sur des caractéristiques du sujet principal préalablement  identifiées. L’information ainsi extraite est ensuite utilisée afin de générer un résumé au niveau  d’un document. Cette approche est par la suite reprise au sein des travaux de (Ding, Liu, and Yu  2008),  qui  traitent  également  les  négations,  et  résolvent  certaines  ambiguïtés  de  sens  par  le  contexte local. (Bethard et al. 2004) s’intéressent quant à eux à la reconnaissance de l’opinion au  niveau de la proposition, en se basant sur la structure syntaxique et sur la reconnaissance de mots  d’opinion,  utilisés  au  sein  d’un  classifieur  SVM.  (Kim  and  Hovy  2006a),  pour  la  tâche  d’identification  des  arguments  pour  ou  contre  un  sujet  –  tâche  connexe  à  la  problématique  d’identification de l’opinion au niveau local – se sont appuyés sur une segmentation au niveau de  la phrase. Ces phrases sont ensuite classées en pour ou contre le sujet considéré au moyen d’une  classification automatique Maximum Entropie. Citons enfin (Zirn et al. 2011), qui ont raisonné au  niveau  du  segment  discursif,  et  se  sont  basés  sur  l'absence  ou  la  présence  d'une  relation  RST  (Rethorical  Structure  Theory)  de  contraste  entre  deux  segments  pour  détecter  la  polarité  des  segments   D’autres travaux ont considérés le niveau du mot ou de l’expression pour l’extraction de l’opinion  unitaire. Citons entre autres (Wiebe, Wilson, and Cardie 2005), (Wilson, Wiebe, and Hwa 2006)  pour le projet MPQA9, (Kim and Hovy 2005), (Dubreil et al. 2008; Daille et al. 2011) pour le projet  Blogoscopie, (Asher, Benamara, and Mathieu 2009), et (Paroubek, Pak, and Mostefa 2010) pour  le projet DoXa.  1.2.2.3. Associer l'opinion à son contexte local : sujet, émetteur, opérateurs Sujet L'annotation du sujet de l'opinion est une notion qui a été étudiée dans plusieurs travaux. Citons  notamment  (Stoyanov  and  Cardie  2008)  qui  ont  proposé  une  couche  complémentaire  d'annotations sur le corpus MPQA identifiant les sujets des opinions, (Kim and Hovy 2006b), le  projet Blogoscopie (Dubreil et al. 2008), et le projet DoXa (Paroubek, Pak, and Mostefa 2010). 

       

La  problématique  de  classification  des  sujets  et  de  leur  hiérarchisation  par  rapport  à  un  sujet  principal (i.e. définition de sujets partiels, représentant une partie, un aspect du sujet principal) a  été étudiée entre autres par (Hu and Liu 2004) et (Popescu and Etzioni 2007), qui se sont penchés  sur l'extraction automatique de caractéristiques techniques de produits dans les avis donnés par  les consommateurs (web reviews), à l'aide de la fréquence relative des groupes nominaux présents  dans  le  texte.  (Whitelaw,  Garg,  and  Argamon  2005a;  Whitelaw,  Garg,  and  Argamon  2005b)  introduisent quant à eux la notion proche de focus, c'est‐à‐dire si l'opinion émise est focalisée sur  le sujet principal du document ou non. Un focus extrêmement haut indique une opinion portant  sur le sujet principal, alors qu'un focus extrêmement faible indique une opinion portant sur un  sujet sans rapport avec celui‐ci ; une valeur intermédiaire indique une opinion portant sur une  partie du sujet ou sur un sujet proche. (Dubreil et al. 2008) distinguent trois types de sujet de  l'opinion, suivant l'écart sémantique entre le sujet de l’opinion considérée et le sujet principal du  document : les Concepts Concernés (Concerned Concepts – CC), les Concepts Associés (Associated  Concepts – AC), et les Concepts Non‐associés (Non associated Concepts – NC).  Notre modélisation du sujet de l'opinion se rapproche de celle de (Dubreil et al. 2008) et de la  notion de focus de (Whitelaw, Garg, and Argamon 2005a; Whitelaw, Garg, and Argamon 2005b),  avec  trois  types  de  sujets  de  l'opinion  suivant  l'écart  entre  le  sujet  et  le  sujet  principal  du  document. Ceci sera détaillé en section 2.2.3. 

Emetteur

La  notion  d'émetteur  de  l'opinion  a  été  étudiée  par  de  nombreux  travaux.  Citons  notamment  (Bethard  et  al.  2004)  qui  ont  associé  l'émetteur  à  l'opinion  au  niveau  de  la  proposition.  Les  annotations de MPQA comportent également de manière indirecte la position de l'émetteur par  rapport au rédacteur, en précisant la chaîne complète de reportage (« nested source », i.e. la liste  des locuteurs du discours rapporté). L’exemple suivant est extrait de (Wiebe, Wilson, and Cardie  2005) : 

“The  U.S.  fears  a  spill‐over,”  said  Xirao‐Nima.  “fears”  est  ici  émise  et  rapportée  par  la  chaîne <writer, Xirao‐Nima, U.S.>. 

 Les annotations du projet Blogoscopie se concentrant sur des articles de blogs, les documents  sont par nature associés à leur auteur. Ce lien implicite peut être généralisé aux opinions énoncées  par le rédacteur. 

La reconnaissance automatique de l'émetteur de l'opinion a été étudiée par (Choi et al. 2005), qui  ont  proposé  une  méthode  de  détection  de  la  source  de  l'opinion  via  un classifieur  Conditional  Random Fields (CRF – (Lafferty, McCallum, and Pereira 2001)), entraîné à partir de traits lexicaux,  syntaxiques, et d'une annotation sémantique. (Kim and Hovy 2006b) ont quant à eux utilisé un  étiqueteur  de  rôle  sémantique,  basé  sur  un  classifieur  Maximum  Entropy  (MEGAM10)  pour  la 

reconnaissance de l'émetteur. (Johansson and Moschitti 2010) ont proposé une classification SVM 

       

  39 Contexte scientifique et motivations pour l'étiquetage de rôles sémantiques, associée à un modèle de réordonnancement pour affiner  les résultats.  Notre modélisation, détaillée en section 2.2.4, distingue le locuteur et les autres émetteurs de  l’opinion. Cette distinction s’inscrit dans la lignée des travaux de (Wiebe, Wilson, and Cardie 2005),  où les auteurs spécifient la source implicite “writer”.  Opérateurs

Les  opérateurs  portant  sur  l’opinion  sont  des  éléments  linguistiques  ne  portant  pas  intrinsèquement d’opinion, mais altérant les caractéristiques des opinions dans leur portée : par  exemple, les négations venant influer sur la polarité d’une opinion ; les intensifieurs viennent (ex :  très, peu…) quant à eux altérer l’intensité de celle‐ci. Les opérateurs ont été pris en compte et  traités de diverses façons dans l'état de l'art, partiellement ou dans leur globalité. 

De  nombreux  travaux  proposent  un  traitement  de  la  négation  pour  l'analyse  de  l'opinion.  La  plupart  de  ces  travaux  adoptent  une  approche  de  simple  renversement  de  polarité  :  citons  notamment (Wilson, Wiebe, and Hoffmann 2005; Polanyi and Zaenen 2006; Moilanen and Pulman  2007; Choi and Cardie 2008, 2). 

Dans  le  cadre  de  la  théorie  Appraisal,  (Whitelaw,  Garg,  and  Argamon  2005b)  modélisent  les  opérateurs  suivant  les  modifications  qu'ils  apportent  aux  traits  de  l'opinion,  en  particulier  la  polarité  et  l'intensité.  (J.  Liu  and  Seneff  2009)  traitent  de  manière  plus  générale  les  adverbes  modifiant  l'opinion  –  i.e.  certains  opérateurs,  incluant  les  négations  –  via  un  modèle  linéaire  additif. (Wilson, Wiebe, and Hoffmann 2009) ont traité les négations et inversions de polarité en  ajoutant  simplement  un  attribut  de  polarité  contextuelle.  (Taboada  et  al.  2011)  ont  isolé  les  opérateurs  de  négation  et  d'intensité,  et  ont  proposé  un  modèle  calculatoire  de  leur  impact  :  décalage fixe d'intensité pour la négation et facteur multiplicatif pour les opérateurs d'intensité.  Le  chapitre  6  présente  un  état  de  l’art  plus  détaillé  sur  l’utilisation  et  la  prise  en  compte  des  opérateurs. Citons également (Wiegand et al. 2010), qui décrit en détails le rôle des négations  dans le contexte des opinions. 

1.2.3.

La structure discursive, information clef pour une