Chaîne de traitement pour une approche discursive de l'analyse d'opinion
1. Contexte scientifique et motivations
1.1. Opinion et évaluations
1.2.2. L'opinion au niveau local : extraction d'une opinion unitaire véhiculée par une portion de texte
Si la problématique d'identification de l'opinion au niveau du document pouvait facilement s'apparenter à une problématique de classification de textes, l'extraction d'opinions au niveau local – i.e. interne à la phrase – relève plus d'un problème d'extraction d'information. Plusieurs questions se posent pour cette tâche :
‐ Quelle unité de texte est pertinente pour isoler une opinion unitaire ? ‐ Comment caractériser les opinions ainsi extraites ?
‐ Comment identifier les liens entre l'opinion et son contexte immédiat, i.e. comment identifier le sujet, l'émetteur d'une opinion unitaire, et quels opérateurs viennent impacter sur une opinion unitaire ?
1.2.2.1. Catégoriser l’opinion au grain local
Parmi les traits de l'opinion, au‐delà de la simple polarité, certains travaux proposent une échelle d'intensité pour les opinions. Dans le cadre du projet MPQA (Multi Perspective Question Answering) et de la constitution du corpus éponyme, (Wiebe, Wilson, and Cardie 2005; Wilson, Wiebe, and Hwa 2006) distinguent quatre niveaux d'intensité, allant de faible (low) à extrême (extreme). (Mathieu 2008) relève la présence d'intensifieurs inclus dans certains verbes (par exemple, "Les fantômes terrifient Luke" est équivalent à "Les fantômes effraient beaucoup Luke"), leur donnant une intensité altérée même en l’absence d’opérateur. (Asher, Benamara, and Mathieu 2009) définissent une notion similaire de force, sur une échelle numérique allant de 1 à 3. Au‐delà d’une classification en termes de positivité ou de négativité de l’opinion, certains travaux se sont intéressés à une analyse linguistique, voire psychologique de cette notion. (Mathieu 2000; Mathieu and Felbaum 2010) proposent une taxinomie des sentiments décrivant 27 catégories pour le français, certaines étant associées à une polarité (par exemple, Amuse/Amuser de polarité positive, ou Worry/Ennui de polarité négative), d’autres ne l’étant pas a priori (par exemple,
Astonish/Étonner). (Taboada et Grieve 2004), (Whitelaw, Garg, et Argamon 2005a), et (Whitelaw,
Garg, et Argamon 2005b) utilisent le modèle Appraisal (Martin 2005), introduit précédemment (cf. section 1.1), afin de situer chaque expression dans une large taxinomie. (Vernier et al. 2009) divisent l'évaluation en plusieurs catégories (modalités) : l'Opinion, l’Accord ou le Désaccord, l’Acceptation ou le Refus, le Jugement, l’Appréciation. (Paroubek, Pak, et Mostefa 2010) pour le projet DoXa proposent quant à eux 17 catégories, inspirées des catégories de sentiment de (Mathieu 2000; Mathieu and Felbaum 2010). (Nicholas Asher, Benamara, et Mathieu 2009)
37
Contexte scientifique et motivations
distinguent quant à eux les quatre catégories spécifiques à l'opinion suivantes : Sentiment, Jugement, Conseil, et Reportage. Par rapport aux catégories de Blogoscopie, nous traitons certains Accord/Désaccord (notamment ceux de la forme "[oui], mais [non]" au niveau du discours via une relation de Contraste. 1.2.2.2. Extraction de passages porteurs d'opinion Si le grain d’un document n’est pas toujours le plus adapté suivant les tâches, il n’est pas toujours évident de déterminer quel niveau de granularité est pertinent pour extraire une opinion. Plusieurs travaux se sont ainsi attachés à reconnaitre l’opinion au niveau de la phrase ou d’une partie définie de la phrase. (Hu and Liu 2004) proposent une méthode d’identification de la polarité d’une opinion au niveau de la phrase en se basant sur le repérage et le comptage d’adjectifs positifs ou négatifs portant sur des caractéristiques du sujet principal préalablement identifiées. L’information ainsi extraite est ensuite utilisée afin de générer un résumé au niveau d’un document. Cette approche est par la suite reprise au sein des travaux de (Ding, Liu, and Yu 2008), qui traitent également les négations, et résolvent certaines ambiguïtés de sens par le contexte local. (Bethard et al. 2004) s’intéressent quant à eux à la reconnaissance de l’opinion au niveau de la proposition, en se basant sur la structure syntaxique et sur la reconnaissance de mots d’opinion, utilisés au sein d’un classifieur SVM. (Kim and Hovy 2006a), pour la tâche d’identification des arguments pour ou contre un sujet – tâche connexe à la problématique d’identification de l’opinion au niveau local – se sont appuyés sur une segmentation au niveau de la phrase. Ces phrases sont ensuite classées en pour ou contre le sujet considéré au moyen d’une classification automatique Maximum Entropie. Citons enfin (Zirn et al. 2011), qui ont raisonné au niveau du segment discursif, et se sont basés sur l'absence ou la présence d'une relation RST (Rethorical Structure Theory) de contraste entre deux segments pour détecter la polarité des segments D’autres travaux ont considérés le niveau du mot ou de l’expression pour l’extraction de l’opinion unitaire. Citons entre autres (Wiebe, Wilson, and Cardie 2005), (Wilson, Wiebe, and Hwa 2006) pour le projet MPQA9, (Kim and Hovy 2005), (Dubreil et al. 2008; Daille et al. 2011) pour le projet Blogoscopie, (Asher, Benamara, and Mathieu 2009), et (Paroubek, Pak, and Mostefa 2010) pour le projet DoXa. 1.2.2.3. Associer l'opinion à son contexte local : sujet, émetteur, opérateurs Sujet L'annotation du sujet de l'opinion est une notion qui a été étudiée dans plusieurs travaux. Citons notamment (Stoyanov and Cardie 2008) qui ont proposé une couche complémentaire d'annotations sur le corpus MPQA identifiant les sujets des opinions, (Kim and Hovy 2006b), le projet Blogoscopie (Dubreil et al. 2008), et le projet DoXa (Paroubek, Pak, and Mostefa 2010).
La problématique de classification des sujets et de leur hiérarchisation par rapport à un sujet principal (i.e. définition de sujets partiels, représentant une partie, un aspect du sujet principal) a été étudiée entre autres par (Hu and Liu 2004) et (Popescu and Etzioni 2007), qui se sont penchés sur l'extraction automatique de caractéristiques techniques de produits dans les avis donnés par les consommateurs (web reviews), à l'aide de la fréquence relative des groupes nominaux présents dans le texte. (Whitelaw, Garg, and Argamon 2005a; Whitelaw, Garg, and Argamon 2005b) introduisent quant à eux la notion proche de focus, c'est‐à‐dire si l'opinion émise est focalisée sur le sujet principal du document ou non. Un focus extrêmement haut indique une opinion portant sur le sujet principal, alors qu'un focus extrêmement faible indique une opinion portant sur un sujet sans rapport avec celui‐ci ; une valeur intermédiaire indique une opinion portant sur une partie du sujet ou sur un sujet proche. (Dubreil et al. 2008) distinguent trois types de sujet de l'opinion, suivant l'écart sémantique entre le sujet de l’opinion considérée et le sujet principal du document : les Concepts Concernés (Concerned Concepts – CC), les Concepts Associés (Associated Concepts – AC), et les Concepts Non‐associés (Non associated Concepts – NC). Notre modélisation du sujet de l'opinion se rapproche de celle de (Dubreil et al. 2008) et de la notion de focus de (Whitelaw, Garg, and Argamon 2005a; Whitelaw, Garg, and Argamon 2005b), avec trois types de sujets de l'opinion suivant l'écart entre le sujet et le sujet principal du document. Ceci sera détaillé en section 2.2.3.
Emetteur
La notion d'émetteur de l'opinion a été étudiée par de nombreux travaux. Citons notamment (Bethard et al. 2004) qui ont associé l'émetteur à l'opinion au niveau de la proposition. Les annotations de MPQA comportent également de manière indirecte la position de l'émetteur par rapport au rédacteur, en précisant la chaîne complète de reportage (« nested source », i.e. la liste des locuteurs du discours rapporté). L’exemple suivant est extrait de (Wiebe, Wilson, and Cardie 2005) :
“The U.S. fears a spill‐over,” said Xirao‐Nima. “fears” est ici émise et rapportée par la chaîne <writer, Xirao‐Nima, U.S.>.
Les annotations du projet Blogoscopie se concentrant sur des articles de blogs, les documents sont par nature associés à leur auteur. Ce lien implicite peut être généralisé aux opinions énoncées par le rédacteur.
La reconnaissance automatique de l'émetteur de l'opinion a été étudiée par (Choi et al. 2005), qui ont proposé une méthode de détection de la source de l'opinion via un classifieur Conditional Random Fields (CRF – (Lafferty, McCallum, and Pereira 2001)), entraîné à partir de traits lexicaux, syntaxiques, et d'une annotation sémantique. (Kim and Hovy 2006b) ont quant à eux utilisé un étiqueteur de rôle sémantique, basé sur un classifieur Maximum Entropy (MEGAM10) pour la
reconnaissance de l'émetteur. (Johansson and Moschitti 2010) ont proposé une classification SVM
39 Contexte scientifique et motivations pour l'étiquetage de rôles sémantiques, associée à un modèle de réordonnancement pour affiner les résultats. Notre modélisation, détaillée en section 2.2.4, distingue le locuteur et les autres émetteurs de l’opinion. Cette distinction s’inscrit dans la lignée des travaux de (Wiebe, Wilson, and Cardie 2005), où les auteurs spécifient la source implicite “writer”. Opérateurs
Les opérateurs portant sur l’opinion sont des éléments linguistiques ne portant pas intrinsèquement d’opinion, mais altérant les caractéristiques des opinions dans leur portée : par exemple, les négations venant influer sur la polarité d’une opinion ; les intensifieurs viennent (ex : très, peu…) quant à eux altérer l’intensité de celle‐ci. Les opérateurs ont été pris en compte et traités de diverses façons dans l'état de l'art, partiellement ou dans leur globalité.
De nombreux travaux proposent un traitement de la négation pour l'analyse de l'opinion. La plupart de ces travaux adoptent une approche de simple renversement de polarité : citons notamment (Wilson, Wiebe, and Hoffmann 2005; Polanyi and Zaenen 2006; Moilanen and Pulman 2007; Choi and Cardie 2008, 2).
Dans le cadre de la théorie Appraisal, (Whitelaw, Garg, and Argamon 2005b) modélisent les opérateurs suivant les modifications qu'ils apportent aux traits de l'opinion, en particulier la polarité et l'intensité. (J. Liu and Seneff 2009) traitent de manière plus générale les adverbes modifiant l'opinion – i.e. certains opérateurs, incluant les négations – via un modèle linéaire additif. (Wilson, Wiebe, and Hoffmann 2009) ont traité les négations et inversions de polarité en ajoutant simplement un attribut de polarité contextuelle. (Taboada et al. 2011) ont isolé les opérateurs de négation et d'intensité, et ont proposé un modèle calculatoire de leur impact : décalage fixe d'intensité pour la négation et facteur multiplicatif pour les opérateurs d'intensité. Le chapitre 6 présente un état de l’art plus détaillé sur l’utilisation et la prise en compte des opérateurs. Citons également (Wiegand et al. 2010), qui décrit en détails le rôle des négations dans le contexte des opinions.