• Aucun résultat trouvé

1.3 Organisation du manuscrit

3.2.2 M´ ethodes ` a base de r` egles

L’analyse d’opinions a ´egalement ´et´e approch´ee sous un angle linguistique, en utilisant des r`egles de classement par exemple des r`egles syntaxiques et lexi-cales. Les m´ethodes `a base de r`egles n’utilisant pas forc´ement la repr´esentation vectorielle puisque l’ordre et la s´equentialit´e des mots deviennent des crit`eres

3.2. ETAT DE L’ART

importants pour d´ecider de la subjectivit´e et de la polarit´e. Certaines de ces m´ethodes utilisent aussi l’apprentissage automatique en le combinant avec des traitements linguistiquesa priori. On parle dans ce cas de m´ethodes hybrides.

Nous reviendrons sur ces travaux avec plus de d´etails dans la section 3.3.2.

Les m´ethodes `a base de r`egles reposent sur l’existence d’un ensemble de r`egles linguistiques g´en´eralement d´efinies `a la main pour d´etecter les signaux subjectifs dans le texte. Chacune de ces r`egles permet de d´etecter un mot, une structure syntaxique ou alors une expression et apporte ainsi une information qui sera utilis´ee pour le classement d’opinions.

# R`egle D´etection

de

Type Signification 1 {‘‘bon’’,

‘‘meilleur’’}

polarit´e mot un mot parmi{“bon”,

“meilleur”} 3 (ADV, ADJ) subjectivit´e

gramm-atical

un adverbe suivi par un adjectif

4 (NEG, ADJ) subjectivit´e n´egation n´egation d’ adjectifs 5

polarit´e ontologie tous les synonymes du mot “mauvais”

pr´esents dans l’onto-logie ONT

Table 3.1 – Exemples de r`egles linguistiques pour l’analyse d’opinions.

Les r`egles linguistiques diff`erent par leur forme et leur complexit´e. Le ta-bleau 3.1 pr´esente quelques exemples de r`egles linguistiques allant des plus simples (pr´esence de certains mots) aux plus compliqu´ees (structures gramma-ticales et utilisation d’ontologies). Dans ce tableau, les r`egles sont repr´esent´ees en utilisant une notation math´ematique. La r`egle #1 permet de d´etecter les signaux positifs en se basant sur la pr´esence des mots “bon” et “meilleur”.

La r`egle #2 permet de d´etecter la pr´esence de tous les mots qui commencent par “aim”. Ce type de r`egles est utile pour r´eduire l’espace de recherche en d´etectant toutes les inflexions d’un mot en une seule fois. La r`egle #3 permet de d´etecter les adverbes suivis d’un adjectif. La r`egle #4 permet de d´etecter la n´egation d’un adjectif (changement de polarit´e). La r`egle #5 permet de cher-cher le patron correspondant `a la n´egation du verbe “trouver” suivie d’une 38

3.2. ETAT DE L’ART

phrase positive. Enfin, la r`egle #6 utilise l’ontologie ONT afin de trouver tous les synonymes du verbe “mauvais”.

Un grand nombre de r`egles est g´en´eralement utilis´e pour l’analyse d’opi-nions. Celles-ci peuvent aussi ˆetre combin´ees pour g´en´erer des r`egles plus com-plexes, par exemple les r`egles #3 et #4 ci-dessus, et/ou pond´er´ees afin de r´ealiser une analyse plus fine. Dans la litt´erature, beaucoup de travaux dans cette cat´egorie proposent aussi la d´etection de la cible d’opinion (opinion tar-get). Nous reviendrons sur ces travaux avec plus de d´etails dans la section 4.2.1.

Les travaux pr´esent´es dans [68] constituent un bon exemple repr´esentatif de ce type de m´ethodes. Les auteurs ont d´efini manuellement un ensemble de r`egles (ici appel´ees grammaires) pour la d´etection de polarit´e `a partir de textes francophones. Trois grammaires ont ´et´e d´evelopp´ees pour ˆetre appliqu´ees

`

a trois domaines diff´erents (tourisme, livres, jeux vid´eos). Le texte est trans-form´e en une liste de “relations”. Par exemple, le phrase “je n’aime pas aller au cin´ema” est transform´ee en SENTIMENT NEGATIF(aimer, aller). Ces re-lations sont ensuite moyenn´ees pour d´eduire la polarit´e globale du texte.

Kennedy et Inkpen [51] ont propos´e une m´ethode bas´ee sur le travail de [111]. Celui-ci a ´et´e ´etendu par un ensemble de r`egles syntaxiques afin de capturer le changement dans l’intensit´e pour l’Anglais. Ils ont examin´e l’effet de trois types d’intensit´e “very”, “deeply”, “rather”. Pour cela, un ensemble de r`egles a ´et´e d´efini manuellement pour :

– identifier des termes positifs/n´egatifs sur la base d’un lexique d’opinion enrichi de [111],

– identifier la n´egation et les adverbes qui augmentent/diminuent l’inten-sit´e des adjectifs,

– r´ealiser une d´esambigu¨ısation lexicale.

Une fois ces informations extraites, les documents sont convertis en une repr´ es-entation vectorielle avant d’appliquer la m´ethode de classement SVM. Un r´esultat l´eg`erement meilleur a ´et´e obtenu par rapport `a l’utilisation d’un mod`ele vectoriel avec les mots simples.

Wilson et al. [123] ont propos´e un travail similaire pour la d´etection de subjectivit´e au niveau de la phrase. La d´emarche g´en´erale se d´eroule en deux

´etapes : (1) d´etection des phrases neutres, et (2) analyse de polarit´e des phrases subjectives. Pour la d´etection du neutre, la phrase est caract´eris´ee par les attributs suivants :

– Termes (mots simples, mots du lexique, POS) – Attributs de modification (pr´esence d’adverbes)

– Attributs de la phrase (nombre d’adjectifs, de pronoms, ..) – Attributs de structure (voix active/passive)

– La th´ematique du document (cf. chapitre 2).

Pour l’analyse de polarit´e, les phrases subjectives sont caract´eris´ees par des attributs de polarit´e (pr´esence de modificateurs de polarit´e, de n´egation, ..).

3.2. ETAT DE L’ART

Dans [81], les auteurs ont examin´e l’apport de certains types d’attributs linguistiques, comme les n-grammes et les termes d’un lexique d’opinions, dans deux contextes diff´erents : identification de critiques (analyse de subjec-tivit´e) et analyse de polarit´e. Les scores obtenus pour l’analyse de subjectivit´e

´etaient de loin meilleurs par rapport `a l’analyse de polarit´e. Cela montre que le probl`eme d’identification de textes subjectifs peut ˆetre r´esolu en utilisant ce type d’attributs, notamment le lexique de termes d’opinions, contrairement `a l’analyse de polarit´e qui s’av`ere une tˆache plus complexe.

Les m´ethodes `a base de r`egles permettent une analyse fine du langage et ainsi une meilleure gestion de certains aspects de la langue, comme la n´egation, les phrases d’opposition (e.g., “mais”), co-r´ef´erence, etc. Cependant, la cr´eation de ces r`egles peut devenir une tˆache laborieuse. D’abord, parce que ces r`egles sont tr`es d´ependantes du domaine. Ensuite, la d´efinition des r`egles n´ecessite un travail manuel et une bonne connaissance du domaine. Enfin, le traitement linguistique de grandes quantit´es de donn´ees n´ecessite le d´eploiement d’outils linguistiques complexes, ce qui rend ces m´ethodes peu adapt´ees aux grands volumes de donn´ees.

Il faut noter en conclusion que les r`egles de classement peuvent servir `a construire de nouveaux attributs pour les m´ethodes d’apprentissage automa-tique [17, 26, 100, 101, 124]. Cela permet alors de mixer la connaissance pro-venant des donn´ees et celle provenant des experts. On parle quelquefois de m´ethodes hybrides. Nous reviendrons sur ces m´ethodes avec plus de d´etails dans la section 3.3.2.