PÉNALISATION DES MOTS FRÉQUENTS POUR LA CLASSIFICATION DE SENTIMENTS

(1)

POUR LA CLASSIFICATION DE SENTIMENTS

ABDELHALIM RAFRAFI

VINCENT GUIGUE

P^ATRICKG^ALLINARI

Nous abordons dans cet article le problème de la classification de sentiments en utilisant des techniques d’apprentissage statistique supervisé.

Nous étudions différentes combinaisons de fonctions coûts et de régularisations. Le principal problème de la classification de sentiments par rapport à la classification thématique se trouve au niveau de l’extraction de caractéristiques discriminantes. Nous montrons dans cet article que la régularisation classique (L1 ou L2) sélectionne des caractéristiques qui ne sont pas adaptées aux sentiments. Nous présentons une nouvelle méthode de régularisation en pénalisant les mots fréquents : cette méthode nous a permis d’obtenir de très bons résultats en détection de sentiment ainsi qu’en classification multidomaine sur plusieurs jeux de données de référence. Nous fournissons des analyses détaillées des résultats et des interprétations des modèles appris.

(2)

L’analyse de sentiments et la fouille des opinions des utilisateurs du web sont des tâches qui ont pris beaucoup d’importance ces dernières années.

L’essor de ces tâches et de la bibliographie associée est liée à l’augmentation rapide du nombre de données laissées par des utilisateurs sur les sites de vente en ligne, les blogs, les sites de discussion... Ces données contiennent des informations utiles pour les commerçants et en particulier pour les acteurs du commerce en ligne : la construction de profils utilisateurs détaillés est la clé pour proposer des offres personnalisées et mettre en valeur les articles les plus susceptibles d’être achetés.

Plusieurs corpus étiquetés sont disponibles librement, par exemple le corpus Amazon (Blitzer et al., 2007) pour e4commerce et le corpus Movie Reviews pour les critiques cinématographiques (Pang et al., 2002). Plusieurs applications ont déjà été développées avec succès autour de la détection de sentiment, par exemple dans le domaine des jeux vidéo: (Marcoux et al., 2009) et (Zhu et al., 2006) utilisent l’analyse des opinions pour prédire les ventes de jeux avant même leur sortie en magasin. La quantification et la qualification des sentiments sont également cruciales pour distinguer différents types de sites web (Blog, Forum, e4commerce, les revues spécialisées...) ou pour étudier l’orientation générale des avis d’internautes sur un sujet particulier ou un produit. Dans leur état de l’art, Pang et al., 2008 détaillent différentes tâches liées au traitement de sentiments allant de la taxonomie de sentiments à la quantification de l’émotion. Pour une majorité d’applications, l’étape clé du processus réside dans le développement d’une méthode efficace de classification de sentiments (positif/négatif). (Blitzer et al., 2007 ; Pang et al., 2002 ; Ding et al., 2008) et (Whithead et al., 2009) montrent la complexité de cette tâche et étudient des pistes pour gagner en performance et en précision. La création et la sélection de caractéristiques discriminantes sont particulièrement délicates pour la classification de sentiments, et posent toujours question. Nous montrons notamment que l’utilisation de représentations en sac de mots uni4gramme est ambiguë car les auteurs de critiques utilisent souvent un vocabulaire similaire pour exprimer un sentiment positif et un sentiment négatif.

Plusieurs études récentes se focalisent sur les prétraitements et l’enrichissement des caractéristiques pour améliorer les performances des systèmes (Matsumoto et al., 2005). Nous faisons ici l’hypothèse que nous disposons d’un grand nombre de caractéristiques et nous étudions l’impact de la régularisation en tant que méthode de sélection et de quantification de l’importance des caractéristiques. Dans la suite de cet article nous comparons deux fonctions classiques de coût (les moindres carrés et la fonction

(3)

charnière, hinge loss) combinées avec deux régularisations classiques K ( et ). Nous introduisons ensuite une nouvelle régularisation qui pénalise les mots fréquents et nous montrons comment cette méthode est capable d’améliorer les performances en classification de sentiments sans provoquer de sur4 apprentissage. Nous limitons notre étude aux classifieurs linéaires et notons le vecteur des paramètres de notre modèle. Notre but est de résoudre le problème d’optimisation suivant :

arg min , K (1)

Dans l’équation (1) la pénalisation des caractéristiques est réalisée par le terme K . Ce dernier est global nous montrerons qu’il ne permet pas une bonne régularisation. Nous avons remplacé dans (1) le terme K par ∑ K où est un indice désignant les caractéristiques. Cette nouvelle formulation (que nous appelons dans la suite régularisation adaptative) s’adapte aux données d’apprentissage grâce aux . Dans cette étude, les sont des hyper4paramètres constants : il s’agit de la fréquence des mots. Plus un mot est fréquent, plus il est pénalisé. Cette formulation traduit l’hypothèse suivante : les mots fréquents ont plutôt tendance à marquer le thème que l’émotion et le recentrage sur les mots plus rares doit permettre d’améliorer les performances de reconnaissance d’émotion.

Nous montrons que la régularisation adaptative permet une meilleure sélection des caractéristiques discriminantes qui aboutit à une amélioration significative des performances: un gain compris entre 1,5 % et 4,5 % par rapport aux méthodes de l’état de l’art sur des corpus classiques de sentiments.

Cette méthode améliore aussi la classification de sentiments en multi4domaines.

Cette dernière consiste à apprendre sur des données spécifiques à un sujet et à tester sur des données d’un autre sujet (par exemple, dans le corpus Amazon, nous apprenons sur des avis de la section livre et testons sur des avis de la section cuisine).

La section 2 présente l’état de l’art de la classification de sentiments. Dans la section 3, nous introduisons la régularisation classique, la régularisation adaptative et l’algorithme d’optimisation qui ont été utilisés dans ces expériences. Dans la section 4, nous présentons nos résultats sur les corpus Amazon et Movie Reviews.

(4)

! "" # " $ "

La bibliographie de l’analyse d’opinions s’est développée autour de plusieurs corpus distribués librement : (Ding et al., 2008) propose une grande quantité d’avis de clients, (Blitzer et al., 2007) traite les opinions des clients d’Amazon, (Pang et al., 2002) fournit une base d’avis d’internautes sur des films, (Whitehead et al., 2009) rassemble différents corpus de commentaires allant des camps de vacances aux avocats. Ces corpus sont largement utilisés et permettent de comparer notre approche avec les méthodes de l’état de l’art.

Deux principaux groupes de solutions ont été utilisés dans la classification de sentiments : les approches non supervisées qui dérivent des modèles à variables latentes (PLSA et LDA) et les adaptent à la classification de sentiments en introduisant des lexiques étiquetés (Mei et al., 2007 ; Titov et al., 2008) et (Lin et al, 2009) et les approches supervisés principalement basées sur les Support Vector Machine (SVM) (Pang et al., 2002).

La complexité et la particularité de la tâche de classification de sentiments ont poussé plusieurs auteurs à ajouter des connaissances a priori, tant sur les approches supervisées que non supervisées, pour enrichir l’espace de recherche et simplifier la tâche d’apprentissage. Li et al., (2010) utilisent des lexiques de sentiments comme SentiWordNet ; Esuli et al., (2006), Wilson et al., (2005) et Pang et al., 2004) filtrent les phrases afin de garder seulement les plus subjectives, qui apportent de l’information sentimentale. Cette étape permet de réduire l’ambiguïté lors de la décision. L’étiquetage grammatical (Part of speech) est largement utilisé, par exemple dans Whitelaw et al., (2005) il donne une grande importance aux adjectifs dans la prise de la décision. Das et al., (2001) s’occupent particulièrement de la négation mais la tâche est ardue étant données les multiples formes qu’elle peut prendre : les solutions proposées n’apportent pas d’amélioration significative jusqu’à maintenant. Plusieurs travaux proposent d’ajouter des caractéristiques, de construire une large représentation du document et de laisser l’algorithme d’apprentissage faire une sélection des meilleures caractéristiques. Matsumoto et al., (2005) utilisent des unigrammes, des bigrammes, des sous4séquences, des sous4arbres. Pan et al., (2010) proposent aussi une description large du corpus Amazon pour tester les approches multi4domaines. L’impact des prétraitements est largement discuté dans la littérature mais aucun consensus ne se dégage ; certains défendent la lemmatisation tandis que d’autres montrent une diminution des performances dès que le texte n’est pas pris dans sa forme brute. De la même manière, le débat entre les N4grammes et les unigrammes n’est pas tranché. Pang et al., (2002) ; Matsumoto et al., (2005) et Whitehead et al., (2009) montrent que

(5)

l’utilisation de la fréquence (tf4idf) n’améliore pas les résultats par rapport au codage binaire (1 si le mot est présent dans le document et 0 sinon).

Pour le problème du multi4domaine, différentes approches ont été proposées. (Blitzer et al., 2007) utilise une formulation semi4supervisée combinant l’utilisation de données étiquetées pour le domaine source et de données non étiquetées pour les deux domaines source et cible. L’apprentissage d’une fonction de transfert intègre une étape de sélection de caractéristiques communes entre les domaines source et cible. Blitzer et al., (2007) proposent de sélectionner des pivots en utilisant un critère d’informations mutuelles. Pan et al., (2010) renforcent ce travail en rajoutant des techniques d’alignement et en construisant de nouvelles caractéristiques spécifiques.

Nous avons montré que notre régularisation adaptative est capable d’obtenir de très bonnes performances sur les corpus de référence sans ajouter de connaissances sur le domaine cible.

% $ "& $ ' " ( $ "

Dans nos expériences, nous utilisons trois types de descripteurs : uni4 grammes (U), uni4grammes+bigrammes (UB) et n4grammes + sous4séquences (UBS) inspirés de (Matsumoto et al., 2005) (cf section 4.1 pour plus de détails).

désigne la taille du vocabulaire et le nombre de documents dans le corpus. représente le document , le mot du document . Dans la suite indexe les documents allant de 1 à et indexe les mots allant de 1 à . ! désigne l’étiquette du document . Dans nos expériences les documents ont l’étiquette positive (! 1) ou négative (! #1). L’étiquette neutre est supprimée comme dans (Pang et al., 2002) et (Blitzer et al., 2007) . $, % désigne respectivement la collection de documents et les étiquettes. Comme nous l’avons dit, le codage binaire est meilleur qu’un codage fréquentiel pour la classification de sentiments. Nous utilisons ce codage pour l’ensemble de nos expériences & '0,1)^*. Vu la large dimension de l’espace de recherche, nous utilisons des classifieurs linéaires : ∑^*_+, - où - est le poids associé au mot dans un document, & .^*. Le signe de donne la décision.

La solution optimale est associée aux paramètres qui minimisent le problème suivant :

arg min $, % /

* +

K (2)

(6)

désigne la fonction de coût qui quantifie l’erreur de sur une donnée d’apprentissage, K représente la régularisation du mot , est le compromis entre la régularisation et l’apprentissage et est la pénalisation spécifique à la caractéristique .

% " ) * # " +, "

Nous nous focalisons sur deux fonctions de coûts convexes largement utilisées en classification de texte : les moindres carrés et la fonction charnière (hinge loss). La hinge loss est définie comme suit :

0 $, % / 1 # ! ₁

2 +,

30 si : 1 # ! 6 0

1 # ! sinon 8

L’optimisation de cette fonction repose sur une approximation du gradient qui ne tient pas compte de la singularité ! 1 (Bottou et al., 2007). La fonction des moindres carrés est définie comme suit :

9: $, % / ! #

2 +,

(3)

L’introduction des deux fonctions de régularisation et conduit à quatre formulations résumées dans le tableau 1. Nous utilisons la régularisation

comme référence : elle est utilisée dans les SVM. Cette formulation régularisée prévient le sur4apprentissage dans un espace de recherche de grande dimension (Joachims, 2002).

Fonction de régularisation

Fonction de coût L1 SVM[6] SVM [3]

LASSO [22] Spline [23]

Tableau 1. Quatre formulations obtenues en combinant les fonctions coût et régularisation

(7)

K^;^< / -

* +

=> K^;^< 2 (4)

Pendant la descente du gradient, les poids sont modifiés selon la formule @ # 2A (en prenant en compte seulement la régularisation ). Lors de la mise à jour, - devient assez petit mais ne s’annule pas. La régularisation

n’est pas une approche parcimonieuse.

La régularisation L1 vise à réduire le nombre de poids actifs (- B 0) en pénalisant ∑ | - |. Tibshirani (1996) montre que la régularisation tend à sélectionner un sous4ensemble optimal des descripteurs et (Hastie et al., 2001, p.71) propose une explication graphique de ce phénomène.

K^; / |

* +

- | DE > K^; sign avec

sign - I#1 si J - K 0 1 si J - L 0 0 si J - 08

(5)

En utilisant la régularisation il faut faire attention car les poids ne doivent pas changer de signe. Lors d’une mise à jour, si - change de signe il doit alors être mis à zéro (cf Friedman et al., 2007). La mise à jour de - suit @ # A sign . Contrairement à la régularisation la régularisation est une méthode parcimonieuse.

% +, " ( -

Dans la suite, les figures 1 et 3 montrent que la régularisation classique ne permet pas d’obtenir de bonnes performances sur les corpus de sentiments.

Une des causes réside dans l’importance que les mots fréquents ont sur la décision. Par exemple, en utilisant des descripteurs unigrammes, les termes les plus influents regroupent des descripteurs d’émotions pertinents mais également des descripteurs neutres non pertinents. L’utilisation d’un codage fréquentiel n’améliore pas les performances de la classification de sentiment par rapport à un codage binaire (plus de détails sont fournis en section 4.4, tableaux 6 et 7). Nous proposons d’introduire la fréquence des termes en tant que pénalisation (2) afin de permettre à la régularisation d’effectuer une sélection plus efficace des descripteurs discriminants :

(8)

K /

* +

K ,= #N O B 0P

QR

Q- QR

Q-

(6)

désigne le nombre d’occurrences du mot dans la base d’apprentissage.

Illustrons maintenant la différence entre les deux approches, classique et adaptative, en calculant le gradient pour un document dans les deux cas : le gradient de la fonction coût modifie le vecteur des poids par un facteur proportionnel au document : par conséquent, les termes fréquents sont souvent mis à jour. Dans une régularisation classique, l’ensemble des descripteurs sont pénalisés de la même manière: #2A- pour la régularisation et #A sign - pour la régularisation ; dans une régularisation adaptative la pénalisation est spécifique à chaque descripteur: #2A - en et

#A sign - en . Cette proposition permet donc de pénaliser plus les mots fréquents et moins les mots rares.

Dans nos expériences nous avons adopté une heuristique simple pour déterminer la valeur de , S . Cette astuce consiste à fixer au nombre d’occurrences du mot dans la base d’apprentissage.

% % ( $ " ( $' " " ,

Les quatre formulations sont optimisées en utilisant une descente de gradient classique. Ce choix est motivé par une volonté d’effectuer une comparaison claire entre les différentes approches en termes de performance et de stabilité.

Nous utilisons une méthode simple et robuste de descente gradient inspirée de Bottou et al., (2004) (cf. algorithme 1). Nous calculons le gradient de la fonction de coût en mini4batch (le gradient est calculé sur un sous4corpus sélectionné aléatoirement). À chaque itération, N documents sont vus, nous calculons le gradient pour la régularisation des mots et nous mettons à jour les poids. Le calcul du gradient en mini4batch représente un compromis intéressant : la méthode est plus efficace que l’approche batch car W demande moins de mises à jour et elle est plus stable qu’une descente de gradient stochastique.

(9)

Nous fixons à 500 le nombre maximum d’itérations en apprentissage (une itération correspond au traitement de N documents). La taille du mini4batch est de 20 documents traités et A est initialisé à 0.5 et N désigne la taille de la base.

La valeur de A est multipliée par 0.99 après chaque itération. L’algorithme s’arrête s’il n’y a plus d’erreur sur la base d’apprentissage.

Algorithme 1. Descente de gradient en mini)batch

. /(+ $ "

Nous présentons nos résultats sur 5 bases de données : 4 sous bases d’Amazon (Books, Dvd, Electronics et Kitchen) (Blitzer et al., 2007) et la base Movie Reviews (Pang et al., 2004). Cette dernière comporte des commentaires assez longs et un large vocabulaire alors que les commentaires d’Amazon sont moins longs avec un vocabulaire plus restreint. Pour plus de détails sur les bases se reporter au tableau 2. Notre choix est motivé par le fait que Movie Reviews est une base largement utilisée dans la littérature ¹, ce qui permet de comparer notre approche dans un contexte très concurrentiel. Les données d’Amazon comportent deux sous4bases proches en thématique (Books et Dvd), une sous4base générale : des commentaires des ventes des produits électroniques (Electronics) et une sous4base spécifique à la cuisine (Kitchen).

1. http://www.cs.cornell.edu/people/pabo/movie4review4data/otherexperiments.html

(10)

Nous utilisons cette diversité de thèmes pour tester notre méthode sur la tâche multi4domaine et la comparer à (Biltzer et al., 2007) et (Pan et al., 2010).

base de données

nombre de commentaires

par corpus

nombre moyen de

mots par commentaire

Vocabulaire

Uni4

grammes U+Bi4grammes U+B+Subseq.

Books 2000 240 10536 45750 78664

Dvd 2000 235 10392 48955 89313

Electronics 2000 154 5611 30101 49994

Kitchen 2000 133 5314 26156 40773

Movie

reviews 2000 745 26420 148765 308564

Tableau 2. Description des 5 bases de données utilisées dans les expériences. La taille du vocabulaire dépend des descripteurs (plus de détails à la section 4.1)

Nous commençons par décrire les caractéristiques utilisées dans les expériences puis nous donnons les performances de notre approche en classification de sentiments classique : l’apprentissage et le test sont effectués sur le même sous4ensemble de commentaires. Dans le tableau 3 les résultats sont donnés pour chaque sous4ensemble selon les différents descripteurs. Nous comparons nos résultats à ceux de (Matsumoto et al., 2005) et (Blitzer et al., 2007) qui représentent l’état de l’art de Movie Reviews et Amazon. Nous présentons une analyse détaillée de l’impact de la régularisation (classique vs adaptative) et des descripteurs sur les performances de chaque formulation (tableau 1). En multi4domaines nous avons réutilisé le protocole des expériences de Blitzer et al., (2007).

Les paramètres de la descente de gradient sont fixés pour l’ensemble des expériences (pour plus de détails se reporter à la section 3.3).

. " ( " ( + $ "

Nous utilisons des descripteurs simples et classiques car le but de cet article est de montrer l’intérêt de la régularisation et d’étudier l’évolution des performances par rapport à la dimension de l’espace de recherche. Nous avons aussi décidé de travailler avec un codage binaire (1 si le mot est présent et 0 sinon) vu son efficacité prouvée par rapport à un codage fréquentiel.

(11)

Unigrammes

Le seul prétraitement effectué sur les mots et le passage des mots en minuscule. Les mots ne sont ni lemmatisés ni ramenés à leur racine car nous avons remarqué une perte de performances avec ces deux prétraitements. Nous utilisons un filtre Part4Of4Speech (POS) : JJ JJR JJS RB RBR RBS NN NNS VB VBD VBG VBN VBP VBZ MD. Ce dernier permet de mettre en avant les adjectifs, les noms et les verbes. Les mots supprimés par le filtre sont remplacés par un mot générique. Les mots rares sont remplacés par leurs codes POS.

Bi)grammes

Ils sont la combinaison d’unigrammes successifs.

Sous)séquences

Elles sont inspirées de Matsumoto et al. (2005). Dans chacune des phrases d’un document nous prenons toutes les combinaisons des mots de taille inférieure ou égale à un seuil (fixé à 4 dans nos expériences). L’ordre des mots est respecté ; par exemple dans une phrase A B C, nous construisons les descripteurs ABC, AB, AC et BC. Vu le grand nombre de sous4séquences générées nous supprimons celles qui figurent moins de trois fois dans la base d’apprentissage. Le temps de la création des sous4séquences dépend de la taille des commentaires et plus précisément de la taille des phrases.

. +" "

Précision et descripteurs

Le tableau 3 présente nos meilleurs résultats en fonction des descripteurs.

Les précisions sont calculées par validation croisée sur 5 itérations. Les modèles sont indiqués entre parenthèses SVM, L1S. (L14SVM), LAS. (LASSO), Spl.

(Spline). Les résultats montrent que notre régularisation adaptative améliore l’état de l’art de 1,2 % à 4,5 % ². Avec les descripteurs U et UB, tous les algorithmes ont des précisions proches et nos meilleurs résultats sont distribués sur les différentes formulations. Avec les caractéristiques UBS, les formulations LASSO et Spline dépassent les formulations SVM et 4SVM : la fonction de coût des moindres carrés est plus efficace quand l’espace des descripteurs devient très grand.

2. Matsumoto et al. (2005) reportent une précision de (93,7 %) mais il est impossible de reproduire leurs expériences et il n’existe pas d’autres références sur la méthode dans la littérature.

(12)

Base de données Précision [1] [18] [19] [16]

Descripteurs

(cf sec 4.1) U UB UBS U Adv.

features UB UBS Books 82.35 (Spl.) 85.7 (SVM) 85.35 (LAS.) 80.4 81.4 4 4 DVD 84.55 (L1S.) 87.05 (Spl.) 85.6 (Spl.) 82.4 82.55 4 4 Electronics 84.4 (Spl.) 88.15 (Spl.) 87.3 (Spl.) 84.4 84.6 4 4 Kitchen 85.4 (L1S.) 88.95 (L1S.) 88.55 (LAS.) 87.7 87.1 4 4 Movie reviews 88.4 (LAS.) 88.8 (LAS.) 92.2 (LAS.) 4 4 87.1 88.9

Tableau 3. Meilleurs résultats obtenus par rapport aux descripteurs utilisés

(a) SVM (b) LASSO

(c) SVM L1 (d) Spline

Figure 1. Performances des 4 différents modèles en fonction des 3 descripteurs. Chaque barre de l’histogramme représente les performances de la régularisation classique et adaptative (en

blanc la régularisation classique et en gris la régularisation adaptative) Les meilleurs résultats sont marqués d’une étoile

(13)

En considérant les tableaux 2 et 3, nous observons que les gains obtenus sont proportionnels à la taille des vocabulaires sur les 5 bases de données, ce qui met en évidence l’intérêt de la régularisation pour la classification de texte.

L’utilisation des sous4séquences n’apporte d’amélioration significative que sur la base Movie Reviews. Ce phénomène s’explique par l’immense taille de l’espace de recherche (U 26420, UB 148765 et UBS 308564). La régularisation montre tout son intérêt dans ce type d’espace complexe.

Différences entre les modèles, influence de la régularisation adaptative

La figure 1 fournit des détails supplémentaires aux résultats du tableau 3.

Elle met en évidence les performances de 4 modèles en régularisation classique et adaptative. Les performances de la régularisation adaptative dépassent les performances de la régularisation classique. Les meilleurs résultats de chaque base sont distribués sur les 4 modèles (2 pour spline et 1 pour chacun des autres). Cependant, quand la taille de l’espace des descripteurs augmente (UBS), les moindres carrés dépassent les SVM et 4SVM.

Régularisation adaptative vs codage TF)IDF

La régularisation adaptative pénalise les mots fréquents en faisant l’hypothèse que les descripteurs pertinents dans la classification de sentiments sont rares. Le codage TF4IDF est une autre méthode pour pénaliser les mots fréquents. Il a montré son efficacité en classification thématique mais comme nous l’avons déjà dit, le codage fréquentiel n’est pas adapté pour la classification de sentiments : nous illustrons cette assertion en figure 2. (Pour des raisons de clarté nous n’avons reporté que les résultats des meilleurs descripteurs pour chaque corpus).

Cette figure présente les meilleurs résultats obtenus avec un codage TF4IDF en descripteurs U, UB et UBS combiné avec les 4 algorithmes classiques de régularisation. Sur la même figure nous avons reporté les meilleures performances de la régularisation adaptative. Le codage TF4IDF supprime la différence entre les 4 algorithmes : tous les résultats sont proches avec les 4 modèles et les différents descripteurs. La régularisation adaptative reste meilleure qu’une régularisation classique basée sur un codage TF4IDF dans tous les cas : pénaliser les termes fréquents en cours d’apprentissage est plus efficace qu’un codage TF4IDF défini a priori.

(14)

(a) SVM (b) LASSO

(c) SVM L1 (d) Spline

Figure 2. Les meilleures performances des 4 modèles sur les 5 bases de données avec un codage TF)IDF. Chaque barre de l’histogramme représente les résultats de la méthode basée sur un codage TF)IDF avec une régularisation classique et de la méthode basée sur un codage binaire

avec une régularisation adaptative (en blanc la première méthode et en gris la deuxième)

. % " /(+ " $ 0 $ "

Le tableau 4 décrit nos résultats en multi4domaines sur la base Amazon : l’apprentissage est fait sur l’ensemble des commentaires 2 000 documents d’une sous4base et testé sur les 3 autres sous4bases de 2 000 documents chacune. La dernière ligne du tableau reporte les performances moyennes qui peuvent être comparées au 78.65 % de Pan et al., (2010) et au 77.95 % de Blitzer et al. (2007).

Comme nous l’avons déjà dit, la base Amazon comporte deux sous4bases proches thématiquement (books et dvd), une sous4base générale (electronics) et une spécifique (kitchen). La régularisation a été introduite pour améliorer la capacité de généralisation des algorithmes. Cette tâche est bien adaptée pour démontrer l’efficacité et la capacité de généralisation de notre approche.

Les paramètres d’apprentissage en multi4domaines sont les mêmes qu’en apprentissage classique. Nous n’avons pas effectué d’optimisation particulière pour cette tâche. Comme précédemment, les meilleurs résultats sont distribués sur les différents algorithmes. En moyenne la régularisation L1 semble un peu

(15)

efficace. Le LASSO et le 4SVM obtiennent les meilleures performances. Il est intéressant de remarquer que le descripteur UBS est classé premier 5 fois sur 12. Mais ce type de descripteur reste difficile à manipuler à cause de la dimension de l’espace des caractéristiques et la précision peut s’écrouler rapidement. Dans le cas de la sous4base kitchen, les résultats UBS sont très mauvais (au moins 5 % en dessous des meilleurs presque systématiquement).

Les unigrammes sont toujours mal classés pour cette tâche. La richesse de l’espace de caractéristique apporte donc de l’information aux algorithmes.

SVM LASSO L1 SVM Spline

Descr. U UB UBS U UB UBS U UB UBS U UB UBS

B 4> D 81.35 81.75 82.1 79.6 82.6 1% 2 81.4 83.25 83.2 80.6 82.8 82.45 E 4> D 73.95 74.9 75.65 68.3 33 76.35 72.9 75.95 76.45 72.1 74.25 76.1 K 4> D 73.15 77.2 33 2 70.3 76.2 75.65 74.6 75.7 76 71.45 76.6 76.25 D 4> B 80.2 83.35 82.5 78.35 82.5 81.7 78.9 82.45 82.6 80.8 1% 4 83 E 4> B 68.95 71.8 71.65 70.95 72.2 72.25 69.5 71.4 3 5 68.55 71.9 72.05 K 4>B 69.6 73.9 3. 67.6 72.8 72.7 71.5 73.65 73.6 68.35 73.45 72.85 B 4>E 69.45 70.1 70.95 68.1 72 72.35 70.2 3 . 71.65 67.85 71.3 71.95 D 4>E 69.9 72.45 73.15 68.3 73.6 3. 1 70.8 73.75 74.3 70.7 73.65 73.85 K 4> E 81.5 85.9 85.75 79.05 85.4 86.1 82.2 14 2 85.9 80.65 85.05 84.95 B 4> K 73.25 75.35 71.1 70.5 75.3 74.8 72.5 32 1 74.85 72.2 75.3 73.85 D 4>K 72.1 76.1 73.55 71.75 77 73.4 72.8 75.4 73.05 73.9 33 42 73.4 E 4> K 81.9 85.6 78.9 78.55 86.2 82.15 81.5 14 % 81.85 81.25 86.15 79.65 Moyennes 74.61 77.37 76.41 72.61 33 3 77.15 74.9 77.68 77.20 74.03 77.64 76.70

Tableau 4. Les performances en multi)domaines sur la base Amazon. La première colonne décrit les bases utilisées (e.g. B)>D signifie que l’apprentissage est fait sur books et le test est fait sur dvd). Les meilleurs résultats sont en gras et les moins bons (≤ 95% du top 1) en gris

Il est intéressant de comparer nos résultats en multi4domaines aux deux références qui utilisent des techniques semi4supervisée : Blitzer et al., (2007) a créé la base Amazon et propose une approche basée sur l’information mutuelle.

Leur système nécessite des données étiquetées pour le domaine source et des données non étiquetées pour les deux domaines cible et source. Notre approche demande moins de ressources que dans (Blitzer et al., 2007) et l’algorithme d’apprentissage que nous avons utilisé est très nettement plus simple et plus rapide.

(16)

(Blitzer et al., 200 (contre 77.75 pour n al., 2010) est récent reconnaissance en mo approche gagne seule reste beaucoup plus rapport à notre appro

. . 6" 7

Discussion sur le compr

(a) SVM

(c) SVM Figure 3. Performances d

terme de régularisation comparées (resp. ligne contenue

La figure 3 illustr de régularisation λ. N La régularisation cla performances sont ob

2007) atteint un taux de reconnaissance moyen de 7 ur notre système). Notre approche gagne 5 fois sur 12

nt et il améliore (Blitzer et al., 2007) : il obtient 78.6 moyenne. En prenant en compte ces derniers résulta

ulement 3 fois sur 12. Cependant, le système semi4s lus coûteux en ressources et en temps d’apprentiss proche.

- " +" "

mpromis de la régularisation λ

VM (b) LASSO

M L1 (d) Spline

ces des 4 modèles sur la sous)base dvd avec le codage UB par ra tion λ. La régularisation adaptative et la régularisation classiqu

contenue et ligne discontinue). Les valeurs de λ varient entre 0 et 0.05.

ustre l’évolution des performances par rapport au co . Nous pouvons tirer plusieurs conclusions de ces classique est inutile dans cette analyse car les m t obtenues avec λ = 0. À l’inverse, la régularisation ada

de 77.95 % 12. (Pan et 8.68 % de ultats, notre supervisé tissage par

r rapport au ssique sont varient entre 0 et 0.05

u coefficient es courbes.

meilleures adaptative

(17)

apporte un gain significatif. Quand la valeur de λ devient très grande les performances baissent rapidement.

Nous avons noté que λ a une influence différente sur la régularisation L1 et la régularisation L2 : si λ augmente, les performances baissent plus vite avec L1

qu’avec L2. Ce phénomène est logique car dans une régularisation L1 certains mots sont totalement éliminés de la décision et plus le coefficient de régularisation est grand, plus la régularisation est forte et plus elle supprime de mots.

Fusion de modèles

Dans cet article, nous avons proposé 4 différents modèles. Nous étudions ici la différence entre ces modèles et l’intérêt de les fusionner. Le tableau 5 rapporte nos résultats sur dvd en combinant les modèles par paires. Nous effectuons une combinaison linéaire avec un coefficient égal à 0.5. Cette simple combinaison nous donne une légère amélioration des performances et nous prouve que cette piste peut être intéressante à approfondir.

Tableaux 5. Le tableau (a) illustre les pourcentages de résultats en commun sur dvd (U).

Le tableau (b) donne les performances des modèles de fusions linéaires 2 par 2 avec un coefficient de 0.5)

Les limites des unigrammes

Le tableau 6 présente les 15 premiers unigrammes (top positif et le top négatif) avec l’algorithme LASSO sur la base books (les unigrammes sont ordonnés par rapport à leur poids). Pour les deux régularisations adaptatives et classiques, il est clair que le top 15 n’apporte pas que des informations sentimentales. Le phénomène se reproduit avec les autres bases et les autres algorithmes. Par contre les descripteurs bigrammes et sous4séquences sont plus

(a) (b)

SVM Lasso L1 SVM Spline SVM 100 88.7 88 96.75 Lasso 4 100 95.4 90.55

L1

SVM 4 4 100 89.75

Spline 4 4 4 100

SVM Lasso L1 SVM Spline SVM 81.75 83.4 83.45 82.55 Lasso 4 82.65 83.05 83.75

L1

SVM 4 4 83.25 83.35

Spline 4 4 4 82.8

(18)

pertinents et apportent une réelle information sentimentale utilisée par le modèle pour prendre une décision mais rendent l’apprentissage plus complexe en augmentant la taille de l’espace de recherche.

LASSO adaptative LASSO classique

top + top 4 top + top 4

arcane unfortunately construct fails

recommending fails requirements unfortunately

passable wouldn’t instantly odd

dont wasted teenager let

struggling ok trust outdated

sophistication disappointing subtitle wasted

shift hoping cry male

i’ve poorly younger wouldn’t

dairy falls catholic decades

inkling terrible supreme professor

moral useless leave falls

antagonists outdated stocks evidence

exam annoying tick annoying

sets male foreign frankly

intimidating let childhood ok

Tableau 6. Le top 15 des mots positifs et négatifs pour la régularisation classique et adaptative avec le LASSO sur la base books (les mots sont ordonnés par rapport à leurs

poids). La plupart des mots positifs ne sont pas des marqueurs de sentiment

Analyse de la fréquence des descripteurs les plus discriminants

Dans le tableau 7 nous indiquons le nombre moyen d’occurrences des mots les plus importants du modèle (top 100) dans le corpus d’apprentissage. Nous comparons les régularisations adaptative et classique dans les algorithmes LASSO et SVM sur la base books. Il ressort clairement du tableau que la régularisation adaptative sélectionne des mots moins fréquents que la régularisation classique. Ce phénomène se reproduit avec les autres algorithmes et les autres bases.

La base de notre approche est de sélectionner des mots rares qui permettront d’aider le modèle à prendre la bonne décision.

(19)

LASSO adaptative LASSO classique SVM adaptative SVM classique aver. nb.

occ. +

aver. nb.

occ. -

aver. nb.

occ. +

aver. nb.

occ. -

aver. nb.

occ. +

aver. nb.

occ. -

aver. nb.

occ. +

aver. nb.

occ. - 15.95 39.1 36.77 47.40 11.85 15.04 24.46 249.17

Tableau 7. Nombre moyen d’occurrences des mots les plus importants du modèle (top 100).

Régularisations adaptative et classique dans les algorithmes LASSO et SVM sur la base books (U)

Descripteurs + Poids Descripteurs - poids

is-great 7.61523 Worst -13.9114 is-perfect 6.64403 Bad -13.8879 Memorable 6.46227 Boring -11.3485

Excellent 6.41812 Stupid -10.2008 Perfect 5.85735 the_worst -9.47706 Outstanding 5.59057 Waste -9.14892

Perfectly 5.56129 is-bad -8.66859 best-year 5.52423 Awful -8.58384 Wonderfully 5.23874 Ridiculous -8.07807

Terrific 4.79116 bad-movie -7.9092 Hilarious 4.70771 should-have -7.28957 is-best 4.56025 is-worst -7.22385 best-ever 4.25935 supposed_to -7.06805

is-strong 4.24324 waste_of -6.4172 best-films 4.14002 is-supposed -6.36044

Tableau 8. Les 15 descripteurs les plus importants d’un modèle appris avec la régularisation adaptative dans la formulation Lasso sur les données movie reviews (les mots des bigrammes

sont séparés par « _ » et ceux des sous-séquences sont séparés par « - »)

(20)

L’importance des descripteurs

Dans le tableau 8 nous avons rapporté les 15 descripteurs positifs et négatifs les plus décisifs d’un modèle appris sur les données movie reviews avec la régularisation adaptative dans la formulation Lasso. On voit clairement sur le tableau 8 que les nouveaux descripteurs (bi4grammes et les sous4séquences) participent activement dans la prise de la décision. On retrouve le même comportement avec les trois autres formulations.

2 "

Nous avons présenté une nouvelle formulation pour la classification de sentiments basée sur l’hypothèse que les mots rares sont importants pour cette tâche. Notre régularisation adaptative est capable d’améliorer les performances à moindre coût, avec une simple pénalisation des mots fréquents. Nous avons présenté les améliorations obtenues sur 5 bases de données classiques de reconnaissance de sentiments et nous avons illustré notre stratégie avec 4 algorithmes.

Quand la dimension de l’espace de recherche devient très grand, il est nécessaire de sélectionner les caractéristiques discriminantes afin d’apprendre efficacement : nous avons montré que la régularisation classique ne fonctionne pas sur ce type de problème et nous avons proposé une pénalisation adaptative pour résoudre ce problème.

Ce travail montre également la faiblesse d’un codage avec des descripteurs unigrammes : ils représentent un choix par défaut, le fait que ce type de descripteurs soit préféré aux autres réside plus dans la difficulté à manipuler des représentations plus grandes que dans les qualités intrinsèques des unigrammes.

Notre formulation permet de tirer profit des descriptions avancées en optimisant efficacement les modèles dans des espaces de grandes dimensions.

Plusieurs perspectives s’ouvrent autour de ce travail : l’amélioration de la régularisation pour pouvoir utiliser plus de descripteurs sur des bases de type Amazon, notamment en multi4domaines, l’introduction de régularisation multiples comme elastic net ou la fusion des modèles pour capter le maximum d’informations de chaque modèle. Une autre direction de recherche intéressante est l’utilisation des algorithmes basés sur la descente de gradient de deuxième ordre (Bordes, 2010).

(21)

8 9 , (:

Blitzer J., Dredze M., Pereira F.,“Biographies, Bollywood, boom4boxes and blenders : Domain adaptation for sentiment classification”, Proceedings of the Association for Computational Linguistics (ACL), 2007.

Bordes A., “New Algorithms for Large4Scale Support Vector Machines”, Ph.D. thesis, Université Pierre et Marie Curie, Computer Science Laboratory of Paris 6 (LIP6), February 2010.

Boser B., Guyon I., Vapnik V, “An training algorithm for optimal margin classifiers”, Fifth Annual Workshop on Computational Learning Theory, p. 1444152, Pittsburgh, 1992.

Bottou L., Chapelle O., DeCoste D., Weston J., “Large4Scale Kernel Machines”, MIT Press, 2007.

Bottou L., LeCun Y., “Large scale online learning”, in Thrun S., Saul L., Schölkopf B.

(eds.) Advances in Neural Information Processing Systems 16, MIT Press, Cambridge, MA 2004, http ://leon.bottou.org/papers/bottou4lecun42004

Bradley P., Mangasarian O., “Feature selection via concave minimization and support vector machines”, Proceedings of the Fifteenth International Conference (ICML), p. 82490, 1998.

Das S., Chen M. , “Yahoo! for Amazon : Extracting market sentiment from stock message boards”, Proceedings of the Asia Pacific Finance Association Annual Conference (APFA), 2001.

Ding X., Liu B., Yu P.S., “A holistic lexicon4based approach to opinion mining”, WSDM ’08 : Proceedings of the international conference on Web search and web data mining.

p. 2314240, ACM, New York, NY, USA, 2008.

Esuli A., Sebastiani F., “SentiWordNet: A publicly available lexical resource for opinion mining”, Proceedings of LREC)06, 5th Conference on Language Resources and Evaluation, p. 4174422, Genova, IT, 2006.

Friedman J., Hastie T., Hoefling H., Tibshirani R., “Pathwise coordinate optimization”, Annals of Applied Statistics 1(2), p. 3024332, 2007.

Hastie T., Tibshirani R., Friedman J.H., “The elements of statistical learning”, New York, Springer)Verlag, 2001.

Joachims T., “Learning to Classify Text using Support Vector Machines”, Springer) Kluwer Academic Publishers, 2002.

Li F., Huang M., Zhu X., “Sentiment analysis with global topics and localdependency”, AAAI Conference on Artificial Intelligence, 2010.

Lin C., He Y., “Joint sentiment/topic model for sentiment analysis”, CIKM ’09 : Proceeding of the 18th ACM conference on Information and knowledge management, p. 3754384.

ACM, New York, NY, USA, 2009.

(22)

Marcoux J., Selouani S.A., “A hybrid subspace4connectionist data mining approach for sales forecasting in the video game industry”, Computer Science and Information Engineering, World Congress on 5, p. 6664670, 2009.

Matsumoto S., Takamura H., Okumura M., “Sentiment classification using word sub4 sequences and dependency sub4tree”, PAKDD, 2005.

Mei Q., Ling X., Wondra M., Su H., Zhai C., “Topic sentiment mixture: modeling facets and opinions in weblogs”, International World Wide Web Conference WWW 2007.

Pan S., Ni X., Sun J.T., Yang Q., Chen Z., “Cross4domain sentiment classification via spectral feature alignment”, International World Wide Web Conference WWW, 2010.

Pang B., Lee L., “Opinion mining and sentiment analysis”, Foundations and Trends in Information Retrieval 2, p. 14135, 2008

Pang B., Lee L., “A sentimental education : Sentiment analysis using subjectivity summarization based on minimum cuts”, Proceedings of the ACL, p. 2714278, 2004.

Pang B., Lee L., Vaithyanathan S., Thumbs up?: sentiment classification using machine learning techniques, ACL Conference on Empirical Methods in NLP, vol. 10, p. 79486, 2002.

Tibshirani R., “Regression shrinkage and selection via the lasso”, Journal Royal Statistics 58(1), p. 2674288, 1996.

Tikhonov A., “Regularization of incorrectly posed problems”, Soviet Math. Dokl, 4(6), p. 162441627, 1963.

Titov I., McDonald R., “Modeling online reviews with multi4grain topic models”, Proceeding of the 17th international conference on World Wide Web, p. 1114120, 2008.

Whitehead M., Yaeger L., “Building a general purpose cross4domain sentiment mining model”, CSIE ’09, Proceedings of the 2009 WRI World Congress on Computer Science and Information Engineering, p. 4724476, IEEE Computer Society, Washington, DC, USA, 2009.

Whitelaw C., Garg N., Argamon S., “Using appraisal groups for sentiment analysis”, International Conference on Information and Knowledge Management, p. 631, 2005.

Wilson T., Wiebe J., Hoffmann P., “Recognizing contextual polarity in phrase4level sentiment analysis”, HLT ’05 : Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, p. 3474354, Association for Computational Linguistics, Morristown, NJ, USA, 2005.

Zhu F., Zhang X., “The influence of online consumer reviews on the demand for experience goods: The case of video games”, International Conference on Information Systems, p. 3674382, 2006.