Classification - Processus de classification d’opinions

Chapitre 3. Classification d’Opinions

3.2. Processus de classification d’opinions

3.2.5. Classification

L’opinion est définie [Liu 10] comme l’expression des sentiments d’une personne envers une entité. L’opinion est subjective et peut être décrite avec certains attributs. L’attribut d’opinion le plus étudié est la polarité (positive, négative, et éventuellement neutre) qui définit si l’opinion est favorable ou défavorable. D’autres attributs sont l’intensité de l’opinion et le degré de subjectivité. La classification de polarité d’opinion consiste donc à déterminer si un

textes contenant des avis sur un sujet tel qu’un film, une voiture, un sèche-linge ou encore une personnalité. Une définition plus formelle de la classification d’opinion pourrait être la suivante :

Définition : Soit C un ensemble de classes ordonnées représentant chacune un degré d’opinion et D un ensemble de textes subjectifs. La classification d’opinion consiste alors à trouver, pour tout d ∈ D, les couples (d, c) tel que c ∈ C.

Ce type de classification se fait généralement sur deux classes, “contenant une opinion positive” ou “contenant une opinion négative”. On parle alors de la classification binaire. Elle peut également se faire sur trois classes en ajoutant une classe de neutralité destinée aux textes porteurs d’une opinion nuancée. On peut également envisager une classification sur un nombre de classes supérieur a trois afin de mieux préciser l’intensité de l’opinion, mais cela reste assez rare dans le domaine.

Il existe différentes techniques d'apprentissage automatique à partir de données (Figure 3-4): Une approche générale est l'apprentissage supervisé dans lequel l'ensemble de celui-ci se compose uniquement des données étiquetées. A l’opposé, nous trouvons l’apprentissage non-supervisé qui n’utilise aucune donnée étiquetée pendant l’apprentissage. Cependant, dans l'apprentissage semi-supervisé, les données étiquetées et non étiquetées sont utilisées. Contrairement aux données étiquetées, où leur collection est souvent coûteuse et demandent beaucoup de temps, les données non étiquetées sont généralement plus faciles à collecter. Ainsi, dans l'apprentissage semi-supervisé, il est courant d'avoir une petite quantité de données étiquetées avec une grande quantité de données non étiquetées. Ce dernier tente alors de trouver une meilleure séparation entre classes à partir des données étiquetées et non étiquetées, réduisant ainsi le coût de l'étiquetage.

Figure 3-4 La taxonomie des techniques d’apprentissage automatique.

3.2.5.1. Séparateurs à Vastes Marges (SVM)

Les séparateurs à vaste marge (SVM) sont un nouveau type de méthodes d’apprentissage pour la classification binaire [Dong 2013], motivé par les résultats de la théorie de l’apprentissage statistique [Vapnik 1995, Vapnik 1998]. Les méthodes de SVM visent à minimiser le risque structurel (en anglais ‘structural risk minimization’) qui donne un compromis entre la complexité de l’espace des fonctions de décision (exprimée par la dimension de VC) et la qualité de l’adaptation aux données d’apprentissage (i.e. l’erreur empirique) [Vapnik 1982]. Les SVM ont montré de bonnes performances dans de nombreux domaines d’applications comme par exemple, le classement de textes, la reconnaissance de formes, le diagnostic médical, etc. Ils sont maintenant reconnus comme l’un des outils standards

L’idée des algorithmes de SVM est de partager l’espace en deux parties à l’aide d’un hyperplan qui maximise la distance minimale des observations à ce plan (i.e. la marge). Les observations qui sont situées les plus proches de l’hyperplan séparateur (sur la marge), sont appelées les « vecteurs supports ».

On considère un problème de classification à deux classes (𝑤0 𝑒𝑡 𝑤1 ) et un ensemble 𝐴𝑛 =

{(𝑥𝑖, 𝑦𝑖) ∈ 𝑋𝑚× 𝑌, 𝑖 = 1, … , 𝑛} de 𝑛 exemples et on pose 𝑦𝑖 = −1 si 𝑥𝑖 ∈ 𝑤0 et 𝑦𝑖 = +1 si

𝑥_𝑖 ∈ 𝑤₁. L’équation d’un hyperplan séparateur est définie à une constante multiplicative près par :

𝑓(𝑥) = 〈𝑤, 𝑥〉 + 𝑏 = 0 (3.2)

Où |𝑏|/‖𝑤‖ est la distance perpendiculaire de l’hyperplan à l’origine et ‖𝑤‖ est la norme euclidienne de 𝑤. La classe d’une nouvelle observation 𝑥 non apprise sera donnée en fonction du signe de l’expression du membre de gauche de l’équation (3.2).

 SVM linéaires

Si les classes 𝑤₀ et 𝑤₁ sont linéairement séparables, l’hyperplan séparateur vérifie alors les conditions suivantes :

{_{〈𝑤, 𝑥}〈𝑤, 𝑥𝑖〉 + 𝑏 ≥ +1 𝑝𝑜𝑢𝑟 𝑦𝑖 = +1

𝑖〉 + 𝑏 ≤ −1 𝑝𝑜𝑢𝑟 𝑦𝑖 = −1

(3.3)

Ce qui peut être résumer par une description unifiée :

𝑦_𝑖(〈𝑤, 𝑥𝑖〉 + 𝑏) − 1 ≥ 0 ∀(𝑥𝑖 , 𝑦𝑖) ∈ 𝐴𝑛 (3.4)

Deux hyperplans supplémentaires 𝐻1 et 𝐻2 sont alors déterminés par les points qui donnent

l’égalité dans l’équation (3.3), comme le montre la Figure 3-5. Les points encerclés qui se situent sur les hyperplans 𝐻1 et 𝐻2 sont les « vecteurs supports » et la marge vaut donc 2/‖𝑤‖.

Maximiser la marge revient à minimiser le carré de la norme ‖𝑤‖2_{du vecteur 𝑤 sous les}

contraintes (3.4). Le problème d’optimisation peut être alors formulé comme suit :

{ min 1

2 ‖𝑤‖2 𝑠. 𝑐. 𝑦_𝑖(𝑤. 𝑥_𝑖+ 𝑏) ≥ 1 ∀_𝑖= 1, … , 𝑛

Figure 3-5 Principe des SVMs : Les vecteurs de supports sont encerclés [Dong 2013].

Malheureusement, de nombreux ensembles de données ne sont pas toujours parfaitement linéairement séparables (il existe toujours quelques points qui ne peuvent pas être correctement classés). On peut alors résoudre ce problème en utilisant une marge souple qui tolère quelques erreurs de classification [Veropoulos 1999, Cortes 1995]. Des variables ressortent 𝜉_𝑖 sont introduites pour permettre de relâcher les contraintes (3.4). Le problème d’optimisation (3.5) devient alors, { min 1 2 ‖𝑤‖2 + 𝐶 ∑ 𝜉𝑖 𝑛 𝑖=1 𝑠. 𝑐. 𝑦_𝑖 (𝑤. 𝑥_𝑖+ 𝑏) ≥ 1 − 𝜉_𝑖, 𝜉_𝑖 ≥ 0 , 𝐶 > 0 , ∀_𝑖= 1, … , 𝑛 (3.6)

𝐶 est une constante qui permet de contrôler le compromis entre le nombre d’erreurs de classification et la largeur de la marge. Elle est choisie par l’utilisateur à l’avance, en général au moyen d’une recherche exhaustive dans l’espace des paramètres en utilisant par exemple la validation croisée sur l’ensemble d’apprentissage. Le terme 𝐶 ∑𝑛𝑖=1𝜉𝑖 pour effet de pénaliser les

échantillons mal classés.

Le problème d’optimisation (3.6) peut être résolu par la technique classique de programmation quadratique. Les multiplicateurs de Lagrange sont d’abord introduits, le lagrangien est donné par,

𝑚𝑖𝑛_{𝑤,𝑏,𝜉} 𝐿_𝑝 = 1 2‖𝑤‖2+ 𝐶 ∑ 𝜉𝑖− ∑ 𝛼𝑖[𝑦𝑖 (𝑤. 𝑥𝑖 + 𝑏) − 1 + 𝜉𝑖] 𝑛 𝑖=1 − ∑ 𝛽_𝑖𝜉_𝑖 𝑛 𝑖=1 𝑛 𝑖=1 (3.7)

avec 𝛼𝑖, 𝛽𝑖 ≥ 0. En annulant les dérivées partielles du lagrangien par rapport à 𝑤 et 𝑏, selon

les conditions de Kuhn-Tucker [Fletcher 1987], on obtient :

{ 𝑤 = ∑ 𝛼𝑖𝑦𝑖𝑥𝑖 𝑛 𝑖=1 ∑ 𝛼𝑖𝑦𝑖 𝑛 𝑖=1 = 0 (3.8)

En réinjectant ces valeurs dans l’équation (3.7), on obtient la formulation duale,

{ 𝑚𝑖𝑛_𝛼 1 2∑ ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗 (𝑥𝑖. 𝑥𝑗) − ∑ 𝛼𝑘 𝑛 𝑘=1 𝑛 𝑗=1 𝑛 𝑖=1 𝑠. 𝑐. ∑ 𝛼_𝑖𝑦_𝑖 𝑛 𝑖=1 = 0, 0 ≤ 𝛼_𝑖 ≤ 𝐶 (3.9)

Les observations 𝑥𝑖dont le lagrangien est non nul, sont dénommées vecteurs support. Il

s’agit des observations situées dans la marge ou mal classés.  SVM non-linéaires

Les classifieurs linéaires ont des capacités de classification limitées. Dans la plupart des applications les données sont rarement séparables linéairement. Une solution consiste alors à projeter les données dans un espace de très grande dimension, éventuellement infinie, nommé l’espace de Hilbert ℋ au moyen d’une transformation non-linéaire ∅:

ℝ𝑑 ∅_{→ ℋ}

Dans ce nouvel espace, il est alors probable qu’il existe un hyperplan séparant les données. D’après l’équation (3.9), il est par ailleurs facile de voir que le classifieur SVM ne dépend que des produits scalaires dans l’espace ℋ (i.e. 〈∅(𝑥𝑖), ∅(𝑥𝑗) 〉). Heureusement, il existe une classe

de fonctions qui satisfont les conditions de Mercer [Vapnik 1995, Courant 1954], nommées fonctions noyaux 𝐾, qui permettent de calculer les produits scalaires de l’image dans l’espace original sans prendre en considération la forme explicite de la transformation non-linéaire,

𝑲(𝒙𝒊, 𝒙𝒋) = 〈∅(𝒙𝒊), ∅(𝒙𝒋)〉

{ 𝑚𝑖𝑛𝛼 1 2∑ ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗 𝐾(𝑥𝑖, 𝑥𝑗) − ∑ 𝛼𝑘 𝑛 𝑘=1 𝑛 𝑗=1 𝑛 𝑖=1 𝑠. 𝑐. ∑ 𝛼_𝑖𝑦_𝑖 𝑛 𝑖=1 = 0, 0 ≤ 𝛼_𝑖 ≤ 𝐶 (3.10)

Les multiplicateurs de Lagrange 𝛼_𝑖∗_{sont déterminés par la résolution de l’équation (3.10) et}

une fonction de classification mettant en œuvre l’hyperplan optimal dans l’espace de Hilbert est alors donnée par,

𝑓(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼_𝑖∗

𝑛

𝑖=1

𝑦𝑖 𝑘(𝑥, 𝑥𝑖) + 𝑏) (3.11)

Le classifieur n’est donc défini qu’à partir des 𝑥_𝑖 qui sont situés dans la marge ou mal classés, les vecteurs support. En fait, le nombre de vecteurs support est souvent petit.

Pour cette raison, les méthodes de SVM sont bien appropriées aux applications où le nombre d’attributs est grand par rapport au nombre d’exemples d’apprentissage, par exemple la catégorisation de textes [Joachims 1998]. Quelques fonctions noyaux 𝐾 les plus largement utilisées dans les SVM sont,

 les noyaux polynomiaux de degré 𝑝 : 𝐾(𝑥, 𝑥′) = (〈𝑥, 𝑥′〉 + 1)𝑝  les noyaux Gaussiens𝐾(𝑥, 𝑥′_{) = exp(−}‖𝑥−𝑥′‖2

2𝜎2

La plus grande limitation des méthodes de SVM réside dans le choix d’une fonction noyau, car c’est elle qui définit un espace induit où la classification est effectuée. Certains travaux sur la limitation du noyau ont été réalisés en utilisant les connaissances préalables [Schölkopf 1998, Burges 1999], mais le meilleur choix du noyau pour un problème spécifique est toujours un sujet de recherche. Par ailleurs, concernant la détermination des paramètres du noyau, on fixe un intervalle de valeurs potentielles puis on utilise la validation croisée sur l’ensemble d’apprentissage. Ce processus peut être appliqué de façon analogue au choix du nombre de nœuds cachés dans un réseau de neurones. Pour cette raison, une autre limitation des SVM est la faible vitesse d’apprentissage. Finalement, les méthodes de SVM classiques sont des méthodes de classification binaire, le cas multi-classes doit être décomposé en un ensemble de problèmes à deux classes ou traité directement par des méthodes multi-classes [Lee 2004,

ont été proposées, telles que 𝜐 -SVM [Schölkopf 2000, Chang 2002], SVDD (Tax et Duin - 2004), one-class SVM [Schölkopf 2001] et S3VM [Bennett 1999].

3.2.5.2. Séparateurs Semi-Supervisés à Vaste Marge (S3VM)

Le S3VM a été proposé par Bennett et Demiriz [Bennett 1999], qui est une méthode d'apprentissage semi-supervisée basée sur l'hypothèse de cluster. L'objectif optimal de S3VM est de construire un classifieur en utilisant des données étiquetées et non étiquetées. Semblable à l'idée de SVM, S3VM exige la marge maximale pour séparer les données étiquetées et les données non étiquetées. Et la nouvelle limite de classification optimale doit satisfaire que la classification sur les données originales non étiquetées à la plus petite erreur de généralisation. Comme il est mentionné avant, le SVM est basé sur la dimension VC et la minimisation des risques structurels. Et la régularisation est exactement un moyen d'atteindre la minimisation du risque structurel, qui est le risque empirique plus un terme de régularisation ou de pénalité.

Après avoir ajouté un terme de pénalité dans la formule (3.5), la fonction objective peut être réécrite sous la forme :

𝑚𝑖𝑛𝑤,𝑏,𝜉 1_{2 ‖𝑤‖}2 + 𝐶 ∑𝑙𝑖=1𝜉𝑖

𝑠. 𝑐. 𝑦_𝑖(𝑤. 𝑥_𝑖+ 𝑏) ≥ 1 − 𝜉_𝑖 𝜉_𝑖 ≥ 0, 𝑖 = 1 ,2, … , 𝑙

(3.12)

Où 𝜉_𝑖 (i =1, 2,..., n) sont les variables négligeables. Il s'agit de l'écart acceptable entre la marge de fonction et les données correspondantes 𝑥𝑖 .

Et 𝐶 est un paramètre qui contrôle le poids du terme de pénalité dans la fonction objective. La formule (3.12) peut être réécrite sous la forme d'un risque régularisé comme suit : 𝑠𝑚𝑖𝑛∅(𝑤) = 𝑚𝑖𝑛_𝑤,𝑏{1

2‖𝑤‖2+ 𝐶 ∑ 𝑚𝑎𝑥(1 − 𝑦𝑖 [𝑤. 𝑥𝑖+ 𝑏], 0)

𝑙

𝑖

} (3.13)

Ici, 1₂‖𝑤‖2 _{peut être considéré comme un terme de régularisation, et} _{𝑚𝑎𝑥(1 −}

𝑦𝑖 [𝑤. 𝑥𝑖 + 𝑏], 0) est la fonction de perte des données étiquetées.

Afin d'obtenir un classifieur de séparateurs semi-supervisés à vaste marge, il faut utiliser les données non étiquetées. Supposons maintenant que les données non étiquetées sont étiquetées, et laissons l'étiquette être ŷ = 𝑠𝑖𝑔𝑛(𝑤. 𝑥 + 𝑏).

𝑚𝑎𝑥(1 − ŷ[𝑤. 𝑥 + 𝑏], 0) = 𝑚𝑎𝑥(1 − |𝑤. 𝑥 + 𝑏|, 0) (3.14) Après avoir utilisé les données non étiquetées, en ajoutant (3.12)-( 3.14), on peut obtenir la forme de base d'un classifieur de S3VM.

𝑚𝑖𝑛∅(𝑤) = 𝑚𝑖𝑛_𝑤,𝑏{1 2‖𝑤‖2 + 𝐶₁∑ 𝑚𝑎𝑥(1 − 𝑦_𝑖[𝑤. 𝑥𝑖+ 𝑏], 0) 𝑙 𝑖 + 𝐶2 ∑ 𝑚𝑎𝑥(1 − |𝑤. 𝑥𝑖 + 𝑏|, 0) 𝑙+𝑢 𝑖=𝑙+1 } (3.15)

Ici, C1 et C2 sont les poids de deux fonctions de perte. 𝑖 = 𝑙 + 1, 𝑙 + 2, … 𝑙 + 𝑢 Sont les données non étiquetées.

Dans la formule (3.16), il faut ajouter des contraintes pour éviter que ces données non étiquetées soient attribuées en une même classe :

1 𝑢 ∑ 𝑓(𝑥𝑗) = 1 𝑙∑ 𝑦𝑖 𝑙 𝑖+1 𝑙+𝑢 𝑗=𝑙+1 (3.16)

- Quand les gens devraient-ils utiliser le S3VM ?

Ding et al. dans leurs état de l’art [Ding 2015] ont répondu sur cette question comme suit : le S3VM peut être utilisé sur tous les problèmes à deux classes dans l'apprentissage semi- supervisé. Maintenant, en supposant qu'il y a une base de données D avec 1000 ensembles de données et le problème de classification est de deux classes, nous pouvons utiliser ces données pour obtenir un classifieur.

Dans la base de données D, 100 ensembles de données ont été étiquetés et les autres n'ont pas d'étiquette. Si nous utilisons SVM, nous ne pouvons utiliser que 100 ensembles de données. Cependant, le S3VM peut utiliser pleinement 1000 ensembles de données, et la performance de ce dernier serait meilleure. Dans l'ensemble, s'il y a de petites quantités de données étiquetées et de grandes quantités de données non étiquetées, le S3VM est le meilleur choix.

dans d'autres domaines, tels que la classification des images [Dopido 2013, Guillaumin 2010, Li 2013, Xie 2014, Yang 2014], la reconnaissance des visages [Lu 2006], l'évaluation des effets de l'éducation physique [Liang 2013] et la classification des cancers [Jun 2015].

3.3. Conclusion

Tout au long de ce chapitre, nous avons présenté notre survol réalisé sur les deux problématiques clé de notre thèse à savoir la classification d’opinions et l’extraction de caractéristiques en arabe.

La classification d’opinions est l’un des sujets les plus étudiés dans le domaine de fouille d’opinions, et comme nous avons mentionné avant, cette tache passe par une étape très importante qui est l’extraction de caractéristiques afin de représenter les commentaires à classifier, c’est pour cela, qu’une grande importance a été accordée à l’étude des techniques de classification.

L’apprentissage semi-supervisé a suscité beaucoup d'intérêt, car il permet d'utiliser la grande quantité de données non étiquetées facilement disponibles pour améliorer les performances du classifieur. L’apprentissage semi-supervisé a été appliqué avec succès dans diverses applications de reconnaissance des formes. Pour cette raison, nous avons détaillé les Séparateurs à Vaste Marge (SVM) et les Séparateurs Semi Supervisés à Vaste Marge (S3VM) afin de les utilisés dans la deuxième partie de cette thèse.

Le chapitre suivant portera sur notre première contribution qui vise à combiner les Séparateurs à Vaste Marge, Random Sub Space et les algorithmes génétiques ; afin d’améliorer le processus de classification d’opinions en langue arabe.

Chapitre 4. Combinaison de RSS-SVM avec les

Algorithmes Génétiques pour l'Analyse

d’Opinions en Langue Arabe.

4.1. Introduction

Dans la première partie de cette thèse, nous avons présenté le domaine de l’analyse des sentiments ou la fouille d’opinions avec tous ses tâches. Nous nous sommes particulièrement intéressés à la détection de polarité des opinions en langue arabe.

L'analyse des sentiments ou la fouille d’opinions combine les techniques d'exploration de données et de traitement du langage naturel afin de détecter la subjectivité ou la polarité. La plupart des systèmes et des ressources existantes s'adressent à l'anglais ou à d'autres langues. Parmi les langues naturelles qui doivent être soutenues dans l'analyse des sentiments est la langue arabe qui est l’une des langues les plus parlées et étudiées dans le monde ; il serait donc intéressant de l’intégrer aux systèmes de recommandation et de pages web d'opinions.

Dans le document La recommandation via l’analyse d’opinions (Page 71-82)