Analyse sémantique d'opinion

(1)

HAL Id: dumas-01552679

https://dumas.ccsd.cnrs.fr/dumas-01552679

Submitted on 3 Jul 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Soufiene Katet

To cite this version:

Soufiene Katet. Analyse sémantique d’opinion. Sciences de l’information et de la communication. 2011. �dumas-01552679�

(2)

Envuede l'obtention du

MASTER

Produits de l'Information

_{Spécialisée et Médiation Electronique}

Par

Soufiene KATET

ANALYSE

_{SEMANTIQUE D'OPINION}

Soutenu le 15Septembre 2011, devant le jurycomposé de: Rapporteur Examinateur Encadrant M. M. M.

(3)

(4)

REMERCIEMENTS

Je tiens à remercier, tout d'abord, Monsieur Ismail TIMIMI, pour son encadrement ainsi que sonsoutientoutaulong decetravail.

. Je remercie tout particulièrement Monsieur Ghalem OUADJED de m'avoir accueilli

au sein _d'EOWEO, _{pour sa} _{disponibilité,} _son _encadrement, _ses conseils _et _son soutien

inestimable.

Je remercie tout_{particulièrement} _{Monsieur Isam SAHROUR} _{de m'avoir} _accueilli _au

sein_{d'Euratechnologie} _Lille.

J'exprimemesremerciementsetmagratitude àtousceux qui ontapportés l'assistance

nécessaire pourfinalisermontravail.

Je remercie vivement les _{enseignants qui} _ont _{bien voulu} _accepter _{de faire partie de}

monjury.

Je _présente _mes _{remerciements} _les _{plus sincères} _à _tout _le _corps _{enseignant du Master} PRISME ettous lesmembres d'EOWEO et_{Euratechnologies Lille.}

Je remercie chaleureusement mes collègues _{Vivien MANN,} Christophe WILLAERT etMadeleine HUBERT.

(5)

(6)

Table des

Matières

REMERCIEMENTS 2

Introduction 2

CHAPITRE I: LES TECHNOLOGIES DE BASE 4

1.1 Moteurde recherche web 6

1.1.1 Web_{Crawlers(robots web)} ₈ 1.1.2 _{Lemmatisation,}_{la racinisation}_(stemming)_{et mot}_vide ₁₀

1.1.3 Index inversé 11

1.1.4 _{Algorithmes de classement} ₁₁

1.2 Extraction d'information 11

1.2.1 Transformation de la structure de données dans un processus de génération

document Web 12

1.2.2 Web_Scraping ₁₃

1.2.3 Traitement_{Automatique des Langues} ₁₄

1.3 Leweb_mining ₁₄

1.3.1 WebContent_{Mining (WCM)} ₁₅

1.3.2 Web Structure_Mining ₁₅

1.3.3 Web_Usage_Mining_(WUM) ₁₆ CHAPITRE II : OPINION MINING 17

2.1 Ladéfinition des _composantes_{d'opinion dans}uncontexteOpinion Mining 19

2.2 Architecture d'un_système_{d'Opinion Mining} ₂₁ 2.2.1 _{Part-of-Speech Tagging} ₂₂

2.3 Identification des_{caractéristiques} ₂₂ 2.3.1 Identificationde_{caractéristiques}_fréquentes ₂₃ 2.3.2 Identification de_{caractéristiques}_non_fréquentes ₂₄ 2.3.3 _{Analyse des sentiments}_{des opinions} ₂₄ 2.3.3.1 Identification desmots de sentiment 25

2.3.3.2 Déterminer le sentiment_d'opinionsauniveau desphrases 26

(7)

CHAPITRE III :LEWEB _SEMANTIQUE 31 3.1 les _Ontologies ₃₄ 3.2 RDF 37 3.3 RDF Schéma 39 3.4 OWL 40 3.5 _SPARQL ₄₁

CHAPITRE IV :LES OUTILSDISPONIBLES 43

4.1.1 Définitiondes classes etdes_propriétés ₄₅

4.1.2 Gestion des instancesde classeetde leurs_propriétés ₄₆ 4.1.3 Possibilité d'effectuerdes_requêtes ₄₆

4.2 Framework Jena 46

4.3 OWLvalidator 46

4.4 KIM-SemanticAnnotation,Indexing, and Retrieval 46

4.4.1 Annotation_sémantique ₄₇

4.4.2 KIMFront-ends 48

4.4.2.1 _{Exploration des}_Entités ₄₈ 4.4.2.2 _{Interrogation}_{sémantique de KIM} ₄₉

4.4.3 KIMO _Ontology ₅₀

4.4.4 KIMWorldKnowledge Base 51

CHAPITRE V : SYSTEMED'ANALYSE SEMANTISUE D'OPINION 53

5.1 Travauxexistants 55

5.2 Architecturedu _système ₅₅

5.3 _{Représentions des commentaires} _et_Opinions ₅₆

5.4 Discussion 58

5.4.1 _{Acquisition des données} ₅₈

5.4.2 _Analyseur ₅₈

5.5 Conclusion 58

(8)

Liste des

_figures

Figure l:Un systèmede moteurde recherche lors d'une opération de recherche (1) 8

Figure2:Unsystèmeweb crawler endétail 9

Figure 3:Architecture d'un système d'extraction d'opinion (5) 21 Figure4:L'extraction decaractéristiquespeufréquentes 24

Figure5:StructureBipolaire des adjectifs (5) 26

Figure6:Pseudopode de l'orientation d'opinion s'une phrase (5) 29

Figure 7:pseudo code de l'orientation d'opinions des caractéristiquesduproduit(6)... 30

Figure 8:Architecture du web sémantique 37

Figure 9: TripletRDF 38

Figure 10:ExempleRDF/XML 39

Figure 11: Exemple d'une requête SPARQL 41

Figure 12:Résultat de larequête SPARQLqui interroge le graphe RDF 41

Figure 13:L'écranprincipal de Protégé 45

Figure 14:Annotation dans KIM 48

Figure 15: le plug-in KIM,etl'explorateur KIM (36) 49

Figure 16: L'interfaceutilisateur d'interrogagtion de KIM 50

(9)

(10)

Introduction

"Qu'est-ce que les autres pensent d'un tel produit ?" ; "De quelle réputation bénéficie

une _marque" _; _"Quelles _sont _les _rumeurs _véhiculées _sur _une _{société?"...} _un _{ensemble de}

questions qui demeurent toujours un élément important de l'information pour la plupart des

organismes au cours duprocessus de prise de décision. Bienavant lagénéralisation duWorld

Wide Web et la_{prolifération de l'information numérique, beaucoup d'organismes} _s'appuient

sur l'avis d'autrui _pour _une _{analyse de} _situation _et _une _prise _de _{décision (avis des} consommateurs, sondages des électeurs...

Mais la socialisation des nouvelles _Technologies _(web, _{mobiles, TV} _{connectic...)} _et

l'émergence de nouveaux usages ont actuellement permis de réceptionner et d'analyser de

manière _{plus élargie} _{les opinions} _et _{les avis de} _personnes, _souvent _externes, _{voire inconnues} des listes de contacts d'un _organisme. _{Aujourd'hui, le web comprend} _un _grand _{nombre de} corpus d'opinion et de sentiments... leurs auteurs expriment aisément leurs avis et

recommandations....

Dans la _{littérature,} _l'analyse _{des sentiments} _est_{connue sur} _le _nom _{d'Opinion Mining}

et elle est récemment devenue un domaine en _{plein développement} _en raison de _ses nombreuses _{applications. Mais à} _part _le _support _du _moteur _prédicatif_nous _pouvons _citer_des nombreuses utilisations comme : larecommandation _(par _{exemple des voitures),} _{l'explication}

des _sondages _{des suffrages} auxélections, laconsultation des avis surlesproduits, ladétection de spam, l'analyse et la surveillance des opinions pour améliorer les produits (matériels ou

intellectuels) ou l'étude demarché.

Il est _{important de} _mentionner_qu'en _{raison de} _toutes _{les applications} _{possibles, il} _{y a} un nombre considérable _d'organismes _{administratifs,} _{économiques,} _{politiques...} qui

exploitent l'analyse de l'opinionetl'analyse des sentiments dans le cadre de leurs missions.

Si du côté sociétal l'intérêt croissant pour les analyses d'opinion et les analyses des

sentiments se justifie des _ces applications potentielles précitées, du côté scientifique, _nous

constatonsun regaind'intérêt depuis 2002 _pourle sujet.

Dans notre travail de recherche _envisagé, _nous _{souhaitons concevoir} _et _implémenter

une nouvelle méthode _pour l'analyse d'opinion dans les _{corpus en} ligne. Il s'agit d'une

approche s'appuyantsurdes ressourcessémantiques externesd'enrichissement.

(11)

Chapitre I : Nous y introduisons les technologies de base etles outils utilisés dans OpinionMining.

Chapitre II : Dans ce chapitre, nous introduisons les principaux travaux existants

pour nousdonner des approches exemplaires etdes idées.

Chapitre III: Nous présentonsle web sémantiqueest sesapports

Chapitre IV: Nous listons des outils de réalisation des applications de web

sémantique.

Chapitre V: Le mémoire se conclut par une synthèse des travaux réalisés,

(12)

CHAPITRE I

:

(13)

(14)

Ce _{chapitre présente les technologies de base} _et_{les outils utilisés} _par_l'opinion

Mining, un domaine spécialisé de l'exploitation du Web. Le Web Mining resteà la croisée

de recherche de _{l'Information, de l'extraction de l'information} _et_{du Data} _Mining._La recherche d'information _{(Information Retrieval)} _et _l'extraction _{d'information}_(Information

Extraction) jouent un rôle importantpour localiser et extraire des informations

précieusessurdes données non structurées, avant qu'elles ne soientaptes à êtretraitées par des _{applications de data mining.}

L'exploration de ces techniquesest extrêmement nécessairepour faire face à la

quantité de donnéesd'information disponibles.Aussi, avec le fait que le web qui est devenu

de _plus _en_plus _orienté _vers _{l'importance de} _la _sémantique_et _{l'intégration de l'information,} _ces domaines d'étudesont devenus très _importants _pour _répondre _aux_{nouvelles tendances} _du Web.

Ce _chapitre_est_divisé_comme_suit:

La _première _partie _donne _un _aperçu _des_moteurs _{de recherche} _et_{fournit des}

explications sur ses composantes de base. La deuxième partie présente des outils et des techniques d'extraction de l'information. Enfin, la troisième partie introduit le Web Mining.

1.1 Moteur de recherche web

Information Retrieval _(IR) _est _un _{domaine d'étude} _qui _concerne _la _{récupération} _de documents d'une collection d'autres documents _(pertinents _et _non _{pertinents), généralement} basée sur des recherches par _mot_clé. _Avec _{l'expansion d'Internet, la recherche} _{d'information} est d'une _grande _importance _et _les _moteurs _{de recherche} _sont _devenus une façon dominante d'accès à l'information surle Web.

Aujourd'hui, en raison de leur importance, les moteurs de recherche sont devenus

l'outil le _{plus représentatif} _{de la recherche d'information.} _Cette _partie _{traitera les}

technologies, les objectifs et les enjeux des développements impliqués dans leurs conceptions.

Une des _{raisons pour}_{lesquelles certains}_moteurs _de _recherche_{ont autant}_{de succès} _sur Internet est leur _engagement _à _{la qualité des services,} _en _{particulier à l'égard de la vitesse} _de traitement des _{requêtes des} _{utilisateurs. L'Internet d'aujourd'hui,} _avec _des _{milliards de} _pages

disponibles et l'absence de mécanismes qui fournissent une réponse dans un court laps de temps incite à quitter les systèmes incompatibles avec les nouvellesnormes (plus de données doivent être traitées avec des contraintes encore_plus_{strictes à}_{l'égard de}_temps).

(15)

Les moteurs de recherche _(par _{exemple, Google, Yahoo, Bing, etc)} _sont _capables d'atteindre un haut niveau de service _{principalement} _{grâce à} _{leur technique} d'indexation

associé à des infrastructures de haut _gamme _composé _{de plusieurs} _{centaines de clusters} hautement _optimisé _pour _{des emplois exigeants} _une _{grande capacité} _{de traitement.}

Cesmoteurs sonttrèsévolutifsetsont_{capables de fournir des} _services_{de haute qualité, même}

avec des millions d'utilisateurs accédant simultanément à leurs _{systèmes. Par} _{ailleurs, les}

algorithmes de classement (par exemple, le PageRank de Google), sont capables de trier les

documents les _plus _{importants liés à} _une _recherche. _Sans _l'aide _{d'algorithmes de classement,}

un utilisateur n'aurait aucun indice sur l'endroit où commencer à chercher une information

désirée _{parmi plusieurs} _autres _documents. _Un _{algorithme de classement offre} _un _niveau

hiérarchique deplusieurs documents importants, offrant ainsi unpremier indice à l'utilisateur

sur l'endroit où l'information désirée est _plus _susceptible _de _l'être.

Lors d'une _{opération de recherche, les interactions suivantes} _sont _effectuées, _comme _le

montrela _{figure 1} _: _{(1) Une requête} _est _soumise _par _{l'utilisateur. (2) La requête}_utilisateur _est

vérifié pour s'assurer qu'elle est prête à être utilisée par le système de récupération. Ceci

pourrait êtreréalisé grâceàdes tâches simples telles que la suppressiondes «mots vides», en réduisant les mots aux racines _(radical) _et _en _vérifiant _{l'orthographe.} _{(3) La} _requête _est

vérifiée par rapport aux indices disponibles afin de récupérer les documents qui contiennent

certainstermes de la _requête. _Ensuite, _un_{algorithme de classement} _est _{appliqué à} _l'ensemble des documents trouvés _qui _sont _{présenté à} _{l'utilisateur (les} _documents _les _{plus pertinents}

apparaissent au début de cette liste). (4) L'utilisateur reçoit la réponse et accède aux documents_{correspondants}_à_{partir de la}_{liste de résultats.}

Les _{étapes ci-dessus} _montrent _que _le _moteur _{de recherche dans} _sa _phase _{opérationnelle de}

recherche desserve directement une _requête _{utilisateur. Cependant,} _{les principales} tâches

doivent être effectuées à _{l'avance, le crawling} _les _pages _Web, _l'indexation _et _{le calcul de} classement. Les _{paragraphes suivants} _{présentent chaque sous-système interne d'un} _moteur _de rechercheetleurs tâches _respectives.

(16)

Figure l:Un système demoteurderecherche lors d'une opération derecherche (1)

1.1.1 Web _{Crawlers(robots web)}

Les moteurs de recherche_s'appuient _sur _des _programmes _{informatiques} _{appelés web}

crawlers _(aussi _{appelé des} _{robots Web),}pour parcourir les pages Web en suivantles

hyperliens etstocker les documents web qui sontindexés plus tardpour optimiser le processus derecherche. Unweb crawlerestprobablement lacomposante la plus importanteet

la_plus _{complexe d'un}_moteur_{de recherche.}

Les web crawlersontdeux _{questions importantes à} _{aborder: La première} _consiste àutiliser unebonne _stratégie _{de crawler}_(ce _{qui inclut l'algorithme} _pour_{visiter de} nouvelles pages Web)et les mécanismes intelligents pour optimiserle processus

de_recrawling._{Deuxièmement,}parce que cette tâche computationnelle est intensive, le

systèmedoit être capable de faire face à de nombreux scénarios différentsdans des

circonstancesdifférentes _(panne _{matérielle, problème de} _{serveur, erreurs}_{lors de l'analyse}_de

documents).

Un _système _Web _{Crawler (1),} _est _composé _par _{les éléments} _{suivants, tel} _que

(17)

rabotMxtfîtes

dowiiteadedMes

Figure 2:Un système web crawlerendétail

Un crawler _Manager ₍₁₎ _est_{chargé de} _transmettre_les _demandes_{d'adresse URL} _au downloders.

Généralement_l'opération_de _crawling _{commence avec} _une _{liste d'hyperliens,} _le crawlerseconnecte surles pages _Web_suivant_un_plan_de_route, _{copie leur}_contenu,_et_analyse

les _{hyperliens (les URLs)} _contenus _{dans les} _pages _copiés _et _{les ajoute à la}_{liste d'URLs à} visiter .En outre, cette composantea pour tâche de faire respecterles règles imposées par robots.txt _(Robots.txt _est _un _{fichier utilisé} _pour _{appliquer les} _règles _que _{les robots} _Web devraient suivre en_{explorant les} _{liens d'un site web. Normalement,} _un_web crawler vérifie _ce

contenu afin de s'assurer _qu'il _est _{autorisé à visiter} une certaine section d'une page

web.), fourniespar lesadministrateurs deserveurs Web.

Les downloaders sont _{responsables de l'ouverture des} _connexions _avec _{les différents} serveursweb.lesmoteurs de recherche _{développés reçoivent} _{des centaines} _de _{pages par} seconde àtraverslesdownloaders.

Les Méthodes de _Crawling

Les Web Crawlers_peuvent _crawler _les _pages _web _{de différents façons.} _Ceci _est

principalementliéàl'application finaleque le système servira. Deuxexemplesde crawling:

(18)

Un Crawler _peut _{sélectionner}_un _{petit ensemble de}_pages _Web,_et _{suivre leurs liens} _en utilisant_{l'algorithme de} _parcours _en _largeur.les _Moteurs _{de recherche emploient}_une _série d'autres _techniques _pour _{améliorer l'algorithme de crawling.} _Avec _cette _stratégie_tous _les liens sontsuivisetdonc il _n'ya_aucune_restriction _entre_{les éléments}_couverts_par _{le site.}

Crawlers _{topiques (A focused crawler}_or _{topical crawler)}

Crawlers_{topique, aussi} _connu _comme _les _{robots ciblés,} _tentent_{de crawler des} _pages

spécifiques .ils pourraient être les pages d'un sujet particulierou dans une langue spécifique, image, mp3 ou des documents de recherches en sciences informatiques. L'objectif de

cesrobotsest de trouverle _plus _grand _nombre_{possible de}_pages _sans _{utiliser beaucoup} _de bande_passante.

1.1.2 _{Lemmatisation, la racinisation} _(stemming)_{et mot} _vide

La lemmatisation_simple _{consiste à}_trouver_{la racine des verbes fléchis}_et_à_ramener_les

mots _{pluriels et/ou féminins} _au _{masculin singulier} _avant _de _leur _associer _un _nombre

d'occurrences. Ce processus permet d'amoindrir la malédiction dimensionnelle qui pose de

très sérieux _{problèmes de représentation} _dans _le _cas _des _{grandes dimensions.} _La lemmatisation_permet _{donc de} _{diminuer le nombre de}_termes _{qui dénieront les dimensions de}

l'espace de représentation de termes ou espace vectoriel. D'autres mécanismes de réduction

du _lexique _sont _{aussi déclenchés.} _Les _mots _composés _sont _{repérés automatiquement à} _l'aide d'un _{dictionnaire,} _{puis transformés} _{en un} _terme _{unique lemmatisé} _en _{utilisant des tableaux} associatifs.

Pour _{optimiser le} _processus _{de recherche} _et _{maximiser la capacité de} _stockage, _les

dernières_pages _web _analysées_sont_{prétraitées}_avant_{d'être indexé} _:

L'objetdeces techniques etde ramener unmotàson lemmeou saracine. Parexemple

lemot_{chantage deviendrait}_pour_le _{stemming (racinisation) le}_mot_{chant. La}_{lemmatisation}_va

moins loin et se contente de ramener les _noms, _les _{adjectifs,...} _au _masculin _singulier _et _les

verbes à l'indicatif.

La _suppression _{des chaînes de} _{caractères dont le} _{poids sémantique} _{est trop} _faible

(également désignés «mots vides » ou «bruit ») : le, la, les, du, avec, vous, etc., qui jouent

rarement un rôle intéressant dans les recherches et _{risquent de ralentir notablement le}

(19)

1.1.3 Index inversé

Un _système _de_moteur _de _{recherche pourrait} _{rechercher des} _milliards _de documents.Rechercher tous les termes _{spécifiques (d'une} _requête_utilisateur _donnée), prendrait beaucoup detemps.Afin d'aiderles moteurs de recherchea effectué la recherchedans undélai acceptable, le système de récupérationutilise les données structurées _appelées_index. _Le_{meilleur schéma}_d'indexation _et _le _{plus largement utilisé}_pour

les moteurs de recherche sur le Webest l'index inversé. Un indexinversé estune structure de

données _{composée d'un} _{terme et} _tous _{les documents qui contiennent}_ce _terme. _L'index inverséfonctionneexactementcommeun« index de livre».

1.1.4 _{Algorithmes de classement}

Avec la _{quantité de documents} _en _{ligne, il} _est _presque _impossible _{pour un} _utilisateur de vérifier _{chaque document} _pour _témoigner _sa _{pertinence. Aussi,} _{les algorithmes} _de classement aident à vaincre le web _spamming, une pratique non seulement nuisible à

l'expériencedes utilisateurs, mais aussi derecherche d'informationen commerce.

Un des _{algorithmes les plus importants de classement, dans la} _recherche _web, _est

PageRank de Google, qui utilise généralement le conceptdeprestige pourtrierles documents

pertinents. L'idéeestque les pagesweb qui sontréférencées par beaucoup d'autrespagesweb

(parhyperliens)sont susceptibles d'être despages web importantes.

Par_{conséquent, la}_page _qui _a _{les plus} _{des liens} _entrants, _elle _est _{la plus importante.} Cependant, le scorede prestige n'estpas seulementlimitéparlenombre de liens qui pointent

vers une_page_{web. L'algorithme prend également}_en_compte _leprestige d'une _autre_page. Par _{conséquent, l'importance de} _la _page _{i (le} _score _PageRank) _est _déterminée _en

additionnant les scores de _PageRank _de _toutes _les _pages _qui _pointent _sur _i divisé _par le nombre de leurs lienssortants.

1.2 Extraction d'information

Extraction d'Information_(IE) _est unesous-discipline de l'intelligence artificielle qui

vise àextraire des informations_{précieuses des données} _non _{structurées. Un}

systèmed'extraction d'informationest généralement axé surl'identification des entités ou

des _objets _(personnes, _lieux, _entreprises, _etc) _et _des _{règles d'extraction,} _mais_pas nécessairementde domaine _spécifique. _Les _données _non _structurées_peuvent _avoir

plusieursformes différentes, comme des vidéos, images, audio et texte.Les premiers

(20)

aujourd'hui c'est letype des données le plus exploré par lacommunautédes chercheurs etdes

commerciaux. Le but de l'IE estd'identifier les _{parties utiles} _{de données brutes (données} _non

structurées) et les extraire pour créer plus d'informations précieuses grâce à laclassification

sémantique. Le résultatpeut être adapté à d'autres tâches de traitement de l'information, telles qu'IR et de Data Mining. Il y a une différence entre les objectifs d'IR et IE, mais dans le

monde _{réel, ils doivent} _être _considérés comme des activités complémentaires pour améliorer

leur_précision _et_exactitude.

1.2.1 Transformation de la structure de données dans un _processus _de

génération document Web

La _{génération de documents web} _peut _{impliquer différents} _types _de _structures _de

données au long _du _processus. _Dans _{les documents} _que _l'on _appelle _{web statique,} _un

document HTML tiendra les mêmes informations _(contenu), _quel _que _{soit le client qui} demande la_{page, ou} _{dans quel} _{contexte cette} _page _est _appelée. _Toutes _{les informations} _sont enfermés entre les balises HTML, dont la fonction principale est de fournir un balisage

structurale_{sémantique du}_texte _{(paragraphes, listes, titres,}_etc.)

Avec_{des pages}_{web dynamiques, les}_pages _sont_générés _{par un serveur}_{de script,} _et_ils

changent habituellementcomme une réponsepourdifférentsclients selon différents scénarios. Ce sont des documents _{générés à} _{la demande,} _un _{exemple serait}_en _e-commerce _qui _montre des _produits _aux _clients _en _{fonction des recherches} _par _mot _{clé. Différents mots-clés}

retournentdes listes différentes des_produits.

Un document webest _{composé normalement} _par_plusieurs _{parties, où chacune} _d'entre

elles est _étiquetées _avec _{des annotations} _{HTML (<div>, <title>} _<body>). _En _{raison de} _cette

propriété de l'étiquetage, les différentes parties du document sont en conformité avec les

informations _{qu'elles détiennent.} _Un _{document web} _est_un_type _{d'un document semi-structuré}

(comme il conserve encore une sorte de structure, en _comparaison avec un document texte).

Une fois les données structurées deviennent une _{partie d'un document semi-structuré, les}

propriétés structurales sontperdues et donc pour récupérer les informations souhaitées, des

techniques spéciales doiventêtreutilisées.

Un document web avec un texte entouré _{par une} _balise _<div> _pourrait _être _traité _de deux_{points de} _vue _différents _concernant _{la granularité}_{de l'information désirée. Le document} lui-même est _{semi-structuré, mais le} texte à l'intérieur de la balise div est totalement non

(21)

Les balises fournissent un _moyen _très _efficace _pour _déterminer _{les emplacements}

possibles d'une information cible à l'intérieur du document entier. Il devrait êtreclairquesion

est _{disposé à reconnaître des} _{entités à l'intérieur de} _ce _texte, _{des techniques} _d'extraction

spécialisés devraient être utilisételleque l'explorationpartraitementdu langagenaturel (TAL

-NLP).

1.2.2 Web _Scraping

Web _Scrapping _est _une _{technique basé} _sur _{des scripts utilisés} _pour _{extraire des} informations à_partir _des _pages _Web._Les _pages_Web _sont _{des documents écrits} _en_langage_de

balisage hypertexte (HTML) et plus récemment XHTML qui est basé sur XML. Les documents Web sont_{représentée}_{par une}_arborescence _structurée _{appelé le Document} _Object Model, ou tout simplement l'arbre DOM. L'objectifde HTML est de spécifier le format du

texte_{affiché par}_les_navigateurs_Web.

Du _point _de _vue _{fonctionnement,} _un _Web _{scrapping ressemble à} _une _opération

manuelle de _copier _et _{coller. La différence ici} _est _{que ce} _travail _est _{fait d'une manière}

organiséeet automatique par un agentvirtuel. Cet agent peutsuivre des liens (par l'émission

de _{requêtes HTTP} _GET) _{et soumettre} _{des formulaires (par HTTP POST),} _parcourir _de nombreuses _{différentes pages}_web.

Après avoir récupérer le document Web cible, l'analyseur suit des

chemins _spécifiques _à _{intérieur du document}_pour _récupérer_{les informations} _{souhaitées. Ces} chemins sont _spécifiés_par _{les sélecteurs CSS}_ou_{XPath. Ils} _{utilisent les chemins}_relatifs _ou

absolus_(basé _sur_l'arbre _DOM)pour _{pointer l'analyseur à} un élément spécifique à l'intérieur d'un document Web._Après _{avoir localiser l'information} _désirée,_{normalement le} web_scrapping _utilise _{aussi les expressions régulières}_pour _restreindre_ou _élaguer _les informations localisées, afin derécupérerlesdonnées avec unegranularité spécifique.

Un défaut _{important de} _Web _scrapping _, _est _{la difficulté de} _{généraliser les} _scripts d'extraction. Le _script_est _{généralement attaché} aumodèle DOM d'une page donnée, donc la

dépendance introduite par XPaths ou des sélecteurs CSS, ne le rendent pas facilement réutilisables par différents sites web. Le Web scrapping ne peut être une solution optimale pour récupérer l'information, spécialement lorsqu'il est utilisé en grande échelle ou pour des

solutions commerciales. Avoir un document entier _{lorsque seulement} _une _petite _{partie de} celui-ci estréellementnécessaire, enfait de luiun processustrès coûteuxdupoint devue des

(22)

une_{technique très puissante,} _{lorsqu'aucune} _autre_option_pour_récupérer_desinformations _n'est

disponible.

1.2.3 Traitement _{Automatique des Langues}

Le Traitement_{Automatique des Langues (TAL)} _est _un_{domaine de} _{l'informatique qui} étudie les interactions des _{langages humains}_avec _{des ordinateurs.} _{L'objectif principal de TAL}

est de _permettre _une_efficace _{communication homme-machine, qui} _pourrait _être_soit _en _tant que forme parléeouécrite. Ici, seule laforme écrite seraadressée.

Pour de nombreuses _{applications, il} _est _{souhaitable de traiter} _{automatiquement des}

textes écritsen _{langage naturel.} _Les _ordinateurs _peuvent_analyser _et_générer automatiquement

destextes en _{langage naturel, extraire} _{de la sémantique} _et _{identifier les}_{objets du} monde

réel.En _{conséquence,}_de _{nombreuses nouvelles applications pourraient} _en _{bénéficier. Le} paragraphe suivant présenteraune importante application d'unetechnique de TAL utilisé dans

letext_{mining appelé}_{Part-of-Speech tagging.}

Part-of-Speechtagging(POS)

Une _{application particulière de traitement du langage} _naturel _est_de _{déterminer chaque}

mot dans une _{phrase de chaque partie} du discours, _connu _comme étiquetage grammatical.

L'étiquetage grammatical est un processus qui consiste à associer aux mots d'un texte leur

fonction_{grammaticale, grâce à leur} _définition_et_leur_contexte _{.L'étiquetage} _grammatical, _sous

sa forme la _plus _{simple dite étiquetage morpho-syntaxique} _{consiste à affecter à} _chaque occurrence d'un_{corpus un}_symbole_{représentant}_sa_catégorie _{grammaticale (nom,}verbe, etc.). La raison _pour _{laquelle le} _marquage_POS _est _{si important} _pour_l'extraction _de l'informationest le fait _que _{chaque catégorie joue} _un _rôle _{spécifique dans} _une _{phrase. Les}

Noms donnent des noms aux_objets, _des _êtres_ou _des _entitésde _notre monde. Un

adjectif qualifieou décrit desnoms.

1.3 Le web

_mining

La fouille du Web _{(web mining)} _est _{l'application des} _techniques _{d'exploration de} données en vue de découvrir des constantes, schémas ou modèles, dans les ressources

d'internet. Il _y _a _{actuellement dans le web mining trois principales} _{directions de} _recherche _: Web Content _{Mining qui} _concerne _{l'analyse du} _contenu _des _pages _{Web, Web Structure}

Mining qui s'intéresse à l'analyse de la structure des sites Web, Web Usage Mining qui

(23)

1.3.1 Web Content_{Mining (WCM)}

LeWebcontent_mining_a_pour_{objectif d'extraire des connaissances à}_partir_du_contenu

des pages Web. Ce contenu se présente sous différents types : texte, image, audio, vidéo,

métadonnées et_{hyperliens. Le WCM décrit le} _processus_{d'extraction des} _{informations à partir}

des différentes sources de données dans le Web. Ces sources de données sont structurées,

telles que les tables et les bases des données, semi-structurées telles que les pages HTML ou

non structurées telles _que les _textes. _Le _processus _{du WCM} appliqué _aux _textes comprend

généralement la même succession d'étapes que toutprocessus d'extraction des connaissances à _{partir des données. En} _{effet, la première étape} _est _{celle du prétraitement des} _données

(nettoyage, structuration...), ladeuxième est celle d'application des techniques de data mining

pour l'extraction des connaissances et la dernière est celle d'analyse et de validation.

Cependant, la phase duprétraitement varie selon letype des données (textes, images, fichiers

logs), de même le choix de la méthode de fouille des données varie selon l'objectif de l'analyse.

Le text _mining _tel _qu'il _est _défini _{dans (2)} _est _{le "processus} _non _{trivial d'extraction}

d'informations _{implicites, précédemment inconnues,} _et _{potentiellement utiles, à partir} _de données textuelles non structurées dans de grandes collections de textes". Il représente ainsi

l'opération d'analyseetde structuration de grands ensembles de documents par l'utilisation de

techniques de traitement du langage naturel et des outils de fouille des données. Des exemples de ces techniques sont l'extraction d'information, la catégorisation de textes, la cartographie de textes et les modèles d'apprentissage automatique. Parmi les applications de

text_mining_:

• _La_{classification} _{automatique des}_documents, • _Le_résumé _{automatique des}

textes,

• _{L'alimentation} _automatique_{des bases de données,} • _La_veille_sur_des

corpus documentaires importants,

• _{L'enrichissement de} _{l'index d'un} _moteur _de _{recherche pour}

améliorer la consultation

des documents.

1.3.2 Web Structure_Mining

Web Structure _{Mining s'intéresse à l'analyse des liens} _{afin d'exploiter} _{l'information} véhiculée par ses liens etparle voisinage des documents Web. Par définition, la propagation de _pertinence _{consiste à} _propager _des _scores _attribués _à _des _pages _à _travers _la _structure _du Web.

(24)

Cependant, la plupart des algorithmes de propagation de pertinence utilisent des paramètres fixes de propagation qui dépendentdes requêtes exécutées et de la collection de

documents utilisée. De _plus, _ces _techniques _ne _distinguent _pas _entre _les _pages _répondant totalement ou _{partiellement} _à _la _requête _utilisateur _et _ne _tiennent_pas _compte _{des différentes}

thématiques abordées dans lespagesweb.

Les _{techniques d'analyse de liens} _ont _été _{développées, premièrement,} _pour _améliorer les _{performances de la} _{recherche d'information} _sur _{le Web} _en _calculant _une _{valeur de}

pertinence d'un document en fonction non pas de son contenu seul mais également en

fonction de son _{voisinage (documents reliés} _par _{des liens hypertextes), ainsi} _que _{de la}

structure _{globale du} _graphe. _{Deuxièmement,} _ces _techniques _nous _permettent, _dans _une

certaine mesure, et parmi d'autres techniques, d'atteindre et d'indexer des documents non

visibles à l'utilisateur tels _que _les _{documents protégés,} _{les bases de} _{données, les} _documents multimédia_{(images, vidéos, etc).}

1.3.3 Web _{Usage Mining (WUM)}

La fouille de données _{d'usage du} _{Web (Web Usage} _Mining _(WUM), _en _anglais) _est définie comme étant _{l'application du} _processus _{d'Extraction des Connaissances à} _{partir de}

bases de Données _(ECD) _aux _{données issues des fichiers Logs afin d'extraire des modèles}

comportementaux d'accès au Web en vue de répondre aux besoins des visiteurs de manière

spécifique et adaptée et faciliter la navigation (3) Comme les analyses se font à partir des

fichiers _{logs de}_serveurs _Web,_on_parle_{également de Web Log Mining.}

Le WUM consiste en _{"l'application} _des _{techniques de fouille des données} _pour

découvrir des _patrons _{d'utilisation} _à _partir _{des données du Web dans le but de mieux}

comprendreet servir les besoins desapplicationsWeb" (4).

La _{première étape dans le}_processus _de_WUM _, _une _{fois les données collectées,} _est _le

prétraitement des fichiers Logs qui consiste à nettoyer et transformer les données. La

deuxième _étape _est_{la fouille des} _données_permettant _{de découvrir}_des _{règles d'association,}_un enchainement de pages Web apparaissant souvent dans les visites et des " clusters "

d'utilisateurs_ayant_des _{comportements} _similaires_en_terme _de_contenu_visité. _{L'étape d'analyse}

et_{d'interprétation clôt} _le _processus _du_WUM. _{Elle nécessite le}_recours _à_un _{ensemble d'outils}

(25)

CHAPITRE II

:

(26)

(27)

Beaucoup derecherches dans l'opinion mining ontétéfaites pourl'identification des

caractéristiques desproduits ettrouver l'opinion sentiment / orientation. Dans cechapitre, les

travaux effectués _par ₍₅₎ _et ₍₆₎ _vont_être _exposés_avec _plus _{de détails} _que _d'autres, _avec_plus

d'attention àla dernière. La raison _pour _laquelle_ces _travaux _ont _été _choisies_parmi d'autres c'est leur solutiond'identification _{automatique des caractéristiques} _et_{l'analyse des}

sentiments àunniveau_{optimale de} _{granularité.}

Aussi, les deux définissent des problèmes qui ressemblent, spécialementpour faire face auxopinions dans _un _contexte de _e-commerce. Enfin,_un _argument

important favorise l'étude de (6) avec plus de détails. Dans (5), le sentimentest

analyséauniveau de la phrase, alors que cetteapproche fonctionneraisonnablement, ellepeut

cacher _beaucoup _{de détails importants. Dans (6)}_ce _problème _est _{résolu grâce à} _une _analyse trèsfine des sentiments faiteauniveaudes_{caractéristiques.}

2.1 La définition des

_composantes

_{d'opinion dans}

_un

_contexte

Opinion

Mining

Lesdéfinitions utilisées dans cette_partie_ont_{été proposées dans (6),} _et_{ils résument}_les

éléments _{importants qui} _composent_une_{opinion. Certaines de}_ces _définitions _sont _juste_une observation naturelle des éléments _présents _{dans les} _opinions,_tandis _que _d'autres_se réfèrentaux_problèmes _{abordés dans (6).} _Pour_cette_{raison, certains}_de_ces définitions_peuvent ne _pas _{s'appliquer à d'autres} _travaux, _car ils _peuvent_{avoir des} objectifs différents ainsi

qued'autres stratégiesqu'ils emploientpourles réaliser. Définition du modèle_d'objet

L'objectif principal de l'avis est de mettre en évidence les points forts et les faiblesses

possibles sur les objets en cours de discussion (OuD). Les objets peuvent représenter une

variété de choses dans le monde_réel, comme lesproduits, organisations etpersonnes.

Un OuD est définie comme un arbre et l'utilisation d'une _{partie de} _relation _pour

décomposer un objet en différents éléments (qui à son tour peut être décomposé en

sous-composants) .Un objet est associé au paire O: (T, A) , où T est une taxonomie des éléments

(ou parties d'un objet) et éventuellement des sous-composantes, et A est un ensemble d'attributs de O. Comme dans une _{arborescence,}_les _composants_peuvent_égalementavoir leur propreensemble organisé.

Par _exemple, _un _{appareil photo représente le nœud} _racine _et _{les opinions} _peuvent

mettre en évidence les _aspects _à_propos_{d'un attribut} _{de l'appareil ainsi} _que des attributs d'une

(28)

Dans la _phrase _«_Cet _appareil _a _{un super} _design _{» par un} _{exemple, le design} _est _un attribut de la caméra _(le _{nœud racine).} _D'autre _part _la _{phrase "La vie de la batterie} _est _trop courte"_{parle de la batterie,} _qui_est_une _composante_{de la caméra}_et_{la vie}_qui _est_un _attribut_de la batterie _{(autonomie). Une} _opinion _ne _doit _pas _{nécessairement}_mettre _en _évidence _que _les attributs _d'objets_ou_de_composants,_ils _peuvent_également_se_référer_à_{l'objet lui-même.}

Les _{parties suivantes}_vont _utiliser_ce _modèle_pour _{faire référence à}_{des opinions}_ainsi

que des objets cibles. Dans ce chapitre, l'accentsera mis sur l'exemple des produitsqui

représententun exemple concretde modèle d'objet discuté ci-dessus. Ainsi, le mot ' fonction (caractéristique)' correspond aux composants et aux attributs, ce quipermettra également de simplifierle modèleenomettantla hiérarchie.

Caractéristiques Explicites etimplicites

Quand unecaractéristique fest rapidement disponibles dans un commentaire R,f

est_appelée _une_{caractéristique} _explicite. _Il _ya _des _cas _où _une _{caractéristique} _{f n'est}

pas disponible rapidement, dans R, donc elle est considéré comme une

caractéristique implicite. Exemple 1:

I. Lavie de la batterie de cet_appareil _{est trop courte}

II. Cet_{appareil photo} _{est trop}_grand

Dans la _première _{phrase, la vie de la batterie} _est_une _{caractéristique explicite,} _tandis

quedans la seconde, la taille estune caractéristique implicite.La taille n'est pas mentionnée

dans cette _{phrase, mais} _il _est _{facile de} _comprendre _que _«_grand _» _indique_une

caractéristique négative de l'attribut taille.

Opinion explicite etimplicite

Une _{opinion explicite}_{sur une} _{caractéristique} _f _est_{celle qui} _{exprime directement}_les

aspectspositifs ou négatifs d'une caractéristique f. Une opinion implicite sur une

caractéristique festunephrase objective qui impliqueune opinion.

Exemple2:

I. La_{qualité d'image de}_cette _caméra_est_incroyable. II. Cetteécouteur s'estbriséendeux_jours.

L'exemple ci-dessus tiré de (6)montre que dans la premièrephrase est claire et

explicitet que l'opinionsur la qualité d'imageest positive. Dans le second cas, l'opinion

surl'écouteur n'est pas explicite, mais _on _peut _supposer qu'elle _est négative, basé _sur

(29)

2.2 Architecture d'un

_{système d'Opinion}

_Mining

Un _système _{d'Opinion Mining proposé} _par ₍₆₎ _et₍₅₎ _est _composé _par _les _éléments

suivants, commeillustrédansla_figure _3.

Opinion Sentence Orientation Identification

Summary Génération

EU

Figure 3:Architecture d'un système d'extractiond'opinion (5)

Le _système _compte _un _{robot, qui} _télécharge _tous _{les commentaires}_et _{les stocke}

dans la base de données. _Après_que_{POS Tagger} _tague _toutes _les

critiques qui travaillentcomme des crochetspour la partie responsable del'exploitation des caractéristiques fréquentes .Cetteétape est ignoréepar certains systèmesd'annotation qui la

font manuellement comme dans ₍₇₎ _où_les _ontologies _sont_utilisées_pour _annoter_les

caractéristiques des filmsmanuellement. Ensuite, avecles phrases marquées et les caractéristiques identifiées, les motsd'opinion sont extraits et leurs orientations sémantiques sontidentifiées à l'aide deWordNet. Maintenant, avec les mots d'opinion identifiées et extraites, le système identifie les caractéristiquesrares. Dans la dernière _{partie du} _processus _{l'orientation de} _chaque_phrase _est _identifiée, _et _un _résumé _est

(30)

2.2.1 _{Part-of-Speech} _Tagging

Dans ₍₅₎ _et₍₆₎ _un _tagueur _(POS _tagger) _a _été _utilisé _pour _produire _pour_chaque _mot

une _{part-of-speech} _{(diviser les opinions} _en _phrases), _comme _indiqué _{dans le} _chapitre

précédent. La raison pour laquelle les avis sont partagés en phrases est essentiellement de

parvenir à la granularité la plus fine autant d'aspects discutés qui peuvent résider dans les

différentes _{phrases qui} _composent _{l'ensemble du} _texte. _{Plus tard, il} _sera _discuté _{le niveau} _de

granularitéoptimale pouranalyser des opinions.

Les _{phrases marqués}_produite _par _le_NLProcessor_dans _cette _étape,_jouera _un _{rôle très}

important pour lereste du système. Dans l'identification des caractéristiques, un système

d'extraction des données _{dépendra des} _{nom ou}_{phrases nominales} _{(deux à} _trois_noms_voisins dansune _{phrase) générée} _dans_cette _étape_pour _produire _un_certain _nombre _de caractéristiquesfréquentes.En outre, la classification du sentimentdépendra des mots

classifiés à la fois comme des _adjectifs _et _{des adverbes dans} _cette _étape _pour _produire_un ensemble demots_{d'opinion possible.}

Mot et_phrase_d'opinion

Un mot _d'opinion _est _un _terme _utilisé _par ₍₅₎ _et ₍₆₎ _pour _{faire référence à} _un _mot _qui estnormalement _qualifié _comme_un _objet _{ou un}_{attribut de}_cet _{objet. Ils} _sont_{généralement} _les

adjectifs et les adverbes, mais ils peuvent aussi être des noms et des verbes. Une phrase d'opinion estune phrase quidétient aumoins uneréférence à l'objet (qui pourrait être l'objet lui-même ou tout autre attribut de _l'objet) _et _{comprend également} _{un ou} _plusieurs _mots

d'opinion. Les phrases «J'ai acheté cette caméra l'année dernière. Depuis lors, j'ai été très

heureux avec sa _{qualité d'image.". Ici, la première phrase} _sera _rejetée _et _{ne sera pas} _encore analysée puisqueaucun motd'opinion n'a été trouvé.La seconde phrase satisfait ladéfinition

d'une _phrase _d'opinion _{puisque heureux} _est _un _mot _d'opinion _et _{la qualité} _d'image _est _une

caractéristique de l'appareil photo.

2.3 Identification des

_{caractéristiques}

L'Identification des _{caractéristiques}_est _le _processus _utilisé_pour _{déduire les}

caractéristiques possibles des produits en dehors des textesmarqués générés parla dernière étape. Lesdeux (5) et(6)utilisent des heuristiquespourlesmotsqui sontles plus susceptibles

d'êtreune _{caractéristique dans} _une_{phrase. Normalement, le part-of-speech} _est le responsable

de donner desnoms aux entités du monde réel _qui _sont _des _noms, _dans _{ce cas un} _nom_donne un nom au produit _et_à _ses caractéristiques _(zoom, la vie de _la batterie, qualité d'image,

(31)

etc.) Dans ces travaux, ils définissent deux catégories de caractéristiques, des caractéristiques fréquentes etdes caractéristiquesnonfréquentes.

Dans_(7)une _approche _basée _sur _l'ontologie _a _été_utilisée _pour_extraire _les

caractéristiques d'opinions. Dans leur travail, ils l'ont expérimenté avec des critiques des

films, oùils identifientdesphrases contenantlesterminologies d'ontologie.

Ici, il est _{important de différentier} entre les deux approches avec leurs avantages et

inconvénients. Dans ₍₅₎ et (6), l'identification des caractéristiques est effectuée automatiquement. Legrandavantage decetteméthodeest d'effectuer l'ensembleduprocessus

automatiquement, avec une intervention humaine minime. Leplus grand inconvénient estque la sortie _{(les caractéristiques fréquentes) dépendra beaucoup} _{du nombre d'avis} _en _cours

d'analyse.

En _outre, _il _n'ya _aucune _garantie _qu'une _{caractéristique fréquente trouvées} _par _le système est en fait une caractéristique réelle. Dans (7) et d'autres travaux où les caractéristiques ont été annotées manuellement, l'avantage est que le système peut toujours

identifier les _{caractéristiques réelles, étant fréquentes} _{ou non.} _{Cela dépendra juste de} l'exactitude de l'annotation faite _{précédemment.} _{Cependant, L'inconvénient majeur} _est _qu'un

grand nombre d'annotations doit être fait. Usne peuventpas être seulement spécifiques àdes

catégories (comme les caméras numériques, jeux vidéo, téléphones cellulaire), mais ils pourraientêtre encoreplus spécifiques tels que des modèles d'une marque spécifique (Nikon

P90, Nikod D5000, etc.) Cela rendrait l'annotation des caractéristiques un travail très dur.

Aussi, les gens peuvent commenter le manque de caractéristiques d'un produit donné, ou ils

peuvent utiliser différents mots pour désigner la même caractéristique pour laquelle un

système avec une annotation manuelle de caractéristiques va échouer à la reconnaître.

Comptetenu de la brève comparaison entre les différentes approches ci-dessus, les méthodes

explorées dans (5) et (6) ont besoin d'une intervention humaine minimale pour accomplir leurstâchesce_qui_{pourrait être}amélioré plustard_pard'autres méthodes

2.3.1 Identificationde _{caractéristiques}_fréquentes

Dans ₍₅₎ , et(6), les systèmes proposés font l'extraction uniquement des noms oudes syntagmesnominaux (caractéristiques explicites possibles) à partirdu texte. Dans cette étape,

lesnomsextraits sont_{appelés caractéristiques}_{des candidats.}

Puis un _{algorithme d'exploration d'association} _trouvera _{les objets fréquents, qui} _sont

l'ensemble des _{caractéristiques fréquentes (ceux dont} _{nombreux utilisateurs} _en _discutent). L'idée derrière cette _technique _est _que _les _{caractéristiques qui apparaissent} _{dans des}

(32)

nombreuses _opinions _ont _{plus de chance} _{d'être pertinentes,} _et _par _conséquent, _plus

susceptibles d'être effectivement une caractéristique du produit réel. L'algorithme (8) a été

utilisé pourgénérerl'ensemble des éléments fréquents. Toutefois,pourcettetâche il n'yavait

pasbesoin des règlespourtrouverd'associationentre les objets.

2.3.2 Identification de _{caractéristiques} _non_fréquentes

Une _{heuristique très} _simple_a _été _utilisée _dans ₍₅₎ _pour _{découvrir les}

caractéristiques possiblesnonfréquentes (ceux référencéespar unpetitnombre de personnes).

Exemple 3:

I. Les_photos _sont_{absolument incroyables.} II. Le_{logiciel qui vient} _avec, _il _est_incroyable.

Dans _{l'exemple ci-dessus, les} _deux _phrases_ont_un _mot_commun _d'opinion _: incroyable. Parce que le mot d'opinionpeut êtreutilisé pour décrire plus d'un objet, ces

mots_d'opinion _sont _utilisés_pour _{chercher des caractéristiques} _{qui n'ont} _{pas pu}_être _trouvées

dans _l'étape _décrite_avant. _Les _{caractéristiques}non fréquentes sontextraites comme illustré dans la_figure ₄ .

for each sentencein the review database

if_(it_contains _no _{fréquent feature but} _one_{or more}_opinion words)

{ findthenearestnoun/noun phrase around the opinion word The noun/noun_{phrase is stored in ttie feature}

setas an_{mfrequent feature.} _}

Figure 4:L'extraction de caractéristiquespeufréquentes

2.3.3 _{Analyse des sentiments des} _opinions

La classification des sentiments ou de_{l'analyse des sentiments} _est_undomaine d'étude

qui viseà classer les sentimentscodées pardestextescommelemontre l'exemple suivant:

Exemple4:

I. Lafille esten colère ->_négative

II. Lesoleilestabsolument_{magnifique aujourd'hui}_->_positive

Le mot sentiment est_synonyme _{de polarité} _et_{les deux} _sont_{largement utilisés} _pour

décrire l'orientation des textes, des _phrases et des mots commedans l'exemple 4. Letravail

portera surle la classification des sentiments de textes des avis des utilisateurs, d'où le nom

sentiment_d'opinion.

Le _{travail effectué par} ₍₉₎ _et ₍₁₀₎ _{classifient chacun des opinions} _{des utilisateurs} _dans

(33)

Dans _(6), _{chaque caractéristique} _au_{sein d'une opinion} _a _un_{sentiment associé. La}_raison_pour laquelle cette dernière approche est préférable aux autres, est facile à réaliser grâce à une

simple observation. Pour l'illustrer, pensez à un site web spécialisé pourles caméras, où les clients_peuvent_écrire _leurs _opinions _{sur un}_{certain produit,} _comme _{illustré dans la figure} . Le

titulaire d'un avis _{pourrait attirer} _l'attention _tant _pour _les _aspects _positifs _et _{négatifs d'un} certain _{produit, le} _tout _{dans le même} _texte _(avis). _En _outre, _{l'approche de fractionnement} _de l'avis en _phrases _et _en _trouver _{le sentiment de chacun d'eux} _peut _toujours _ne _pas _être

suffisant. Par_exemple _{la phrase: «J'aime} _mon _{appareil photo} _et _le_zoom _24x, _{mais je} _pense

que la vie de la batterie est trop courte ". Ici, il est facile de comprendre que la phrase est

«_plus _positif_que_{négatif», mais qui cachent}_{encore un}_aspect_{négatif de la caméra} _en_cours de

discussion. Cela _peut _représenter _un _{élément très important de l'information, qui} _peut _être

masqué en classant laphrase entière comme positive. Pour cette raison, la méthode explorée

par (6) permet d'atteindre un niveau de granularité optimale car elle traite chaque attribut de l'OuD avec les détails nécessaires. La _{partie présente} _une méthode explorée _par (6) _et (5)

pourtrouverl'orientation desmotsd'opinion.

2.3.3.1 Identification des mots desentiment

Les mots _d'opinion _codent _un_état _émotionnel, _qui _peut _être_désirable _ou

indésirable.lesmots _d'opinion _qui _codent _les _états _{souhaitables (beau,} _gentil,

heureux, génial)ontune orientation positive, tandis que ceux qui codent les états indésirable_(mauvais, _{terrible, décevant)}_ont une orientationnégative. Comme déjà discuté,

les mots_d'opinion_peuvent _appartenir _à_plusieurs _groupes _syntaxiques, _mais _ils _sont

généralement les adjectifset les adverbes. Dans (5), et(6) unesolution simple etefficace aété

proposé pour trouver l'orientation des mots d'opinion. Les auteurs ont utilisé une liste avec certains _adjectifs _et _{leurs orientations} _respectives _annotées. _L'idée _est _d'utiliser _{Wordnet (un}

système de référence lexicale en ligne qui organis des mots dans des ensembles synonyme,

appelés synsets), pourrechercher desmots trouvés dans les opinions, et enrichir laliste avec les nouveaux mots trouvés. Dans_{WordNet, les} _adjectifs _sont_organisés_comme _des grappesbipolaires, commeillustré dans la figure 5. Le clusterfast/slow est constituéde deux

moitiés de cluster .fast etson_antonyme _slow _sont _appelés _head _synsets _.Chaque _head _synset

a un satellite _synsets_a qui lui _sont associés, qui _sont_des significations_pour le head

synsetcorrespondant.En outre, la flèche en pointillés dans la figure représente

(34)

Figure5:Structure Bipolaire desadjectifs(S)

Pour _chaque _nouveau _mot _trouvé _(qui _n'est _pourtant _pas _{dans la} _{liste), le système} recherche dans WordNet _pour _des _synonymes _possibles. _Si _tout _synonyme _trouve _une

correspondance dans la liste et parce que les synonymes sont des mots différents avec la

même _{signification,} _{le système comprend} _ce _mot _{dans la liste} _en _{lui donnant} _{la même} orientation _que _le _synonyme _{dans la liste. Si} _{aucun synonyme} _n'est_trouvé, _{alors le système} recherche un _antonyme. _Si _un _antonyme _existe _et _il _{a une} _{correspondance} dans la liste, le nouveau mottrouvé est inclu. Toutefois, en raison des antonymes qui ont une signification

opposée, lamême règle estappliquée à l'orientation qui sera également l'orientation opposée

comme la correspondance _trouvée dans la liste. Pendant _{ce processus,} la liste _va croître.les motsavec aucuncorrespondance_peuventtomber dans l'undes deux_{cas :}

(1) Ils n'ont aucune correspondance dans la liste, et par conséquent ils devraient être annotésmanuellement_{plus tard.} _{(2) Le}_mot _{dépend du}_contexte, _{donc la partie du système}_qui

gèreles motsdépendants ducontextevadécider desonorientation.

Ce processus peut être mieux remarqué dans la figure7. Dans leur travail, la liste a débuté avec 30 _{adjectifs, des} _{adjectifs positifs (grand,} _{fantastique,)} _et _les _adjectifs négatifs (mauvais, ternes).

2.3.3.2 Déterminer lesentiment _d'opinionsau niveau des phrases

Une _opinion _peut _{être analysée à différents niveaux de} _{granularité. La} _{figure 6} présente unepseuco-code qui vise àtrouverle sentiment d'opinions auniveau de laphrase.La

partie suivante,va analyser le sentiment d'une opinion au niveau de caractéristique, telle que