• Aucun résultat trouvé

6.3 Contribution 1 : le composant AMI-Sent

Notre m´ethode hybride pour l’analyse d’opinions, d´ecrite dans le chapitre 3, a ´et´e int´egr´ee au sein de la plateforme AMIEI sous la forme d’un composant (module ind´ependant qui interagit avec les autres modules). Le composant AMI-Sent repose sur le module de collecte pour l’acquisition des donn´ees direc-tement `a partir d’un plan de veille. Ensuite, plusieurs pr´etraitements sont ap-pliqu´ees sur ces donn´ees (segmentation, nettoyage, repr´esentation, etc.) avant d’y appliquer la m´ethode d’analyse d’opinions. Enfin, les r´esultats de l’analyse sont restitu´es via une visualisation adapt´ee.

Figure 6.3.1 – Composant AMI-Sent : interface de configuration.

6.3.1 Configuration du composant AMI-Sent

Pour la mise en œuvre de la m´ethode hybride, rappelons qu’il faut disposer d’un corpus d’apprentissage annot´e. Afin de faciliter l’utilisation de ce compo-116

6.3. CONTRIBUTION 1 : LE COMPOSANT AMI-SENT

sant, nous avons construit quatre mod`eles d’analyse d’opinions sur la base de quatre corpus diff´erents. L’utilisateur choisit le mod`ele qui correspond `a ses besoins selon deux crit`eres : le type et la langue des donn´ees `a analyser. Les corpus et les pr´etraitements utilis´es pour la construction de ces quatre mod`eles sont donn´es dans le tableau 6.1.

Mod`ele Corpus Pr´etraitements

FR-TEXT critiques de films, hˆotels, restaurants [112]

mots vides, valeurs num´eriques

FR-TW 4 783 tweets collect´es et annot´es manuellement

mots vides, valeurs num´eriques, mots cl´es Twitter (RT, via, ..)

EN-TEXT critiques MDSen [10] mots vides, valeurs num´eriques

EN-TW tweets SemEval [122] mots vides, valeurs num´eriques, mots cl´es Twitter (RT, via, ..)

Table6.1 – Corpus et pr´etraitements utilis´es pour la construction des mod`eles d’analyse d’opinions.

La configuration du composant AMI-Sent est d´efinie par la langue et le type de donn´ees. Le composant AMI-Sent fonctionne selon quatre configurations diff´erents correspondant `a la combinaison des deux langues Fran¸cais et Anglais avec les deux types de donn´ees G´en´erique et Twitter. Le type de donn´ees G´en´erique correspond `a n’importe quel type de documents, mis `a part les tweets auxquels nous avons r´eserv´e un pr´etraitement particulier pour leurs sp´ecificit´es. Les quatre configurations sont donc Twitter”, “Fran¸cais-G´en´erique”, “Anglais-Twitter” et “Anglais-G´en´erique” (cf. figure 6.3.1). Nous avons cr´e´e les mod`eles d’analyse correspondant `a ces quatre configurations pr´ed´efinis mais le composant est extensible `a d’autres configurations.

6.3.2 Visualisation des r´ esultats

Les r´esultats de l’analyse d’opinions sont pr´esent´ees selon plusieurs dimen-sions, comme le montre la figure 6.3.2.

R´epartition des documents sur les polarit´es d’opinion. La premi`ere visualisation montre la r´epartition des documents analys´es sur les polarit´es de l’opinion (cf. figure 6.3.3). Cette information est restitu´ee `a l’aide d’un graphique en secteurs o`u chaque secteur correspond `a une polarit´e d’opinion.

6.3. CONTRIBUTION 1 : LE COMPOSANT AMI-SENT

Figure 6.3.2 – Composant AMI-Sent : vue d’ensemble de la visualisation des r´esultats.

Evolution volum´etrique. En se basant sur l’information temporelle (´ etiqu-ettes de temps associ´ees aux documents), le r´esultat de l’analyse est projet´e sur l’axe temporel afin de visualiser l’´evolution volum´etrique des polarit´es (fi-gure 6.3.4).

Nuage de termes. Les r´esultats de l’analyse d’opinions sont ´egalement vi-sualis´es par un nuage de termes. Pour cela, nous nous appuyons sur les r´esultats retourn´es par la m´ethode hybride et nous calculons un score de confiance pour chaque document class´e. Le score est compris entre 0 et 1 et il est calcul´e, pour un document d, de la mani`ere suivante :

– Les probabilit´es p(ci|d) sont tri´ees telles que : p(cm|d)> p(cn|d) > ... >

p(cp|d), o`uci sont les classes d’opinion (polarit´es).

– Le score de confiance Confiance(d) = p(cm|d) −p(cn|d). Il repr´esente l’´ecart entre la classe la plus probable et la deuxi`eme classe la plus pro-bable. Plus cet ´ecart est important, plus l’association entre le document d et la classe d’opinion m est forte.

Ensuite, nous proposons d’expliquer l’affectation d’un document d `a une classe d’opinion par les termes qui ont le plus contribu´e `a cette affectation.

Ceci est r´ealis´e de la mani`ere suivante :

– Soit cla classe d’opinion du document d (classe la plus probable).

– Evaluer chaque terme wi du document d selon un crit`ere de sp´ecificit´e (pouvoir discriminatif du terme au regard de la classe d’opinion). Ici, nous choisissons comme crit`ere le gain informationnel (IG). Ensuite, trier les 118

6.3. CONTRIBUTION 1 : LE COMPOSANT AMI-SENT

Figure 6.3.3 – Composant AMI-Sent : r´epartition des documents sur les po-larit´es d’opinion.

Figure 6.3.4 – Composant AMI-Sent : ´evolution volum´etrique de chaque po-larit´e d’opinion.

termes wi du document selon ce crit`ere : IG(wh|c) > IG(wi|c) > ... >

IG(wj|c).

– Les K premiers termes sont ceux qui “expliquent” le mieux cette affec-tation.

Nous pr´ecisons que les termes discriminants de deux classes diff´erentes sont deux ensembles disjoints. En effet, un terme ne peut ˆetre responsable de classer un texte que dans une seule classe.

Enfin, les termes discriminants issus de tous les documents du corpus sont fusionn´es afin de g´en´erer le nuage de termes. Celui-ci prend en compte deux caract´eristiques des termes : la fr´equence, en la rapportant sur la taille gra-phique du terme et la polarit´e en la rapportant sur sa couleur. Pour des raisons d’ergonomie et de lisibilit´e, la liste des termes est filtr´ee en prenant un petit ensemble K (en g´en´eral quelques dizaines) parmi les plus fr´equents.