• Aucun résultat trouvé

Apprentissage des critères pour prédire l’intensité de contradiction

3 Notre approche : Prédiction de l’intensité des contradictions

3.4 Apprentissage des critères pour prédire l’intensité de contradiction

D’autres expérimentations ont été menées en exploitant ces critères dans des approches supervisées basées sur des mo-dèles d’apprentissage. Nous avons utilisé les instances (les cours) des 22 aspects de la collectioncoursera.orgcomme ensembles d’apprentissage. Nous avons ensuite utilisé trois algorithmes d’apprentissage. Ce choix s’explique par le fait qu’ils ont souvent montré leur efficacité dans les tâches d’analyse de texte : SVM [39], J48 (implémentation C4.5) [30] et Naive Bayes [43]. L’entrée de chaque algorithme est un vecteur de critères (voir table 5), soit tous les critères ou seulement les critères sélectionnés par un algorithme de sélection précis. Les algorithmes d’apprentissage prédisent la classe d’intensité de contradiction pour les cours (Very Low, Low, StrongetVery Strong). Enfin, nous avons appli-qué une validation croisée pour 5 itérations (5-folds cross-validation). La figure 3 illustre le processus d’apprentis-sage que nous avons mis en place pour l’évaluation des cri-tères. Nous rappelons que la phase des algorithmes de sé-lection d’attributs a fait ressortir les ensembles de critères suivants (voir la table 7).

La question à ce stade est liée à la spécification du vecteur de critères d’entrée pour les algorithmes d’apprentissage, soit on prend tous les critères, soit on garde uniquement ceux sélectionnés par les techniques de sélection d’attri-buts. Dans ce cas, avec quels algorithmes d’apprentissage ces derniers seront combinés.

Afin de prendre en compte les critères choisis par les al-gorithmes de sélection dans des modèles d’apprentissage, nous nous sommes basés sur les travaux de Hall et Holmes [12]. Ils ont étudié l’efficacité de certaines techniques de sélection d’attributs en les confrontant avec les techniques d’apprentissage. Étant donné que la performance des cri-tères diffère d’une technique d’apprentissage à une autre, ils ont identifié les meilleures techniques de sélection d’at-tributs permettant de retrouver les critères les plus perfor-mants en fonction des techniques d’apprentissage à utiliser.

En se basant sur leur étude, nous avons utilisé les mêmes couples des techniques d’apprentissage et des techniques de sélection d’attributs :

— L’ensemble des critères sélectionnés par CfsSubsetE-val(CFS) etWrapperSubsetEval(WRP) sont appris par le modèle Naïve Bayes.

— L’ensemble des critères sélectionnés par ReliefFAttri-buteEval(RLF) sont appris par le modèle J48 (C4.5 implementation).

— L’ensemble des critères sélectionnés par SVMAttribu-teEval(SVM) sont appris par le modèle SVM à multi-classes (appeléSMO functionsur Weka).

Afin de vérifier la significativité des résultats par rapport aux résultats de Naïve Bayes (considérés comme réfé-rences - résultats de base), nous avons effectué le test de IC

Algorithm Metric c1 c2 c3 c4 c5 c6 c7 c8 c9 c10

CfsSubsetEval [Folds] 5 5 2 0 0 0 0 0 5 5

WrapperSubsetEval [Folds] 4 4 4 2 0 0 0 2 5 5

ConsistencySubsetEval [Folds] 5 5 4 2 1 1 2 2 5 5

FilteredSubsetEval [Folds] 5 5 4 3 2 2 3 3 5 5

Moyenne 4.75 4.75 3.5 1.75 0.75 0.75 1.25 1.75 5 5

ChiSquaredAttributeEval [Rank] 3 4 5 7 9 10 8 6 2 1

FilteredAttributeEval [Rank] 4 3 5 7 9 10 8 6 2 1

GainRatioAttributeEval [Rank] 3 4 5 7 9 10 8 6 2 1

InfoGainAttributeEval [Rank] 3 4 5 7 9 10 8 6 1 2

OneRAttributeEval [Rank] 4 3 5 7 9 10 8 6 2 1

ReliefFAttributeEval [Rank] 4 3 6 8 9 10 7 5 1 2

SVMAttributeEval [Rank] 4 3 5 7 9 10 8 6 2 1

SymetricalUncertEval [Rank] 3 4 5 7 9 10 8 6 2 1

Moyenne 3.5 3.5 5.12 7.12 9 10 7.87 5.87 1.75 1.25 TABLE6 – Les critères sélectionnés par les algorithmes de sélection d’attributs

FIGURE3 – Processus d’apprentissage en utilisant les algorithmes de sélection Algorithmes de sélection Critères

CfsSubsetEval c1,c2,c3,c9,c10 WrapperSubsetEval c1,c2,c3,c4,c8,c9,c10

Other algorithms c1,c2,c3,c4,c5,c6,c7,c8,c9,c10 TABLE7 – Ensembles des critères sélectionnés Student [33]. Nous avons attaché * (forte signification) et

** (très forte signification) aux résultats de la table 8 quand p-value<0.05etp-value<0.01, respectivement.

La table 8 présente les résultats des trois algorithmes d’ap-prentissage des critères ressortis de l’étude utilisant les techniques de sélection d’attributs. Les résultats sont dis-cutés ci-dessous pour chaque algorithme d’apprentissage.

Résultats obtenus par Naïve Bayes (Baseline). Les ré-sultats en termes de précision obtenus en utilisant des algo-rithmes de sélection CFS et WRP avec NaiveBayes, sont

de 0.68 et 0.72, respectivement. Ces résultats dépassent ceux obtenus en utilisant tous les critères (précision : 0.60).

En effet, nous avons enregistré des taux d’amélioration moyens de 14% et 20% pour Naïve Bayes en utilisant seulement les critères sélectionnés par CFS (0.68) et WRP (0.72), respectivement, par apport au résultat obtenu en uti-lisant tous les critères (0.60). Par conséquent, les approches d’apprentissage automatique peuvent donner une meilleure efficacité (précision) quand ils sont combinés avec des ap-proches de sélection d’attributs. Les meilleures précisions IC

Classifieurs Classes (Niveaux d’intensité) Techniques de sélection Tous les critères

Naïve Bayes (Baseline)

Very Low 0.81 (CFS) 0.71

Low 0.38 (CFS) 0.34

Strong 0.75 (CFS) 0.66

Very Strong 0.78 (CFS) 0.69

Moyenne 0.68 (CFS) 0.60

Very Low 0.86 (WRP) 0.72

Low 0.46 (WRP) 0.38

Strong 0.76 (WRP) 0.63

Very Strong 0.80 (WRP) 0.67

Moyenne 0.72 (WRP) 0.60

SVM

Very Low 0.88(SVM) 0.88

Low 0.72∗∗(SVM) 0.72∗∗

Strong 0.78(SVM) 0.78

Very Strong 0.90∗∗(SVM) 0.90∗∗

Moyenne 0.82∗∗(SVM) 0.82∗∗

J48

Very Low 0.97∗∗(RLF) 0.97∗∗

Low 0.92∗∗(RLF) 0.92∗∗

Strong 0.97∗∗(RLF) 0.97∗∗

Very Strong 0.98∗∗(RLF) 0.98∗∗

Moyenne 0.96∗∗(RLF) 0.96∗∗

TABLE8 – Les résultats de précision Weka pour les techniques d’apprentissage automatique sont obtenues pour les classesVery Strong, StrongetVery

Low. Il semble que la classeLowest difficile à prédire avec Naïve Bayes, tout en utilisant à la fois les deux algorithmes de sélection CFS (0.38) et WRP (0.46).

Résultats obtenus par SVM. Les résultats obtenus par SVM en utilisant l’algorithme de sélection SVMAttributeE-val, où tous les critères ont été sélectionnés, sont meilleurs par rapport à ceux obtenus par Naïve Bayes. Nous avons enregistré des taux d’amélioration moyens de21%et14%

pour SVM par rapport à Naïve Bayes en utilisant CFS et WRP, respectivement. Nous avons également remarqué que SVM était capable de prédire la classeLowavec une meilleure précision que celle fournie par Naïve Bayes.

Même si l’algorithme SVM est un peu coûteux en termes de temps d’exécution par rapport à Naïve Bayes, il reste favoriser pour obtenir des résultats significatifs en termes de précision.

Résultats obtenus par J48. Les résultats confirment que l’arbre de décision J48 est le modèle le plus approprié, il prend en compte tous les critères de manière plus ef-ficace que les autres configurations. Les taux

d’améliora-tion moyens par rapport à Naïve Bayes (en utilisant CFS et WRP) et SVM sont 41%, 33% et 17%, respectivement. En outre, les améliorations sont également fortement significa-tives pour chaque classe par rapport à SVM et Naïve Bayes.

La classeLow, difficile à prédire avec les configurations précédentes, a été prédite avec une très forte précision de 92%. Comparées à Naïve Bayes (en utilisant CFS et WRP) et SVM, les améliorations enregistrées concernant la classe Lowsont de 142%, 100% et 28%, respectivement.

Enfin, tous ces résultats expérimentaux montrent claire-ment que l’approche proposée permet de détecter de ma-nière significative l’intensité de la contradiction dans les commentaires. Nous avons constaté que les résultats ob-tenus, par les deux algorithmes CFS et WRP, confirment l’hypothèse lancé par Hall et Holmes. C’est en effet les deux seuls cas pour lequel les résultats de précision obte-nus avec la sélection d’attributs, soient 0.68 (CFS) et 0.72 (WRP), dépassent l’utilisation de tous les critères, 0.60 en termes de précision. Ces améliorations montrent l’intérêt de combiner les algorithmes de sélection d’attributs avec les modèles d’apprentissage. En outre, le modèle J48 a IC

donné les meilleures améliorations par rapport à toutes les autres configurations. Nous concluons que les ressources (cours) ayant des opinions plus diversifiées (commentaires positifs et négatifs), sont susceptibles d’avoir des contra-dictions avec différents niveaux d’intensité.

4 Conclusion

Cet article propose une approche supervisée exploitant un ensemble de critères permettant de prédire l’intensité de la contradiction, en attirant l’attention sur les aspects dans lesquels les utilisateurs ont des opinions contradictoires.

L’intuition derrière l’approche proposée est que les nota-tions et les sentiments associés aux commentaires sur un aspect spécifique peuvent être considérés comme des cri-tères (ex. diversité des sentiments et des notations en fonc-tion de l’écart-type) pour mesurer l’intensité de contra-diction. L’évaluation expérimentale menée sur la collec-tion issue decoursera.orgmontre que les critèresNegCom, PosCom, VarNot et VarPol sont les plus fructueux pour prédire l’intensité de la contradiction. De plus, les algo-rithmes d’apprentissage basés sur les critères les plus per-tinents selon les algorithmes de sélection d’attributs sont généralement mieux comparés à ceux obtenus lorsque les algorithmes de sélection d’attributs sont ignorés. L’algo-rithme J48 apporte les meilleurs résultats par rapport à Naïve Bayes et SVM. Enfin, nous notons que nous sommes conscients que l’évaluation de notre approche est encore li-mitée. La principale faiblesse de notre approche est sa dé-pendance à la qualité des modèles de sentiments et d’ex-traction d’aspect. D’autres expérimentations à plus grande échelle sur d’autres types de collections sont également en-visagées. Ceci étant même avec ces éléments simples, les premiers résultats obtenus nous encouragent à investir da-vantage cette piste.

Références

[1] Ahmed Hassan Awadallah, Amjad Abu-Jbara, and Dragomir R. Radev. Detecting subgroups in online discussions by modeling positive and negative re-lations among participants. In Proceedings of the 2012 Joint Conference on Empirical Methods in Na-tural Language Processing and Computational Natu-ral Language Learning, EMNLP-CoNLL 2012, July 12-14, 2012, Jeju Island, Korea, pages 59–70, 2012.

[2] Ismail Badache and Mohand Boughanem. Harnes-sing social signals to enhance a search. In Procee-dings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT) - Volume 01, WI-IAT ’14, pages 303–309, Washington, DC, USA, 2014.

[3] Ismail Badache and Mohand Boughanem. Emotio-nal social sigEmotio-nals for search ranking. InProceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’17, pages 1053–1056, New York, NY, USA, 2017. ACM.

[4] Ismail Badache and Mohand Boughanem. Fresh and diverse social signals : Any impacts on search ? In Proceedings of the 2017 Conference on Conference Human Information Interaction and Retrieval, CHIIR

’17, pages 155–164, New York, NY, USA, 2017.

ACM.

[5] Ismail Badache, Sébastien Fournier, and Adrian-Gabriel Chifu. Finding and quantifying temporal-aware contradiction in reviews. In Information Re-trieval Technology - 13th Asia Information ReRe-trieval Societies Conference, AIRS 2017, Jeju Island, South Korea, November 22-24, 2017, Proceedings, pages 167–180, 2017.

[6] Ismail Badache, Sébastien Fournier, and Adrian-Gabriel Chifu. Harnessing ratings and aspect-sentiment to estimate contradiction intensity in temporal-related reviews. InKnowledge-Based and Intelligent Information & Engineering Systems : Pro-ceedings of the 21st International Conference KES-2017, Marseille, France, 6-8 September 2017., pages 1711–1720, 2017.

[7] Ramnath Balasubramanyan, William W. Cohen, Dou-glas Pierce, and David P. Redlawsk. Modeling polari-zing topics : When do different political communities respond differently to the same news ? InProceedings of the Sixth International Conference on Weblogs and Social Media, Dublin, Ireland, June 4-7, 2012, 2012.

[8] Jacob Cohen. A coefficient of agreement for nominal scales. Educational and psychological measurement, 20(1) :37–46, 1960.

[9] Marie-Catherine de Marneffe, Anna N. Rafferty, and Christopher D. Manning. Finding contradictions in text. In ACL 2008, Proceedings of the 46th Annual Meeting of the Association for Computational Lin-guistics, June 15-20, 2008, Columbus, Ohio, USA, pages 1039–1047, 2008.

[10] Shiri Dori-Hacohen and James Allan. Automated controversy detection on the web. InAdvances in In-formation Retrieval - 37th European Conference on IR Research, ECIR 2015, Vienna, Austria, March 29 - April 2, 2015. Proceedings, pages 423–434, 2015.

[11] Kiran Garimella, Gianmarco De Francisci Morales, Aristides Gionis, and Michael Mathioudakis. Quan-tifying controversy in social media. InProceedings of the Ninth ACM International Conference on Web Search and Data Mining, San Francisco, CA, USA, February 22-25, 2016, pages 33–42, 2016.

[12] Mark A. Hall and Geoffrey Holmes. Benchmarking attribute selection techniques for discrete class data mining.IEEE Trans. Knowl. Data Eng., 15(6) :1437–

1447, 2003.

[13] Hussam Hamdan, Patrice Bellot, and Frédéric Bé-chet. Lsislif : CRF and logistic regression for opi-nion target extraction and sentiment polarity analysis.

IC

InProceedings of the 9th International Workshop on Semantic Evaluation, SemEval@NAACL-HLT, Colo-rado, USA, June 4-5, 2015, pages 753–758, 2015.

[14] Sanda M. Harabagiu, Andrew Hickl, and V. Finley Lacatusu. Negation, contrast and contradiction in text processing. In Proceedings, The Twenty-First Na-tional Conference on Artificial Intelligence and the Eighteenth Innovative Applications of Artificial Intel-ligence Conference, July 16-20, 2006, Boston, Mas-sachusetts, USA, pages 755–762, 2006.

[15] Amal Htait, Sébastien Fournier, and Patrice Bellot.

LSIS at semeval-2016 task 7 : Using web search engines for english and arabic unsupervised senti-ment intensity prediction. In Proceedings of the 10th International Workshop on Semantic Evalua-tion, SemEval@NAACL-HLT 2016, San Diego, CA, USA, June 16-17, 2016, pages 469–473, 2016.

[16] Minqing Hu and Bing Liu. Mining and summari-zing customer reviews. InProceedings of the Tenth ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining, Seattle, Washing-ton, USA, August 22-25, 2004, pages 168–177, 2004.

[17] Melanie Imhof, Ismail Badache, and Mohand Bou-ghanem. Multimodal social book search. InWorking Notes of CLEF 2015 - Conference and Labs of the Evaluation forum, Toulouse, France, September 8-11, 2015., 2015.

[18] Myungha Jang and James Allan. Improving automa-ted controversy detection on the web. InProceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval, SIGIR 2016, Pisa, Italy, July 17-21, 2016, pages 865–

868, 2016.

[19] Myungha Jang, John Foley, Shiri Dori-Hacohen, and James Allan. Probabilistic approaches to controversy detection. In Proceedings of the 25th ACM Inter-national Conference on Information and Knowledge Management, CIKM 2016, Indianapolis, IN, USA, October 24-28, 2016, pages 2069–2072, 2016.

[20] Suin Kim, Jianwen Zhang, Zheng Chen, Alice H. Oh, and Shixia Liu. A hierarchical aspect-sentiment mo-del for online reviews. InProceedings of the Twenty-Seventh AAAI Conference on Artificial Intelligence, July 14-18, 2013, Bellevue, Washington, USA., 2013.

[21] Moshe Looks, Marcello Herreshoff, DeLesley Hut-chins, and Peter Norvig. Deep learning with dynamic computation graphs.CoRR, abs/1702.02181, 2017.

[22] Julian J. McAuley, Rahul Pandey, and Jure Lesko-vec. Inferring networks of substitutable and com-plementary products. In Proceedings of the 21th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining, Sydney, NSW, Aus-tralia, August 10-13, 2015, pages 785–794, 2015.

[23] Saif Mohammad, Svetlana Kiritchenko, and Xiao-dan Zhu. Nrc-canada : Building the state-of-the-art in sentiment analysis of tweets. InProceedings of the 7th International Workshop on Semantic Evalua-tion, SemEval@NAACL-HLT 2013, Atlanta, Georgia, USA, June 14-15, 2013, pages 321–327, 2013.

[24] Arjun Mukherjee and Bing Liu. Mining conten-tions from discussions and debates. In The 18th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining, KDD ’12, Beijing, China, August 12-16, 2012, pages 841–849, 2012.

[25] Bo Pang, Lillian Lee, and Shivakumar Vaithyana-than. Thumbs up ? sentiment classification using ma-chine learning techniques. InProceedings of the 2002 Conference on Empirical Methods in Natural Lan-guage Processing, EMNLP 2002, Philadelphia, PA, USA, July 6-7, 2002, 2002.

[26] ES Pearson and MA Stephens. The ratio of range to standard deviation in the same normal sample. Bio-metrika, 51(3/4) :484–487, 1964.

[27] Ana-Maria Popescu and Marco Pennacchiotti. De-tecting controversial events from twitter. In Procee-dings of the 19th ACM Conference on Information and Knowledge Management, CIKM 2010, Toronto, Ontario, Canada, October 26-30, 2010, pages 1873–

1876, 2010.

[28] Soujanya Poria, Erik Cambria, Lun-Wei Ku, Chen Gui, and Alexander F. Gelbukh. A rule-based approach to aspect extraction from product re-views. In Proceedings of the Second Workshop on Natural Language Processing for Social Media, SocialNLP@COLING, Dublin, Ireland, August 24, 2014, pages 28–37, 2014.

[29] Minghui Qiu, Liu Yang, and Jing Jiang. Modeling in-teraction features for debate side clustering. In22nd ACM International Conference on Information and Knowledge Management, CIKM’13, San Francisco, CA, USA, October 27 - November 1, 2013, pages 873–878, 2013.

[30] J. Ross Quinlan.C4.5 : Programs for Machine Lear-ning. Morgan Kaufmann, 1993.

[31] Alec Radford, Rafal Józefowicz, and Ilya Sutskever.

Learning to generate reviews and discovering senti-ment. CoRR, abs/1704.01444, 2017.

[32] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Ng, and Christopher Potts. Recursive deep models for seman-tic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical me-thods in natural language processing, volume 1631, pages 1631–1642, 2013.

[33] Student. The probable error of a mean. Biometrika, 6(1) :1–25, 1908.

IC

[34] Ivan Titov and Ryan T. McDonald. Modeling online reviews with multi-grain topic models. In Procee-dings of the 17th International Conference on World Wide Web, WWW 2008, Beijing, China, April 21-25, 2008, pages 111–120, 2008.

[35] Mikalai Tsytsarau, Themis Palpanas, and Malú Cas-tellanos. Dynamics of news events and social media reaction. InThe 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mi-ning, KDD ’14, New York, NY, USA - August 24 - 27, 2014, pages 901–910, 2014.

[36] Mikalai Tsytsarau, Themis Palpanas, and Kerstin De-necke. Scalable discovery of contradictions on the web. InProceedings of the 19th International Confe-rence on World Wide Web, WWW 2010, Raleigh, North Carolina, USA, April 26-30, 2010, pages 1195–

1196, 2010.

[37] Mikalai Tsytsarau, Themis Palpanas, and Kerstin De-necke. Scalable detection of sentiment-based contra-dictions.DiversiWeb, WWW, 1 :9–16, 2011.

[38] Peter D. Turney. Thumbs up or thumbs down ? se-mantic orientation applied to unsupervised classifi-cation of reviews. InProceedings of the 40th An-nual Meeting of the Association for Computational Linguistics, July 6-12, 2002, Philadelphia, PA, USA., pages 417–424, 2002.

[39] Jan Vosecky, Kenneth Wai-Ting Leung, and Wilfred Ng. Searching for quality microblog posts : Filtering and ranking based on content analysis and implicit links. InDatabase Systems for Advanced Applica-tions - 17th International Conference, DASFAA 2012, Busan, South Korea, April 15-19, 2012, Proceedings, Part I, pages 397–413, 2012.

[40] Lu Wang and Claire Cardie. A piece of my mind : A sentiment analysis approach for online dispute detec-tion. InProceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014, June 22-27, 2014, Baltimore, MD, USA, Vo-lume 2, pages 693–699, 2014.

[41] Lu Wang, Hema Raghavan, Claire Cardie, and Vit-torio Castelli. Query-focused opinion summariza-tion for user-generated content. InCOLING 2014, 25th International Conference on Computational Lin-guistics, August 23-29, 2014, Dublin, Ireland, pages 1660–1669, 2014.

[42] Show-Jane Yen and Yue-Shi Lee. Under-sampling approaches for improving prediction of the minority class in an imbalanced dataset. pages 731–740, 2006.

[43] Quan Yuan, Gao Cong, and Nadia Magnenat-Thalmann. Enhancing naive bayes with various smoothing methods for short text classification. In Proceedings of the 21st World Wide Web Conference, WWW 2012, Lyon, France, April 16-20, 2012 (Com-panion Volume), pages 645–646, 2012.

IC