4 Conclusion et perspectives - Conférence Nationale d'Intelligence Artificielle Année 2018

Notre étude a souligné l’efficacité des architectures d’apprentissage profond pour prédire des thèmes sur des données de forum. La visualisation originale sous forme de StreamGraph permet d’explorer de manière efficace tout en quantifiant les différentes catégories de IC

messages. La faisabilité de notre approche peut conduire à de nouvelles applications en santé basées sur les médias sociaux destinés aux patients et aux professionnels de santé.

Nos résultats montrent clairement le besoin d’études ca-pables d’analyser automatiquement des forums et d’en ex-traire des informations utiles. Nous proposons l’utilisation de l’apprentissage automatique et de la visualisation in-teractive pour relever ces défis. Cette étude reste prélimi-naire. Une étude plus approfondie sur les différents types de préparation des données, paramètres des algorithmes, modèles d’apprentissage permettrait d’affiner l’interpréta-tion des résultats de la phase 3. En particulier, différents regroupement de classes et l’interprétation des liens entre classes serait pertinent. Quels sont les sentiments associés à une prise de risque ? Est-ce que les réponses apportées dans les fils sont rassurantes ou satisfaisantes ? Comment s’in-forment les participants dans les forums ? Pour finir, une étude poussée sur l’utilité et l’utilisabilité de la visualisa-tion présentée en phase 4 est également nécessaire. Nous suggérons 4 perspectives.

Premièrement, nous prévoyons d’entreprendre une analyse à grande échelle en utilisant une collection de médias so-ciaux plus large (Autres forums, Facebook, Twitter, ...).

Cette analyse inclura l’application de méthode d’appren-tissage non supervisé de type Latent Dirichlet Allocation (LDA) [29, 41] pour extraire les thèmes émergeant des dis-cussions et l’exploration du style linguistique des différents utilisateurs [44, 43, 40]. Une attention particulière sera por-tée sur l’identification d’une typologie des risques encou-rus en lien avec le VIH (e.g. consommation de drogue, comportements sexuels atypiques, etc).

Deuxièmement, nous pensons que lorsque les ensembles de données sont petits, l’apprentissage est difficile. Une amé-lioration significative serait la mise en œuvre de techniques d’apprentissage actif [26]. En effet, dans ce type de tâche, il est important d’optimiser les informations disponibles afin que les systèmes de classification puissent les utiliser le plus efficacement possible pendant la phase d’apprentis-sage tout en préservant l’acquisition de nouveaux échan-tillons étiquetés [11]. L’utilisation de la visualisation pour guider les annotateurs vers des messages à annoter pourrait s’avérer également intéressante.

Troisièmement, au sein d’un ensemble de données suffi-samment important, nous pouvons tirer parti des modèles d’apprentissage automatique pour utiliser des fonctionna-lités plus complexes pour caractériser les utilisateurs qui postent ces messages. Nous suggérons de mettre l’accent sur les groupes d’utilisateurs, y compris les professionnels de la santé, les célébrités, le grand public et les associa-tions. Cela nous amènera à comprendre quel groupe d’uti-lisateurs est important, peut jouer le rôle d’influenceur, les incitant à partager leurs messages, à les aimer et à leur ré-pondre.

Pour finir, nous prévoyons d’étudier la distribution

tempo-relle des messages pour nous concentrer sur la dynamique des thématiques au fils du temps. Nous pouvons étudier les corrélations temporelles entre les réactions des internautes et les événements du monde réel comme les soirées de type Sidaction. Cette analyse exploratoire pourrait aider à identifier les facteurs contribuant à la sensibilisation.

Au-delà, nous pouvons également analyser la répartition géographique des messages.

Ce type d’étude est importante pour convaincre les parties prenantes, les professionnels de la santé et le grand public de s’impliquer et d’utiliser le Web 3.0 comme intelligence collective pour repousser les maladies telles que le VIH.

5 Remerciements

Ce travail s’intègre dans le projet #AIDS et a été sou-tenu par une subvention ANRS¹² en 2016. Les auteurs souhaitent remercier les gestionnaires du site Sida-Info-Service pour le partage des données et ses participants pour leur engagement à combattre le VIH.

Références

[1] Joint Named Entity Recognition and Disambiguation (September 2015).

[2] AIGNER, W., MIKSCH, S., SCHUMANN, H., AND

TOMINSKI, C. Visualization of Time-Oriented Data.

Springer, 2011.

[3] ANDOR, D., ALBERTI, C., WEISS, D., SEVERYN, A., PRESTA, A., GANCHEV, K., PETROV, S.,AND

COLLINS, M. Globally normalized transition-based neural networks, 2016. cite arxiv :1603.06042.

[4] BACCOUCHE, M., MAMALET, F., WOLF, C., GAR

-CIA, C.,AND BASKURT, A. Sequential deep lear-ning for human action recognition. InProceedings of the Second International Conference on Human Behavior Unterstanding (Berlin, Heidelberg, 2011), HBU’11, Springer-Verlag, pp. 29–39.

[5] BYRON, L., AND WATTENBERG, M. Stacked Graphs - Geometry & Aesthetics. IEEE Transac-tions on Visualization and Computer Graphics 14, 6 (2008), 1245–1252.

[6] CLAVIER, V.,AND PAGANELLI, C. Une approche méthodologique croisée du traitement des données de la recherche : le cas d’un corpus d’échanges issus de médias sociaux dans le domaine de la santé. In Colloque COSSI 2017, Méthodes et stratégies de ges-tion de l’informages-tion par les organisages-tions : des “Big Data”aux “Thick Data”, 85ème congrès de l’ACFAS, Université McGill(2017).

[7] COLLOBERT, R., WESTON, J., BOTTOU, L., KAR

-LEN, M., KAVUKCUOGLU, K.,ANDKUKSA, P. Na-tural language processing (almost) from scratch. J.

Mach. Learn. Res. 12(Nov. 2011), 2493–2537.

12. http://www.anrs.fr/fr

[8] CUENCA, E., SALLABERRY, A., WANG, F. Y.,AND

PONCELET, P. MultiStream : A Multiresolution Streamgraph Approach to Explore Hierarchical Time Series.IEEE Transactions on Visualization and Com-puter Graphics, to appear (2018).

[9] CUI, W., LIU, S., TAN, L., SHI, C., SONG, Y., GAO, Z., QU, H., AND TONG, X. TextFlow : To-wards Better Understanding of Evolving Topics in Text. IEEE Transactions on Visualization and Com-puter Graphics 17, 12 (2011), 2412–2421.

[10] DE OLIVEIRA, J.-P. Communication publique et formes de gouvernabilité contemporaines de l’Etat : le cas de l’homosexualité dans les campagnes de pré-vention du sida en France (1987-2007). PhD thesis, Université Stendhal, Grenoble, 2012.

[11] DUCOFFE, M.,AND PRECIOSO, F. QBDC : query by dropout committee for training deep supervised ar-chitecture. CoRR abs/1511.06412(2015).

[12] HAVRE, S., HETZLER, E.,AND NOWELL, L. The-meRiver : Visualizing Theme Changes over Time. In Proceedings of the IEEE Symposium on Information Visualization(2000), IEEE, pp. 115–123.

[13] HE, L., LEE, K., LEWIS, M.,ANDZETTLEMOYER, L. Deep semantic role labeling : What works and what’s next. In Proceedings of the Annual Mee-ting of the Association for Computational Linguistics (2017).

[14] JOHNSON, R., AND ZHANG, T. Supervised and semi-supervised text categorization using lstm for re-gion embeddings. In Proceedings of the 33rd In-ternational Conference on InIn-ternational Conference on Machine Learning - Volume 48(2016), ICML’16, JMLR.org, pp. 526–534.

[15] KALCHBRENNER, N., GREFENSTETTE, E., AND

BLUNSOM, P. A convolutional neural network for modelling sentences. InACL (1)(2014), The Asso-ciation for Computer Linguistics, pp. 655–665.

[16] KIM, Y. Convolutional neural networks for sentence classification. InProceedings of the 2014 Conference on Empirical Methods in Natural Language Proces-sing, EMNLP 2014, October 25-29, 2014, Doha, Qa-tar, A meeting of SIGDAT, a Special Interest Group of the ACL(2014), A. Moschitti, B. Pang, and W. Dae-lemans, Eds., ACL, pp. 1746–1751.

[17] KUCHER, K., ANDKERREN, A. Text visualization techniques : Taxonomy, visual survey, and commu-nity insights. InProceedings of the IEEE Pacific Vi-sualization Symposium (PacificVis)(2015), pp. 117–

121.

[18] KUMAR, A., IRSOY, O., ONDRUSKA, P., IYYER, M., BRADBURY, J., GULRAJANI, I., ZHONG, V., PAULUS, R.,AND SOCHER, R. Ask me anything : Dynamic memory networks for natural language pro-cessing. In Proceedings of The 33rd International

Conference on Machine Learning (New York, New York, USA, 20–22 Jun 2016), M. F. Balcan and K. Q.

Weinberger, Eds., vol. 48 ofProceedings of Machine Learning Research, PMLR, pp. 1378–1387.

[19] LIPTON, Z. C. The mythos of model interpretability.

CoRR abs/1606.03490(2016).

[20] LIU, W., WANG, Z., LIU, X., ZENG, N., LIU, Y.,

AND ALSAADI, F. E. A survey of deep neural net-work architectures and their applications. Neurocom-puting 234(2017), 11 – 26.

[21] MIKOLOV, T., KARAFIÁT, M., BURGET, L., CER

-NOCKÝ, J.,ANDKHUDANPUR, S. Recurrent neural network based language model. InINTERSPEECH (2010), T. Kobayashi, K. Hirose, and S. Nakamura, Eds., ISCA, pp. 1045–1048.

[22] MIKOLOV, T., SUTSKEVER, I., CHEN, K., COR

-RADO, G. S.,AND DEAN, J. Distributed represen-tations of words and phrases and their compositiona-lity. InAdvances in Neural Information Processing Systems 26, C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, Eds. Curran Associates, Inc., 2013, pp. 3111–3119.

[23] MIN, S., LEE, B.,ANDYOON, S. Deep learning in bioinformatics.CoRR abs/1603.06430(2016).

[24] MUNZNER, T. Visualization Analysis and Design.

A.K. Peters visualization series. A K Peters, 2014.

[25] NAKOV, P., RITTER, A., ROSENTHAL, S., SEBAS

-TIANI, F., AND STOYANOV, V. Semeval-2016 task 4 : Sentiment analysis in twitter. InProceedings of the 10th International Workshop on Semantic Evaluation (2016), pp. 1–18.

[26] OLSSON, F. A literature survey of active machine learning in the context of natural language proces-sing. Tech. Rep. T2009 :06, 2009.

[27] PAGANELLI, C., AND CLAVIER, V. Le forum de discussion : une ressource informationnelle hybride entre information grand public et information spécia-lisée.Yasri-Labrique Eleonore. Les forums de discus-sion : agoras du XXIe siècle ? Théories, enjeux et pra-tiques discursives, L’harmattan (collection Langue et Parole)(2011), 39–55.

[28] PAGANELLI, C.,AND CLAVIER, V. S’informer via des médias sociaux de santé : quelle place pour les experts ? 141–143.

[29] PENNACCHIOTTI, M.,AND GURUMURTHY, S. In-vestigating topic models for social media user recom-mendation. In Proceedings of the 20th Internatio-nal Conference Companion on World Wide Web(New York, NY, USA, 2011), WWW ’11, ACM, pp. 101–

102.

[30] RAMOS, J. Using tf-idf to determine word relevance in document queries, 1999.

[31] RENAHY, E., AND CHAUVIN, P. Internet uses for health information seeking : A literature review. Re-vue Epidémiologique de Santé Publiqu 54, 3 (2006), 263–275.

[32] ROSENTHAL, S., NAKOV, P., KIRITCHENKO, S., MOHAMMAD, S., RITTER, A.,ANDSTOYANOV, V.

Semeval-2015 task 10 : Sentiment analysis in twitter.

InProceedings of the 9th International Workshop on Semantic Evaluation(2015), pp. 451–463.

[33] SCHMIDHUBER, J. Deep learning in neural net-works : An overview. Neural Networks 61(2015), 85–117. Published online 2014 ; based on TR arXiv :1404.7828 [cs.NE].

[34] SHWARTZ-ZIV, R., AND TISHBY, N. Opening the black box of deep neural networks via information.

CoRR abs/1703.00810(2017).

[35] SOCHER, R., PERELYGIN, A., WU, J. Y., CHUANG, J., MANNING, C. D., NG, A. Y., AND POTTS, C.

Recursive deep models for semantic compositiona-lity over a sentiment treebank. InEMNLP (2013), vol. 1631, p. 1642.

[36] SRIVASTAVA, R. K., GREFF, K.,ANDSCHMIDHU

-BER, J. Training very deep networks. InProceedings of the 28th International Conference on Neural Infor-mation Processing Systems - Volume 2(Cambridge, MA, USA, 2015), NIPS’15, MIT Press, pp. 2377–

2385.

[37] SUKHBAATAR, S., SZLAM,A., WESTON, J., AND

FERGUS, R. End-to-end memory networks. In Ad-vances in Neural Information Processing Systems 28, C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, Eds. Curran Associates, Inc., 2015, pp. 2440–2448.

[38] SUN, G., WU, Y., LIU, S., PENG, T.-Q., ZHU, J.

J. H.,ANDLIANG, R. EvoRiver : Visual Analysis of Topic Coopetition on Social Media. IEEE Transac-tions on Visualization and Computer Graphics 20, 12 (2014), 1753–1762.

[39] VINYALS, O., KAISER, L. U., KOO, T., PETROV, S., SUTSKEVER, I.,ANDHINTON, G. Grammar as a foreign language. InAdvances in Neural Information Processing Systems 28, C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, Eds. Curran Associates, Inc., 2015, pp. 2773–2781.

[40] WANG, S., J.PAUL, M.,AND DREDZE, M. Explo-ring health topics in chinese social media : an analy-sis of sina weibo.AAAI Workshop on the World Wide Web and Public Health Intelligence 23(2014), 20–23.

[41] WANG, Y., AGICHTEIN, E.,AND BENZI, M. Tm-lda : Efficient online modeling of latent topic tran-sitions in social media. InProceedings of the 18th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining(New York, NY, USA, 2012), KDD ’12, ACM, pp. 123–131.

[42] WU, Y., LIU, S., YAN, K., LIU, M.,AND WU, F.

OpinionFlow : Visual Analysis of Opinion Diffusion on Social Media.IEEE Transactions on Visualization and Computer Graphics 20, 12 (2014), 1763–1772.

[43] ZENG, Q. T.,ANDTSE, T. Viewpoint paper : Explo-ring and developing consumer health vocabularies.

JAMIA 13, 1 (2006), 24–29.

[44] ZHAN, Y., LIU, R., LI, Q., LEISCHOW, S., AND

ZENG, D. Identifying topics for e-cigarette user-generated contents : a case study from multiple social media platforms. J Med Internet Res 19, 1 (2017), e24.

[45] ZHU, M., ZHANG, Y., CHEN, W., ZHANG, M.,AND

ZHU, J. Fast and accurate shift-reduce constituent parsing, 2013.

Dans le document Conférence Nationale d'Intelligence Artificielle Année 2018 (Page 186-191)