• Aucun résultat trouvé

Mise en œuvre 4.1Introduction

4.5 Résultats, interprétation, utilisation

4.5.4 Prédiction des liens

Pour ce type de fouille, nous étudions des liens et connexions déjà existant pour prédire des interactions possibles.Nous allons utiliser les paramètres présentés dans le tableau 4.8. Les résultats seront présentés dans le tableau 4.9.

Paramètre Valeur Algorithme Adamic Adar

Voisins communs

Nœud Users

Algorithme Relation userId1 userId2 Score 87355 0. 655 84626 0.468 Comment 84872 84580 0.0 84591 0.120 Upvote 84626 84617 0.120 Adamic Adar Answer 3150 88704 0.0 0 3.0 85027 2.0 88709 84580 0.0 0 23.0

Voisins communs Toutes les relations

84626 80580 9.0

Table 4.9: Résultats d’analyse de prédiction des liens

Les résultats obtenus sont des listes d’utilisateurs classés en fonction du degré de pro-babilité que l’utilisateur interagisse avec d’autres utilisateurs à l’avenir. Dans nos résultats (tableau 4.9) nous prenons juste quelques valeurs.

4.5.4.1 Selon Adamic Adar

D’après le tableau 4.9 l’utilisateur « 84872 » peut être commenté par l’utilisateurs «87355» et « 84626 » dans le futur par un pourcentage de 0.655 et 0.468, par contre il n’a aucune chance pour être commenté par l’utilisateur « 84580 ». Ainsi que la possibilité que l’utilisateur « 84626 » obtienne un vote positif de l’utilisateurs «84591 » et «84617» est estimée à 0.120. En même temps l’utilisateur «88704» ne va répondre sur aucune question de l’utilisateur « 88718 ».

Le score Adamic Adar est la proximité de ces deux nœuds. Une valeur de 0 indique que deux nœuds ne sont pas proches, tandis que des valeurs plus élevées indiquent que les nœuds sont plus proches par conséquence la possibilité qu’il y ait des liens entre eux à l’avenir.

4.5.4.2 Selon Voisins communs

La proximité selon toutes les relations entre les nœuds : « 88709 » et « 0 » est estimée par la valeur 3.0, entre «88709» et « 85027 » est de 2.0, ainsi qu’entre «88709» et « 84580 » il n’y a aucune proximité. Alors qu’entre « 84626 » et « 0 » la proximité est de valeur 23.0, et « 84626 » et « 80580 » et 9.0. Cette valeur est le nombre des nœuds voisins voisins en commun.

Sur la base de cette valeur en prédit la possibilité d’être connecté au future, deux étran-gers qui ont un ami en commun sont plus susceptibles d’être présentés que ceux qui n’ont pas d’amis en commun.

La prédiction des liens soit par l’analyse des liens existant ou par l’utilisation des voi-sins en commun permet de :

• Prédire les comportements d’utilisateurs du site et améliorer les services proposés par conséquence.

• Reconstituer les pratiques et les relations entre membres • Visualiser la confiance et les liens réciproques.

• Construction des systèmes de simulations.

4.6 Conclusion

Dans ce chapitre nous avons commencé par un bref aperçu de l’environnement de travail et les outils utilisés pour développer notre application, MySQL, Valentina Studio, neo4j, et NetBeans, nous avons présenté la manière de reconstruire la base de données SQL « stackexchange », ainsi la construction de notre base de données orientée graphe sous Neo4j « StackEx ». Ensuite nous avons présenté l’application développée qui vise à appli-quer les algorithmes de graphe de fouille de données de la bibliothèque Neo4j Graphe Data Science (GDS) détaillée dans le chapitre précédent, les composants de l’application (les interfaces, les panneaux d’affichages,. . . etc) et l’enchainement de ces différentes taches, et enfin nous avons présenté les résultats d’analyses et leur utilité.

L’objet de ce travail a été la conception et implémentation d’un système d’ana-lyse orientées graphes qui permet de manipuler les données des sites basés sur la notion de Questions / Réponse à d’extraction de connaissances, en utilisant les algorithmes de graphe de fouille de données pris en charge par la base de données Neo4j.

Afin de réaliser cet travail, nous avons présenté d’abord les notions de bases du Big Data, des bases de données NoSQL, et de l’analytique de graphes : leurs définitions, prin-cipaux concepts et techniques. Par la suite, nous avons présenté quelques modèles des systèmes d’entraide Q/R et le réseau utilisé «StackOverflow » ainsi que les algorithmes utilisés regroupés en quatre types d’analyse, l’analyse de centralité, la détection des com-munautés, l’analyse de similarité des nœuds et enfin la prédiction des liens.

Pour la réalisation du système, nous avons créés une base de données orientée graphe à laquelle nous avons appliqué les quatre types d’analyse. Nous avons également présenté les résultats obtenus leur interprétation, ce qui a montré qu’une telle analyse peut transformer des données brutes en connaissances expertes aider à concevoir des sites plus active, par exemple en savoir les zones forts (les plus grandes communautés des utilisateurs) et les zone faibles, afin d’améliorer ces derniers.

La principales difficulté rencontrée était la collecte des données réelles en format ex-ploitable selon le temps imparti à notre travail. Le réseau StackExchange limite la quantité de données téléchargées ce qui a influencé l’interprétation des résultats, notamment pour l’utilisateur de ID “0”.

Comme travaux futurs, nous visons la fouille de données dynamique basée sur la simulation qui permet d’avoir des connaissances intéressantes sur la base des données générées par des modèles dynamique au lieu d’utiliser des données historiques qui décrivent les caractéristiques d’un tel système.

[1] https://meta.stackexchange.com/questions/250396/ database-diagram-of-stack-exchange-model/250439. [2] https://meta.stackexchange.com/questions/2677/

database-schema-documentation-for-the-public-data-dump-and-sede/ 2678#2678.

[3] Algorithme page rank comment ca marche. https://www.techniques-ingenieur. fr/actualite/articles/lalgorithme-pagerank-comment-ca-marche-11585/. [4] data analytics. https://www.lebigdata.fr/analytics/data-analytics.

[5] graph analytics. https://infocus.dellemc.com/william_schmarzo/

graph-analytics-101/.

[6] La Toupie. http://www.toupie.org/Dictionnaire/Entraide.html.

[7] Oxford english dictionary. https://www.oed.com/view/Entry/18833#

eid301162178.

[8] Quelles différences entre Data Analytics, Data Science, et

analytique Big Data ? https://www.atys-concept.com/

blog-de-la-performance/articles-performance-industrielle/ differences-entre-data-analytics-data-science-big-data/. [9] Quora - wikipedia. https://fr.wikipedia.org/wiki/Quora.

[10] Stackexchange- network. https://fr.wikipedia.org/wiki/Stack_Exchange_ Network.

[11] Stackexchange data. https://data.stackexchange.com/.

[12] taskUs. https://www.taskus.com/glossary/community-forum/.

[13] What Is Graph Analytics ? https://www.oracle.com/big-data/guide/

what-is-graph-analytics.html.

[14] What Is Graph Analytics ? https://www.oracle.com/big-data/guide/

what-is-graph-analytics.html.

[15] yahoo - wikipedia. https://fr.wikipedia.org/wiki/Yahoo!_Questions/

Réponses.

[16] NoSQL : les meilleures solutions open source, volume 55. Smile group, 2011. [17] AMRANE Abdesalam. Big data concepts et cas d’utilisation. 2015.

[18] Khadidjatou BAMBA. Comprendre le big data. 2015.

[19] Cristobal Barba Gonzalez et al. Big data optimization : Algorithmic framework for data analysis guided by semantics. 2018.

[20] Zeyneb BENALLAL and Hayet TAHRAOUI.Etude comparative des bases de données NoSQL. PhD thesis, 2016.

[21] Phillip Bonacich. Power and centrality : A family of measures. American Journal of Sociology, 92(5) :1170–1182, 2012.

[22] Loïc Bremme. Qu’est-ce que le Big Data. https://www.lebigdata.fr/ definition-big-data.

[23] Erik Choi. Motivations and expectations for asking questions within online q&a, 2013.

[24] Pritee Chunarkar-Patil and Akshanda Bhosale. Big data analytics. Open Access J Sci, 2(5) :326–335, 2018.

[25] Matteo Di Maglie. Adoption d’une solution NoSQL dans l’entreprise. PhD thesis, Haute école de gestion de Genève, 2012.

[26] Eugénie Duthoit, Stéphanie Mailles-Viard Metz, Chantal Charnet, and Chrysta Pe-lissier. Entraide en ligne : le cas d’un forum de discussion utilisé en tant que ressource externe au contexte d’apprentissage. 2011.

[27] Kouedi Emmanuel. Approche de migration d’une base de données relationnelle vers une base de donnees nosql orientee colonne. Mémoire présentée en vue de l’obtention du diplome de MASTER II RECHERCHE, Option : SI & GL, 2012.

[28] Bernard Espinasse and Patrice Bellot. Introduction au big data–opportunités, sto-ckage et analyse des mégadonnées. Techniques de l’ingénieur H, 6 :040, 2016. [29] F.DUMONT. Forum d’entraide. 2014.

[30] Mike Ferguson. qu’est ce que L’analyse graphique. https://www.ibmbigdatahub. com/blog/what-graph-analytics.

[31] IONOS. out sur la graph database : la base de données pour une mise en réseau effi-cace. https://www.ionos.fr/digitalguide/hebergement/aspects-techniques/ base-de-donnees-orientee-graphe/.

[32] Leslie Johnston. Data is the new black. https://blogs.loc.gov/thesignal/2011/ 10/data-is-the-new-black/.

[33] Mounir Derradji Khaled Messadi. Conception et implémentation d’un système d’en-treposage et d’analyse des questions-réponses dans un forum d’entraide : Application à stackexchange. Master’s thesis, Universite de jijel, 2019.

[34] LinkedIn. Valentina studio. https://fr.linkedin.com/showcase/ valentinastudio.

[35] Matteo DI MAGLIE. Adoption d’une solution nosql dans l’entreprise. Master’s thesis, Haute École de Gestion de Genève (HEG-GE), 9 2012.

[36] Jean-Louis Monino and Soraya Sedkaoui. Big Data, Open Data et valorisation des données, volume 4. ISTE Group, 2016.

[37] Mark Needham and Amy E Hodler. A comprehensive guide to graph algorithms in neo4j. Neo4j. com, 2018.

[38] Neo4j. Adamic adar - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/alpha-algorithms/adamic-adar/.

[39] Neo4j. betweeness - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/algorithms/betweenness-centrality/.

[40] Neo4j. Common neighbors - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/alpha-algorithms/common-neighbors/.

[41] Neo4j. degree centrality - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/algorithms/degree-centrality/.

[42] Neo4j. Eigenvector centrality - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/algorithms/eigenvector-centrality/.

[43] Neo4j. Graph data science algorithms. https://neo4j.com/docs/ graph-data-science/current/algorithms/.

[44] Neo4j. Label propagation - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/algorithms/label-propagation/.

[45] Neo4j. Louvain - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/algorithms/louvain/.

[46] Neo4j. Page rank - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/algorithms/page-rank/.

[47] Neo4j. similarity - graph data science. https://neo4j.com/docs/ graph-data-science/1.0/algorithms/node-similarity/.

[48] Neo4j. Strongly connected components - graph data science. https://neo4j.com/docs/graph-data-science/1.0/algorithms/

strongly-connected-components/.

[49] Peter Neubauer. Graph nosql neo4j. https://www.infoq.com/fr/articles/ graph-nosql-neo4j/.

[50] Vergnes Nicolas. Bases de données graphes : comparaison de neo4j et orientdb. 2015. [51] OcterA. En savoir plus sur les bases NoSQL. http://blog.octera.info/2010/11/

en-savoir-plus-sur-les-bases-nosql/.

[52] Orange. Acteur de l’internet des objets et du big data. Orange, 2015.

[53] D Raban and F Harper. Motivations for answering questions online. New media and innovative technologies, 73, 2008.

[54] R.Lambert. Trois impacts du big data sur le marketing en 2018. http:// penseeartificielle.fr/impact-big-data-marketing-2018.

[55] Margaret Rouse. Données semi structurées. https://whatis.techtarget.com/fr/ definition/Donnees-semi-structurees.

[56] Margaret Rouse. graph analytics. https://whatis.techtarget.com/definition/ graph-analytics.

[57] Margaret Rouse. l’analytique du big data. https://www.lemagit.fr/definition/ Analytique-Big-Data.

[58] Margaret Rouse. Nosql base de données not sql only. https://www.lemagit.fr/ definition/NoSQL-base-de-donnees-Not-Only-SQL.

[59] David Reinsel-John Gantz-John Rydning. The digitization of the world from edge to core. Framingham : International Data Corporation, 2018.

[60] Hugh J Watson. Tutorial : Big data analytics : Concepts, technologies, and ap-plications. Communications of the Association for Information Systems, 34(1) :65, 2014.

[61] Wikipedia. Base de données orientée colonnes. https://fr.wikipedia.org/wiki/ Base_de_donn%C3%A9es_orient%C3%A9e_colonnes.

[62] Wikipedia. Base de données orientée documents. https://fr.wikipedia.org/ wiki/Base_de_donn%C3%A9es_orient%C3%A9e_documents.

[63] Wikipedia. Base de données orientée graphe. https://fr.wikipedia.org/wiki/ Base_de_donn%C3%A9es_orient%C3%A9e_graphe.

[64] Wikipedia. Centralité. https://fr.wikipedia.org/wiki/Centralit%C3%A9# Centralit%C3%A9_d’interm%C3%A9diarit%C3%A9.

[65] Wikipedia. Depth-first search. https://en.wikipedia.org/wiki/Depth-first_ search.

[66] Wikipedia. Louvain algorithm. https://fr.wikipedia.org/wiki/M%C3%A9thode_ de_Louvain#Algorithme.

[67] Wikipedia. MySQL. https://fr.wikipedia.org/wiki/MySQL. [68] Wikipedia. Neo4j. https://fr.wikipedia.org/wiki/Neo4j.

[69] Wikipedia. Netbeans. https://fr.wikipedia.org/wiki/NetBeans.

[70] Wikipedia. Question Answer software. https://fr.qwe.wiki/wiki/Q%26A_ software.

[71] Wikipedia. Similarity. https://en.wikipedia.org/wiki/Similarity_(network_ science)#Structural_equivalence.

Documents relatifs