• Aucun résultat trouvé

Jeux de cubes pour les graphes ... Ou comment des graphes enrichis par des cubes (GreC) peuvent contribuer à l'analyse de données textuelles ?

N/A
N/A
Protected

Academic year: 2021

Partager "Jeux de cubes pour les graphes ... Ou comment des graphes enrichis par des cubes (GreC) peuvent contribuer à l'analyse de données textuelles ?"

Copied!
3
0
0

Texte intégral

(1)

HAL Id: halshs-01577053

https://halshs.archives-ouvertes.fr/halshs-01577053

Submitted on 24 Aug 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Jeux de cubes pour les graphes ... Ou comment des

graphes enrichis par des cubes (GreC) peuvent

contribuer à l’analyse de données textuelles ?

Cécile Favre, Wararat Jakawat, Sabine Loudcher

To cite this version:

Cécile Favre, Wararat Jakawat, Sabine Loudcher. Jeux de cubes pour les graphes ... Ou comment des

graphes enrichis par des cubes (GreC) peuvent contribuer à l’analyse de données textuelles ?. journées

”Analyse de données textuelles” (GDR MADICS, action ADOC) en conjonction avec la conférence

EDA, May 2017, Lyon, France. pp.159-160. �halshs-01577053�

(2)

Jeux de cubes pour les graphes ...

Ou comment des graphes enrichis par des cubes (GreC)

peuvent contribuer à l’analyse de données textuelles ?

Cécile Favre∗, Wararat Jakawat∗∗, Sabine Loudcher∗

Université de Lyon, Université Lyon 2, ERIC EA 3083, France

{cecile.favre|sabine.loudcher}@univ-lyon2.fr

∗∗Computer Science Department, Prince of Songkhla University, Thailand

wararat.j@psu.ac.th

Les données textuelles constituent une part importante des données porteuses de connais-sances à découvrir. Ces données présentent souvent deux caractéristiques : d’une part, le fait que différents axes d’analyse peuvent être pertinents pour résumer l’information ; d’autre part la possibilité de représenter en réseau certaines informations. La première caractéristique sous-tend une analyse multidimensionnelle de type OLAP (OnLine Analytical Processing) très liée aux entrepôts de données avec notamment une représentation sous forme de cube de données, dont les cellules contiennent une mesure (indicateur) permettant l’analyse d’un fait, en fonc-tions de dimensions (axes d’analyse) qui définissent le cube. Ce type d’analyse se base sur des opérateurs de navigation dans les données. La deuxième caractéristique relève d’une approche d’analyse/de visualisation de graphe.

Pour illustrer cela, un premier exemple se trouve dans l’analyse de données textuelles is-sues de messages Twitter : d’une part le nombre de messages peut être analysé en fonction de leur auteur, de leur temporalité, du sujet traité, etc. ; d’autre part, il peut être utile de s’intéres-ser au réseau des Twittos où les arêtes représentent par exemple les liens d’abonnement. Un second exemple se situe dans le contexte de l’analyse de la production scientifique. Il peut être pertinent d’analyser cette production au travers du nombre de papiers publiés selon différents axes que seraient leurs auteurs, l’année de publication, les thématiques, etc. De plus, il est intéressant d’analyser le graphe des auteurs pour s’intéresser au réseau de collaborations (co-publications), ou au réseau de citations. Dans cette communication, nous utiliserons ce second exemple de données bibliographiques pour illustrer nos propos.

Considérant la double caractéristique des données textuelles évoquée précédemment, et afin de tirer ainsi parti de ces deux visualisations (graphe et cube), un nouveau type d’ana-lyse est apparu : Graph OLAP (Chen et al., 2008). L’idée, sur laquelle elle repose, consiste à construire un cube de graphes dans lequel il est possible de naviguer. Plus précisément, dans cette approche de Graph OLAP, il s’agit de considérer des cubes définis selon des dimensions dites informationnelles, et la mesure contenue dans les cellules correspond à des graphes ou plus exactement à des sous-graphes, qui peuvent présenter des dimensions dites topologiques. Ainsi, les différentes approches relevant de Graph OLAP permettent de visualiser des "instan-tanés" de graphes en fonction des dimensions d’analyse choisies. Différents opérateurs ont été

(3)

Jeux de cubes pour les graphes

FIG. 1 – Combinaison des graphes et des cubes OLAP.

proposés pour naviguer dans le cube de graphes : des opérations informationnelles ou topo-logiques, selon si les opérations s’appliquent selon les dimensions du cube ou les dimensions des graphes.

Cependant, dans cette combinaison de l’OLAP et des graphes basée sur des cubes de graphes, la visualisation plus globale du graphe est perdue, alors même que celle-ci est inté-ressante d’un point de vue analytique. Parallèlement, la dynamique des données est importante pour l’analyse du graphe, et ceci n’est pas toujours bien perceptible dans la visualisation des parties de graphe.

Par conséquent, nous proposons l’approche GreC (Graphes enrichis par des Cubes) qui est une nouvelle façon de considérer la combinaison de l’OLAP et des graphes pour l’analyse de réseaux d’information (Jakawat et al., 2016). GreC est une approche originale et complémen-taire des approches basées sur une construction d’un cube de graphes (cf. figure 1). Elle permet de construire un graphe qui réponde aux besoins d’analyse de l’utilisateur et de l’enrichir avec des cubes de données qui vont décrire et valuer les nœuds et/ou les arêtes selon les besoins d’analyse. L’utilisateur peut ainsi avoir une vue globale du réseau avec des informations multi-dimensionnelles et faire des analyses intéressantes en naviguant au sein du graphe enrichi avec des opérateurs dédiés informationnels et topologiques.

Cette communication vise alors à montrer en quoi l’approche GreC permet une analyse pertinente des données textuelles, en explicitant cette approche avec une illustration sur le cas des données bibliographiques.

Références

Chen, C., X. Yan, F. Zhu, J. Han, et P. S. Yu (2008). Graph OLAP : Towards online analytical processing on graphs. In 8th IEEE International Conference on Data Mining (ICDM’08), pp. 103–112.

Jakawat, W., C. Favre, et S. Loudcher (2016). Graphs enriched by cubes for OLAP on bi-bliographic networks. International Journal of Business Intelligence and Data Mining (IJ-BIDM’16) 11(1), 85–107.

Références

Documents relatifs

De plus, pour la base SEP85L, la taille de notre représentation est en moyenne 29 fois plus petite que le cube convexe alors que les tailles du cube convexe quotient et du cube

Je découpe les deux cubes en cubes élémentaires de 1 centimètre de côté et j’obtiens le même nombre de petits cubes ayant au moins une face peinte de chacune des deux

Il dispose d’une collection de 15 cubes tous différents dont les arêtes sont des nombres entiers compris entre 1 cm et

C’est ainsi qu’en partant d’un carré unité, et en ajoutant

Cubes are provided for nodes or edges according to the Figure 8: Example of a Cube for the co-authorships network in KDD conference when a measure is betweenness centrality. Figure

Therefore, we define a general computation of support and confidence of inter-dimensional association rules according to a user defined measure M ∈ M from the mined data cube. , All

En revanche, d’une façon générale, à partir du graphe hétérogène complet, pour extraire et construire les graphes enrichis par des cubes ainsi que pour assurer la généricité

La première caractéristique sous- tend une analyse multidimensionnelle de type OLAP (OnLine Analytical Processing) très liée aux entrepôts de données avec notamment une