• Aucun résultat trouvé

Linkspotter : an R package for correlations analysis and visualization

N/A
N/A
Protected

Academic year: 2021

Partager "Linkspotter : an R package for correlations analysis and visualization"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-01836428

https://hal.archives-ouvertes.fr/hal-01836428

Submitted on 27 Jul 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Linkspotter : an R package for correlations analysis and

visualization

Alassane Samba

To cite this version:

Alassane Samba. Linkspotter : an R package for correlations analysis and visualization. Sixièmes Rencontres R, Jun 2017, Anglet, France. �hal-01836428�

(2)

Linkspotter : outil interactif d’exploration et de visualisation de corrélations Alassane Samba

Orange Labs

2 avenue Pierre Marzin, 22300 Lannion, France alassane.samba@orange.com

Mots clefs : Corrélation, Information mutuelle, Graphe dynamique, Visualisation, Interface utilisateur.

L'exploration des relations entre les variables est une étape importante dans le processus d'exploration de données. Il permet au Data scientist de mieux comprendre les phénomènes décrits dans les jeux de données. Cela aide également à éviter le sur-apprentissage et à se prémunir contre le « concept drift » dans la modélisation.

Afin de faciliter l'exploration des données, Linkspotter est un package R offrant plusieurs fonctionnalités permettant d'analyser et de visualiser de manière exhaustive en utilisant un graphe toutes les corrélations bi-variées d'un fichier de données.

Ses fonctionnalités principales sont:

 le calcul de plusieurs matrices de corrélation correspondant à différents coefficients  le partitionnement des variables par apprentissage non supervisé.

Il offre également une interface utilisateur complète, conviviale et personnalisable permettant de :

 visualiser les corrélations à l'aide d'un graphe (les variables correspondant aux noeuds et les corrélations correspondant aux arcs). C'est une nouvelle approche de

visualisation qui est proposée plus conviviale que l’affichage d’une matrice de corrélations coloriée.

 visualiser la distribution de chaque variable grâce à son histogramme ou à son diagramme en barres.

 visualiser un lien entre un couple de variables à l'aide de nuage de points, de boîtes-à-moustaches, etc.

En outre, un nouveau coefficient de corrélation que nous appelons Maximal Normalized Mutual Information (MaxNMI) basé sur une discrétisation supervisée Equal-Freq des

variables continues est également introduit par Linkspotter. L'intérêt de ce coefficient est qu'il peut être calculé et comparé quel que soit le type de couple de variables (continue vs

catégorielle, continue vs continue, catégorielle vs catégorielle).

Tout en offrant de nouveaux algorithmes et méthodes, Linkspotter utilise et combine harmonieusement des fonctionnalités provenant d'autres packages R, à savoir infotheo, minerva, energy, mclust, shiny, visNetwork et rAmCharts.

Le code [1] et une démonstration [2] de Linkspotter sont disponibles en ligne. Références

[1] https://github.com/sambaala/linkspotter

Références

Documents relatifs

These normalized count rates were then transformed into local isotopie compositions by comparing the average SIMS values with radiochemical^ determined isotopie compositions

In this section we will illustrate how the vrmlgen package allows users to translate 3D point data into interactive scatter plots in VRML or LiveGraphics3D format using the

Jang SCHILTZ (University of Luxembourg) joint work with Jean-Daniel GUIGOU (University of Luxembourg), & Bruno LOVAT (University of Lorraine) () An R-package for finite

For instance, among the groups of redundant variables listed in Table 1 (Unemployment and Labor Force), the variables representing the best these groups and selected by our

The R package blockcluster allows to estimate the parameters of the co-clustering models [Govaert and Nadif (2003)] for binary, contingency and continuous data.. This package is

Canonical correlations analysis (CCA) is an exploratory statistical method to high- light correlations between two data sets acquired on the same experimental units.. The

The vignette discuss the detailed biological/clinical analysis strategy used at Institut Curie and presents an application to a gene expression

In the latter category, mixtools provides algorithms for estimating parameters in a wide range of different mixture-of-regression contexts, in multinomial mixtures such as those