Kibana et l’exploration de données temporelles

CHAPITRE 3 MÉTHODOLOGIE

3.4 Nouvelles formes de visualisation

3.4.1 Kibana et l’exploration de données temporelles

Pour visualiser ces données, nous allons utiliser dans un premier temps une version plus récente de Kibana (v4). L’avantage que présente Kibana est de préparer des visualisations et tableaux de bord qui vont utiliser les données d’un index donné. Une fois que l’usager est satisfait des visualisations réalisées, il est alors facile de passer d’un ensemble de données à un autre depuis Elasticsearch. En

effet, comme précisé dans le chapitre 3.3.6, on peut indiquer un alias à Kibana et changer l’index de cet alias à souhait dans Elasticsearch. Ceci est transparent pour Kibana qui visualise sans problèmes un ensemble de données ou un autre. Cela permet de comparer différents scénarios dans la génération des jeux de données.

3.4.1.1 Rappel sur l’utilisation de Kibana et la génération de visualisations

Rappelons que Kibana est une application web construite en complément d’Elasticsearch pour analyser des données temporelles. Kibana, dans sa version 4, offre un outil d’analyse de données temporelles en trois étapes. On commence par visualiser sur une période choisie la répartition des données. Une fois une période intéressante repérée, on peut passer à l’onglet « Visualize » permettant de construire une visualisation que l’on paramètre soi-même et que l’on peut sauvegarder une fois satisfait. Le dernier onglet « Dashboard » permet d’afficher différentes visualisations côte à côte dans une même page. Toujours comme dans les versions précédentes de Kibana, en appliquant un filtre à un panneau, tous les panneaux du tableau de bord courant seront impactés par ce même filtre.

Figure 3-13 - Exemple de construction de visualisation dans Kibana v4

La Figure 3-13 est un exemple de visualisation créée dans Kibana. Cette figure montre aussi l’interface disponible pour générer des visualisations qui dispose de trois grandes sections :

1. Une barre de navigation qui permet de choisir une plage temporelle, de rajouter des filtres (ici on ne veut voir que des données de type bus, par exemple), de sauvegarder la visualisation …

2. Une section pour préparer les agrégations. Ici, pour un graphique à lignes, on choisit les valeurs en Y et X de ce dernier.

o Pour les données selon l’axe des Y, on peut choisir entre différentes métriques d’agrégations telles que des comptes, sommes, moyennes, minimum, maximum ou encore des comptes uniques (tel un regroupement GROUP BY par le champ qui nous intéresse, par exemple par identifiant unique de séquence de tronçon). Attention : pour l’agrégation par compte unique, le nombre de valeurs est approximé avec Kibana, et des résultats « faux » peuvent être retournés. Pour y remédier, il faut rajouter en paramètre de cette agrégation le champ

precision_threshold (Kibana - Cardinality Aggregation, 2016).

o Pour les agrégations restantes (« buckets »), une attention particulière doit être portée sur le type d’agrégations choisies et la résolution de ces dernières. Cela implique de connaître les données disponibles. Par exemple, si l’on choisit une agrégation par histogramme selon la distance parcourue et que l’on indique un pas de 1, cela revient à demander à Kibana d’afficher un graphique avec pour résolution 1 mètre. Le navigateur ne va vraisemblablement pas réussir à charger la page. Il faudrait plutôt choisir une résolution de 500 m ou 1 km par exemple.

3. La dernière section est l’espace dans lequel la visualisation est générée. Il est possible d’interagir avec cette dernière. Dans l’exemple présenté ici, on peut voir la distribution du nombre de transactions par période de 15 minutes de la journée et en fonction du type de jour dans la semaine (1 : lundi, 2 : mardi, …, 7 : dimanche).

Pour plus d’informations sur les possibilités de Kibana en termes de visualisation et sur les autres types de visualisation, la documentation de (Kibana by Elastic, 2016) est disponible. Sommairement, Kibana propose différents types de visualisations : des graphiques à aires, à lignes, à barre, des diagrammes camembert, des cartes pour représenter des données géospatiales, des panneaux pour résumer différentes métriques, des tableaux où afficher des résultats bruts et enfin un panneau permettant d’afficher un texte statique en markdown.

3.4.1.2 Différentes catégories de visualisations

Les graphiques que l’on peut qualifier de base dans notre cas sont ici les distributions du nombre de transactions (par section, par déplacement) en fonction de différentes agrégations des champs des documents. Il n’y a pas de filtre ou d’imbrications appliquées. Ce sont des informations brutes et au besoin regroupées déjà en agrégations telles qu’un histogramme des valeurs possibles de ce champ.

On retrouve en premier toutes les agrégations temporelles : en fonction du jour dans la période temporelle sélectionnée, de l’heure de la journée, du numéro du jour dans la semaine, du numéro de la semaine dans l’année.

On dispose ensuite des autres champs disponibles dans le document tel que présenté précédemment (chapitre 3.2.5). On dispose alors des diagrammes camembert ou graphiques à barres pour les champs suivant : mode, type de transport, code OD, rangs des transactions dans la journée, nombres de tronçons par séquence de tronçons, rangs des séquences de tronçons dans la journée, type d’arrêt issu des travaux de Légaré, lignes, type de produit. On peut ensuite s’intéresser aux distributions des distances et temps parcours.

Il est intéressant de signaler qu’il sera possible par la suite de lier ensemble différents indicateurs. Il peut être considéré que les vues générales des documents constituent des points d’entrée qui permettent ensuite de réaliser des tableaux de bord encore plus poussés autour d’un champ donné.

Dans le document Outils de visualisation de données de cartes à puce pour une société de transport collectif (Page 88-91)