• Aucun résultat trouvé

Une approche holistique combinant flux temps-réel et données archivées pour la gestion et le traitement d'objets mobiles

N/A
N/A
Protected

Academic year: 2021

Partager "Une approche holistique combinant flux temps-réel et données archivées pour la gestion et le traitement d'objets mobiles"

Copied!
4
0
0

Texte intégral

(1)

HAL Id: hal-01169929

https://hal.inria.fr/hal-01169929

Submitted on 30 Jun 2015

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives| 4.0 International License

Une approche holistique combinant flux temps-réel et données archivées pour la gestion et le traitement

d’objets mobiles

Loic Salmon, Cyril Ray, Christophe Claramunt

To cite this version:

Loic Salmon, Cyril Ray, Christophe Claramunt. Une approche holistique combinant flux temps-réel et

données archivées pour la gestion et le traitement d’objets mobiles. BDA 2014 : Gestion de données -

principes, technologies et applications, Oct 2014, Autrans, France. �hal-01169929�

(2)

Une approche holistique combinant flux temps-réel et données archivées pour la gestion et le traitement d’objets

mobiles

Loic Salmon

Institut de Recherche de l’Ecole Navale 29240 BREST Cedex 9 -

FRANCE

loic.salmon@ecole- navale.fr

Cyril Ray

Institut de Recherche de l’Ecole Navale 29240 BREST Cedex 9 -

FRANCE

cyril.ray@ecole-navale.fr

Christophe Claramunt

Institut de Recherche de l’Ecole Navale 29240 BREST Cedex 9 -

FRANCE

christophe.claramunt@ecole- navale.fr

ABSTRACT

La num´erisation de nos espaces de vie et de mobilit´e s’est largement accentu´ee durant la derni`ere d´ecennie. La multi- plication des capteurs de toute nature permettant de per- cevoir et de mesurer notre espace physique en est le levier principal. L’ensemble de ces syst`emes produit aujourd’hui de grands volumes de donn´ees h´et´erog`enes sans cesse croissants ce qui soul`eve de nombreux enjeux scientifiques et d’ing´enie- rie en termes de stockage et de traitement pour la gestion et l’analyse de mobilit´es. Les travaux dans le domaine d’ana- lyse des donn´ees spatio-temporelles ont largement ´et´e orien- t´es soit vers la fouille de donn´ees historiques archiv´ees, soit vers le traitement continu. Afin d’´eviter les ´ecueils de plus en plus pr´egnants dˆ us ` a l’augmentation des volumes de donn´ees et de leur v´elocit´e (temps de traitement trop long, mod`eles conceptuellement plus adapt´es, analyse des donn´ees approxi- mative), nous proposons la conception d’une approche hy- bride distribu´ee permettant le traitement combin´e de flux temps-r´eel et de donn´ees archiv´ees. L’objectif de cette th`ese est donc de d´evelopper un syst`eme nouveau de gestion et de traitement distribu´e pour l’analyse des mobilit´es maritimes.

Keywords

Base de donn´ees spatio-temporelles, objets mobiles, trai- tement temps-r´eel, syst`eme distribu´e

1. INTRODUCTION

L’analyse de mobilit´es intervient dans de nombreux do- maines tels que l’am´enagement urbain, la surveillance du trafic, la climatologie, l’´etude des ph´enom`enes sociaux ou

L. Salmon, corresponding author

(c) 2014, Copyright is with the authors. Published in the Proceedings of the BDA 2014 Conference (October 14, 2014, Grenoble-Autrans, France).

Distribution of this paper is permitted under the terms of the Creative Com- mons license CC-by-nc-nd 4.0.

(c) 2014, Droits restant aux auteurs. Publié dans les actes de la conférence BDA 2014 (14 octobre 2014, Grenoble-Autrans, France). Redistribution de cet article autorisée selon les termes de la licence Creative Commons CC- by-nc-nd 4.0.

BDA14 octobre 2014, Grenoble-Autrans, France.

la zoologie. L’´emergence et la multiplication de syst`emes mobiles et des capteurs v´ehiculant des informations pro- voquent une explosion du volume de donn´ees spatiales et temporelles. Ce gisement de donn´ees qui n’a ´evidemment pas encore atteint sa pleine mesure devient de plus en plus difficile ` a traiter et soul`eve de nombreux enjeux scientifiques et d’ing´enierie en termes de stockage et de traitement des objets mobiles.

L’analyse de mobilit´es est un domaine sp´ecifique qui met en difficult´e les syst`emes de bases de donn´ees relationnelles dans la mesure o` u les objets mobiles reportent leur posi- tion en continu (V´elocit´e) ce qui produit rapidement une masse de donn´ees cons´equente (Volume) ce qui n´ecessitera de mettre en place une solution dite Big Data. Enfin, bien que moins d´eterminant par rapport aux deux facteurs pr´ec´e- dents, il faut prendre en compte le fait que les objets mobiles peuvent ˆetre de toute sortes : points, polylignes, surfaces dont la taille et la forme peuvent fortement varier (Vari´et´e) dans l’espace et le temps n´ecessitant l’usage d’index parti- culiers.

Aux trois ”V” traditionnels s’ajoutent d’autres probl`emes plus sp´ecifiques concernant les donn´ees spatio-temporelles.

Une distribution ´equilibr´ee des donn´ees sur l’ensemble des nœuds du syst`eme par rapport ` a leur couverture spatiale, spatio-temporelle ou s´emantique est plus difficile ` a mettre en œuvre car les ph´enom`enes et d´eplacements observ´es se r´epartissent dans l’espace et le temps ` a diff´erents niveaux de densit´e. Ceci a ´egalement une incidence sur l’´echelle de repr´esentation choisie et le volume de donn´ees manipul´ees.

En effet, si on restreint trop le volume temporel ou spa- tial de donn´ees ` a analyser l’information extraite peut ˆetre biais´ee ou erron´ee. A contrario s’il est trop grand, l’informa- tion obtenue peut ˆetre liss´ee et peu repr´esentative car cer- taines particularit´es locales (spatiales, temporelles ou spatio- temporelles), auront affect´e les r´esultats observ´es, sans avoir

´et´e d´etect´ees. Enfin, les traitements et op´erateurs spatiaux font interagir des objets de nature et de taille diff´erentes ce qui peut faire intervenir de nombreuses jointures et des calculs plus complexes que pour des donn´ees usuelles (op´e- rateurs topologiques, comparaison de trajectoires ...).

2. TRAITEMENT DISTRIBUÉ DE DONNÉES SPATIO-TEMPORELLES

L’objectif de cette th`ese sera donc de d´evelopper un sys-

18

(3)

t`eme nouveau de traitement distribu´e et parall´elis´e, tenant compte de ces sp´ecificit´es, afin de favoriser la gestion et le traitement de donn´ees spatio-temporelles dans un contexte Big Data.

2.1 Traitement on-line vs. off-line

Les travaux dans le domaine de l’analyses de mobilit´e ont largement ´et´e orient´es soit vers la fouille de donn´ees histo- riques archiv´ees, soit vers le traitement temps-r´eel.

La fouille de donn´ees historiques ou traitement off-line se caract´erise par le stockage de la totalit´e de l’historique des mouvements des entit´es mobiles pour pouvoir ´etudier

`

a posteriori les ph´enom`enes du pass´e et ´eventuellement in- f´erer le comportement futur d’un objet donn´e. Au vu des forts volumes de donn´ees ` a manipuler, le temps de r´eponse est important et certains m´ecanismes sont n´ecessaires pour acc´eder plus vite aux donn´ees (index, partitionnement) em- pˆechant des mises ` a jour en continu. Les techniques actuelles de collecte, de stockage et d’interrogation des mobilit´es sont issues des travaux sur les bases de donn´ees pour objets mo- biles (Moving Object Database ; MOD) [3]. Ces derni`eres sont presque exclusivement bas´ees sur un mod`ele relation- nel et int`egrent ou exploitent des extensions pour la ges- tion de ces mobiles (types et op´erateurs spatiaux, notion de temps int´egr´ee, index associ´es aux objets mobiles) comme Hermes [9] ou Secondo [2]. Ces donn´ees d’objets mobiles stock´ees et archiv´ees peuvent ˆetre exploit´ees ` a l’aide de dif- f´erentes techniques de fouille de donn´ees : extraction, agr´e- gation, clustering, fusion et permettre notamment l’identifi- cation de comportements type et d’anomalies. Seulement ces techniques de fouilles n´ecessitent la distribution des donn´ees et des traitements lorsque le volume de donn´ees augmente consid´erablement [5].

Le traitement temps-r´eel ou approche on-line s’int´eresse au maintien continu des informations sur la position actuelle de l’entit´e pour pouvoir d´etecter des ´ev´enements se produi- sant en temps-r´eel et ´eventuellement pr´edire une future po- sition proche. Divers travaux ont ´et´e r´ealis´es concernant ce type de traitement qui se caract´erise par un temps de r´e- ponse rapide car effectu´e en m´emoire. Par exemple, dans [8]

les auteurs tentent de r´epondre ` a la probl´ematique d’analyse de mobilit´e temps-r´eel en ´etendant un syst`eme de gestion des flux temps-r´eel au contexte spatio-temporel. Cependant cette approche peut fournir une r´eponse de moins bonne qualit´e ` a cause du traitement m´emoire imposant de suppri- mer des donn´ees, de faire de l’´echantillonnage, d’utiliser des fenˆetres temporelles ou d’agr´eger certaines donn´ees et r´esul- tats interm´ediaires par un traitement incr´emental des flux [4]. L’analyse se fait alors en mˆeme temps que l’objet mobile

´evolue et les requˆetes sur les donn´ees ne s’ex´ecutent plus une seule fois comme en off-line mais en continu au gr´e du flux de donn´ees entrant [7].

L’´evaluation des requˆetes est un compromis entre temps d’ex´ecution et pr´ecision ou qualit´e de la r´eponse. L’approche base de donn´ees historiques a donc pour pr´ecepte de pr´ef´e- rer la qualit´e au temps de calcul et inversement en ce qui concerne les syst`emes temps-r´eels.

2.2 Proposition d’une architecture hybride

Afin d’´eviter les ´ecueils de plus en plus pr´egnants dˆ us ` a l’augmentation des volumes de donn´ees et de leur v´elocit´e (temps de traitement trop long, mod`eles conceptuellement plus adapt´es, analyse des donn´ees approximative), nous pro-

posons une approche hybride distribu´ee permettant le traite- ment combin´e de flux temps-r´eel et de donn´ees archiv´ees qui permettra de fournir une r´eponse satisfaisante en un temps acceptable (Figure 1).

Cette architecture est inspir´ee de l’approche hybride non distribu´ee de [1] dans laquelle trois types de requˆetes sont distingu´ees : celles portant sur les donn´ees archiv´ees, celles portant sur les donn´ees re¸cues en temps-r´eel et enfin les requˆetes dites ”hybrides” n´ecessitant de combiner les don- n´ees arrivant en temps-r´eel et les informations extraites des donn´ees historiques. Plus r´ecemment, Nathan Marz propose avec son architecture lambda un syst`eme de gestion de don- n´ees prenant en compte aussi bien les aspects v´elocit´e, vo- lum´etrie que la contrainte de faible latence [6]. L’architec- ture se compose de trois couches, une couche qui correspond aux donn´ees archiv´ees dans une base de donn´ees NOSQL et pr´e-calcule des vues relatives ` a des requˆetes souvent pos´ees, une couche qui correspond au traitement temps-r´eel et une couche interm´ediaire qui permet de fusionner facilement les r´esultats obtenus des deux couches pr´ec´edentes.

Dans notre syst`eme, les reports de position s’effectuent via diff´erents flux de donn´ees qui seront g´er´es sur un syst`eme temps-r´eel distribu´e. Au niveau de la gestion des donn´ees, on distingue le composant relatif au traitement off-line et celui relatif au traitement on-line.

Figure 1: Principe architectural

La gestion des traitements en m´emoire est faite sur une fenˆetre glissante distribu´ee dont la taille pourra ˆetre modi- fi´ee selon le nombre de donn´ees collect´ees en temps-r´eel sur la zone de couverture concern´ee. Des vues on-line sur les requˆetes continues sont mises ` a jour et incr´ement´ees au gr´e du flux entrant de donn´ees. Si l’utilisateur exprime une re- quˆete portant sur des donn´ees n’´etant pas synth´etis´ees par le traitement continu, les donn´ees n´ecessaires sont accessibles via la fenˆetre glissante. Une fois, que la p´eriode temporelle d´edi´ee ` a la fenˆetre glissante est d´epass´ee, les donn´ees sont d´e- plac´ees vers la base de donn´ees historiques distribu´ee pour effectuer les traitements off-line. Afin d’avoir un syst`eme r´eactif, des pr´e-calculs sont effectu´es sur les donn´ees histo- riques et mis ` a jour au fur et ` a mesure des arriv´ees en base de donn´ees.

Au niveau des requˆetes deux entit´es sont utilis´ees pour identifier les donn´ees ` a extraire et traiter, ainsi que pour g´erer les interactions entre la base de donn´ees historiques et le syst`eme de traitement temps-r´eel. Une de ces entit´es est le m´ediateur dont le rˆ ole est de g´erer les flux entre les composants on-line et off-line, de conserver et stocker les vues associ´ees et de pouvoir les fusionner pour permettre de r´epondre aux requˆetes hybrides. L’´evaluateur analyse la

19

(4)

requˆete en entr´ee et essaie d’inf´erer le type de la requˆete, ` a savoir on-line, off-line ou hybride pour orienter, en fonction du type de requˆete identifi´ee, la r´ecup´eration des donn´ees et des informations n´ecessaires dans notre architecture. Il transmet au m´ediateur les donn´ees d´esir´ees ` a traiter et ce dernier se charge de prendre, combiner ou d’effectuer des traitements sur la fenˆetre temporelle glissante ou l’archive suivant la demande de l’´evaluateur.

3. CONCLUSIONS

L’objectif principal de ce travail concerne la mise en place d’une architecture hybride pour la gestion et le traitement d’objets mobiles. Nous nous concentrerons en premier lieu sur la gestion des m´ecanismes de m´ediation ainsi que la dis- tribution des donn´ees et des traitements. Le cas d’applica- tion de cette th`ese, d´ebut´ee en novembre 2013 (encadr´ee par Cyril Ray et dirig´ee par Christophe Claramunt), sera l’´etude des positions et trajectoires de navires issues du syst`eme de positionnement AIS (Automatic Identification System). Le but final ´etant de traiter, stocker et analyser les positions de navires qui permettront d’obtenir des vues analytiques (mul- tidimensionnelles) du trafic maritime et l’identification de comportements types (eg. trajectoire anormale) en temps- r´eel.

4. REFERENCES

[1] S. Chandrasekaran and M. Franklin. Remembrance of streams past : Overload-sensitive management of archived streams. In Proceedings of the Thirtieth International Conference on Very Large Data Bases, VLDB ’04, pages 348–359, 2004.

[2] V. T. de Almeida, R. H. Guting, and T. Behr. Querying moving objects in secondo. In Proceedings of the 7th International Conference on Mobile Data Management, MDM ’06, pages 47–52. IEEE Computer Society, 2006.

[3] L. Forlizzi, R. H. G¨ uting, E. Nardelli, and

M. Schneider. A data model and data structures for moving objects databases. pages 319–330, 1999.

[4] L. Golab and M. T. ¨ Ozsu. Issues in data stream management. SIGMOD Rec., pages 5–14, 2003.

[5] Q. Ma, B. Y. 0002, W. Qian, and A. Zhou. Query processing of massive trajectory data based on mapreduce. In X. Meng, H. Wang, and Y. Chen, editors, CloudDb, pages 9–16. ACM, 2009.

[6] N. Marz. Big data : principles and best practices of scalable realtime data systems. O’Reilly Media, [S.l.], 2013.

[7] M. F. Mokbel, X. Xiong, M. A. Hammad, and W. G.

Aref. Continuous query processing of spatio-temporal data streams in place. Geoinformatica, pages 343–365, 2005.

[8] K. Patroumpas. Multi-scale window specification over streaming trajectories. J. Spatial Information Science, pages 45–75, 2013.

[9] N. Pelekis, Y. Theodoridis, S. Vosinakis, and T. Panayiotopoulos. Hermes - a framework for location-based data management. In In Proceedings of EDBT, pages 1130–1134, 2006.

20

Références

Documents relatifs

Plutˆ ot que n´ ecessiter de recompiler le module pour chaque nouvelle op´ eration, nous d´ esirons exposer une interface ` a l’utilisateur de fa¸ con ` a ce que deux ´

Apr` es avoir rappel´ e les bases de l’analyse du RADAR ` a antenne synth´ etique (SAR), et les particula- rit´ es des plateformes spatioport´ ees, nous allons consid´ erer trois

Nous avons vu que la complexité de la vérification d’un événement varie en fonction du nombre d’horloges, du nombre de τ-transitions à franchir pour mettre à jour l’état

Un plan factoriel est un plan dans lequel chaque mo- dalit´ e d’un facteur est combin´ ee avec chaque combi- naison de modalit´ es des autres facteurs.. Plan en carr´

Th´ eorie des ensembles TD 5 M2 LMFI - automne 2018 On travaille dans un mod` ele U de ZF ayant un ensemble A non

(1) Montrer qu’il existe une relation fonctionnelle bijective sans param` etres entre les suites finies d’ordinaux et les ordinaux.. (2) Montrer qu’il existe une relation

Les donn´ ees envoy´ ees sont des donn´ ees r´ eelles, repr´ esentant les volumes au bid ou ` a l’ask dans un carnet d’ordre d’actions observ´ e durant une journ´ ee.. 1

*Source : sondage Ifop réalisé en mai 2018 pour l’Agence française pour la