Synthèse du chapitre 3 - L’évolution des systèmes et architectures d’information sous l’influen

Dans ce chapitre nous avons recensé, sous l’influence des données massives, les éléments des systèmes décisionnels sujets à évolutions :

— les logiciels ; — l’infrastructure ; — les données ; — les usages ; — la modélisation.

Pour chacun de ces éléments nous avons étudié l’impact sur l’architecture des systèmes décisionnels et comment ces derniers s’adaptent et intègrent leur évolution pour évoluer eux aussi. Nous nous sommes particulièrement intéressés à la technologie Apache Hadoop et aux principaux outils qui la composent afin de mieux appréhender leur valeur ajoutée et ce qu’ils amènent comme changement dans le domaine des système décisionnels.

Au travers cette étude nous avons émis comme principale hypothèse que la limite des systèmes décisionnels sous l’influence des données massives, pour répondre aux besoin de valoriser les données d’une organisation, réside dans le concept même qui les définit : être des systèmes qui délivrent une information connue et définie au préalable, et qui est le guide de leur conception, car ce sont des systèmes dit "information driven".

Nous avons donc constaté que si les systèmes décisionnels apportaient un élément de réponse pour les organisations dans la valorisation d’une partie de leurs données, ils avaient besoin d’être complé- tés par un autre système dit "data driven", c’est-à-dire dirigé par les données et non plus par l’information. Les lac de données (ou data lake), nouveau concept très récent semble correspondre à cette attente des organisations.

L’objectif de notre prochain chapitre est de mieux appréhender ce concept, faire un état des lieux des connaissances, donner notre définition des lacs de données, les positionner dans le système d’information, vis-à-vis du système décisionnel.

Vers un nouveau modèle

d’architecture du système

d’information intégrant le concept de

lac de données

En accord avec plusieurs travaux académiques, dont ceux de Power [58][59], qui positionnent un nouveau composant du système d’information en parlant de data driven Decision Support System, nous émettons l’hypothèse que les systèmes attendus par les organisations pour valoriser leur patrimoine de données doivent s’enrichir d’un composant non plus dirigé par l’information mais par les données data driven1_{. Ce composant selon notre vision pourrait correspondre à un lac de données.}

Après une rapide synthèse de l’existant sur ce concept, nous donnerons notre définition et dévelop- perons notre proposition de modèle de l’architecture globale dans laquelle le lac de données constitue un composant complémentaire.

Figure_{4.1: Recherche d’information sur les lacs de données dans le moteur de recherche Google}

4.1 Introduction au lac de données

Le sujet des lacs de données est un sujet très récent, dont l’intérêt ne cesse de croître comme le montre le graphe de la figure4.1qui représente le nombre de fois où le mot "data lake" a été tapé dans le moteur de recherche google au cours de ces cinq dernières années.

Ce côté récent se traduit par une production en littérature scientifique encore limitée. Les premiers travaux académiques, ceux de Fang [17], sur le sujet datent de 2015, et ses références bibliographiques sont au nombre de cinq2_{, presque toutes provenant du monde industriel. En effet c’est via le monde} industriel que les premières définitions du terme lac de données ont été données.

James Dixon, CTO3 _{societé Penthao [}₁₅_{] est celui à qui est attribué la "paternité" du terme et sa} première définition. C’est en 2010, dans un blog que Dixon [15] emploie pour la première fois le mot "lac de données". Il y donne en guise de définition l’analogie suivante :

« Si vous considérez un Data mart comme un magasin d’eau en bouteille - nettoyé et emballé et structuré pour une consommation facile - le lac de données est une grande masse d’eau dans un état plus naturel. Le contenu du lac de données s’écoule d’une source pour remplir le lac, et divers utilisateurs du lac peuvent venir examiner, plonger ou prélever des échantillons ».

2. Putting The Data Lake To Work”, CITO Research, April 2014 [2] John Monroe, “Predicts 2015 - Managing Data Lakes of Unprecedented Enormity”, Garnter, December 2014 [3] Nick Heudecker, “The Data Lake Fallacy : All Water and Little Substance”, Garnter, July 2014 [4] Noel Yuhanna, “Market Overview – Big Data Integration”, December 2014 [5] Edd Dumbill, “The Data Lake Dream”, January 2014

James Dixon voulait que le lac de données devienne un large ensemble de données brutes, structurées ou non, où différents utilisateurs viendraient examiner, scruter les données ou en extraire des échantillons, afin de réaliser des analyses ou dégager des tendances.

En 2014, le Gartner [22] ne voit dans le concept de lac de données que celui d’une nouvelle façon de stocker des données à moindre coût. Pourtant quelques années après, sa position a évolué4

, au regard de l’adoption massive de ce concept dans les entreprises [50] (voir section4.4). En effet désormais, Gartner positionnent les lacs de données comme le "graal" de la gestion de l’information et le positionne comme le stimulant clé pour créer de l’innovation dans les organisations au travers de la valorisation de leur patrimoine de données.

Au-delà de ces deux positions autour des lacs de données, nous explorons à la fois la littérature scientifique et industrielle pour mieux comprendre les lacs de données, sans prétendre faire un "état de l’art" du sujet, nos exposons une synthèse de ces recherches dans la section suivante.

Dans le document L’évolution des systèmes et architectures d’information sous l’influence des données massives : les lacs de données (Page 126-130)