• Aucun résultat trouvé

On ne peut étudier l’évolution des systèmes décisionnels, sans étudier l’évolution de ce qui constitue son coeur : les données. Ces dernières ne cessent d’exploser en terme de volume comme le montre la figure 2.1, où l’on prévoit d’atteindre plus de quarante zeta bytes de données produites d’ici 2020. Au delà de leur volume c’est aussi au travers de leur diversité qu’elles évoluent. Désormais les données les plus "volumineuses" ne proviennent plus des systèmes transactionnels des organisations mais bien d’autres sources. Elles se retrouvent sous de nouveaux formats, structurés différemment. On parle alors de données non structurées par opposition aux données structurées, émises par les systèmes informatiques traditionnels.

Le graphe de la figure3.8 montre l’inflexion de la courbe de répartition entre les données structurées et non structurées. Ce graphe montre que sur cent données émises, quatre vingt huit sont non structurées, l’émission de données structurées restant relativement stable.

historiques de processus métiers..etc, aussi bien que des données issues de capteurs, des contenus publiés sur le web (images, vidéos, sons, textes), des transactions de commerce électronique, des échanges sur les réseaux sociaux, des données transmises par les objets connectés (étiquettes électroniques, compteurs intelligents, smartphones...), des données géolocalisées, etc.

L’intégration de ces données non structurées dans les systèmes d’information en vue d’en tirer de la valeur représente avant tout un défi technologique pour les conceptions d’architectures de part la variété de leurs formats mais aussi par leur volume et la rapidité, pour certaines, à laquelle elles sont émises. C’est ce que l’on appelle le phénomène des données massives ou megadonnées ou big data. Nous employons les trois termes dans ces travaux, avec une préférence pour le terme "données massives " pour designer ce phénomène.

C’est Gartner qui en premier (2001) a défini les caractéristiques des megadonnées, avec le fameux principe des trois V :

— le Volume de données de plus en plus massif ;

— la Variété de ces données qui peuvent être brutes, non structurées ou semi-structurées ;

— la Vélocité qui désigne le fait que ces données sont produites, récoltées et analysées en temps réel. Certaines entreprises14 ajoutent un quatrième "V" (voire cinq ou plus) à cette définition pour la

Véracité qui évoque la nécessité de vérifier la crédibilité de la source et la qualité du contenu afin de pouvoir exploiter ces données. Dans la figure3.9nous résumons ces "4V".

Les Données Massives, si l’on se réfère à la définition du Gartner, sont définies comme des données qui deviennent tellement volumineuses, rapides et variées qu’elles deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information. Les données massives exigent donc des formes innovantes de traitement de l’information pour permettre une meilleure compréhension, prise de décision et automatisation des processus.

Dans leur travaux Vitari et Raguseo [80] ont étudié comment les technologies de l’information et de la communication (TIC) peuvent offrir de nouvelles opportunités aux entreprises, en mettant l’accent sur le rôle de Données Massives et des TIC sous jacentes dans la création de valeur économique. Ils proposent un classement des données massives selon leur origine : celles produites par les humains et celles produites par les machines.

Dans nos travaux nous adoptons la distinction des données selon leur structure et non leur origine : données structurées, non structurées et semi-structurées.

14. IBM fait partie des entreprises ajoutant un quatrième V au phénomène de méga données. https ://www.lebigdata.fr/infographie-quatre-v-big-data-expliques-ibm.

Figure3.9: les 4 V des Megadonnées

3.3.1

Données structurées, non structurées et semi-structurées : la différence

Les données non structurées ne sont pas organisées dans un format qui permet d’y accéder et de les traiter plus facilement. En réalité, très peu de données sont complètement non structurées. Même des éléments souvent considérés comme non structurés, tels que des documents et images, sont structurés dans une certaine mesure.

Les données structurées sont peu ou prou le contraire des données non structurées : elles ont été reformatées et leurs éléments, réorganisés, selon une structure permettant à chacun d’être traité, organisé et manipulé selon diverses combinaisons, afin de mieux exploiter les informations. Les données semi-structurées constituent une forme intermédiaire. Elles ne sont pas organisées selon une méthode complexe rendant possible un accès et une analyse sophistiqués ; cependant, certaines informations peuvent leur être associées, telles que des balises de métadonnées, qui permettent l’adressage des éléments qu’elles renferment.

Par exemple un document Word est généralement considéré comme un ensemble de données non structurées. Cependant, vous pouvez lui ajouter des métadonnées sous la forme de mots-clés qui représentent le contenu du document et qui permettent de le retrouver plus facilement lorsqu’une

recherche est effectuée sur ces termes. Les données sont alors semi-structurées. Cependant, le document n’est pas organisé de façon aussi complexe qu’une base de données, et ne se compose donc pas à proprement parler de données structurées.

En réalité, les limites entre les trois catégories sont extrêmement floues. Considérées dans leur ensemble, ces catégories sont parfois appelées le continuum des données.

3.3.2

L’évolution des données sous l’influence des données massives

L’évolution des données avec l’apparition du phénomène des données massives fait l’objet de plusieurs travaux de recherche, chacun s’attachant à étudier l’impact, notamment du volume de ces données sous divers angles. Dans ses travaux Sansen [68] s’attache à la problématique de visualisation de ces données massives, en soulevant les problématiques, techniques, générées par l’accumulation de données : stockage, temps de traitement, hétérogénéité, vitesse de captation/génération, etc.

Ces problématiques techniques sont d’autant plus impactantes que les données sont massives, complexes et variées. Il n’aborde pas cependant pas ces points de façon détaillée.

Dans nos travaux nous ne focalisons pas sur cet aspect visualisation, déjà traité dans les travaux de Sansen (et d’autres) mais bien sur les problématiques techniques évoquées par Sansen, auxquelles sont confrontées les systèmes d’information des organisations.

D’autres travaux académiques sur le domaine des données massives s’orientent autour de l’exploitation des données massives, comme ceux de Sansen, ceux de Gillet [24] qui se focalisent sur l’optimisation des requêtes sur ces données massives ou les travaux de Perrot, connexes à ceux de Sansen, sur l’aspect visualisation des données massives [57].

Ces extraits de travaux sur les données massives ont tous en commun d’être récents (2017), le phénomène des données massives n’ayant encore que peu de recul, comparé à la maturité des connaissances sur les systèmes décisionnels. Le nombre de ces travaux est en augmentation constante, signe de l’intérêt du sujet au niveau académique.

Dans nos travaux nous nous concentrons sur l’impact de ces données massives au niveau de l’architecture d’information, et son influence sur l’évolution des systèmes décisionnels.

Nos travaux de recherches, nous amènent à observer que le volume de données émises (des données massives) corrélé à la variété des formats des données impacte les architectures des systèmes décisionnels. C’est l’association de ces deux facteurs (volume-variété) qui accélèrent l’adoption des évolutions d’infrastructure (décrites dans la section 3.2) dans la conception des architectures des

systèmes décisionnels.

La prise en compte du facteur vitesse des caractéristiques des données massives, sollicite la partie infrastructure des architecture des systèmes d’information. C’est au travers de la partie acquisition de données, (émises rapidement et massivement) que les évolutions technologiques du stockage des données (que nous avons décrit dans la section 3.2.4) mais aussi celles des outils d’intégration des données (dé- crits dans la section3.1) vont être le plus sollicitées, dans les conceptions des architectures décisionnelles. Il y a cependant une autre problématique, peu soulevée dans la littérature, autour de la vitesse, dans les données massives, qui n’est pas celui de l’acquisition, mais celui de l’accès aux données.

En effet plus un volume de données est important, plus techniquement il est difficile d’accéder, rapidement, à ces données. Nous avons aussi abordé ce point dans la partie archivage des données section3.1.4, qui présente la même problématique.

C’est donc l’accélération du temps des requêtes, par exemple, qui va devoir être traitée dans la conception de l’architecture d’information. Plus précisément, en reprenant la démarche d’urbanisation de Servigne [70] c’est l’architecture technique des systèmes décisionnels qui va devoir proposer une solution pour résoudre cette problématique.

Les "appliances" décisionnelles, comme Teradata, par exemple, traitent ce point, pour les données structurées essentiellement. Les données non structurées ou semi-structurées doivent pouvoir exploiter, via leur mode de stockage, des "accélérateurs" techniques. Ces derniers peuvent être purement liés à une caractéristique physique d’un serveur ou à une propriété logicielle de la base de données.

Nous pouvons illustrer cela au travers d’un exemple de produit industriel, celui d’IBM15, "DB2 Analytics

Accelerator "qui est un dispositif haute performance étroitement intégré à la base de donnée "Db2 for z/OS". Il assure un traitement ultra-rapide des requêtes DB2 complexes qui prennent en charge les rapports critiques et les charges de travail analytiques. Ce "produit" étroitement lié à l’infrastructure est une réponse à un besoin d’accélération des requêtes.

L’évolution des données, sous l’influence des données massives, impacte donc la partie infrastructure des architectures d’information. Les systèmes décisionnels pour s’adapter doivent donc intégrer les nouveautés technologiques et faire évoluer la partie technique de leur architecture.

C’est au travers des usages de ces données massives, qu’il faut traiter dans les systèmes décisionnels, que les choix technologiques sont mis en place dans les architecture d’information et induisent leur

Figure3.10: Niveau de maturité de l’utilisation des systèmes décisionnels, vision du Gartner

évolution.

La section suivante traite les différents usages autour de ces données variées et volumineuses.