Les bases de données NoSQL - Archiver les Big Data : un enjeu pour l’archiviste d’aujourd’hui e

Les bases de données classiques, ou SGBDR (Système de gestion de bases de données relationnelles) constituent le modèle d’architecture le plus utilisé encore dans l’architecture des SI aujourd’hui. Le SGBDR peut être composé d’une ou plusieurs bases de données, avec ses logiciels associés. Les solutions les plus présentes sur le marché sont les bases de données MySQL, Oracle et PostgreSQL. Une base de données est composée de plusieurs tables ou relations, tables qui seront gérées par l’algèbre relationnel (intersection et indexation, jointure externe/interne, produit cartésien etc … ). Les bases de données stockent les données opérationnelles : les données actives, fréquemment et rapidement interrogées, généralement par un grand nombre d’utilisateurs. Des bases de données dédiées, synthétisant les informations et pour répondre à des besoins précis, sont aussi installées : ce sont les datawarehouses. Un datawarehouse regroupe des données hétérogènes, provenant de multiples applications du SGBDR. Cela peut être des fichiers plats comme Excel, fichier texte ou encore XML. Une des fonctions importantes du warehouse est l’historisation, qui se base sur le principe de conservation de la donnée : chaque donnée présente dans celui-ci possède une date ou un numéro de version, afin d’éviter les doublons par rapport à la BDD, et ainsi obtenir une certaine traçabilité (il y a la une notion d’historisation). Cependant, le coup pour le SI est énorme : les BDD stockent difficilement les très grands volumes de données, et le temps de

Les sciences de l’information dans le contexte des mégadonnées

VIEIRA Alexandre | Master 2 ARN | Mémoire | Aout 2018 - 36 -

Droits d’auteur réservés. OU

traitement des données entrantes peut être très long (à cause de l’indexation). En outre, les entrepôts de données classiques ne prennent pas en compte les données non-structurées : données XML hiérarchiques, journaux web non structurés ou graphiques point à point ne sont donc en général pas gérés50_.

Ainsi, pour répondre aux besoins de traitement des mégadonnées, tant en termes de volumétrie que de variétés et de vitesse, certains SI se dotent de bases de données dites NoSQL. Les bases données NoSQL répondent à un certain nombre d’exigences : stockage et traitement sont distribués dans des clusters de serveur à bas coût, liés entre eux par plusieurs milliers de nœuds. L’intégrité des données est moins importante que la performance et la disponibilité. Surtout, ce sont des bases de données qui peuvent gérer et traiter à la fois des données structurées et non structurées. La grande majorité des solutions de type NoSQL sont hautement dynamiques, dépourvu de tout schéma ou modèle de base de données construit en préalable (il n’y a pas de jointure entre les tables par exemple), cela précisément afin d’accueillir et de traiter des données peu ou non structurées. Ces systèmes ont en outre l’avantage d’être open source, pour favoriser une forte interopérabilité au sein des SI. Il existe plusieurs types de solutions NoSQL sur le marché aujourd’hui. Ces solutions ont souvent une orientation propre, et une structure différente pour satisfaire à différents besoins. Nommons par exemple les bases de données orientées agrégats (BDOA) : le concept de table (propre aux SGBD classiques) est remplacé par la notion d’agrégat, qui va contenir les données les plus sollicitées51_{. Ensuite,}

selon la nature des agrégats manipulés, on distingue 3 sous catégories, soient les suivantes : les entrepôts clé – valeur, les bases de données orientées documents, les bases de données orientées colonnes. Les bases de données NoSQL orientées documents sont en fait bien connues des professionnels de l’informations puisqu’elles peuvent se connecter à des solution ECM comme Sharepoint ou Alfresco, tant il est vrai que « Les applications qui manipulent naturellement des documents comme les systèmes de gestion de contenu ou les plateformes de blogs

50_{BRASSEUR, Christophe, 2016. Enjeux et usages du Big Data. 2e édition. Paris : Hermès Lavoisier. Management}

et informatique. ISBN 978-2-7462-4758-1. 658.05, page 78

51_{LEMBERGER, Pirmin, BATTY, Marc, MOREL, Médéric, RAFFAËLLI, Jean-Luc et GÉRON, Aurélien, 2016.}

Big data et machine learning: les concepts et les outils de la data science. 2e éd. Paris : Dunod. InfoPro. ISBN 978-2-10- 075463-2. Q325.5, page 40

Les sciences de l’information dans le contexte des mégadonnées

VIEIRA Alexandre | Master 2 ARN | Mémoire | Aout 2018 - 37 -

Droits d’auteur réservés. OU

[CMS] pourront […] utiliser avec profit une BDOD »52_{. En quoi ? La base de}

données NoSQL orientée document fonctionne sur le couple clé – valeur, avec pour valeur des entités semi structurées ou non structurées, c’est-à-dire des documents en général en format XML ou JSON, mais aussi en format Microsoft Office (MS Word, Excel etc … ), ou encore PDF. La BDOD possède plusieurs avantages sur le SGBDR pour le traitement des documents : les objets documents peuvent être de format différent (un aspect plus complexe à gérer dans un SGBD) tout en étant situé sur le même emplacement. En d’autres termes, c’est comme si plusieurs documents, possédant chacun une structure différente, pouvaient être stockés dans une même table, sans laisser de champs vides. Conséquemment, la base de données non relationnelle est plus malléable et dynamique, ses champs s’adaptant à différentes structures de documents. De même, cela permet à un utilisateur de modifier la structure d’un document à la volée, sans la contrainte d’un modèle pré-établi. En « greffant » des fonctionnalités métiers sur ce type de base de données pour la gestion électronique des documents, le spécialiste de l’information peut tirer parti de l’élasticité de pareil système, notamment lors de scénario type « Big Data ». A titre d’exemple, une grande banque française est confrontée à la problématique de la gestion de milliards de flux AFP53_{– volumétrie exponentielle, que les GED en}

place ont à encaisser et à indexer. Une base de données NoSQL, couplée à un type de stockage efficace, peut répondre au défi de l’ingestion de plusieurs milliards de documents. Pour soutenir cette gestion des grands et importants volumes de données, il faut aussi déployer une solution de stockage des bits appropriés : c’est ici que le framework Hadoop entre en scène.

Dans le document Archiver les Big Data : un enjeu pour l’archiviste d’aujourd’hui et de demain ? (Page 35-37)