Approches de sélection des vues matérialisées pour les BDBO

Conclusion et Perspectives

6.1.4 Approches de sélection des vues matérialisées pour les BDBO

La définition du modèle de coût précédent, nous a permis d’aborder le problème de la

conception physique des BDBO. Ce problème étant très large, nous nous sommes restreint

au problème de sélection des vues matérialisées dans lesBDBO. Nous avons fait ce choix car

les vues matérialisées sont des structures d’optimisation qui permettent d’optimiser de nom-breux types de requêtes et qui, par ailleurs, ont été peu traitées dans la littérature. En effet, les

rares travaux effectués dans ce sens portent sur les BDBO verticales et ainsi ils ne prennent

pas en compte la diversité des BDBO. La formalisation du problème de la conception

phy-sique desBDBO s’apparente à celle des bases de données traditionnelles. Nous rappelons que

ce problème est NP-complet [200] dans les BD traditionnelles. La diversité des modèles de

stockage et des architectures des BDBO vient compliquer ce problème. Nous avons identifié

trois approches pour traiter le problème de sélection de vues matérialisées dans le contexte des

BDBO : (i) la sélection basée sur l’ontologie et les requêtes. Cette approche que nous appelons

aussi sélection conceptuelle est originale car elle remonte la tâche de sélection des vues maté-rialisée à la phase conceptuelle. Ainsi, elle ne prend pas en compte l’implémentation physique

de la base de données mais requiert uniquement le schéma de l’ontologie. (ii) Une sélection

imposée, qui suppose l’existence préalable d’une BDBO. Elle suppose donc la connaissance

du modèle de stockage, du SGBD sous-jacent et des autres caractéristiques de laBDBO. Elle

est similaire à celle faite dans le contexte des bases de données traditionnelles. (iii) La dernière approche appelée approche simulée intègre dans le processus de sélection des vues

matériali-sées la diversité desBDBO. Nous avons proposé une approche conceptuelle et une approche

simulée. Notre approche conceptuelle est basée sur les classes de l’ontologie impliquées dans la

charge des requêtes. Elle fait une abstraction de l’implémentation desBDBO. Par contre, elle

nécessite la présence de l’ontologie. Notre approche simulée prend en compte la phase logique, physique et de déploiement. Elle est basée sur les triplets. Elle est générique et applicable à

tout type deBDBO. En effet, cette approche construit un graphe de requêtes (plan unifié des

requêtes) basé sur les patrons de triplet des requêtes de la charge. Elle prend en compte le mo-dèle de stockage sous-jacent et utilise notre momo-dèle de coût dans le processus de la sélection de

vues matérialisées. Les expérimentations réalisées sur les différents types deBDBO ont

mon-tré que nos approches sont pertinentes et comparables à d’autres approches traitant de la même

question pour un type deBDBO particulier [182].

6.2 Perspectives

A court terme, nous pensons qu’il est important de faire une validation plus approfondie de nos travaux. En effet, même si nos expérimentations ont donné des résultats intéressants, il est important de les réaliser sur une plus grande volumétrie de données avec d’autres

bench-marks impliquant des requêtes plus variées et sur d’autresBDBO pour voir la robustesse de nos

propositions. Côté outillage, il serait intéressant d’envisager la mise au point d’un simulateur intégrant notre modèle de coût et nos approches.

A plus long terme, nous notons que nos travaux ont été menés dans un contexte bien

particu-lier où l’on considère uneBDBO comme un système centralisé nécessitant l’optimisation d’un

ensemble de requêtes connu. Même si nous pensons que ce contexte concerne de nombreux cas d’application, il serait intéressant d’élargir nos travaux en remettant en cause certaines hy-pothèses faites. Nous pensons notamment au traitement des données massives ("big data") qui apporte de nouvelles dimensions partiellement traitées dans nos travaux. Nous décrivons ces dimensions ci-dessous et évoquons des perspectives de recherche qu’elles impliquent pour nos travaux.

6.2.1 Volume

UneBDBO centralisée n’est pas en mesure de gérer des données massives. En effet,

celles-ci sont caractérisées par l’ajout de téraoctets de données par jour. Dans ce contexte, il est

nos travaux. Le partitionnement jouant un rôle crucial dans cette problématique et le partition-nement pouvant reposer sur un modèle de coût, nous pensons qu’il serait intéressant d’étendre nos travaux en considérant d’autres structures d’optimisation comme le partitionnement ou les index succincts très utilisés dans le contexte des données massives. Il faudra pour cela adapter notre modèle de coût à ces structures d’optimisation et prendre en considération les coûts de transfert de données. Il faudra également revoir les algorithmes de sélection puisque dans ce cas, nous ne ferons plus une sélection de manière isolée sur les vues matérialisées mais une sélection en combinant un ensemble de structures d’optimisation qui peuvent avoir un impact l’une sur l’autre.

6.2.2 Variété

Dans nos travaux nous avons considéré le stockage d’ontologies et de leurs instances. Comme nous l’avons vu, ces données présentent une diversité qui ont été au cœur de nos travaux. Dans le cadre des données massives, cette variété est encore plus grande puisqu’il s’agit de traiter des données de diverses natures qui peuvent être ontologiques mais également semi-structurées, textuelles, multimédia, etc. La gestion de cette diversité a vu naître de nombreuses nouvelles solutions de stockage qualifiées de NoSQL ou NewSQL qui proposent des performances et des fonctionnalités très variées. Une des questions centrales actuellement est de déterminer la so-lution à utiliser lorsque l’on fait face à un problème de traitement de données massives. Nous pensons que la démarche que nous avons suivie dans nos travaux pourrait être intéressante pour ce problème que nous qualifions de "déploiement". Il s’agirait d’abord de bien étudier les so-lutions NoSQL et NewSQL proposées pour identifier les dimensions de leur diversité et de confirmer ces dimensions par des études expérimentales. Cette étude devrait permettre de déter-miner si il est possible de construire un modèle unifié pour ses solutions et un modèle de coût associé qui permettrait alors de traiter le problème du déploiement.

6.2.3 Vélocité

Dans nos travaux, nous considérons un contexte statique où l’ontologie est stable et les requêtes importantes sont connues à l’avance. Ces hypothèses ne sont pas forcément vraie dans un contexte de traitement de données massives où l’on considère que les données doivent être

capturées et analysées en temps réel. Dans uneBDBO, cela voudrait dire que l’ontologie et/ou

ses instances pourraient être mises à jour fréquemment et que les requêtes pourraient ne pas être connues à l’avance. Il faudrait donc étudier les impacts de l’évolution de l’ontologie et des données sur les approches de sélection des vues matérialisées proposées dans nos travaux. De même, il faudrait redéfinir ce problème, lorsque la charge de requête est dynamique. Enfin, le problème de maintenance des vues matérialisées serait crucial dans un tel contexte puisque les données changeraient rapidement. Aussi, il serait nécessaire d’aborder la question de la

