Evaluation des requˆ etes - Modélisation sémantique du cloud computing : vers une composition d

L’évaluation des requêtes dans les bases de données probabilistes est un des grands challenges qui intéressent actuellement la communauté scientifique. Evaluer une requête via l’ensemble des mondes possibles (i.e., sémantique des requêtes section 2.3, chapitre 2) est un problème NP-hard, ceci s’explique par le fait que le nombre des instances possibles 98 1. GESTION DES BASES DE DONN ÉES PROBABILISTES

a travers lesquelles une requête est évaluée est exponentiel. Dans le but d’assurer une évaluation tractable des requêtes, il est nécessaire de trouver des techniques d’évaluation plus efficaces (i.e., optimales en termes de complexité), et dont le résultat est similaire à celui obtenu via l’ensemble des mondes possibles.

Les approches d’évaluation de requêtes à travers les bases de données probabilistes à simple corrélation (e.g., Tuple-Independant, BID, And/Xor Tree, etc) peuvent être divisées en deux catégories : évaluation intensionnelle, et évaluation extensionnelle.

L’approche intensionnelle est une méthode d’évaluation de requêtes [42] qui évalue ces dernières en termes d’événements complexes. Dans cette approche, chaque tuple ti est associé à un événement probabiliste atomique e(t_i). L’évaluation intensionnelle d’une requête Q est divisée en deux étapes : (i) premièrement, elle calcule pour chaque tuple possible (i.e., tuple retourné) son lineage λ qui décrit ses provenances. Le lineage d’un tuple est une formule propositionnelle (i.e., événement probabiliste complexe) qui est obtenue en se basant sur les événements des tuples initiaux et ceux des tuples intermédiaires, ainsi que les opérations algébriques du plan de la requête (e.g., projection, jointure, etc) ; (ii) La deuxième étape dans l’évaluation intensionnelle permet de calculer la probabilité des tuples possibles en se basant sur leur lineage λ, i.e., la probabilité d’une formule propositionnelle P (λ). L’avantage de cette approche et qu’elle assure l’évaluation correcte de n’importe quelle requête (i.e., les résultats sont en accordance avec la sémantique de requêtes). Cependant, il est impraticable d’utiliser cette approche pour l’évaluation de requêtes, et cela pour deux raisons. La première est que selon le plan de la requête et la taille de la base de données probabiliste, le lineage λ d’un tuple possible peut devenir très large, ce qui augmente significativement la complexité d’exécution. La deuxième raison tient au fait que le calcul de la probabilité d’un lineage P (λ) est un problème NP-complet [25]. Plusieurs approches ont été proposées afin d’optimiser la complexité liée au calcul de la probabilité d’une formule propositionnelle P r(λ). Les auteurs dans [41, 87] proposent une technique approximative qui permet de retourner pour P r(λ) un intervalle [L, U ] représentant la borne inférieure L et la borne supérieure U de la probabilité de λ, i.e., L ≤ P r(λ) ≤ U . Ces techniques d’optimisation deviennent de plus en plus effectives dans le cas où l’évaluation d’une requête ne nécessite pas des probabilités exactes pour les tuples retournés (e.g., les requêtes T op-k).

Dans l’approche extensionnelle [25, 26, 96], le processus d’évaluation d’une requête Q est entièrement guidé par les expressions de cette dernière, où le calcul des probabilités est impliqué dans le plan de Q. Par conséquent, il n’est pas nécessaire de séparer l’exécution de la requête du calcul des probabilités, i.e., les probabilités des tuples finaux sont calculées dans le moteur de base de données pendant le traitement de la requête. Pour pouvoir cal-culer ces probabilités, l’approche extensionnelle étend les opérateurs algébriques (sélection σ, projection Π, jointure1, etc) du plan de Q en des opérateurs algébriques probabilistes (sélection probabiliste σ^p, projection probabiliste Π^p, jointure probabiliste 1p, etc). Ces opérateurs probabilistes s’appliquent uniquement sur des tuples indépendants. La sélection probabiliste σ^p agit comme σ, tel que les tuples sélectionnés gardent leurs propres probabi-lités (i.e., P r_σp(t) est égale à P r(t) si t est sélectionné, 0 sinon) ; La projection probabiliste Π^p calcule la probabilité d’un tuple t comme 1-(1-p1)(1-p2). . . (1-pn), où p1, p2,. . . ,pnsont les probabilités de tous les tuples dont la projection retourne t ; Tandis que dans la jointure probabiliste 1p, la probabilité de chaque tuple t obtenu par la jointure de deux tuples t₁ et t2 (i.e., t=t1 1p t2) est égale à p1×p₂.

En général, l’approche extensionnelle est considérée comment étant une solution ef-ficace qui n’assure l’évaluation correcte que pour un type particulier de requêtes i.e., l’approche extensionnelle est approximative. Lorsque les probabilités des outputs sont cal-culées correctement (comme si nous avons évalué Q à travers les mondes possible), le plan de la requête est safe. La complexité des requêtes qui admettent des plans safe est polyno-mial. Cependant, pour certaines requêtes les probabilités obtenues sont incorrectes. Ceci s’explique par le fait que les plans de ces requêtes produisent des tuples intermédiaires qui ne sont pas indépendants, un tel plan est appelé unsafe. En revanche, il est pos-sible de trouver pour ce type de requêtes des plans safe, et par conséquent assurer une ´

evaluation correcte pour elles. Cependant, trouver pour une requˆete unsafe un plan safe est un probl`eme NP-hard.

Lorsqu’une base de données probabiliste est décrite par un graphe probabiliste (i.e., corrélation entre les tuples), le processus d’évaluation d’une requête consiste à étendre ce graphe probabiliste tout en créant de nouvelles variables aléatoires. Ces nouvelles va-riables correspondent aux tuples intermédiaires ainsi qu’aux tuples résultant. Sen et al [107] définie une algèbre qui permet de modifier les opérateurs algébriques du plan de la requête 100 1. GESTION DES BASES DE DONN ÉES PROBABILISTES

de fa¸con à préserver les corrélations entre tous les tuples (i.e., tuples initiaux, tuples in-termédiaires, tuples résultant). Les opérateurs modifiés permettent d’ajouter des facteurs (i.e., distributions de probabilités conditionnelles) au graphe probabiliste. Par exemple, pour l’opération projection nous ajoutons un facteur qui décrit la corrélation or ; La jointure se traduit par la corrélation and, etc. La dernière étape consiste à calculer les probabilités des tuples résultant, tout en basant sur le graphe probabiliste étendu, i.e., celui qui correspond au plan de la requête. La probabilité d’un tuple résultant est égale `

a la probabilité marginale de la variable aléatoire correspondante. Plusieurs algorithmes d’inférence peuvent être utilisés pour calculer efficacement la probabilité marginale dans un graphe probabiliste. Les auteurs dans [108] étendent l’algorithme d’inférence Variable Elimination [28] en introduisant le concept Facteur partagé. Ce concept consiste à fusion-ner les facteurs qui partagent entre eux certaines variables aléatoires, ce qui permet de réduire le nombre de facteurs dans le graphe probabiliste, et par conséquent optimiser le calcul des probabilités marginales.

Une autre fa¸con pour assurer l’évaluation efficace des requêtes est d’utiliser les vues matérialisées. Dans les bases de données classiques, les vues matérialisées constituent un concept très puissant qui permet d’optimiser l’exécution des requêtes en se basant sur les résultats des requêtes précédentes [2, 50]. Dans le cas des bases de données probabilistes, les vues matérialisées peuvent avoir un impact considérable sur l’évaluation des requêtes [24,99]. Par exemple, dans l’approche extensionnelle, l’évaluation d’une requête unsafe est un problème NP-Hard. En revanche, lorsque nous réécrivons cette même requête en termes de vues, elle devient safe, et par conséquent sa complexité d’évaluation est polynomial. Cependant, le problème majeur dans l’utilisation des vues matérialisées pour le traitement des requêtes est comment trouver, représenter, et utiliser les relations d’indépendance entre les tuples d’une vue. En général, les tuples dans une vue peuvent être corrélés de fa¸con complexe. L’une des solutions pour résoudre ce problème est de stocker le lineage de chaque tuple, mais celle-ci rend l’évaluation de requêtes moins efficace tout en complexifiant la définition des vues par rapport à la requête.

Dans le document Modélisation sémantique du cloud computing : vers une composition de services DaaS à sémantique incertaine (Page 113-117)