Espace de Recherche - Strat´egie de recherche

4.4 Strat´egie de recherche

4.4.2 Espace de Recherche

L’espace de recherche est un ensemble de TGV pouvant être généré à l’aide des règles de transformations définies dans l’optimiseur. Si aucune stratégie de recherche n’est définie dans l’optimiseur, alors, l’espace de recherche génère l’ensemble de tous les TGV possible, le TGV optimal est alors celui dont le coût d’évaluation, défini par le modèle de coût, est le moins cher. Toutefois, la génération de tous les TGV est souvent plus longue que l’évaluation du TGV initial, il n’est donc pas utile de générer tout l’espace de recherche. C’est pour cela qu’une stratégie de recherche doit être définie pour réduire l’espace de recherche et ainsi obtenir un TGV optimal dit ”local” `

a l’espace généré. Ainsi, la stratégie de recherche oriente le choix d’utilisation des règles de transformation pour réduire l’espace de recherche pour obtenir le TGV optimal local.

L’optimiseur EXODUS [Carey et al. 1990] propose une stratégie de recherche basée sur la valuation des règles de transformations avec un coefficient d’amélioration. Ce coefficient est défini entre 0 et 1 par un calibrage des règles à l’initialisation du système, plus le coefficient est proche de zéro, plus le gain de performance est grand, plus il est proche de 1, plus le gain est petit (coût identique à l’initial). Ainsi, l’optimiseur choisit, pour une requête donnée, la règle de transformation dont le coefficient d’amélioration est le plus proche de zéro, dans l’ensemble des règles applicables sur cette requête. La stratégie de recherche incrémentale n’est certes pas la plus efficace puisqu’elle ne génère pas forcément le meilleure plan. Toutefois, nous avons choisi cette solution en premier lieu pour établir un cadre d’optimisation nous permettant de tester les performances de l’optimiseur extensible. La stratégie de recherche peut être modifiée pour améliorer les performances, ce choix sera proposé dans le cadre d’une autre thèse de recherche [Liu to appear].

Comme pour EXODUS, notre stratégie de recherche sera orientée par l’attribution d’un coefficient d’amélioration à chaque règle de transformation. Toutefois, le choix de la valeur du coefficient ne peut être attribué de la même manière que pour EXO-DUS. En effet, dans le cadre de la médiation, le coefficient d’amélioration des règles de transformation peut varier en fonction du coût d’évaluation des requêtes sur les sources distantes ou entre deux sources distinctes. Seul le modèle de coût peut nous permettre de donner ces détails. Ainsi, le coefficient d’amélioration sera calibré puis raffiné par historique pour lui permettre de rester à jour. Nous pouvons définir le coefficient d’amélioration grâce au modèle de coût grâce à la formule suivante :

coef f = ^{cost(ϕ(tgv))}_cost(tgv)

4.4.4 Strat´egie de recherche 135

du TGV modifié sur le coût d’évaluation théorique du TGV initial.

Toutefois, le modèle de coût seul ne suffit pas pour définir le coefficient d’améliora-tion d’une règle de transformad’améliora-tion. En effet, les catégorisad’améliora-tions des règles définies précédemment influent sur le coût d’évaluation du TGV. Chaque catégorie apporte une information particulière dépendant de ses propres caractéristiques. Concernant les règles de transformations logiques, celles-ci ne tiennent pas compte des infor-mations présentes sur les sources distantes. Alors que les règles de transforinfor-mations physiques tiennent compte des informations provenant des sources.

Ainsi, cette différence, entre les transformations logiques et physiques, influe sur le coefficient d’amélioration puisque les transformations logiques préparent le TGV à l’évaluation physique. Ainsi, le coefficient des transformations logiques doit être plus intéressant que les transformations physiques, celui-ci sera donc affecté d’un facteur d’influence de ×0.5 pour représenter cette importance. Concernant les transforma-tions utilisateurs, celles-ci peuvent aussi bien influencer les transformatransforma-tions logiques et physiques, changer le coût d’évaluation (exemple de la fonction contains), il n’est donc pas possible de déterminer de manière automatique son influence sur l’opti-misation. Ainsi, son facteur d’influence sera déterminé par l’utilisateur qui pourra déterminer l’importance de la transformation.

Ainsi, grâce à un coefficient d’amélioration défini pour chaque règle de transforma-tion de l’optimiseur, nous pouvons orienter la stratégie de recherche. Ce coefficient défini par le rapport du coût d’évaluation théorique après transformation sur le coût après transformation est raffiné par un historique du coût d’évaluation fait sur les sources. De plus, un facteur d’influence est affecté à chaque règle de transforma-tion définie en fonctransforma-tion de sa catégorisatransforma-tion permettant de donner une plus grande importance aux transformations logiques et transformations utilisateurs spécifiques.

4.4.3 Conclusion

La stratégie de recherche définie dans l’optimiseur s’appuie sur un modèle de coût défini par calibrage des sources avec raffinage sur historique. Cette stratégie incré-mentale définie un cadre d’optimisation pour effectuer des tests de performances (section 5.5). Ue stratégie plus efficace sera définie dans la thèse de [Liu to appear], plus adaptée au modèle de coût permettant d’annoter des estimations sur les TGV. L’annotation des TGV permet de donner une estimation du coût d’évaluation sur des ensembles d’éléments présents dans le TGV. Le parcours de l’espace de recherche des plans est orienté grâce à l’attribution d’un coefficient d’amélioration des règles de transformations. Ce coefficient est orienté lui-même par calibrage de celles-ci grâce au modèle de coût avec raffinage par historique. Ces coefficients sont influencés par un facteur déterminé grâce à la catégorisation des règles de transformation.

4.5 Conclusion

L’optimiseur basé sur le modèle TGV propose un ensemble d’outils permettant de manipuler les TGV : une algèbre abstraite, une base d’annotation, un langage de définition de règles de transformation, une catégorisation des transformations, un modèle de coût générique et une stratégie de recherche.

Une algèbre abstraite est proposée pour définir une évaluation des TGV de manière intuitive indépendante d’une algèbre physique. Celle-ci repose sur une décomposi-tion des ensembles caractéristiques des TGV pour donner un ensemble d’opérateurs fonctionnels capables d’évaluer des documents XML grâce à notre modèle de repré-sentation.

Une base d’annotation générique est associée au modèle pour représenter n’importe quelle information que nous souhaitons intégrer à la représentation. Ces annotations regroupent des ensembles d’éléments de TGV pour leur associer une annotation quel-conque. Ainsi, il est possible de définir des annotations de méta-données, capacités fonctionnelles, coût d’évaluation, choix d’algorithmes flexibles [Calmès et al. 2003]... Un TGV qui a été annoté est appelé TGV physique. Ce TGV annoté peut alors être optimisé.

L’optimiseur modifie un TGV à l’aide de règles de transformation. Ces règles de transformation peuvent être intégrées dans le système grâce à un langage de défi-nition de règles de transformation. Ce langage repose sur les opérations des types abstraits de données définies par le modèle, permettant ainsi de spécifier librement toute règle possible. Grâce à ce langage de règle, l’optimiseur est extensible, car l’ensemble des règles de transformation peut être modifié.

Chaque règle de transformation déclarée dans l’optimiseur est classée dans une ca-tégorie. Trois classes sont définies. Les transformations logiques équivalentes trans-forment un TGV à l’aide des simples connaissances des TGV sans modifier le résultat de l’évaluation. Les transformations physiques équivalentes transforment un TGV `

a l’aide des informations présentent dans le TGV et dans les annotations tout en préservant le résultat de l’évaluation. Les transformations utilisateurs sont définies en fonction du contexte dans lequel s’intègre l’optimiseur. Il est parfois utile de ne pas préserver l’équivalence pour répondre de manière plus «correcte» à une re-quête. L’exemple de règles de transformations sémantiques permet de répondre à une requête en fonction du thème choisi, et non du schéma exacte des données (qui peut être bien différent). Cette catégorisation des règles de transformation permet d’orienter la stratégie de recherche de l’optimiseur.

Pour permettre à l’optimiseur d’améliorer les TGV à l’aide des règles de transfor-mation sans générer l’ensemble des TGV possibles, une stratégie de recherche a été définie ; elle permet donc de réduire l’espace de recherche. Pour cela, un modèle de coût est nécessaire pour déterminer le coût d’évaluation de chaque TGV, celui-ci est défini par calibrage des sources et raffiné par historique. Chaque ensemble

d’´el´e-4.4.5 Conclusion 137

ments d’un TGV est annoté par son coût d’évaluation, le coût d’évaluation du TGV est alors défini par un système de formules. La stratégie de recherche s’appuie sur ce modèle de coût pour définir un coefficient d’amélioration pour chaque règle de transformation. Ce coefficient défini entre 0 et 1, est fixé par calibrage des règles et par raffinage par historique. De plus, le coefficient d’amélioration est orienté par un facteur d’influence réglé par la catégorisation de la règle de transformation. Au final, l’optimiseur choisi la règle applicable ayant le meilleur coefficient d’amélioration. Ainsi, nous avons proposé un optimiseur extensible basé sur le modèle des TGV capable de définir son évaluation, son coût et ses transformations. L’optimiseur dé-termine ainsi un TGV quasi-optimal qui peut être évalué par le médiateur.

Une partie des techniques décrites dans ce chapitre a été mise en œuvre dans le cadre du médiateur XLive. La décomposition des TGV ainsi que les annotations permettent de générer les plans logiques et physiques dans le médiateur. Un modèle de coût générique a été intégré dans les annotations pour permettre à l’optimiseur de donner un coût théorique à chaque plan. Pour le moment, les règles de transformation sont implémentées dans l’optimiseur ; le parseur spécifique au langage de règle de transformation est en cours d’implémentation.

Chapitre 5

XLive : un syst`eme de

m´ediation

Le système de médiation présenté dans cette thèse résulte de l’évolution du système de médiation XMLMediator de e-XMLMedia [Gardarin et al. 2002] et de l’intégration des différentes techniques que nous avons pu aborder dans cette thèse. XMLMediator a été développé au sein de la société e-XMLMedia, les bases de cette architecture ont été utilisées pour développer le système de médiation XLive au laboratoire PRiSM. L’objectif du projet XLive est de pouvoir fédérer des sources de données hétéro-gènes et distribuées, tout en utilisant les technologies ”XML”. Ainsi, XLive est une architecture de médiation ”tout-XML” permettant à un utilisateur d’interroger le médiateur dans le langage XQuery et de récupérer un résultat sous forme d’un do-cument XML. Les requêtes sont représentées en interne par les TGV. L’évaluation des données XML est facilitée par l’utilisation d’une XAlgebre (appelée aussi XAl-gebra). Des adaptateurs permettent la communication avec toutes sortes de sources de données : natives XML (Xyleme, eXist, Xhive), relationnelles (Oracle, MySQL, Microsoft Access), fichiers XML, Web Services (Google API, Amazon).

Dans ce chapitre, nous présentons le fonctionnement du système XLive avec son architecture, les adaptateurs et la XAlgebre (section 5.1). Nous proposons ensuite une étude qualitative des TGV grâce aux cas d’usage du W3C (section 5.2). Le médiateur XLive est alors testé sur le cas d’usage XMP dont les performances sont développées dans la section 5.3. Puis, une description de l’optimiseur extensible est proposée dans la section 5.4. Enfin, une étude quantitative à l’aide de bancs d’essai [Dragan et Gardarin 2005] valident nos travaux (section 5.5).

5.1 Architecture de M´ediation

XLive est un système de médiation ”tout-XML” implémenté en Java permettant de fédérer des sources de données hétérogènes et distribuées. L’architecture de média-tion DARPA I3 a été retenue. Elle permet dans notre contexte de traiter les requêtes XQuery pour produire un résultat pouvant intégrer des données extraites par l’en-semble des sources reliées au médiateur. La XAlgèbre permet de traiter les données sous forme de flux XML provenant des différentes sources intégrées pour construire un résultat final. Les adaptateurs dialoguent avec les sources et permettent au mé-diateur de connaˆıtre les informations nécessaires pour l’évaluation et l’optimisation des requêtes.

Nous allons tout d’abord étudier l’architecture de XLive (section 5.1.1), puis nous détaillons les opérateurs de la XAlgèbre (section 5.1.2).

Dans le document Optimisation Extensible dans un Mediateur de Données Semi-Structurées (Page 145-151)