Editorial
Bases de données avancées. Modèles, systèmes et usages regroupe une sélection des meilleurs articles présentés lors de l’édition 2002 des journées « Bases de données avancées ». Depuis leur première édition en 1985, ces journées sont devenues une véritable institution et un lieu d’échange privilégié pour toute la communauté bases de données francophone. Les articles présents dans ce numéro témoignent de la qualité et de la diversité des travaux conduits par cette communauté. Avant de donner un aperçu du contenu de ces articles, il me paraît important de situer la place que tient notre communauté au niveau international, de rappeler sa contribution aux avancées les plus significatives du domaine ainsi que ses efforts de structuration et d’animation de la recherche au niveau national.
Depuis leur avènement dans les années 1960, de nombreux résultats théoriques et pratiques ont jalonné l’histoire des bases de données. Quel meilleur résumé de cette histoire que de citer les trois prix Turing de l’ACM ayant accompagné ces résultats. Charles Bachman a reçu le prix Turing 1973 pour son travail de pionnier concernant la modélisation conceptuelle des bases de données et la réalisation du premier Système de Gestion de Bases de Données (SGBD) commercial, intitulé IDS.
Par un article d’anthologie publié en 1970, Ted Codd (Prix Turing 1981) a jeté les bases du modèle relationnel, apportant les fondements mathématiques manquants jusqu’alors au domaine des bases de données. Trente ans plus tard, ce modèle est toujours la référence et reste au cœur des SGBD les plus répandus. Victimes de leur succès, les SGBD ont été confrontés à une croissance quasi exponentielle du volume de données à traiter, du nombre d’utilisateurs simultanés et du débit transactionnel escompté. Jim Gray (prix Turing 1998) a été récompensé pour sa contribution globale sur les stratégies permettant de traiter de façon efficace et cohérente de très grandes bases de données partagées.
Si cet héritage prestigieux est de nos jours largement exploité, force est de constater la profonde mutation qui s’amorce dans l’architecture des systèmes d’information et leur usage. L’information est aujourd’hui omniprésente et distribuée dans une multitude de sources de données autonomes et fortement hétérogènes (données tabulaires, documents XML semi-structurés, données multimédias telles que images, sons, vidéo). L’internet facilite le partage à grande échelle de ces sources de données et modifie par là même les modes d’accès à l’information (nombre très élevé de clients et de ressources, dynamicité du contenu,
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tsi.revuesonline.com
1240 RSTI - TSI – 22/2003. Bases de données avancées
notification et personnalisation des informations pertinentes pour un utilisateur, indisponibilité temporaire de certaines ressources, accès ubiquitaire via des terminaux mobiles…), l’exploitation de cette information (entrepôts de données, extraction de connaissances, grilles de données et de traitements) ainsi que les règles mêmes du partage (préservation de la confidentialité, respect du droit de propriété).
Pour répondre à cette mutation, la communauté bases de données a ouvert de grands chantiers au cours de la dernière décennie. Parmi les plus représentatifs, et sans prétendre à l’exhaustivité, nous pouvons citer : la gestion de données semi- structurées (interrogation, diffusion, indexation, versionnement de documents XML) ; la médiation de données permettant de construire une vision centralisée, cohérente et uniforme d’un ensemble de sources de données distribuées et hétérogènes ; la médiation de programmes permettant la construction de chaînes de traitement (ex : workflows scientifiques ou services web) ; la conception de composants bases de données adaptables s’opposant à une vision monolithique des moteurs de SGBD ; la gestion de données multimédias avec la définition de nouvelles méthodes d’indexation et la prise en compte de relations spatiales et temporelles ; le rafraîchissement et l’exploitation d’entrepôts de données alimentés par des sources disponibles sur l’internet ; l’extraction de connaissance à partir des données (ECD) permettant notamment d’interpréter le contenu de ces entrepôts de données ; l’interrogation de données à large échelle intégrant la problématique du traitement de critères approximatifs et de la personnalisation des résultats grâce à l’acquisition par apprentissage de profils d’utilisateurs ; la gestion de la mobilité des données et des utilisateurs et enfin la sécurisation des systèmes d’information face à des attaques de plus en plus nombreuses et variées.
La communauté bases de données française contribue activement à ces chantiers, comme le montre la sélection d’articles de ce numéro. Le premier article, intitulé « Interrogation de ressources XML concernant un domaine d’intérêt », s’intéresse à l’interrogation et à l’intégration de ressources XML disponibles sur le web. L’article propose un langage à base de règles permettant de décrire des ressources XML sous la forme de vues exprimées sur un schéma global ainsi que des algorithmes exploitant ces règles pour traduire des requêtes utilisateurs en requêtes XML. L’utilisation d’ontologies associées à un domaine d’intérêt particulier améliore la précision de l’approche. Le deuxième article, intitulé
« Interrogation efficace de ressources distribuées dans des systèmes de médiation », se situe également dans le domaine de l’intégration. Il prend en compte des ressources de type données et programmes et considère une architecture de médiation décentralisée de type pair à pair. Il adresse plus particulièrement le problème de l’exécution et de l’optimisation de requêtes distribuées mettant en jeu des calculs complexes (par exemple des programmes scientifiques) et des transferts de données volumineux (par exemple des images satellites). Le troisième article, intitulé « RS2.7 : un canevas adaptable de duplication », formalise la fonction de duplication puis propose un canevas de services de duplication pouvant être
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tsi.revuesonline.com
Editorial 1241
instancié ou personnalisé par un concepteur d’intergiciels afin d’adapter le comportement du service à différents contextes applicatifs. Cet article se situe donc à la frontière entre bases de données et systèmes distribués. Le quatrième article, intitulé « Treillis cubes contraints pour la fouille de bases de données multidimensionnelles », s’intéresse aux techniques de data mining permettant d’analyser des bases de données dont les instances contiennent des attributs n-aires.
Ces travaux, à caractère plus théorique, ont des applications dans le domaine de l’OLAP (On-Line Analytical Processing) et peuvent par exemple contribuer à l’analyse d’entrepôts constitués à partir de données extraites de sources distribuées sur le web. Enfin, le cinquième article, intitulé « Résumé de bases de données : application au domaine bancaire », présente une approche originale de résumé de données et l’applique à une base réelle d’un groupe bancaire. Cet article offre donc une réponse, à la fois théorique et pratique, au problème de l’interrogation et de l’analyse de très grandes bases de données dont le volume s’accroît chaque jour de façon importante (ex : mémorisation de mouvements bancaires, d’appels téléphoniques, etc.).
Les articles précédents se situent tous au meilleur niveau de la compétition internationale. D’ailleurs, un des signes de la reconnaissance internationale de notre communauté est la prochaine organisation en France, par des membres de BDA, de la prestigieuse conférence ACM SIGMOD’2004, qui sort de l’Amérique du nord pour la première fois de son histoire. Le dynamisme de notre communauté transparaît également au niveau du CNRS et de l’INRIA. L’année 2002 aura été particulièrement riche de ce point de vue. Tout d’abord, le RTP 9 (Bases de données et d’informations hétérogènes et distribuées) a été lancé par le CNRS avec pour objectif de réfléchir à la mise en œuvre des systèmes d’information de grande envergure et de donner une visibilité nationale et internationale aux travaux menés dans les domaines « Bases de données et recherche d’information ». Associées à ce RTP, quatre actions spécifiques ont déjà été menées à bien (mobilité – accès aux données, recherche d’information – passage à l’échelle dans la taille des corpus, médiation d’informations via les métadonnées et personnalisation de l’information) et trois sont en cours (langages, types, sécurité, intégrité pour données semi- structurées, données multimedia – interrogation et stockage et enfin intégration de sources de données génomiques). Le RTP étudie également la mise en place d’une plate-forme commune pour la recherche, le filtrage et l’exploration d’information, mettant à disposition des scientifiques les ressources informatiques et humaines nécessaires à leurs travaux (données, traitements, résultats intermédiaires, évaluations, support technique, etc.). Par ailleurs, l’année 2002 a vu naître deux nouveaux projets INRIA en bases de données, le projet hors-site Atlas (INRIA- Rennes, localisé à l’IRIN) sur la gestion de données complexes dans les systèmes distribués et le projet SMIS (projet commun INRIA-Rocquencourt/Université de Versailles) sur les systèmes de médiation d’information sécurisés. Enfin, la communauté est également présente sur le terrain du transfert technologique via le lancement de jeunes pousses telles que Xylème, e-XMLMedia et Médience, invitées à
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tsi.revuesonline.com
1242 RSTI - TSI – 22/2003. Bases de données avancées
présenter leur activité à BDA’02, marchant sur la voie ouverte par des prédécesseurs tels que O2 Technology, Infosys et plus récemment Kelkoo.
Le rappel de ces faits donne la preuve d’une communauté qui, malgré sa petite taille, apparaît dynamique, organisée et soudée autour d’objectifs scientifiques précis mais ambitieux et à laquelle on ne peut que souhaiter beaucoup de succès pour les années à venir.
Philippe Pucheral INRIA Rocquencourt
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tsi.revuesonline.com