Haut PDF Réplication de données dans les systèmes de gestion de données à grande échelle

Réplication de données dans les systèmes de gestion de données à grande échelle

Réplication de données dans les systèmes de gestion de données à grande échelle

In this thesis we presented APER, a dynamic data replication strategy to satisfy both the response time of database queries and provider’s economic benefit in the cloud.. APER estimates [r]

154 En savoir plus

Contributions à la réplication de données dans les systèmes distribués à grande échelle

Contributions à la réplication de données dans les systèmes distribués à grande échelle

Architectures distribuées de distribution de contenus. La façon de distribuer les contenus mul- timédia a grandement changé ces dernières années. Les réseaux de distribution de contenus (CDNs pour l’anglais Content Delivery Networks) permettent de fournir du contenu à grande échelle. Les CDNs sont des systèmes composés de serveurs de contenus géographiquement dis- tribués dont le but est de passer à l’échelle et d’améliorer les temps d’accès pour les utilisateurs. Il y a en général deux types de serveur, appelés origin et replica [ 35 ]. Il est possible de classer les CDNs en fonction de la manière dont les replicas sont placés. On distingue deux grandes familles : cœur et bordure. L’architecture de type cœur repose sur des centres de données privés, au cœur du réseau. Cette approche a été mise en œuvre avec succès par les pionniers comme Akamai et les principaux fournisseurs de contenus et services. La plateforme Akamai [ 36 ] a été construite au-dessus d’un grand nombre de petits clusters de serveurs éparpillés dans de nombreux pays. De telles architectures nécessitent des algorithmes complexes pour localiser et distribuer le contenu. Certains fournisseurs de contenus, dont Amazon et Google [ 37 ], ainsi que
En savoir plus

57 En savoir plus

Risques à grande échelle dans les systèmes en réseau : quelques interrogations

Risques à grande échelle dans les systèmes en réseau : quelques interrogations

La mise en connexion de réseaux complexes s'est accélérée au cours des dernières années de manière spectaculaire. Certains des avantages de cette utilisation grandissante sont bien connus et étudiés par la théorie économique (économie d’échelle de l’offre et de la demande et effet de club). Cependant, cette interconnexion a créé de nouveaux types de risques dont l'échelle des conséquences potentielles a elle-même évolué dans des proportions impensables quelques années auparavant. Cette note met en lumière de manière introductive quelques-uns des principaux risques en question dans une problématique théorique reposant sur des cas concrets. Le plus souvent, le réseau œuvre comme un moyen physique de propagation du sinistre qui atteint alors un nombre plus grand de victimes, plus rapidement, et de manière ubiquitaire. Ces spécificités sont dues principalement à la dépendance au réseau et à l’interdépendance entre les réseaux. La gestion de tels risques apparaît d’autant plus complexe que ces risques sont émergents dans leur forme actuelle.
En savoir plus

26 En savoir plus

Persistance de noyau dans les systèmes dynamiques à grande échelle

Persistance de noyau dans les systèmes dynamiques à grande échelle

Plus précisément, un des problèmes fondamentaux d’un tel contexte consiste à assurer en dépit du dy- namisme, que les données critiques ne soient pas perdues. L’ensemble des nœuds détenant une copie de la donnée critique est parfois appelé un noyau. Plusieurs noyaux peuvent coéxister, chacun associé à une donnée spécifique. Pourvu qu’un noyau reste suffisamment longtemps présent dans le système, la donnée peut être transmise de nœuds en nœuds à l’aide d’un protocole de "transfert de données" aboutissant à la création d’un nouveau noyau. Cependant, l’utilisation d’un tel protocole nécessite de faire un choix sur la fréquence du transfert de données pour éviter un surcoût mais assurer que la donnée ne disparaisse pas.
En savoir plus

5 En savoir plus

Infrastructure P2P pour la Réplication et la Réconciliation des Données

Infrastructure P2P pour la Réplication et la Réconciliation des Données

Chapitre 1 - Introduction 14 multimédias en ligne avec lequel les utilisateurs peuvent facilement tisser des liens hypertextes entre les documents. Un Wiki permet la création et la modification de documents à travers une interface Web. Lors de la navigation dans le contenu d’un Wiki, un utilisateur peut à tout moment entrer en mode édition pour modifier le contenu de la page. Lorsqu’il termine, il peut sauvegarder le nouveau contenu qui vient alors remplacer l’ancienne valeur de la page. Cependant, l’architecture actuelle des Wikis est client-serveur : un serveur détient les données et les utilisateurs consultent et éditent les pages à travers un navigateur Web qui interagit avec le serveur. Cette architecture, malgré sa simplicité et sa popularité, a des limites. Par exemple, l’utilisation d’un serveur central est un point de faiblesse qui rend le système vulnérable aux pannes. L’exploitation d’une architecture P2P pour un Wiki permet de dépasser ces limites afin de passer à l’échelle en nombre d’utilisateurs, supporter une grande mobilité des clients et assurer l’élaboration et l’entretien des documents partagés de façon collaborative et asynchrone.
En savoir plus

138 En savoir plus

Téléphone et Systèmes d'Information en Conduite Automobile - Résultats de l'enquête à grande échelle

Téléphone et Systèmes d'Information en Conduite Automobile - Résultats de l'enquête à grande échelle

85 6 Conclusion Si les conversations et SMS restent des modes de communication encore très prisés au volant, les données issues de l’enquête montrent une évolution des contenus transmis par téléphone. Les nouvelles possibilités offertes par la technologie, portées par un transfert des données de plus en plus facile et de moins en moins coûteux, encouragent le partage de contenus plus complexes. En effet, contrairement aux SMS qui étaient réservés à des échanges entre deux personnes et ne contenaient ni son ni image, les messageries instantanées permettent aujourd’hui des communications de groupe et combinent texte, images et sons. L’usage d’internet et le partage d’images animées, bien qu’un peu moins fréquents que les SMS, sont malgré tout bien présents dans les véhicules. Nous avons souligné les difficultés inhérentes à la consultation de ce type de contenus, pendant laquelle le conducteur perd une partie de sa maîtrise du déroulement de l’action et parfois la notion du temps pendant lequel il ne regarde pas la route. Ces nouveaux modes de communication pourraient toutefois prendre une place de plus en plus grande au volant.
En savoir plus

94 En savoir plus

Systèmes répartis à grande échelle: de l'anarchie à l'auto-structuration

Systèmes répartis à grande échelle: de l'anarchie à l'auto-structuration

taille lorsque les entités n’ont accès à aucune information globale concernant le réseau qu’elles composent. Dans ce contexte, il est crucial de permettre aux entités de se positionner les unes par rapport aux autres. Ceci peut-être obtenu en définissant un système de coordonnées auquel les entités pourront se référer pour obtenir leur position. Un tel système fournit alors une brique de base pouvant être utilisée pour l’auto-structuration. Dans cet article, nous présentons un tel système de coordonnées : VINCOS. Ce système, léger et complètement décentralisé, repose uniquement sur l’exploitation de données locales et la communication entre entités voisines. C’est une grande différence par rapport à la plupart des approches existantes qui reposent soit sur des référentiels prédéfinis, soit sur des systèmes de positionnement auxiliaires. Des simulations montrent ensuite que cette approche est à la fois efficace et précise.
En savoir plus

13 En savoir plus

Mise à jour d’une base de données d’occupation du sol à grande échelle en milieux naturels à partir d’une image satellite THR

Mise à jour d’une base de données d’occupation du sol à grande échelle en milieux naturels à partir d’une image satellite THR

2.1.2 Série d’images L’utilisation de séries temporelles d’images permet d’affiner les résultats des méthodes de détection de changements. Cependant elle introduit également le problème de gestion du volume important de données : le nombre d’images sur une zone est souvent supérieur à 10, mais dépasse rarement les 100. Dans le cha- pitre consacré à la détection de changements, Mercier et Tupin [ 2014 ] évoquent deux méthodes de détection de changements fondées sur des séries temporelles. La première méthode proposée consiste à réaliser une Analyse en Composantes Principales (ACP) de la réunion de l’ensemble des images disponibles sur la zone d’étude. La première composante de l’ ACP , correspondant à la plus grande va- leur propre, fournit un aperçu de la tendance générale (invariant temporel) de la série d’images. Les composantes suivantes permettent de rendre les change- ments visibles. La seconde méthode décrite, issue des algorithmes de fouille de données, s’intéresse à la répétition de motifs dans les séries temporelles d’images [ Le Men , 2009 ; Petitjean et al. , 2010 ]. Appliquée à des images à très haute réso- lution, cette méthode permet de détecter des changements brutaux comme les labours et l’enneigement, mais aussi des changements plus lents comme l’évo- lution des cultures. Enfin, les motifs temporels fréquents peuvent être détectés par des approches non supervisées [ Julea et al. , 2011 ].
En savoir plus

227 En savoir plus

Réplication Préventive dans une grappe de bases de données

Réplication Préventive dans une grappe de bases de données

tage. Les architectures à disques partagés et à mémoire partagée demandent une interconnexion matérielle spéciale fournissant un espace commun à tous les noeuds. L’architecture sans par- tage (shared-nothing) est la seule architecture qui fournit une autonomie suffisante des noeuds. De plus, ce type d’architecture permet de passer à l’échelle pour les grandes configurations. En s’appuyant sur ce type d’architecture, notre principal objectif dans cette thèse est de gérer la réplication des données sur les copies à travers la grappe. Le problème majeur de la réplication est de garantir la cohérence des copies lors de la présence de mises à jour. La so- lution de base dans les systèmes distribués garantissant une cohérence forte est la réplication synchrone (typiquement en utilisant le protocole ROWA - Read One Write All). Lorsque une transaction met à jour une copie, toutes les autres copies sont également mises à jour dans la même transaction distribuée. Ainsi, la cohérence mutuelle des copies est assurée. Cependant, la réplication synchrone n’est pas appropriée dans une grappe de bases de données pour deux raisons principales. Premièrement, tous les noeuds doivent implémenter de manière homogène le protocole ROWA dans leur gestionnaire de transaction local, ce qui implique la violation de l’autonomie des noeuds. Deuxièmement, la validation atomique des transactions distribuées (comme la Validation à 2 Phases - 2PC) est connue pour être coûteuse et bloquante, ne permet- tant pas le passage à l’échelle du système.
En savoir plus

161 En savoir plus

Produire des bases de données spatialisées sur l'occupation et l'utilisation des sols à grande échelle

Produire des bases de données spatialisées sur l'occupation et l'utilisation des sols à grande échelle

Une fois validée, la base de données peut être transmise par le gestion- naire aux utilisateurs finaux. LA QUALITÉ EXTERNE La qualité externe correspond au niveau d’adéquation existant entre la BD OCCSOL GE produite et son appropriation par les utilisateurs finaux. Elle se confond souvent entre l’usage qui est fait de la base ou “fitness for use” et l’usage qui est prévu de la base ou “fitness for purpose”.

2 En savoir plus

Panorama des modèles de flux de données à large échelle

Panorama des modèles de flux de données à large échelle

mémoire, de temps de traitement, de communication, etc. [Muthukrishnan, 2005]. Les modèles de flux qui sont présentés dans cet article s’attachent ainsi principalement à résoudre des problèmes liés à la vélocité, mais trouvent également toute leur place dans le traitement rapide de grands volumes de données, potentiellement hétérogènes. Dans toutes ces applications, il est ainsi nécessaire de traiter rapidement et précisé- ment un nombre considérable de données. Dans cet environnement hautement concur- rentiel, il est probable qu’un nombre non négligeable de fournisseurs de services ten- tera de tromper les utilisateurs de ces systèmes, par collusion ou non ; ils peuvent aussi essayer d’attirer plus de données qu’ils ne peuvent raisonnablement traiter. D’un autre côté, par exemple, dans la gestion d’un réseau IP, l’analyse des flux d’entrée permet de détecter rapidement la présence d’anomalies ou de tentatives d’intrusion quand des changements de motifs de communication apparaissent. Concernant la sécurisation de systèmes communicants à grande échelle, nous voudrions être capables de détecter des attaques par surveillance passive des messages transitant sur chaque nœud. Par exemple; s’il était possible de détecter une divergence entre un flux attendu et le flux observé sur un nœud, il serait possible d’alerter le propriétaire de celui-ci. Les faibles capacités de mémoire mises à disposition pour ces opérations de surveillance et mé- trologie rendent cependant la détection de ces attaques particulièrement complexe.
En savoir plus

28 En savoir plus

Médiation de données sémantique dans SenPeer, un système pair-à-pair de gestion de données

Médiation de données sémantique dans SenPeer, un système pair-à-pair de gestion de données

système pair-à-pair de gestion de données David Célestin FAYE Résumé La société de l’information demande un accès efficace à un ensemble d’informations qui sont souvent hétérogènes et distribuées. Dans le but d’un partage efficace de cette information, plusieurs solutions techniques ont été proposées. L’infrastructure Pair-à-Pair (P2P) est un paradigme émergent et offrant de nouvelles opportunités pour la mise en place de systèmes distribués à grande échelle. D’autre part, le concept de base de données distribuée a été introduit dans le but d’organiser une collection multiple de bases de données logiquement liées et distribuées sur un réseau d’ordinateurs. Récemment, les systèmes P2P de gestion de données communément appelés PDMS (Peer Data Management System) ont vu le jour. Ils combinent les avantages des systèmes P2P avec ceux des bases de données distribuées. Dans le but de contribuer à la recherche sur la gestion de données dans un contexte P2P, nous proposons le PDMS SenPeer. SenPeer suit une topologie super-pair basée sur l’organisation des pairs en communau- tés sémantiques en fonction de leur thème d’intérêt. Pour faciliter l’échange de données entre pairs nous établissons des processus de découverte de correspondances sémantiques et de reformulation de requêtes en présence de plusieurs modèles de données. Ces correspondances sémantiques, en combinaison avec les schémas des pairs sont à la base d’une topologie sémantique au dessus du réseau physique et uti- lisée pour un routage efficace des requêtes. Les requêtes sont échangées à travers un format commun d’échange de requête et un processus d’optimisation distribué permet de choisir le meilleur plan d’exé- cution de la requête en fonction des caractéristiques du PDMS. Une validation expérimentale par la mise en place d’un simulateur permet d’affirmer l’utilité et la performance des techniques proposées.
En savoir plus

153 En savoir plus

Réplication de données dans les systèmes Cloud : Application pour les projets territoriaux

Réplication de données dans les systèmes Cloud : Application pour les projets territoriaux

Au cours des dernières décennies , les chercheurs en systèmes d'informations ont constamment lutté pour gérer les problèmes de décision à critères multiples ([80];[81];[82]). La taxonomie que nous avons présenté peut-être un guide utile pour les responsables informatiques afin de choisir la stratégie de réplication de données pour leur organisation. Comme indiqué précédemment [60], nous ne pensons pas qu'il existe une stratégie optimale de réplication de données qui traite tous les problèmes liés à la réplication de ces dernières. De plus, nous pensons qu'il est hautement improbable de trouver une telle stratégie de réplication magique qui optimise un large éventail d'objectifs des acteurs (fournisseurs et clients) et des politiques organisationnelles. Au contraire, la stratégie de réplication pour toute organisation sera une décision qui satisfait plusieurs objectifs des entités impliquées. Il pourrait être très prometteur pour les futurs chercheurs d'aborder les problèmes des stratégies de réplication sous deux angles différents: la prise de décision à critères multiples et la gestion des ressources dans le cloud.
En savoir plus

107 En savoir plus

Organisation et indexation des données multimédias de grande dimension

Organisation et indexation des données multimédias de grande dimension

désignées respectivement ci-après par (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10). La figure 4.1 montre quelques extraits de cet ensemble de données. Le choix de l’ordre approprié parmi les moments de Zernike spatio-temporels est cru- cial pour décrire le comportement du sujet et par conséquent, acquérir plus ou moins de détails sur le volume binaire vidéo. Une approche commune consiste à choisir l’ordre des moments qui permet une meilleure reconstruction de l’objet d’intérêt. Dans [ Boyce, 1983 ], une image en niveaux de gris a été reconstruite en utilisant les moments de Zernike d’ordre croissant. Il a été démontré que l’utilisation des moments de Zernike d’ordre 6 conduit à une reconstruction avec une erreur de 10%. Cette erreur était de 6% en utilisant les moments de Zernike d’ordre 20. Toutefois, ce résultat peut varier en fonction du cas étudié, et l’ordre optimal dépend de la nature des objets à reconstruire et ne peut donc pas être généralisé. Par ailleurs, en terme de sensibilité au bruit additif aléatoire, il a été montré dans [ Teh, 1988 ] que, en présence du bruit, l’image est recons- truite à l’aide de moments allant jusqu’à un certain ordre optimal. La reconstruction de l’image à l’aide de moments d’ordre supérieur à l’ordre optimal dégrade sa qualité, car les moments d’ordre supérieur sont plus vulnérables au bruit blanc.
En savoir plus

116 En savoir plus

Une pénalité de groupe pour des données multivoie de grande dimension

Une pénalité de groupe pour des données multivoie de grande dimension

R´ esum´ e. Le probl`eme de la classification supervis´ee de donn´ees multivoie de grande dimension avec un a priori de structure de groupes sur les variables est ´etudi´e. Plus pr´ecis´ement une p´enalit´e adapt´ee `a cette structure de donn´ees est propos´ee. Sans surcoˆ ut calculatoire notable, cette p´enalit´e favorise l’interpr´etabilit´e des mod`eles obtenus. La p´enalit´e est ici d´evelopp´ee pour l’analyse discriminante et la r´egression logistique. Une application `a l’analyse de donn´ees de neuroimagerie multimodale est pr´esent´ee.

7 En savoir plus

Le Service de Gestion des Données Numériques de l’OSUR: valoriser les données en environnement

Le Service de Gestion des Données Numériques de l’OSUR: valoriser les données en environnement

fondamentale et les acteurs opérationnels Développement d’une base et d’un site web => mise en place de structures des données spécifiquement adaptées (données spatialisées 1D à 3D, chroniques, analyses variables ..).

2 En savoir plus

[PDF] Cours Introduction à la réplication de bases de données | Cours informatique

[PDF] Cours Introduction à la réplication de bases de données | Cours informatique

slave> delete from tbltest where id='2'; Cependant cela ne suffit pas. Si vous essayez, vous constaterez que la réplication ne se fera pas plus malgré la suppression de la ligne responsable du conflit. Il faut en effet relancer la réplication. Pour cela rien de plus simple il suffit d’arrêter puis de redémarrer l’esclave. Bien entendu si vous avez une base en production cela peut pauser des problèmes. En général on ne coupe pas une base de données. Et bien là aussi c’est la même chose. Nous n’allons pas arrêter la base, juste stopper le mode esclave et le relancer. Pour cela tapez les commandes suivantes :
En savoir plus

11 En savoir plus

Etude des projections de données comme support interactif de l'analyse visuelle de la structure de données de grande dimension

Etude des projections de données comme support interactif de l'analyse visuelle de la structure de données de grande dimension

2.1. Visualisation d’information 2.1 Visualisation d’information “Information visualization is the use of computer-supported, interactive, visual representations of abstract data to amplify cognition” Card et al. [45]. La visualisation d’information vise à créer des représentations visuelles de données abstraites associées à des techniques d’interaction, dans le but de donner un aperçu des données, aider à les comprendre, valider des intuitions ou décou- vrir des choses inattendues. Une visualisation représente les données de manière à tirer profit des capacités du système visuel humain. Afin d’être interprétable et “efficace", elle doit également s’adapter à son contexte d’application, c’est-à-dire à ses utilisateurs et aux tâches d’analyse qu’ils souhaitent réaliser. L’efficacité mesure ce qu’apporte la visualisation à la réalisation d’une tâche d’analyse. Cependant elle est difficile à quantifier [240], de même que le coût d’une visualisa- tion. Ce coût s’exprime souvent en termes de temps de réponse, de précision dans la réponse, ou par rapport à l’espace visuel exploité. L’utilisation de la visualisation d’information permet par exemple de révéler des anomalies ou outliers (c’est-à-dire des données qui n’ont pas les mêmes caractéristiques que le reste des données), trouver des clusters (c’est-à-dire des données similaires qui ont suffisamment de caractéristiques communes pour indiquer la présence d’un phénomène structurant) ou mettre en valeur des tendances (c’est-à-dire des données qui évoluent de la même manière et décrivent ainsi un phénomène prévisible).
En savoir plus

164 En savoir plus

Détection d'anomalies à la volée dans des flux de données de grande dimension

Détection d'anomalies à la volée dans des flux de données de grande dimension

Le th`eme principal de cette th`ese est d’´etudier la d´etection d’anomalies dans des flux de donn´ees de grande dimension avec une application sp´ecifique au Health Monitoring des moteurs d’avion. Dans ce travail, on consid`ere que le probl`eme de la d´etection d’anomalies est un probl`eme d’apprentissage non supervis´ee. Les donn´ees modernes, notamment celles issues de la surveil- lance des syst`emes industriels sont souvent des flux d’observations de grande dimension, puisque plusieurs mesures sont prises ` a de hautes fr´equences et ` a un horizon de temps qui peut ˆetre infini. De plus, les donn´ees peuvent contenir des anomalies (pannes) du syst`eme surveill´e. La plupart des algorithmes existants ne peuvent pas traiter des donn´ees qui ont ces caract´eristiques. Nous introduisons d’abord un algorithme de clustering probabiliste offline dans des sous-espaces pour des donn´ees de grande dimension qui repose sur l’algorithme d’esp´erance-maximisation (EM) et qui est, en plus, robuste aux anomalies grˆ ace ` a la technique du trimming. Ensuite, nous nous int´eressons `a la question du clustering probabiliste online de flux de donn´ees de grande dimension en d´eveloppant l’inf´erence online du mod`ele de m´elange d’analyse en composantes principales probabiliste. Pour les deux m´ethodes propos´ees, nous montrons leur efficacit´e sur des donn´ees simul´ees et r´eelles, issues par exemple des moteurs d’avion. Enfin, nous d´eveloppons une applica- tion int´egr´ee pour le Health Monitoring des moteurs d’avion dans le but de d´etecter des anomalies de fa¸con dynamique. Le syst`eme propos´e introduit des techniques originales de d´etection et de visualisation d’anomalies reposant sur les cartes auto-organisatrices. Des r´esultats de d´etection sont pr´esent´es et la question de l’identification des anomalies est aussi discut´ee.
En savoir plus

141 En savoir plus

Apport des données polarimétriques radar pour un modèle atmosphérique à échelle convective

Apport des données polarimétriques radar pour un modèle atmosphérique à échelle convective

INTRODUCTION Une amélioration considérable de la prévision des orages a été rendue possible ces dernières années, par l’émergence de modèles de prévision numérique à échelle kilo- métrique, permettant de résoudre la convection profonde de manière explicite, tels que le modèle UKV (MetOffice), le modèle américain WRF, le modèle COSMO-DE (DWD) ou le modèle AROME de Météo-France. Ces modèles sont très utiles pour anticiper les phénomènes convectifs à courte échéance, typiquement jusqu’à 1 à 2 jours. Cependant, pour fournir des prévisions de qualité, ils ont besoin d’être initia- lisés par des données ayant une fine résolution spatiale. Les radars météorologiques, qui sondent l’atmosphère de manière volumique avec une résolution kilométrique, et mesurent l’intensité des précipitations ainsi que leurs déplacements, apportent des informations cruciales pour ces modèles. Des techniques d’assimilation des données de réflectivité radar et de vitesses Doppler ont donc été mises en œuvre ces dernières années, et ont permis d’améliorer les prévisions à courte échéance ( Sun et al. , 2014 ). Récemment, un nouveau type de radar, le radar polarimétrique, a fait son appa- rition dans les réseaux opérationnels d’observation des services météorologiques. Un radar polarimétrique émet et reçoit des ondes, dans des directions de polarisation à la fois horizontale et verticale. La comparaison des signaux reçus aux deux polarisa- tions permet d’obtenir des informations supplémentaires sur les caractéristiques des hydrométéores dans le volume observé, comme l’illustre le schéma de la Figure 2 . Ces informations permettent notamment d’améliorer la qualité des estimations de quantités de précipitations au sol ( Illingworth , 2004 ), et permettent aussi d’identi- fier les types d’hydrométéores (pluie, neige, grêle, cristaux de glace...) au sein des systèmes précipitants. Grâce à leur capacité de caractérisation des propriétés mi- crophysiques des hydrométéores, les données polarimétriques radar sont également très intéressantes pour les modèles atmosphériques à échelle convective, qui ont be- soin d’observations pour valider leurs paramétrisations microphysiques complexes, et initialiser leurs variables microphysiques nuageuses.
En savoir plus

178 En savoir plus

Show all 10000 documents...