Scalability : Capacité à monter en puissance

Explication du processus : prenons l’exemple d’un utilisateur de SAS Web Report Studio, ce client se connecte au serveur intermédiaire en entrant l’adresse Web de SAS Web Report Studio, qui lui demande de s’identifier. Pour établir une connexion, le serveur intermédiaire demande au serveur de métadonnée, le cerveau de la plateforme, si l’utilisateur est connu dans les métadonnées de SAS et si c’est bien le bon mot de passe.

Une fois connecté, donc reconnu, si notre utilisateur souhaite créer un rapport nécessitant l’utilisation d’informations gérés par différentes bases de données, et nécessitant plusieurs procédures, lors de la conception de ce rapport, seul les métadonnées gérées par le serveur de métadonnées sont manipulées, puis lorsque l’utilisateur demande la génération, un programme SAS (un Job SAS) est créé de tel sort qu’il exploite au maximum la puissance machine disponible.

Le serveur de métadonnées stockant l’information sur les bases de données, les utilisateurs, les machines, les droits associés aux différentes entités, possède toute l’information permettant de créer un programme parallélisé en accès aux bases de données et réparti sur plusieurs machines, le scaling out, répartition parallélisée elle-même sur les processeurs de ces machines, scalling up.

Les procédures sont donc parallélisables par processeur ou CPU (Central Processing Unit, « Unité centrale de traitement »)

Un système décisionnel doit pouvoir monter en charge au fur et à mesure de sa vie. Il est donc primordial d’exploiter au maximum la puissance machine. De plus, l’administration centralisée permet si besoin est, d’ajouter simplement une machine de traitement et une fois référencée dans les métadonnées, cette machine sera utilisée par les algorithmes de répartition de charge.

ETL

L’objectif de ce chapitre est de présenter la préparation, et la planification d’un projet de Data Warehouse, et la création de flux ETL : extraction, transformation et chargement. Un processus ETL se décompose en cinq phases :

1. Définition des métadonnées source : description des bases de données opérationnelles.

2. Définition des métadonnées cible : description des futures bases du Data Warehouse.

3. Validation de la qualité des données

4. Création du processus qui permet de charger la cible en utilisant les données sources.

5. Ordonnancement

La génération d’un processus ETL est au premier abord un simple problème technique. Mais c’est souvent après quelques années que l’on s’aperçoit de l’importante nécessité d’une méthodologie rigoureuse. Nous allons donc aborder ce chapitre en suivant une méthodologie qui peut paraître lourde, mais qui est nécessaire pour faire évoluer le système décisionnel tout au long de sa, si possible, très longue vie.

Ce chapitre s’adresse tout principalement aux:

Utilisateurs de SAS Data Integration Studio, appelé dans le jargon « ETL’istes ». Personne ayant pour mission de générer les processus d’extraction, transformation et chargement des entrepôts de données. Des connaissances approfondies en informatique et plus particulièrement en base de données et en programmation BASE/SAS sont pré-requises. En effet, comme nous allons le voir dans ce chapitre, SAS Data Integration Studio génère du code SAS/BASE, comprenant du code SAS/MACRO et des procédures SQL. Même si les fonctions de transformations implémentées dans SAS Data Integration Studio couvrent une large gamme, il est très souvent nécessaire de coder certaines transformations. Pour les étudiants se destinant à cette fonction, la certification « SAS Certified Base Programmer » est un plus conséquent.

L’une des forces de la plateforme SAS, est que l’on peut toujours revenir à la base, au code SAS.

Problème métier :

Dans un monde où la concurrence est de plus en plus forte, des décisions doivent être prises sur des informations claires, extraites de données nettoyées et intégrées. Depuis les cadres supérieurs jusqu’aux ouvriers, l’information est nécessaire pour prendre des décisions tactiques et stratégiques. Il est prouvé que des milliards se perdent chaque année à cause de données de mauvaise qualité, erronées, etc. Derrière la mauvaise affectation des ressources, ce sont des clients insatisfaits, une érosion de la crédibilité et l’incapacité à prendre la bonne décision au bon moment.

La construction du Data Warehouse est le socle du processus décisionnel. L’expression « garbage in, garbage out » est ici particulièrement vraie ; si vous construisez votre Data Warehouse avec des données de mauvaise qualité, vous aurez des rapports, des analyses, des simulations, des prévisions, des optimisations fausses. L’objectif du décisionnel est d’apporter à tous les utilisateurs, une information de qualité ; il est donc nécessaire de d’évaluer, d’analyser et de corriger si besoin, l’information, dès le départ, dans le processus ETL.

La société SAS a racheté la société Data Flux en 2000 et a intégré ces fonctions de gestion de la qualité des données.

Voici une copie l’interface principale DFPower Studio. L’intégration avec SAS Data Integration Studio se fait via la base de connaissance (KB ou Knowledge Base).

Les deux fonctions majeures dans le processus de qualité des données sont d’abord l’analyse puis la normalisation ou standardisation.

Exemple d’entreprise 1 : suite à l’analyse des différents paternes des numéros de téléphone, nous avons constaté qu’il y avait dans cette base de données, 32 façons de saisir le numéro de téléphone pour la France. Voici quelques exemples :

+33 1 60 62 12 19 (+33) 1 60 62 12 19 +33 (0)1 60 62 12 19 01 60 62 12 19

00 33 (0)1 60 62 12 19 00 33 1 60 62 12 19 0160621219 01.60.62.12.19

Exemple d’entreprise 2 : Référentiel pour le Data Warehouse d’une société française. Grâce à l’aide précieuse d’un expert, un dictionnaire a été créé, comprenant les différents noms de même produit, avec les dates de début, voir de fin, et les domaines d’utilisation des noms. En effet, il y avait de quoi se perdre et fournir des rapports hétérogènes entre le nom utilisé par l’acheteur qui utilise la dénomination du fournisseur, les différents noms définis par le marketing pour tenter de booster les ventes, et les changements de versions au département R&D et à la production.

Exemple d’entreprise 3 : c’est l’un des exemples les plus courants : le dé-doublonnage d’adresse. Il faut détecter le nom, le prénom, les adresses, le code postal et la ville.

Les noms est prénoms peuvent être inversés ou manquants.

Dans l’adresse, on par exemple souvent le cas de la rue, du boulevard, de la Strasse, de Street, etc.

écrient en entier ou abrégé (Bd, boulevard, Boulevard, etc…) avec le numéro avant ou après, avec une virgule ou pas.

Les deux adresses suivantes sont identiques :

“Eric Martin 33 Av Victor Hugo 75000 Paris”

“MARTIN Eric

33, avenue Victor Hugo 75O16 PARIS”

Dans le document L’informatique décisionnelle de A à Z sur le cas Orion Star (Page 34-37)