MTI820 − Entrepôts de données et intelligence d’affaires
Introduc;on à l’intelligence d’affaires
et aux entrepôts de données
C. Desrosiers
QuesFons
• Quelles sont vos expériences avec l’intelligence d’affaires?
• Quelle est selon vous la définiFon de ce concept?
Avant de commencer…
1. Quel est le lien entre les couches et la bière ?
2. Pourquoi les services de Google (Gmail, Calendar,
Groups) sont-‐ils gratuits ?
Le lien entre les couches et la bière
• ObservaFons:
– Les ventes de bières sont parFculièrement importantes les vendredis en début de soirée;
– Les clients qui achètent de la bière durant ce[e période ont tendance à acheter également des … couches !
• MarkeFng:
– En plaçant ces deux produits près l’un de l’autre, les
épiceries augmentent leurs ventes et leurs profits
(stratégie de vente croisée).
Le principe Google:
• Toute informaFon a un prix;
• Google uFlise ses services pour acquérir gratuitement de l’informaFon sur ses usagers:
– Analyse syntaxique des courriels (Gmail);
– Profil et liste des contacts (Google Groups);
– Emploi du temps (Google Calendar);
– etc.
• Ce[e informaFon est uFlisée pour envoyer de la publicité ciblée aux usagers.
ExploitaFon de l’informaFon
« Les entreprises qui gèrent leurs données comme une ressource stratégique et inves<ssent dans la qualité de celles-‐ci sont en avance sur leurs compé<teurs, au niveau de la réputa<on et de profitabilité »
− Sondage PricewaterhouseCoopers Global Data Management (2001)
• Métro / Loblaws / Super C:
– Entreprises qui vendent de la nourriture OU;
– Entreprises qui exploitent des connaissances sur:
• Les préférences des clients;
• Les biais géographiques;
• La chaîne logisFque;
• Le cycle de vie des produits;
• Les informaFons sur les ventes des compéFteurs.
QuesFon
• En quoi l’informaFon diffère-‐t-‐elle des ressources
matérielles et humaines?
CaractérisFques de l’informaFon [1/2]
• Temporelle:
– La valeur diminue avec le temps;
– Ex: acFons en bourse, achats des clients, etc.
• Partageable:
– Peut être copiée et distribuée facilement;
– Ex: réseaux sociaux, le Web, les médias, etc.
• Valeur augmente avec l’usage:
– Ne se dégrade pas comme d’autres ressources (ex: une voiture);
– Ex: algorithme PageRank de Google.
CaractérisFques de l’informaFon [2/2]
• Valeur augmente avec la qualité:
– Une informaFon erronée ou imprécise peut nuire;
– Ex: opéraFons militaires.
• Valeur augmente avec la fusion:
– Une informaFon peut avoir de la valeur que si elle est combinée avec d’autres informaFons;
– Ex: ventes + inventaire = planificaFon.
• Valeur mesurable:
– Historique: combien a couté l’acquisiFon de ce[e informaFon ? – Marché: combien une personne serait-‐elle prête à payer pour
obtenir ce[e informaFon;
– U5lité: quelle valeur peut-‐on espérer obtenir de ce[e
informaFon ?
QuesFon
• Est-‐ce que stocker beaucoup de données est suffisant
pour aider la prise de décision d’une entreprise?
Données vs informaFons vs connaissances
• Données:
– CollecFon d’éléments de valeur brute ou de faits servant à calculer, raisonner et mesurer;
– Peuvent être collectées, stockées ou traitées;
– Ne possèdent pas de contexte ni de sens.
• InformaFons:
– Proviennent de l’organisaFon des données, me[ant en valeur les relaFons entre les différents éléments de ces données;
– Fournissent un contexte et un sens aux données.
• Connaissances:
– Viennent de la compréhension de l’informaFon dans son contexte;
– Sont uFles au processus de décision.
De données à stratégies
• Pyramide d’abstracFon:
Connaissances et intelligence
InformaFons
Données
Taille des données
N iv eau d ’ab str ac Fo n
Intelligence d’affaires:
Ensemble de processus, de technologies et d’ouFls servant à transformer:
• Les données en informaFons;
• Les informaFons en connaissances;
• Les connaissances en stratégies
menant à des acFons profitables à
l’entreprise.
QuesFons
• Comment le marché d’aujourd’hui diffère-‐t-‐il d’il y a 10, 20 ou 30 ans?
• Pourquoi avons-‐nous besoin de l’intelligence d’affaires?
• Taux d’échec de projets:
• Causes fréquentes d’échecs:
– Considérer trop peu de scénarios / scénarios peu réalistes;
– Être incapable d’anFciper les acFons d’un compéFteur;
– Ignorer les changements économiques ou sociaux;
– Prévoir incorrectement la demande.
Échecs dans les projets
Catégorie Taux approx.
Film (Hollywood) 60 %
AcquisiFon / fusion 60 %
TI 70 %
Produit alimentaire 80 % Produit pharmaceuFque 90 %
Source: Slywotzky et Weber (2007). The Upside: The 7 Strategies for Turning Big Threats into Growth Breakthroughs
L’environnement d’affaires
• L’environnement d’affaires est en constante évoluFon et devient de plus en plus complexe;
• Les entreprises sont sous pression: elles doivent
répondre rapidement aux changements et innover dans leurs manières d’opérer;
• La prise de décisions stratégiques et opéraFonnelles complexes requiert une quanFté considérable de données et de connaissances;
• Les données nécessaires à la prise de décision proviennent de sources diverses et hétérogènes;
• L’informaFon de ces données doit être traitée très
rapidement.
Intelligence d’affaires
• Business intelligence (BI):
– Un ensemble de concepts, de méthodologies et
d’applicaFons pour rassembler, stocker, analyser, et
perme[re d’accéder des données, dans le but d’aider les uFlisateurs d’entreprises dans leur processus de décision.
• Inclut:
– L’entreposage de données;
– Les requêtes et le reporFng;
– L’analyse mulFdimensionnelle (OLAP);
– L’analyse staFsFque;
– La prédicFon (forecas<ng);
– Le forage de données (data mining).
Pourquoi l’intelligence d’affaires ?
• Profitabilité accrue de l’entreprise;
• DiminuFon des coûts;
• Meilleure gesFon des relaFons avec le client (CRM);
• DiminuFon des risques;
• etc.
QuesFon
• Qu’est-‐ce qu’un entreprôt de données et en quoi ce[e technologie diffère-‐t-‐elle des bases de données
transacFonnelles?
OLTP vs OLAP [1/3]
• OnLine TransacFon Processing (OLTP):
– Caractérisé par un grand nombre de courtes transacFons faites en-‐ligne (ex: INSERT, UPDATE, DELETE);
– Met l’emphase sur le traitement rapide de requêtes simples, et sur l’intégrité des données dans un
environnement concurrenFel (c.-‐à-‐d. plusieurs requêtes simultanées).
• OnLine AnalyFcal Processing (OLAP):
– Met l’emphase sur le traitement rapide de requêtes
complexes (mulFples tables, agrégaFon de données, etc.)
ayant pour objecFf d’assister dans la prise de décision.
OLTP vs OLAP [2/3]
Critère OLTP OLAP
But Contrôler et exécuter les tâches quoFdiennes et fondamentales de l’entreprise
Assister dans la planificaFon, la résoluFon de problème et la prise de décision
Types de données Données opéraFonnelles
(transacFons) Données historiques consolidées
Sources de données
BD transacFonnelles Entrepôts de données ou
magasins de données Ce que montre les
données Portrait instantané des processus
d’affaires de l’entreprise Vue mulFdimensionnelle de plusieurs acFvités d’affaires de l’entreprise
InserFons et mises-‐à-‐jour Courtes requêtes d’inserFon et de mise-‐à-‐jour lancées par les
usagers finaux
Longs traitements en lot servant à rafraichir les données
Requêtes Simples requêtes retournant
quelques enregistrements (lignes) de la BD
Requêtes complexes impliquant souvent plusieurs tables et faisant l’agrégaFon de valeurs
Temps de réponses Instantané Quelques secondes à 1 minute
max.
OLTP vs OLAP [3/3]
Critère OLTP OLAP
Espace requis RelaFvement peFt si les données historiques sont archivées
Grand due aux données historiques et aux données d’agrégaFon
ModélisaFon de la BD Un grand nombre de tables
hautement normalisées Moins de tables, tables typiquement dénormalisées, schémas en étoile ou flocon Sauvegarde et récupéraFon Fait de façon régulière, criFque
pour l’entreprise Fait de façon irrégulière, peut récupérer des données OLTP ReporFng RouFnier et très ciblé Ad hoc, mulFdimensionnel, à
plus large portée Ressources requises Simple DBMS relaFonnel DBMS spécialisé mulF-‐
processeurs et à grande capacité
Nombre d’uFlisateurs
simultanés Grand PeFt
Quelques définiFons
• Entreposage de données (data warehousing):
– « La copie périodique et coordonnée de données provenant de diverses sources, internes et externes à l’entreprise, dans un environnement opFmisé pour l’analyse »
• Les entrepôts de données (data warehouse):
– Centralisent les données de l’entreprise;
– Sont contenus dans un environnement bien géré;
– Possèdent un processus cohérent et répétable pour charger les données provenant des applicaFons de l’entreprise;
– Reposent sur une architecture ouverte et extensible pouvant accommoder la croissance des données;
– Fournissent des ouFls perme[ant aux usagers de transformer
les données en informaFon uFle à la prise de décision.
Historique des entrepôts de données
Mesures de la performance d’une entreprise et de l’impact d’une stratégie de markeFng.
1910 1920 … 1970 1980 1990
ProducFon de rapports automaFsés sur micro-‐ordinateurs (pas d’intégraFon).
Dispersion des données causée par les PC;
Première soluFon Teradata (RDBMS).
Arthur Nielsen
Ralph Kimball Naissance de l’entreposage de données;
Bill Inmon
2000
Oracle, IBM, Microso‚, SAP, etc.
2010
GIS, réseaux sociaux,
Web sémanFque, etc.
CaractérisFques des entrepôts de données
• Orientés sujet:
– Les données sont organisées par sujet (ex: clients, produits, ventes, etc.).
• Intégrés:
– Les données, qui proviennent de diverses sources hétérogènes, sont consolidées et intégrées dans l’entrepôt.
• Historiques:
– Les données ont très souvent une composante temporelle (ex:
date et heure d’une transacFon).
• Non-‐volaFles:
– Une fois insérées dans l’entrepôt, les données ne sont jamais
modifiées ou effacées; elle sont conservées pour des analyses
futures.
QuesFon
• Quels sont les avantages d’uFliser les entrepôts de
données?
Bénéfices des entrepôts de données
• Directs:
– Perme[ent de mener des analyses poussées sur différents sujets d’affaires;
– Fournissent une vue consolidée des données de l’entreprise (une seule vérité);
– Procurent de l’informaFon de qualité, plus rapidement;
– Libèrent les ressources (ex: serveurs) dédiées au traitement des transacFons des tâches d’analyse;
– Simplifient l’accès aux données.
• Indirects:
– Améliorent le savoir de l’entreprise;
– Procurent un avantage concurrenFel à l’entreprise;
– Améliorent la saFsfacFon des clients;
– etc.
Bénéfices sociaux des entrepôts de données
• Meilleure communicaFon/coopéraFon entre les différents intervenants d’une entreprise:
– Normalement très peu d’affinités entre les intervenants du domaine des TI et ceux du domaine des affaires;
– Un projet d’entreposage de données rapproche ces deux groupes en leur donnant un objecFf commun.
• Meilleure communicaFon/coopéraFon entre les différentes branches d’une entreprise:
– Permet d’intégrer et de consolider les données des différentes branches;
– Fournit une plateforme et des ouFls d’analyse communs.
Architecture d’un entrepôt de données
Sélec;on
Sources de données
ERP / CRM
Legacy
POS
OLT / Web
Externes
Processus ETL
Extrac;on
Transforma;on
Intégra;on
Chargement
Entrepôt de données
Méta-‐
données
Copie
Applica;ons (visualisa;ons)
Rapports de rou;ne
Forage de données / textes OLAP, tableaux de bord
Autres
Accès
Datamart (marke;ng)
Datamart (finances)
Datamart (clients)
Datamart (ventes)