• Aucun résultat trouvé

Introduc;on à l intelligence d affaires et aux entrepôts de données

N/A
N/A
Protected

Academic year: 2022

Partager "Introduc;on à l intelligence d affaires et aux entrepôts de données"

Copied!
38
0
0

Texte intégral

(1)

MTI820  −  Entrepôts  de  données  et  intelligence  d’affaires    

Introduc;on  à  l’intelligence  d’affaires      

et  aux  entrepôts  de  données

 

C.  Desrosiers  

(2)

QuesFons  

•  Quelles  sont  vos  expériences  avec  l’intelligence   d’affaires?  

•  Quelle  est  selon  vous  la  définiFon  de  ce  concept?  

 

(3)

Avant  de  commencer…  

1.   Quel  est  le  lien  entre  les  couches  et  la  bière  ?  

2.   Pourquoi  les  services  de  Google  (Gmail,  Calendar,  

Groups)  sont-­‐ils  gratuits  ?    

(4)

Le  lien  entre  les  couches  et  la  bière  

•  ObservaFons:  

–  Les  ventes  de  bières  sont  parFculièrement  importantes  les   vendredis  en  début  de  soirée;  

–  Les  clients  qui  achètent  de  la  bière  durant  ce[e  période   ont  tendance  à  acheter  également  des  …  couches  !  

•  MarkeFng:  

–  En  plaçant  ces  deux  produits  près  l’un  de  l’autre,  les  

épiceries  augmentent  leurs  ventes  et  leurs  profits  

(stratégie  de  vente  croisée).      

(5)

Le  principe  Google:  

•  Toute  informaFon  a  un  prix;  

•  Google  uFlise  ses  services  pour  acquérir  gratuitement  de   l’informaFon  sur  ses  usagers:  

–  Analyse  syntaxique  des  courriels  (Gmail);  

–  Profil  et  liste  des  contacts  (Google  Groups);  

–  Emploi  du  temps  (Google  Calendar);  

–  etc.  

•  Ce[e  informaFon  est  uFlisée  pour  envoyer  de  la   publicité  ciblée  aux  usagers.    

 

(6)

ExploitaFon  de  l’informaFon  

«  Les  entreprises  qui  gèrent  leurs  données  comme  une             ressource  stratégique  et  inves<ssent  dans  la  qualité  de   celles-­‐ci  sont  en  avance  sur  leurs  compé<teurs,  au  niveau   de  la  réputa<on  et  de  profitabilité  »    

 −  Sondage  PricewaterhouseCoopers  Global  Data  Management  (2001)  

•  Métro  /  Loblaws  /  Super  C:  

–  Entreprises  qui  vendent  de  la  nourriture  OU;  

–  Entreprises  qui  exploitent  des  connaissances  sur:  

•  Les  préférences  des  clients;  

•  Les  biais  géographiques;  

•  La  chaîne  logisFque;  

•  Le  cycle  de  vie  des  produits;  

•  Les  informaFons  sur  les  ventes  des  compéFteurs.  

(7)

QuesFon  

•  En  quoi  l’informaFon  diffère-­‐t-­‐elle  des  ressources  

matérielles  et  humaines?  

(8)

CaractérisFques  de  l’informaFon  [1/2]  

•  Temporelle:  

–  La  valeur  diminue  avec  le  temps;  

–  Ex:  acFons  en  bourse,  achats  des  clients,  etc.    

•  Partageable:  

–  Peut  être  copiée  et  distribuée  facilement;    

–  Ex:  réseaux  sociaux,  le  Web,  les  médias,  etc.  

•  Valeur  augmente  avec  l’usage:  

–  Ne  se  dégrade  pas  comme  d’autres  ressources  (ex:  une   voiture);  

–  Ex:  algorithme  PageRank  de  Google.  

 

(9)

CaractérisFques  de  l’informaFon  [2/2]  

•  Valeur  augmente  avec  la  qualité:  

–  Une  informaFon  erronée  ou  imprécise  peut  nuire;  

–  Ex:  opéraFons  militaires.  

•  Valeur  augmente  avec  la  fusion:  

–  Une  informaFon  peut  avoir  de  la  valeur  que  si  elle  est  combinée   avec  d’autres  informaFons;  

–  Ex:  ventes  +  inventaire  =  planificaFon.    

•  Valeur  mesurable:    

–  Historique:  combien  a  couté  l’acquisiFon  de  ce[e  informaFon  ?   –  Marché:  combien  une  personne  serait-­‐elle  prête  à  payer  pour  

obtenir  ce[e  informaFon;  

–   U5lité:  quelle  valeur  peut-­‐on  espérer  obtenir  de  ce[e  

informaFon  ?  

(10)

QuesFon  

•  Est-­‐ce  que  stocker  beaucoup  de  données  est  suffisant  

pour  aider  la  prise  de  décision  d’une  entreprise?  

(11)

Données  vs  informaFons  vs  connaissances  

•  Données:  

–  CollecFon  d’éléments  de  valeur  brute  ou  de  faits  servant  à   calculer,  raisonner  et  mesurer;  

–  Peuvent  être  collectées,  stockées  ou  traitées;  

–  Ne  possèdent  pas  de  contexte  ni  de  sens.  

•  InformaFons:  

–  Proviennent  de  l’organisaFon  des  données,  me[ant  en  valeur   les  relaFons  entre  les  différents  éléments  de  ces  données;  

–  Fournissent  un  contexte  et  un  sens  aux  données.  

•  Connaissances:  

–  Viennent  de  la  compréhension  de  l’informaFon  dans  son   contexte;  

–  Sont  uFles  au  processus  de  décision.  

(12)

De  données  à  stratégies  

•  Pyramide  d’abstracFon:  

     

Connaissances     et  intelligence  

InformaFons  

Données  

Taille  des  données  

N iv eau  d ’ab str ac Fo n  

Intelligence  d’affaires:  

Ensemble  de  processus,  de  technologies   et  d’ouFls  servant  à  transformer:  

•  Les  données  en  informaFons;  

•  Les  informaFons  en  connaissances;  

•  Les  connaissances  en  stratégies  

menant  à  des  acFons  profitables  à  

l’entreprise.  

(13)

QuesFons  

•  Comment  le  marché  d’aujourd’hui  diffère-­‐t-­‐il  d’il  y  a  10,   20  ou  30  ans?  

•  Pourquoi  avons-­‐nous  besoin  de  l’intelligence  d’affaires?  

(14)

•  Taux  d’échec  de  projets:  

 

•  Causes  fréquentes  d’échecs:  

–  Considérer  trop  peu  de  scénarios  /  scénarios  peu  réalistes;  

–  Être  incapable  d’anFciper  les  acFons  d’un  compéFteur;  

–  Ignorer  les  changements  économiques  ou  sociaux;  

–  Prévoir  incorrectement  la  demande.  

Échecs  dans  les  projets  

Catégorie   Taux  approx.  

Film  (Hollywood)   60  %  

AcquisiFon  /  fusion   60  %  

TI   70  %  

Produit  alimentaire   80  %   Produit  pharmaceuFque   90  %  

Source:  Slywotzky  et  Weber  (2007).    The  Upside:  The  7  Strategies  for  Turning  Big   Threats  into  Growth  Breakthroughs  

(15)

L’environnement  d’affaires  

•  L’environnement  d’affaires  est  en  constante  évoluFon  et   devient  de  plus  en  plus  complexe;  

•  Les  entreprises  sont  sous  pression:  elles  doivent  

répondre  rapidement  aux  changements  et  innover  dans   leurs  manières  d’opérer;  

•  La  prise  de  décisions  stratégiques  et  opéraFonnelles   complexes  requiert  une  quanFté  considérable  de   données  et  de  connaissances;  

•  Les  données  nécessaires  à  la  prise  de  décision   proviennent  de  sources  diverses  et  hétérogènes;  

•  L’informaFon  de  ces  données  doit  être  traitée  très  

rapidement.  

(16)

Intelligence  d’affaires  

•  Business  intelligence  (BI):  

–  Un  ensemble  de  concepts,  de  méthodologies  et  

d’applicaFons  pour  rassembler,  stocker,  analyser,  et  

perme[re  d’accéder  des  données,  dans  le  but  d’aider  les   uFlisateurs  d’entreprises  dans  leur  processus  de  décision.  

•  Inclut:  

–  L’entreposage  de  données;  

–  Les  requêtes  et  le  reporFng;  

–  L’analyse  mulFdimensionnelle  (OLAP);  

–  L’analyse  staFsFque;  

–  La  prédicFon  (forecas<ng);  

–  Le  forage  de  données  (data  mining).  

(17)

Pourquoi  l’intelligence  d’affaires  ?  

•  Profitabilité  accrue  de  l’entreprise;  

•  DiminuFon  des  coûts;  

•  Meilleure  gesFon  des  relaFons  avec  le  client  (CRM);  

•  DiminuFon  des  risques;  

•  etc.  

(18)

QuesFon  

•  Qu’est-­‐ce  qu’un  entreprôt  de  données  et  en  quoi  ce[e   technologie  diffère-­‐t-­‐elle  des  bases  de  données  

transacFonnelles?  

(19)

OLTP  vs  OLAP  [1/3]  

•  OnLine  TransacFon  Processing  (OLTP):  

–  Caractérisé  par  un  grand  nombre  de  courtes  transacFons   faites  en-­‐ligne  (ex:  INSERT,  UPDATE,  DELETE);  

–  Met  l’emphase  sur  le  traitement  rapide  de  requêtes   simples,  et  sur  l’intégrité  des  données  dans  un  

environnement  concurrenFel  (c.-­‐à-­‐d.  plusieurs  requêtes   simultanées).    

•  OnLine  AnalyFcal  Processing  (OLAP):  

–  Met  l’emphase  sur  le  traitement  rapide  de  requêtes  

complexes  (mulFples  tables,  agrégaFon  de  données,  etc.)  

ayant  pour  objecFf  d’assister  dans  la  prise  de  décision.  

(20)

OLTP  vs  OLAP  [2/3]  

Critère   OLTP   OLAP  

But   Contrôler  et  exécuter  les  tâches   quoFdiennes  et  fondamentales  de   l’entreprise  

Assister  dans  la  planificaFon,  la   résoluFon  de  problème  et  la  prise   de  décision  

Types  de  données   Données  opéraFonnelles  

(transacFons)   Données  historiques  consolidées  

Sources  de  données  

  BD  transacFonnelles   Entrepôts  de  données  ou  

magasins  de  données   Ce  que  montre  les  

données   Portrait  instantané  des  processus  

d’affaires  de  l’entreprise   Vue  mulFdimensionnelle  de   plusieurs  acFvités  d’affaires  de   l’entreprise  

InserFons  et  mises-­‐à-­‐jour   Courtes  requêtes  d’inserFon  et  de   mise-­‐à-­‐jour  lancées  par  les  

usagers  finaux  

Longs  traitements  en  lot  servant  à   rafraichir  les  données  

Requêtes   Simples  requêtes  retournant  

quelques  enregistrements  (lignes)   de  la  BD  

Requêtes  complexes  impliquant   souvent  plusieurs  tables  et  faisant   l’agrégaFon  de  valeurs  

Temps  de  réponses   Instantané   Quelques  secondes  à  1  minute  

max.  

(21)

OLTP  vs  OLAP  [3/3]  

Critère   OLTP   OLAP  

Espace  requis   RelaFvement  peFt  si  les   données  historiques  sont   archivées  

Grand  due  aux  données   historiques  et  aux  données   d’agrégaFon  

ModélisaFon  de  la  BD   Un  grand  nombre  de  tables  

hautement  normalisées   Moins  de  tables,  tables   typiquement  dénormalisées,   schémas  en  étoile  ou  flocon   Sauvegarde  et  récupéraFon   Fait  de  façon  régulière,  criFque  

pour  l’entreprise   Fait  de  façon  irrégulière,  peut   récupérer  des  données  OLTP   ReporFng   RouFnier  et  très  ciblé   Ad  hoc,  mulFdimensionnel,  à  

plus  large  portée   Ressources  requises   Simple  DBMS  relaFonnel   DBMS  spécialisé  mulF-­‐

processeurs  et  à  grande   capacité    

Nombre  d’uFlisateurs  

simultanés   Grand   PeFt  

(22)

Quelques  définiFons  

•  Entreposage  de  données  (data  warehousing):  

–  «  La  copie  périodique  et  coordonnée  de  données  provenant  de   diverses  sources,  internes  et  externes  à  l’entreprise,  dans  un   environnement  opFmisé  pour  l’analyse  »  

•  Les  entrepôts  de  données  (data  warehouse):  

–  Centralisent  les  données  de  l’entreprise;  

–  Sont  contenus  dans  un  environnement  bien  géré;  

–  Possèdent  un  processus  cohérent  et  répétable  pour  charger  les   données  provenant  des  applicaFons  de  l’entreprise;  

–  Reposent  sur  une  architecture  ouverte  et  extensible  pouvant   accommoder  la  croissance  des  données;  

–  Fournissent  des  ouFls  perme[ant  aux  usagers  de  transformer  

les  données  en  informaFon  uFle  à  la  prise  de  décision.  

(23)

Historique  des  entrepôts  de  données  

Mesures  de  la  performance  d’une  entreprise  et  de   l’impact  d’une  stratégie  de  markeFng.  

1910   1920   …   1970   1980   1990  

ProducFon  de  rapports  automaFsés  sur   micro-­‐ordinateurs  (pas  d’intégraFon).  

Dispersion  des  données  causée  par  les  PC;  

Première  soluFon  Teradata  (RDBMS).  

Arthur  Nielsen  

Ralph  Kimball   Naissance  de  l’entreposage  de  données;  

Bill  Inmon  

2000  

Oracle,  IBM,  Microso‚,  SAP,  etc.  

2010  

GIS,  réseaux  sociaux,    

Web  sémanFque,  etc.  

(24)

CaractérisFques  des  entrepôts  de  données  

•  Orientés  sujet:  

–  Les  données  sont  organisées  par  sujet  (ex:  clients,  produits,   ventes,  etc.).  

•  Intégrés:  

–  Les  données,  qui  proviennent  de  diverses  sources  hétérogènes,   sont  consolidées  et  intégrées  dans  l’entrepôt.  

•  Historiques:  

–  Les  données  ont  très  souvent  une  composante  temporelle  (ex:  

date  et  heure  d’une  transacFon).  

•  Non-­‐volaFles:  

–  Une  fois  insérées  dans  l’entrepôt,  les  données  ne  sont  jamais  

modifiées  ou  effacées;  elle  sont  conservées  pour  des  analyses  

futures.  

(25)

QuesFon  

•  Quels  sont  les  avantages  d’uFliser  les  entrepôts  de  

données?  

(26)

Bénéfices  des  entrepôts  de  données  

•  Directs:  

–  Perme[ent  de  mener  des  analyses  poussées  sur  différents  sujets   d’affaires;  

–  Fournissent  une  vue  consolidée  des  données  de  l’entreprise  (une   seule  vérité);  

–  Procurent  de  l’informaFon  de  qualité,  plus  rapidement;  

–  Libèrent  les  ressources  (ex:  serveurs)  dédiées  au  traitement  des   transacFons  des  tâches  d’analyse;  

–  Simplifient  l’accès  aux  données.  

•  Indirects:  

–  Améliorent  le  savoir  de  l’entreprise;  

–  Procurent  un  avantage  concurrenFel  à  l’entreprise;  

–  Améliorent  la  saFsfacFon  des  clients;  

–  etc.  

(27)

Bénéfices  sociaux  des  entrepôts  de  données  

•  Meilleure  communicaFon/coopéraFon  entre  les   différents  intervenants  d’une  entreprise:  

–  Normalement  très  peu  d’affinités  entre  les  intervenants  du   domaine  des  TI  et  ceux  du  domaine  des  affaires;  

–  Un  projet  d’entreposage  de  données  rapproche  ces  deux   groupes  en  leur  donnant  un  objecFf  commun.  

•  Meilleure  communicaFon/coopéraFon  entre  les   différentes  branches  d’une  entreprise:  

–  Permet  d’intégrer  et  de  consolider  les  données  des   différentes  branches;  

–  Fournit  une  plateforme  et  des  ouFls  d’analyse  communs.  

 

(28)

Architecture  d’un  entrepôt  de  données  

Sélec;on  

Sources  de     données  

ERP  /   CRM  

Legacy  

POS  

OLT  / Web  

Externes  

Processus  ETL  

Extrac;on  

Transforma;on  

Intégra;on  

Chargement  

Entrepôt  de   données  

Méta-­‐

données  

Copie  

Applica;ons   (visualisa;ons)  

Rapports     de  rou;ne  

Forage  de     données  /   textes   OLAP,   tableaux     de  bord  

Autres    

Accès  

Datamart   (marke;ng)  

Datamart   (finances)  

Datamart   (clients)  

Datamart   (ventes)  

AP I  /  Inte rg ic ie ls  

Op;on  sans  datamart  

(29)

Sources  de  données  

•  Enterprise  resource  planning  (ERP):  

–  Gèrent  les  processus  opéraFonnels  d'une  entreprise  (ex:  ressources   humaines,  finances,  distribuFon,  approvisionnement,  etc.).  

•  Customer  rela<onship  management  (CRM):  

–  Gèrent  les  interacFons  d’une  entreprise  avec  ses  clients  (ex:  

markeFng,  ventes,  après-­‐vente,  assistance  technique,  etc.).  

•  Systèmes  legacy:  

–  Matériels  et  logiciels  obsolètes  mais  difficilement  remplaçables.  

•  Point  of  sale  (POS):  

–  Matériels  et  logiciels  uFlisés  dans  les  caisses  de  sorFes  d’un  magasin.  

•  Externes:  

–  Ex:  données  concurrenFelles  achetées,  données  démographiques.  

(30)

QuesFons  

•  À  quoi  correspond  le  processus  ETL?  

•  Pourquoi  ce  processus  est-­‐il  essenFel  à  l’entreposage  de  

données?  

(31)

IntégraFon  des  données  

•  Processus  Extract,  Tranform,  Load  (ETL):    

1.   Extraire  les  données  des  sources  hétérogènes:  

•  IdenFfier  les  sources  uFles;  

•  Comprendre  les  schémas.  

2.   Consolider  les  données:  

•  Données  redondantes  /  manquantes;  

•  Différents  noms  /  types;  

•  Incohérences.  

3.  Charger  les  données  intégrées  dans  l’entrepôt:  

•  Mode  différé  (batch);  

•  Quasi  temps-­‐réel.  

•  Représente  la  parFe  la  plus  complexe  de  l’entreposage.  

(32)

Les  ouFls  d’analyse  de  données  

•  Rapports  et  requêtes  simples  

–  «  Dis  moi  ce  qui  s’est  passé  ».  

•  Analyse  d’affaires  

–  «  Dis  moi  ce  qui  s’est  passé  et  pourquoi  ».  

•  Tableaux  de  bord  et  scorecards  

–  «  Donne  moi  l’informa<on  mais  ne  me  fait  pas  travailler   pour  obtenir  les  réponses  ».  

•  Forage  de  données  

–  «  Dis  moi  quelque  chose  de  nouveau  et  d’intéressant  sans  

que  j’aille  à  le  demander  ».  

(33)

Exemples  de  tableau  de  bord  [1/2]  

Données du système des finances

Données de systèmes ERP

Données d’autres

systèmes

(34)

Exemples  de  tableau  de  bord  [2/2]  

Intégration avec MS Office

(35)

Cas  d’étude:  Police  de  Richmond  [1/4]  

•  Objectif:

–  Réduire le crime en anticipant les activités criminelles.

•  Données:

–  Données actuelles et historiques d’appels au 911;

–  Informations relatives aux événements de la ville et des régions limitrophes;

–  Conditions météorologiques;

–  etc.

•  Méthode:

–  Analyser les interactions entre les données

actuelles et historiques.

(36)

Cas  d’étude:  Police  de  Richmond  [2/4]  

•  Composantes  technologiques:  

•  OuFl  de  visualisaFon:  

–  ReprésentaFon  des  indicateurs  sur  la  carte  graphique  de  la   ville.  

Technologie   Composante   Webfocus  

(Informa;on  Builders)   IntégraFon  des  données   SPSS  (IBM)   Analyse  prédicFve  

ESRI   Correspondance  dynamique  des  informaFons  

géographiques  

(37)

Cas  d’étude:  Police  de  Richmond  [3/4]  

(38)

Cas  d’étude:  Police  de  Richmond  [4/4]  

•  Résultats:    

–  AffectaFon  opFmale  des  ressources  policières;  

–  Meilleure  anFcipaFon  des  acFvités  criminelles;  

–  Le  crime  a  été  réduit  de  49  %;  

–  Moins  d’appels  au  911.  

Références

Documents relatifs

L’avènement des données complexes a remis en cause le processus d’entreposage et d’analyse des données ; il a induit l’émergence de nouveaux problèmes de recherche

Dans le cas de la granularité la plus fine, la table de faits est jointe aux dimensions sans groupements.. ● Additivité

− Exemples : méta donnée d'une colonne de table d'ED. Nom de

− Forage vers le haut (Roll-Up) : passer d'un niveau de détail à un niveau.

Pour les requêtes nécessitant d'afficher la désignation des pays des clients avec les données de la table de fait, on peut créer un index de jointure binaire sur la

Soit le sous- schéma multidimensionnel suivant qui permet d'analyser les appels par rapport au temps, aux progiciels et aux clients.. − Dessiner le graphe des cuboïdes qu'il

c) Suppression d’un terrain (table adresses → Oui, mais on ne supprime pas, on peut ajouter un attribut dans Terrain pour savoir que le terrain n’est plus utilisé. d)

Une tâche peut être réalisée à temps (pas de dépassement de la date au plus tard) ou réalisée en retard, Aussi, un utilisateur peut reporter une tâche en changeant sa date au