Conception et optimisation d'une base de données décisionnelle orientée graphe

(1)

(2)

RBm,erci,emp.nts

Tout d'abord, nous

remercions

Dieu

de

nous

avoir permis de terminer

ce

modeste

travail.

Nous tenons d

remercier

_{exceptionnellement notre encadrant}

_Dr.

_Boukraa

Doulkifli pour

ses

prdcieux

conseils

qu'il

nous

a

prodigudes, ainsi

que

pour

son

soutien,

ses

orientations, sq

disponibilitd

et

sa

_{comprdhension tout au long}

de

ce

travail.

Nos

remerciements

_vont

_dgalement

_aux

_membres

_du

contribution

scientifique

lors

de

l'dvaluation

de ce

travail.

Nous

remercions dgalement

tous

les

enseignants

de

ddpartement

jury,

pour

leur

informatique,

en

particulier

_{notre chef ddpartement et chef}

_de

_spdciolitd.

Tous

les

parents,

membres

de

_familles,

_{connaissances et amies}

_qui

_nous

_ont

6td

d'un

soutien

moral

tout au long

de notre

_formation

sont

dgalement vivement

remercids.

A

toute

personne

qui,

de

prds

ou de

loin, a

contribud

d

la

rdalisation

de

ce

travail.

(3)

O6{icace

A

gtfos

_c

_ftnrs

I

atre,ttts,

Qu.e

nut

trefficace

ne

puisse exloriwter

_ce

_que

_nous

_feurs

devorts,

_{_pour}

_feur

_{7ientteiffartce,}

_{feur affection}

_{et feur}

_soutieyr,

en tdmoignage

tre

nos

yrofonds

e?nours

et

nos

grartfes

recovwlaissances

<<

_Qu.e

Dieu

yo.tLs

garde

et

vous

yrotd.ge

_>>.

A

t{os

cfu*res

sewrs

et

nns

_frdres,

A

fous

nos amis,

?sur

_{feur entauragem.ent et feur}

_ssuti.en

_moraf

_furant

f efaSoratinn

_{e

ce

grojet

{e

_fin

f

etu{es.

(4)

O€it'

ad

cJ-n LL*lt _-rJS-+

.i-i.-blr

drur+lr crLus* _iJ^.,Ej_rJio_{_.rljlr grr.}

_-,

_d,JlJr

_,jis"r

_J

_d*,lr

_ha

_Lir*t

:llr:J-S

ill'^'iL

"i{jl

,,+

iJ4itil

crUl.lll

,j,L

ll"r

,1L:.i-:,

.a.i.:ll

ol-rlull grJiso

l+rd

.!*b;r;c

Usl;$l _{cs_r\}d,l-ri. _J

,"+ Neo4j

Ujl

dr

NoSeL ciUlll i.rLI

,4^i.:ll

cru!5rll crLrs.

,i-i.:ll

oul;;ll

_tr:Ieo

,NoSeL

oNoe4j

.

i..t':i

ojl

gL.lslf

R6sum6

Le travail prdsentd dans ce mdmoire a pour objectif de _{permettre aux analystes et d6cideurs}_de

concevoir

des

cubes

de

donn6es massives

(Big

Data).

Le

travail est

centr6 autour

de

la moddlisation

d'un

entrep6t de donndes pour _{des donn6es massives, nous appliquons}

_notre

_travail

aux donndes 6ducatives de

l'Inde

en exploitant _{une technologie de}

_Big

_Data_:_la_{base de donn6es}

NoSQL Noe4j. Nous

montrons

la

faisabilit6

de

notre proposition

_d

_{travers une}

_application

d6di6e.

Mots-cl6s

! Noe4j, NoSQL, _{entrepdt de donn6es massives, cube de donn6es massives.}

Abstract

This work

aims at

allowing

analysts and decision makers

to

design

Big

data cubes. The core

of

our

work

is the modeling

activity of

a data warehouse

for

massive _{dat4 we apply our work to}_the educational data of India

by

using a main

Big

data technology: Noe4j

NoSeL

database. We show the

feasibility

of our proposal through a dedicated software.

(5)

Table

de

rnatiires

(6)

Table

de

rnatiires

6.1.

Historique...

_...

_t5

6.2.D€frrxtion...

_...₁₅

6.3. Diffbrents types de base de donn6es

NoSeL

_...

_t6

6.3.1. Bases de donndes Orientdes Cl6 /

Valeur

_...₁₆

6.3.2. Bases de donndes Orient6es

Document

_...₁₆

6.3.3. Bases de donndes Orientdes

Colonne

_...17

6.3.4. Base de donndes Orientdes

Graphe...

_...

_lg

6.4. Avantages du

NoSQL...

_...

_t9

6.5.

_Quelques

travaux sur

le

croisement entre

les

entrepdts

de

donndes

et les

Systdmes NoSQL orient6s

graphes...

_...20

7.

Conclusion...

_...₂₁

Chapitre 2

: Pr6sentation de

l'6tude

de cas

l.Introduction

...

_...23

2. Pr6sentation de

systime

d'enseignement

sup6rieur

indien

_...23

2.1. Enseignement

sup6rieur...

_...23

2.2.Type

d'institutions...

_...24

3. Les donn6es 6ducatives de I'enseignement

sup6rieur

indien...

...2s 3.1. Description des

donndes

_...25

3.2. Mod6lisation logique (relationnelle) des donn6es

6ducatives

_....26

4. Exemples de besoins

dtana1yse...

_....2g 5.

Opportunitd

de la

repr6sentation

des donn6es 6ducatives

par un

graphe

....32

(7)

Table

de

tnatiires

Chapitre3:Conceptionetentreposagedecubededonn6esmassives

?5 1.

Introduction

...

2. Les bases de donn6es orient6es

graphe

"""

35 3.

Mod6lisation

des donn6es 6ducatives orientees

graphes

""""""'

36

4.

Mod6tisation

du

sch6ma

""""""

36

5.

Mod6lisation

des donn6es

par

un

graphe

""""""""""

44 6.

Conception

de cubes

OLAP

sur

des donn6es orient6es

graphes

"""""""""'

47 6.1. Moddle de cube de donn6es massives orient€

graphes

"""""""

47 6.2. processus de conception

d'un

cube de donndes massives orientdes graphes

""""""""

49

6.2.t.Choix

du nmud

fait

"""""

"""""""

49

6.2.2.Obtention et choix des dimensions

""""'

50

6.2.3.Ajout

d'extension

""""'

51

6.2.4 .Ghndration des donn6es du

cube

<t

6.3. Exemple de conception de cubes de donndes massives orient6es graphe

""""""""""'

53

7.

Conclusion

...'.

""'

54

Chapitre

4 :

Mise

en (Puvre de

la

conception et entreposage de cubes de donn6es massives ... 56 1.

Introduction

... 2.

Environnement

de stockage

"""""""'

""""'

56

2.|.Lesystdmedegestiondedonndesorient6grapheNeo4j.''...56

2.2.

Carastlristiques de

Neo4j

""

56 2.3. Installation de

neo4j

"""""'

57 2.4. Lancement de

neo4j

""""""'

57 2.5. Pr6sentation du langage

Cypher

""""""

58

(8)

Table

de

rnatiires

2.6. Crflation de la base de

donndes

_{... 59}

2.6.1. Cr6ation de

sch6ma

_{... 59}

2.6.2. Crdation du graphe des donn6es

...

_{... 59}

3.

Environnement

de

d6veloppement

_...65

3.l.IDENetBeans

_....65

3.2. Relation entre NetBeans et

Noe4j

_{... 65}

4.

dpplication

de conception de cubes orient6s

graphes

_...65

5.

Conclusion

...

....70

conclusion

G6n6rale

_...71

Bibliographie

...

....72

(9)

Liste

de

figures

Figure

1.1 : Architecture _{g6n6rale d'un entrepOt de donn6es}

_...

... 6

Figure

1.2:

Caractdristiques des entrepdts de

donn6es...

_...6

Figure

1.3 : _{Architecture fonctionnelle d'un}_{entrep6t de}

donndes

...7

Figure

1.5

Figure

1.6

Illustration

d'une Base de donndes orientde cl6

/valeur

_...

_l6

Illustration

d'une base de donn6es orientde

document

_..._T7

f

igure

1.7 :

Illustration

d'une _{Base de donndes orientde}

_colonne

... 1g

Figure

1.8 :

Illustration

_{d'une Base de donndes orient6e}

_graphe

... 19

X'igure 1.9 : Reprdsentation logique orientde

graphe

_...20

Figure

2.1

:

Sch6ma relationnel _{de donndes}

dducatives.

_...27

Figure

2.2

:

partie de Schdma relationnel de donndes

dducatives.

_...2g

Figure

2.3 : R6partition des _{universitds rdpondantes selon}_la_{sp6cialisation}_..._...29

Figure

2.4

: Rlpartition

_{du personnel non enseignant selon}_res

_niveaux

... 30

Figure

2.5 : Rdpartition _{6quilibrde entre les}_sexes_{du personnel non enseignant ...}

31

Figure

2.6 :

Dishibution

des _{cat6gories sociales du personnel non}

enseignant

_...

31

Figure 2'7 :

Nombre de femmes

pour

100 hommes parmi

le

personnel non enseignant dans diverses

cat6gories.

...32

Figure

3.1

:

Sch6ma de graphe de l'6tude de

cas

_...37

Figure

3.2 _{: partie de Schdma de graphe de}_l,6tude_de

_cas

...37

Figure

3.3

:

exemple

d'un fichier

csv...

_....47

Figure

3.4

:

Sch6ma de cube

classique

_{... 4g}

(10)

Liste

de

figures

et

tableaux

Figure

3.6

Figure

3.7

Figure

3.8

Figure

3.9

Figure

3.10

Figure

3.11

Figure

3.L2

Figure

3.13

Figure

3.14

Figure

3.15

Figure

3.16

Figure

3.17

Exemple de cube de donn6es orientd

graphe...

...49

Choix de nmud

fait...

... 50

Obtention des

dimensions

...

... 50

Choix des dimensions

pr6f6r6es...

... 51

Ajout

d'extension

...

5l

Elagage de niveaux de

dimensions...

....52

Schdma de

cube

...52

Gdndration des donn6es de

cube

... 53

Exemple de choix de

fait

... 53

Obtention des dimensions assocides au

fait

choisi

... 53

Exemple d'ajout

d'extension

...54

Exemple de choix des dimensions

pr6ferdes...

...54

Lancement de

Neo4j

... 57

Interface de

Neo4j

... 58

Ecran d'accueil de

l'application...

...66

Visualisation de schdma de

donndes

...67

Choix de

naud

fait

...

...67

Obtention des dimensions

...

... 68

Extension de cube

existant

... 68

G6n6ration des donn6es de

cube

... 69

Choix de nom du

cube

...69

:

Confirmation

d'enresistrement...

... 69

: Liste des cubes

enresistr6s

..-...70

F'igure 4.1

Figure

4.2

Figure

4.3

Figure

4.4

Figure

4.5

Figure

4.6

Figure

4.7

Figure

4.8

Figure

4.9

Figure

4.10

Figure

4.11

(11)

Liste

de

{igures

et

tableaux

Liste

de

tableaux

Tableau

1.1

Tableau

1.2

Tableau

1.3 Tableau 2.1

Tableau

2.2

Tableau

2.3

Tableau

3.1

Tableau

3.2

Tableau

3.3

Tableau

3.4

Caract6ristiques des

Big

data

... 13

Outils

utilis6s

dans les

Big

data

... 13

Difftrence

entre data lakes

et

entrepdts de

donn6es

.... 15

R6ponse des universit6s en

2016-2017

...28

Nombre d'universitds selon la gamme de

colldges

...29

Nombre de colldges par

district

... 30

Explication des 6l6ments utilisd dans I'orient6

graphe

... 36

Description des

nauds

de

schdma

...41

Description des relations de

sch6ma...

...44

Statistiques des donn6es dducatives

...

...46

(12)

Introduction

G6n6rale

Introduction

G6n6rale

En quelques ann6es,le volume des donndes brassdes par les entreprises a consid6rablement augment{. Venant de sources diverses (transactions, comportements, r6seaux sociaux, 96o

localisation...), elles sont souvent structur6es autour

d'un

seul point d'entrde, et susceptibles de croitre trds rapidement. Autant de caracteristiques qui les rendent trds

difficiles

d mettre en 6chelle et de les traiter avec des outils classiques de gestion de donn6es. Par ailleurs, l'analyse de grands volumes de donn6es, ce qu'on appelle le Big Data, d6fie 6galement les moteurs de bases de donn6es traditionnels. C'est pour rdpondre

i

ces diffdrentes probl6matiques que sont ndes les bases de donn6es NoSQL (Not

Only

SQL),

Sont regroupdes dans la catdgorie NoSQL, de nornbreuses bases qui ont 6t6 spdcialisdes d des cas d'usage trds spdcifiques, que les bases relationnelles ne peuvent pas (ou elles peuvent

difficilement)

traiter

_[1].

On ddnombre quatre type de bases de donn6es

NoSQL

: c16-valeur, orientde colonnes, orientdes graphes et documents.

Dans ce m6moire, nous allons nous focaliser sur un de ces quatre types de bases

NoSQL'

d savoir les bases de donndes orient6es graphe. Ces demidres se basent sur la th6orie des graphes, une th6orie bien qu'ancienne, est utilisde dans un grand nombre de disciplines. En effet ces bases de donn6es ont pour

objectifde

stocker les donndes en se basant sur la th6orie des graphes en s'appuyant sur les notions de nceuds qui ont chacun leur propre structure, sur les relations entre les nceuds, et leurs propri6t6s'

Les sources de donnde pouvant Otre reprdsent6es par des graphes couvrent diff6rents domaines tels que les rdseaux sociaux,

etc.

Ces donn6es peuvent 6tre la source alimentant des structures analytiques comme des cubes OLAP pour une meilleure prise de d6cision.

Cependant, les outils actuels d'analyse en ligne traitent bien les donn6es structur6es mais les donn6es orient{es graphes restent d6pourvues

d'outils

d6di6es ou adapt6es pour I'analyse en

ligne.

Notre travail poursuit

l'objectif

de contribuer d la proposition de solutions pour I'analyse en

ligne

(OLAP)

de donn6es orientdes graphes. Pour ce faire, le travail consiste d'abord d

concevoir et impldmenter une base de donn6es d6cisionnelle orient6e graphe puis d permettre aux utilisateurs (analystes, ddcideurs, etc.) de concevoir des cubes d la demande' colnme

(13)

Introduction

G6n6rale

o

Dans un premier temps,

il

s'agit de _{permettre aux analystes de concevoir des groupes}_de nmuds reprdsentant des entitds de la rdalitd et

d'6tablir

les relations entre ces entit6s. La base de donn6es ainsi cr66e est d6cisionnelle dans le sens qu'elle permet aux utilisateurs d'extraire des structures d'analyse par le biais d'opdrations de _{sdlection de sous-graphes selon les besoins} d'analyse ad hoc. Comme domaine d'application, _{nous nous intdressons au domaine 6ducatif.}

Dans ce contexte, et pour le besoin d'appliquer notre travail d des donn6es volumineuses, nous appliquons notre travail _{aux donn6es dducatives de}

_l'Inde,

_{mises sur Internet}_d_la_{disponibilit6}

de _{la communautd de la recherche et autres.}

o

_{Dans un deuxidme temps, nous proposons un processus de conception de cubes}

_OLAp

basds sur des _{donndes orient6es graphes, support6 par une}_{application informatique. Le} processus permet de sdlectionner un neud-type pour

jouer

le r61e de fer,it

d

analyser, puis de ddduire,

filtrer

et _{d6velopper les dimensions d'analyse li6es au}_fait._Une_fois_{le cube}

_OLAp

basd sur les donndes graphe est congu,

il

s'agit de le g6n6rer d partir des donn6es de base et de le charger dans une base de donn6es pour

qu'il

puisse 6tre exploitd par des outils d6cisionnels. Nous avons organisd notre travail en quatre parties. La premidre partie consiste d pr6senter le concept de I'entrepdt de donndes, celui du

Big

Data et des Data Lakes ainsi que des bases de donn6es NoSQL. La deuxidme partie consiste d introduire le domaine d'application qui est sur des donn6es de 1'6ducation indiennes, la _{structure de donn6es par des graphes et les}possibilit6s

d'analyser ces donndes selon le besoin. La hoisidme partie prdsente le moddle logique de

I'entrepdt de donn6es massives appliqu6 d _{notre domaine, le processus de conception}_des_cubes de donndes massives et le m6canisme de leur stockage. La quatridme partie est d6di6e d la

pr6sentation des d6tails d'impldmentation de notre

fravail,la

construction d'entrep$t des donn6es massives, la conception et le stockage des cubes.

(14)

Chapitre

I

:

Etat

de

I'art

1.

Introduction...

_{... 4}

2.

Entrepdt

de

donn6es...

_...5

2.1.Dffrnrtion...

... 5

2.2. _{Caractdristiques des entrep6ts de donn6es}

...

_...₆

2.3.

Arclntecture fonctionnelle

d'un

ED...

...7

3. Cube de

donn6es...

_...g 3.1.

D6finition...

_...g 3.2. Concept

OLAP

_...9

3.3. Opdrations

OLAP

_...

_1l

4.

Big

data...

_...12

4.1. Qu'est-ce que le

Big

data?...

... 12

4.2. Caruct6risation des

Big

data...

_...12

4.3. Les Outils utilisds dans les sc6narios de

Big

Data...

... 13

4.4.Tenatns d'applications du

Big

data....

_...13

5. Data

lakes

_...₁₄

5.1.

D6finition...

_...₁₄

5.2. Les limites des Data

Lakes

_...₁₄

5.3. Data lakes vs Enhepdts de

donndes

_...₁₅

6. Bases de donndes

NoSQL..

_...₁₅

6.1.

Historique...

_...₁₅

6.2.Defnition...

... 15

6.3. Diffdrents types de base de donn6es

NoSQL

_...₁₆

6.3.1. Bases de donndes Orientdes Cld

/

Valeur

... 16

6.3.2. Bases de donndes Orientdes

Document

_...₁₆

6.3.3. Bases de donndes Orient6es

Colonne

...17

6.3.4. Base de donn6es Orientdes

Graphe...

_...1g 6.4. Avantages du

NoSQL...

_...,...₁₉

6.5.

_Quelques

travaux sur

le

croisement entre

les

entrep6ts

de

donndes

et les

Systdmes NoSQL orient6s

graphes...

_...20 7.

Conclusion...

_...

_2l

(15)

Etat

de

l'art

l.

Introduction

Les systdmes d'aide d _{la ddcision occupent une place pr6ponddrante au sein}_des_entreprises et des grandes organisations, pour permethe des analyses dddi6es d la prise de ddcision. Dominde par les outils du march6,

I'informatique

d6cisionnelle est un domaine investi par le monde de la recherche au travers des concepts d'entrep6t de donndes.

L'Entrepdt

de donn6es (ou data warehouse) d6signe une base de donn6e qui fait plusieurs actions comme

la

collection, l'ordonnancement,

la

journalisation

_et

_le_stockage_des

informations provenant de base de donndes op6rationnelles et

fournir

ainsi un socle

i

l'aide

d la d6cision en entreprise _[2].

Aujourd'hui,

il

y a de plus en plus de donndes et informations d traiter. L'entreprise produit

ses _{propres donn6s, et acquiert aussi des donndes}

_dpartir

_{des 6changes avec}_ses_clients,_ses fournisseurs, ses partenaires, ses actionnaires et en reproduit sans cesse de nouvelles. Cependant au

fil

du _{temps, bon nombres de grandes entreprises}_se_{sont retrouvdes avec}_des volumes de donndes ing6rables. Face d ce _{probldme, la question concemant la gestion de}_ces volumes est : comment les exploiter et les analyser, pour mieux piloter

l'activitd

de son entreprise ?

Lorsque le traitement et

l'utilisation

des donn6es ddpassent les capacitds des technologies courantes en raison de leur volume, v61ocit6,

vai6t6,valeur

et vdracit6, un ensemble de rdponses logicielles et matdrielles 6tiquet6es <

Big

Data > a vu re

jour.

Le

Big

Data est une nouvelle _{g6ndration de technologies et d'architectures congues}_pour

extraire de la valeur, de fagon rentable, d partir

d'un

volume considdrable de donn6es trds varides en permettant leur capture et leur exploration d grande vitesse _[3].

Dans ce chapitre nous allons prdsenter le concept d'entrep6t de donn6es, celui du Big Data principalement de la technologie

NoSQL,

ainsi que quelques travaux de recherche qui

prdsentent le croisement entre les entrepdts de donndes et le

Big

Data.

(16)

Chanitre

L :

Etat

de

l'art

2. Entrep6t

de donndes

2.1. D6finition

Un entrep6t de donn6es

(ED)

est une base de donn6es regroupant des parties ou des ensembles des donn6es fonctionnelles des entreprises.

Il

entre dans le cadre de I'informatique

ddcisionnelle ; son but est de fournir un ensemble de donn6es servant de rdfdrence unique,

utilis6e pour la prise de ddcisions dans I'entreprise par le biais de statistiques et de rapports r6alis6s via des outils de reporting. D'un point de l.ue technique,

il

sert surtout

d'd,llester'les

bases de donn6es opdrationnelles des requ6tes pouvant nuire d leurs performances _[2].

D'un point de vue architectural,

il

existe deux manidres d'appr6hender un entrepdt de donndes :

.

L'architecture de haut en bas : selon

Bill

Inmon, I'entrepdt de donn6es est une base de donndes au niveau ddtail, consistant en un r6f6rentiel global et centralisd de I'entreprise. En cela,

il

se distingue du Datamart, qui regroupe, agrdge et cible fonctionnellement les donn6es.

.

L'architecture de bas en haut : selon Ralph

Kimball,

I'entrep6t de donn6es est constitu6 peu d peu par les Datamarts de I'entreprise, regroupant ainsi diffdrents niveaux d'agrdgation et

d'historisation de donn6es au sein d'une mOme base.

La ddfrnition la plus commun6ment admise est un mdlange de ces deux points de vue. Le

terme Data warehouse englobe le contenant et le contenu :

il

ddsigne d'une part la base ddtaill6e

qui est la source de donndes d I'origine des Datamarts, et d'autre part l'ensemble constitud par cette base d6taill6e et ses Datamarts. De la mOme manidre, les mdthodes de conception

actuelles prennent en compte ces deux approches,

privil6giant

certains aspects selon les risques et les opportunitds inhdrents d chaque entreprise _[2].

(17)

Chapitre

1 :

Etat

de Inart Zone de Zone de pr€paralnn

i*"'

-'

* **- '

I li

_.l i

I

t

rrrrm*'

I

i

Henoyaoe

t i

lsunaamir*ml

'ti

:

tii

i Sources ds donndes

i

I I Zone de sloct4e flelg'ldq! n A R G E M E N T

i*'g

I Requ€tes

r*g

Rapub , Vnuahsaton _R

Oahilnrp'

'S

i

*B

Figure 1.1 : Architecture g6n6rale d'un entep6t de donndes [4]

2.2. Caract6ristiques

des

entrepdts

de donn6es

L'entrepdt de donn6es est une collection de donn6e pour le support d'un processus d'aide d la d6cision.

Il

offre des donn6es int6gr6es, consolid6es et histori6es

polr

faire des analyses.

Un

entrepdt de donndes possdde les caractdristiques suivantes

_[5],

illustrdes par

lafigrxe

1.2

-->

€

Historfu6e

Figure 1.2 z Cnacteristiques des entrepdts de donndes

o Orientation

sujet

Les donndes s'organisant par sujets ou thdmes. Une telle organisation permet de rassembler toutes les donndes pertinentes

i

un sujet et n6cessaires aux besoins d'analyse se trouvant rdpandues

i

travers les structures fonctionnelles d'une entreprise.

(18)

o

Intdgration

Le r6sultat de

l'int6gration

de donn6es en provenance de multiples sources

d6finit

les

donndes de I'entrepot, ainsi toutes les donn6es ndcessaires pour r6aliser rrxe analyse particulidre

se trouvent dans 1'entrep6t.

L'intdgration

est le r6sultat d'un processus qui peut devenir trds

complexe du d I'h6tdrog6n6it6 des sources' o

Historisation

L'activit6

d,une entreprise pendant une l0ngue p6riode peut 6fie repr6sent6e par les donn6es

d,un entrepot,

d'ot il

est important de g6rer les differentes valeurs qu'une information peut prendre au

fil

du temps. cette caract6ristique donne la possibilit6 de suivre une donn6e dans le temps pour analyser ses variations'

o

Non

volatilitd

Les donndes charg6es dans 1'entrep6t ne peuvent pas 6tre modifi6es sauf dans certains cas de rafraichissement. Elles sont utilis6es en interrogation.

2.3. Architecture

fonctionnelle dtun ED

un

entrep6t de donn6es se base sur la collection de 1'ensemble

d'information utile

aux

d.cideurs d partir des sources de donn6es (bases de donn6es(BD) op6rationnelle, bases de

donn.es externes,...) et centralisation de

I'information

d6cisionnelle, garantie de

f

intdgration

des donn6es extraites et de leur p6rennit6 dans le temps

[6]'

L'architecture fonctionnelle d',un entrepdt de donndes comporte trois niveaux i11ustr6s dans

lafigure

1.3 : Nlveau exDloitation

E

Pr€sentation

t-l

It---_-Jl Client decisionnel Exploration Naveau fusion ion, liltrage

Donn€es extemes _{BD l6galaires} Donnees operationnelles

(19)

Etat

de

I'art

Niveau

extraction

Ce niveau traite I'extraction de donndes des

BD

op6rationnelles et de

l'extdrieur

:

r'

Approche < push > : d6tection instantan6e des mises d

jour

sur les

BD

opdrationnelles

pour

l'intdgration

dans

l'ED.

/

Approche <

pull

> : d6tection pdriodique des mises d

jour

sur les

BD

pour

l'int6gration

dans

I'ED.

Niveau fusion

'/

L'krteglation,

le chargement et le stockage des donn6es dans la

BD

entrep6t organis6e par sujets ou par thdmes.

,/

_{Rafraichissement au}

_fir

_et_d_mesure_des_mises_d_iour.

Niveau

exploitation

{

Les

tableaux de bords, visualisation par les graphes, et 6dition des rapports

{

L'analyse et

I'exploration

des donn6es entreposdes.

/

Requ6tes complexes pour I'analyse de tendance, I'extrapolation, la ddcouverte de connaissance, .. .

3. Cube

de donndes

3.1. D6finition

Le cube de donndes

offre

une

abstraction

trds

proche

de

la fagon dont l'analyste

voit

et interroge les donndes.

Il

organise les donndes en une ou plusieurs dimensions qui ddterminent une mesure d'intdrdt. Une dimension spdcifie

la

manidre dont on regarde les donndes pour les analyser,

alors

qu'une mesure est un objet d'analyse. Chaque dimension est forrn6e par un

ensemble d'atFibuts et chaque attribut peut prendre difErentes valeurs. Les dimensions

possddent

en

gdndral des hidrarchies associ6es qui organisent les

attributs

d diff6rents niveaux pour observer les donndes d differentes granularitds. Une dimension peut avoir plusieurs hi6rarchies assocides, chacune spdcifiant

diftrentes

relations d'ordre entre ses _{attributs [7].}

Exemple

: la

figure

1.4 ddcrit un cube de donn6es VENTES mod6lisant les ventes

d'un

(20)

Chapitre

I

:

Etat

de

I'art

F3

Produit

P? P1 C1 C2

Client

c3

Figure 1.4 : Cube de donn6es [7]

Les dimensions sont client, produit, temps et la mesure est quantit6 avec les domaines :

dom(produit):{P1, P2,P3}, dom(client):

_{Cl,

C2,C3},

dom(temps):

_{1999,2000},

et

dom(quantite)

c 5.

Le cube VENTES est d6fini par trois dimensions pour les membres (produit, client et temps), et une mesure (le n-uplet<quantite> et la fonction Fventes de domproduitx domclientx

domtemps vers dom(quantite) U

_{0,1}).

Une cellule du cube VENTES est par exemple < P2,

c2,2000>.

Plusieurs op6rations sont introduites pour

offrir

des possibilit6s d'animation dans la

repr6sentation du cube d 1'6cran. Elles consistent d faire pivoter le cube, le couper en tranches,

interchanger ou combiner les coordonn6es eVou les contenus _[7].

3.2. Concept OLAP

OLAP

ou Online

Analytical

Processing est une technologie de traitement informatique .Elle

permet

i

un

utilisatew

de consulter et d'extraire facilement les donndes pour les comparer de diffdrentes fagons. Les donndes

OLAP

sont stock6es sur une base de donndes

multidimensionnelle, aussi appeldes Cubes OLAP,

pow faciliter

ce type d'analyses.

Un

serveur

OLAP

est ndcessaire _[8].

Le noyau

d'un

systdme OLAP est son serveur. Les serveurs

OLAP

sont class6s selon la politique rdgissant l'architecture du serveur.

Ainsi,

ces architectures peuvent 0tre distingu6es comme suit:

(21)

Chapitre

I

:

Etat

de

I'art

Les systdmes

MOLAP

<

Multidimensional OnJine Analytical

Processing > sont congus exceptionnellement pour I' analyse multidimensionnelle.

Kimball d6finit

ces systdmes comme 6tant un < Ensemble d'interfaces utilisateur,

d'applications et de technologies de bases de donndes propridtaire dont l'aspect dimensionnel est prdpond6rant > _[9].

Ainsi

donc, un systdme

MOLAP

adopte r6ellement la structure multidimensiorurelle, exploitant de ce

fait

ces capacitds au maximum. En effet, le

MOLAP

offre des temps d'accds optimisds et cela en pr6d6finissant les opdrations de manipulation et de chemin d'accds prdd6finis.

Une autre caract6ristique du

MOLAP

est

qu'il

agrdge tout par d6faut, pdnalisant le systdme lorsque la quantitd de donn6es d traiter augmente. On parle g6ndralement de volume de

I'ordre

du giga-octet pas plus.

F

Les systimes

i

architecture

ROLAP

Ces systdmes sont d6crits cofirme 6tant un < Ensemble d'interfaces utilisateurs et

d'applications qui donnent une vision dimensionnelle d des bases de donn6es relationnelles >

tel.

Les systdmes

ROLAP

< Relational On-line

Analytical

Processing > sont en mesure de

simuler le comportement d'une SGBD multidimensionnel en exploitant un SGBD relationnel.

L'utilisateur

aurs ainsi I'impression d'interroger un cube multidimensionnel alors qu'en r6alit6

il

ne

fait

qu'adresser des requ6tes sur une base de donn6es relationnelles.

Ces systdmes peuvent stocker de grands volumes de donn6es, mais ils peuvent prdsenter un temps de rdponse dlev6. Les principaux avantages de ces systdmes sont :

(l)

une

facilitd

d'int6gration dans les SGBDs relationnels existants,

(2) une bonne efficacitd pour stocker les donn6es _{multidimensionnelles [7].}

F

Les systimes

i

architecture

HOLAP

L'impldmentation

HOLAP

repr6sente une combinaison entre

f

impldmentation

MOLAP

et

ROLAP. L'approche

HOLAP

permet d'entreposer les donn6es dont I'accds est le plus frdquent 10

(22)

Etat

de

I'art

par les utilisateurs dans une structure multidimensionnelle et le reste dans une structure

relationnelle. En combinant les structure

ROLAP

et

MOLAP,

l',approche

HOLAP

donne

accds

aux donndes ddtaill6es ou agr6g6es selon le besoin d'analyse du d6cideur

[10]'

F

Les systimes dr

architecture

DOLAP

D-OLAP

<Desktop

online

Analytical

Processing> permet ir I'utilisateur d'enregistrer une partie de ra base de donn.es

multi

dimensionne*e en rocar.

on

voit

trds

vite

1'utilit6 d'une telle

solution pour les commerciaux et les " nomades

"

de l'entreprise' Cela permettrait d un commercial, par exemple, de faire des analyses sur les ventes' conserver ses r6sultats'

et

v6rifier

1'6volution de ses analyses, une fois revenu de son voyage d'affaire

[11]'

3.3. Op6rations

OLAP

)

Op6rations

li6es

i

la

structure

Ces opdrations sont regroupdes sous le nom de restructuration' Tout cube obtenu paf une op6ration de restructuration

d'un

cube

initial

contient tout ce

qu'il

faut pour r6g6n6rer le cube

initial

par restructuration r6ciproque. Ces operations sont :

pivot,

swich, split, nest, push' et

pull

t7l.

{

Rotate

ou

Pivot

: effectuer d un cube une rotation autour

d'un

de ses trois axes

passant par le centre de 2 faces opposdes, de fagon d prdsenter un ensemble de faces

diff6rent.

r'

switch

: consiste dr interchanger la position des membres d'une dimension'

{Sptit:Consisteirpr6senterchaquetrancheducubeetdepasserd'unepr6sentation

tridimensionnelle d,un cube d sa pr6sentation Sous la forme

d'un

ensemble de tables.

/

Nest:

oimbrication des membres d partir du cube'

oPermet de grouper sur une mome representation bi-dimensionnelle toutes les

informations (mesures et membres)

d'un

cube quelque soit le nombre de ses dimensions.

/

push

_:

Consiste d combiner les membres

d'une

dimension aux mesurss du cube' et donc de faire passer des mernbres conlme contenu de cellules'

(23)

:

Etat

de

I'art

r'

Roil'up

: permet de _{monter dans les hi6rarchies des dimensions,}_et_{d'agr6ger les} mesures.

r'

Drill-Down

: est I'inverse du

Roll-Up

et permet de descendre dans une hi6rarchie.

/

Slice : utilise un prddicat

d6fini

sur les membres des dimensions pour couper une partie de I'hypercube

limitant

le champ d'analyse et permettant d I'utilisateur de se

concentrer sur des aspects particuliers _{du phdnomdne. En}_utilisant_la_terminologie_de

l'algdbre relationnelle, _{I'op6ration de slice}_est_{1'6quivalent de}_la_sdlection.

r'

Dice : rdduit _{la dimensionnalitd de I'hypercube en}_dliminant_{une dimension. Cette}

op6ration est 6quivalente d la projection de I'algdbre _{relationnelle [12].}

4. Big

data

4.1. _Qu'est-ce

que le

Big Data

?

Plusieurs ddfinitions _{ont 6t6 donn6es au}

_Big

_{Data dont nous retiendrons}_la_{suivante :}

_<

_Il

s'agit de donndes de trds grande

taille

dont la manipulation et gestion pr6sentent des enjeux du

point de vue logistiques. Englobe tout terme pour ddcrire toute collection de donndes tellement

volumineuse et complexe

qu'il

devient

difficile

de la traiter en utilisant des outils classiques de traitement d'applications. Le

Big

Data concerne des collections de donn6es dont la

taille

ddpasse lacapacite de _{capture, stockage, gestion et analyse des systdmes de gestion de}_{bases de} donndes classiques> _[13].

+

Les facteurs cl6s pour la croissance du

Big

Data sont:

oAugmentation _des_{capacit6s de stockage.}

oAugmentation _{de la puissance}_de_traitement.

.Disponibilit6

des donndes _[14].

4.2. Ctract6risation

du

Big

Data

Selon _{Garhrer, ce concept regroupe une}

_{famille d'outils}

_qui_rdpondent_d_une

_triple

probldmatique dite rdgle des 3V.

Il

s'agit notamment

d'un

volume de donndes considdrable d

traiter, une grande varidtd d'informations, et un certain niveau de V6locit6 d atteindre.

(24)

tre

1 :

Etat

de

I'art

autrement

dit

de fr6quence de cr6ation, collecte et partage de ces donn6es. Le tableau suivant prdsente quelques caractdristiques du

Big

Data _[13].

Les

caractdristiques

Signification

_Diflicult6s

Volum6trie

Grande quantit6 de donndes stockage, recherche, partage, analvse. visualisation

V6locit6

Flux

continus de donn6es :

capteurs, appareils mobiles, r6seaux sociaux

analyse et traitement des donn6es d la vol6e, sans les avoir en

intdgralitl

(one-pass processing)

Vari6t6

Diffdrents formats :

s6quences, graphes,

D'intdgration

_fiointure, association) par le sens, l'6chelle, la qualitd, ...

Tableau 1.1 : Caractdristiques du Big data

4.3. Outils

utilis6s

dans les sc6narios

du

Big Data

De nombreuses technologies ont 6t6 ddvelopp6es pour analyser, gdrer, int6grer et exploiter

les donn6es massives, le tableau 1.2 prdsente les solutions les plus utilisds dans le

Big

data _[13].

lvlAP REDUCE _{Frincipe de programmation qui consiste}

i

_{distribuer et} paralleliser le traitement sur plusieurs nceuds

FIADOOP HDFS {Hadoop

DistribLrted File Systenr) fondation Hadoop est une plate-forme informatique open-soltrce de laApache. capable de gerer/traiter des big data sur une architecture distribu€e. HDFS est le systeme de

gestion de flchier de base qui supporte Hadoop

NOSAL Technologie qui se diffErencie

i

la notian relationnelle des donn6es, adapt6e

i

des donn€es peu structur6es (nombre dynamique de colonnes, document, graphes,..

HBase, Cassandra. l'u'longoDB NE04J, Couche DB. Redis

SGBD qui supportent I'approche d'interrogation des donnees NOSQL

SAS. Talend. R. Python Outils et ou environemments de programmation et analyse adapt€s aux Big Data

Tableau 1.2 : Outils utilis6s dans les Big _{Data [13]}

4.4.Terrains

d'applications

du

Big

data

(25)

Ch"ptt"-1tEt"td*

Le

marketing

: Collecter de nombreuses donndes sur le client, ses habitudes, son

profil;

et croisement de ces donn6es avec d'autres sources de donn6es pour pr6dire son comportement

futur. On parle de vision d

360'

du client.

L'industrie

: Collecter de nombreuses et diverses sources de donn6es lides aux processus de

fabrication de produits, d leurs usages, pour amdliorer ces demiers _[15].

Transports

: I'analyse des donndes du

Big

Data (donn6es provenant despass de transport en cofilmun, g6olocalisation des personnes et des voitures, etc.) permet de mod6liser les ddplacements des populations afin d'adapter les infrastructures et les services (horaires et frdquence des trains, par exemple)

_[5].

5. Data

lakes

5.1. D6finition

Un Data Lake est une m6thode de stockage des donn6es utilis6e par le

Big

Data. Le principe

6tant d'avoir dans un lieu des donn6es de natures differentes: fichiers. blobs...

LaData

Lake est reconnu colnme une fagon de stocker de trds grands volumes de donndes,

oi

les schdmas et les besoins d'analyses (ou

d'exploitation)

ne sont connus qu'au moment de

l'utilisation

des donndes _[15].

Exemple

: les logs de sites web, les tweets, les profiles sociaux, les commentaires de blogs, les

photos...[5].

5.2. Limites

des

Data

Lakes

Les limites des Data Lakes sont les _{suivent : [15]}

)

N6cessite beaucoup de ressources:

/

complexitd des algorithmes et prdparation des donn6es

{

non adapt6 d des analyses r6pdtitives

oi

les donndes doivent 6tre recalcul6es d chaque

nouvelle 6tude

)

Difficultds

de mise en place:

{

llfautrepenser

le fonctionnement des systdmes de donn6es (qui

fait

quoi, comment...).

F

S6curit6:

r'

probldmes li6s

i

I'accds aux donndes sensibles.

(26)

Chapitre

I

:

Etat

de

I'art

5.3. I)ata

lakes vs

Entrep6ts

de donn6es

Le tableau 1.3 prdsente la difference entre les entrep6ts de donn6es et les Data Lakes :

Tableau 1.3 : Difference entre data lakes et entrepdts de donndes [15]

6. Bases

de donn6es

NoSQL

6.1. Historique

Le monde entend le terme NoSQL

pour

la premidre fois au 1998,

il

est invent6 et employd par Carlo

Snoznpour

qu'il

nomme son SGBD relationnel open source l6ger qui

n'utilisait

pas le langage SQL, sa trouvaille n'a rien d

voir

avec la mouvance NoSQL que

I'on

connait

aujourd'hui,

vu

que son SGBD est de type relationnel. En effet, le terme NoSQL a 6t6 mis au

gott

du

jour

en 2009, lors d'un rassemblement de la communautd des d6veloppeurs des SGBD

non-relationnels, pour englober tous les SGBD de type _{non-relationnel [16].}

6.2. D6frnition

NoSQL est une combinaison de deux mots :

No

et SQL qui pourrait 6tre mal interpr6t6e car

I'on

pourrait penser que cela signifie la

fin

du langage SQL et qu'on ne devrait donc plus

I'utiliser.

Les moddles NoSQL sont de nouveaux moteurs de stockage qui emploient une architecture distribude capable de traiter de gros volume de donn6es. Ils prdsentent une nouvelle alternative

pour l' entreposage des donn6es multidimensionnelles.

Entrepdts

de donn6es Data lakes

Donn6e Structur6e, traitee Structurde, semi-structur6e,

non structur6e,

originelle

Traitement

Sch6ma-On-Write Sch6ma-On-Read

stockage Cofiteux pour les grands volumes de donn6es

Congus pour un stockage pas Cotrteux

Agilit6

Moins agile, structure fig6e Hautement aglle, configuration et

reconfi guration d volont6

S6curit6 Mature En cours de maturation

(27)

Chapitre

1 :

Etat

de

I'art

En effet, NoSQL ne vient pas remplacer les bases de donndes relationnelles mais proposer une alternative ou compldter les fonctionnalitds des SGBDR pour donner des solutions plus intdressantes dans certains contextes. Le NoSQL regroupe de nombreuses bases de donn6es, r6centes pour la plupart, qui se differencient du moddle SQL par une logique de repr6sentation de donn6es non _{relationnelle [16].}

6.3. Diff6rents

types de base de donn6es

NoSQL

Les bases de donn6es NoSQL ne sont plus fond6es sur l'architecture classique des bases relationnelles. Quatre grandes cat6gorises se distinguent parmi

_{celles-ci [16]}

:

6.3.1. Bases de donn6es orient6es Cl6 /

Valeur

Les bases de donn6es NoSQL de type cld / valeur s'articulent sur une architecture trds basique. Une valeur, un nombre ou du texte est stockd grdce d une c16, qui sera le seul moyen d'y acc6der. Leurs fonctionnalitds sont tout autant basiques, car elles ne contiennent que les commandes dl6mentaires du CRUD.

Les bases de type cl6/valeur les plus utilis6es sont Redis et Riak.

Figure 1.5 : Illushation d'une Base de donndes orientde cl6 _{/valeur [16]}

6.3.2. Bases de donn6es orient6es

document

Ces bases de donndes sont une 6volution des bases de donndes de type c16-va1eur.

Ici

les c16s

ne sont plus assocides d des valeurs sous forme de bloc binaire mais d un document dont le format n'est pas impos6.

Il

peut 6tre de plusieurs types diffdrents comme par exemple du JSON ou du

XI\[L,

pour autant que la base de donn6es soit en mesure de manipuler le format choisi afin de permethe des traitements sur les documents.

(28)

Chapitre

L :

Etat

de

I'art

Les bases les plus connues se basant sur ce concept sont MongoDB et CouchBase

Document 3 Champl Valeur Champ2 Valeur Champ3 Chamn4 Valeur Valeur

€hamp5 Chamol Valeur

Chamo2 valeur

Figure 1.6 : Illustration d'une base de donndes orientde document

[6]

6.3.3. Bases de donn6es orient6es colonne

Les bases de donn6es orientdes colonne ont 6td congues par les gdants du Web afin de faire

face d la gestion

et

au traitement de gros volumes de donn6es.

Le principe d'une base de donndes colonne consiste dans leur stockage par colorule

et

non par ligne

(voir figure

1.7). Les bases

de

donndes orientdes colonne quant

i

elles vont stocker les donn6es de fagon

i

ce que toutes les donn6es d'une mOme

colonne

soient stock6es

ensemble. Ces bases peuvent dvoluer avec le temps, que ce soit

en

nombre de lignes ou en nombre de colonnes.

Autement

di!

et contafuement A une base de donndes relationnelle ori

les colonnes sont statiques et pr6sentes

polr

chaque ligne, celles des bases de donndes orientdes colonne sont dites dynamiques et prdsentes donc uniquement en cas de n6cessit6.

(29)

Chapitre

1 :

Etat

de

I'art

F'igure 1.7 : Illustration d'une Base de donndes orientde _{colonne [16]}

6.3.4. Base de donn6es Orient6es graphe

Les bases de donn6es orient6es graphe permettent de rdsoudre des probldmes trds complexes

qu'une base de donn6es relationnelle serait incapable de faire. Les r6seaux sociaux (Facebook,

Twiffer,

etc.), ori des

millions

d'utilisateurs sont reli6s de diffdrentes manidres, constituent un

bon exemple : amis, fans,

famille

etc. Le d6fi

ici

n'est pas le nombre d'616ment

i

gdrer, mais le nombre de relations

qu'il

peut y avoir enffe tous ces 616ments.

Ces bases de donndes reposent sur la thdorie des graphes, avec

tois

6l6ments d retenir

(voir

figure 1.8):

o

Un objet sera appeld un

neud

(dans le contexte de Facebook nous allons dire que c'est un utilisateur).

o

Deux objets peuvent

6te

relids entre eux (comme une relation

d'amiti6).

.

Chaque objet peut avoir un certain nombre d'attributs (statut social, pr6nom, nom, etc.).

o

Laprincipale

solution est Neo4J

(30)

Chapitre

L :

Etat

de

I'art

connait

est

Figure 1.8 : Illustration d'une Base de donndes orient6e graphe [16]

6.4. Avantages du

NoSQL

Les bases de donn6es NoSQL par leur conception sont diffdrentes des bases relationnelles classiques. Elles rdpondent 6galement d d'autres probl6matiques et besoins.

Voici

quelques avantages _[16].

D

Plus

6volutif

NoSQL est plus

6volutif.

C'est en effet

l'6lasticit6

de ses bases de donndes NoSQL qui les rend si bien adaptdes au traitement de gros volumes de donndes.

Au

contraire, les bases de donndes relationnelles ont souvent tendance

i

utiliser

la scalabiltd verticale, quand celui-ci atteint ses limites.

F

Plus

flexible

N'6tant pas enfermde dans un seul et unique moddle de donn6es, une base de donn6es

NoSQL est beaucoup moins restreinte qu'une base SQL. Les applications NoSQL peuvent donc stocker des donn6es sous

n'importe

quel format ou structure, et changer de format en

production. En

fin

de compte, cela 6quivaut d un gain de temps considdrable et d une meilleure

fiabilitd.

Par contre une base de donn6es relationnelle doit Otre g6rde attentivement, car un changement, aussi mineur, peut entrainer un ralentissement ou un arrOt du service.

F

Plus 6conomique

Les serveurs destin6s aux bases de donndes

NoSQL

sont gdndralement bon march6 contrairement d ceux qui sont utilisds par les bases relationnelles. De plus, la trds grande

(31)

Chapitre

1 :

Etat

de

I'art

majoritd des solutions NoSQL sont Open Source, ce qui refldte une 6conomie importante sur le

prix

des licences.

F

Plus simple

Les bases de donndes NoSQL ne sont pas forc6ment moins complexes que les bases relationnelles, mais elles sont beaucoup plus simples d ddployer. La fagon dont elles ont dte congues permet une gestion beaucoup plus 16gdre.

6.5. _Quelques

travaux

sur

le

croisement

entre

les

Entrep6ts

de donn6es et

les

systimes

NoSQL

orient6s graphes

Dans cette section, nous prdsentons quelques travaux de recherche qui se sont int6ress6s au croisement entre les entrep6ts de donn6es et les systdmes NoSQL.

F

Travaux d'Arnaud

Castelltort

and

Anne

_{Laurent. Q0l4)}

<

NoSQL Graph-based

OLAP

Analysis

>>

Et20l4,

une premidre approche a 6t6 propos6e pour coupler le moddle orient6 graphe et

I'OLAP

[17]. Dans cette approche les auteurs on proposd de structurer les donn6es dans le

systdme NoSQL orient6 graphes

Neo4J

et pr6sentent deux formalismes pour reprdsenter le

fait

et les dimensions au niveau du moddle logique orientd graphes. Le formalisme assure deux types de relations, celles liant le

fait

aux dimensions, et celles reliant les attributs des dimensions entre eux; ces dernidres permettent de prdserver la relation hidrarchique

(voir

Figure 1. 9).

I

c€tegorv _I

I

ropm I

F-r

lD4'l

---r=---['i*l

I r&sr I

I

rd-u

I

tmrion I

I rcdm

I !_-?J tr.atlon I uss 9rbject Trreet l*.b" _| _{| t*}

Figure 1.9 : Reprdsentation logique orientde graphe selon [17]

(32)

Chapitre

1 :

Etat

de

I'art

}

Travaux

de C6cile

Favre

et al,

_Q0l7)

<< Graphes

enrichis

par

des Cubes

(GreC)

>

Dans le travaiL de

([18]),

Cdcile Favre et des co-auteurs ont propos6 une approche innovante appelde GreC (Graphes enrichis par des Cubes). Plutdt que de construire des cubes de graphes, leur proposition consiste d enrichir les graphes avec des cubes de donn6es qui viennent d6crire les neuds etlou les ardtes du r6seau selon les besoins. Cela permet des analyses int6ressantes pour

I'utilisateur

qui peut naviguer au sein

d'un

graphe enrichi de cubes selon differents niveaux d'analyse, avec des opdrateurs d6di6s.

)

Travaux

de

Amine

Ghrab

et al. <<

A Framework for Building OLAP

Cubes on

Graphs

>>

Dans le travuL de

([19]),

Amine Ghrab et des co-auteurs ont propos6 un cadre pour

construire des cubes

OLAP

d partir de donndes orient6es graphe et analyser les propri6tds topologiques du graphe. Le cadre prend en charge I'extraction et la conception des espaces

multidimensionnels candidats dans les graphes de propri6t6s (property graphs). Outre les graphes de propri6t6s, un nouveau moddle de base de donndes adaptd d la mod6lisation multidimensionnelle et permettant I'exploration d'espaces multidimensionnels candidats suppl6mentaires est introduit. Ils prdsentent de nouvelles techniques pour I'agr6gation

OLAP

du graphe, et discutent le cas des hi6rarchies de dimension dans les graphes. De plus,

I'architectwe et la mise en Guvre de leurs travaux de cadre d'entreposage de graphes sont prdsentdes et

montrent

1'efficacit6 de leurs approches.

7. Conclusion

Dans ce chapitre nous avons pr6sent6 I'entrep6t de donndes, ses caractdristiques,

l'architecture fonctionnelle et la notion de cube de donn6es, et aussi on parle de concept

OLAP

et ses

diftrentes

opdrations. Par la suite nous avons pr6sent6 le

Big

Data, ses caract6ristiques, les outils utilis6s dans ses sc6narios. Ensuite, nous avons prdsent6les data lakes, leur limites et la diffdrence avec l'entrep6t de donn6es. Nous avons 6galement prdsentd les bases de donn6es

NoSQL, leurs types et leurs avantages. Enfin, nous avons pr6sent6 quelques travaux de recherche en croisement entre les entrep6ts de donn6es avec le NoSQL.

(33)

Chapitre

2 :

Pr6sentation

de

l'6tude

de

cas

l.Introduction

...

...23

2. Pr6sentation de

systime

d'enseignement

sup6rieur

indien

.-...23

2.1. Enseignement

sup6rieur...

...23

2.2.Type

d'institutions...

...24

3. Donn6es 6ducatives de I'enseignement

sup6rieur

indien...

...25

3.1. Description des

donndes

...25

3.2. Mod6lisation logique (relationnelle) des donndes

6ducatives

....26

4. Exemples de besoins

d'analyse

...28

5.

Opportunit6

de Ia

repr6sentation

des donn6es 6ducatives

par un

graphe

....32

6.

Conclusion...

...33

(34)

Chapitre2

t

p.6t*@

l.Introduction

Dans ce chapitre, nous prdsentons le domaine d'application de notre travail qui est l'enseignement sup6rieur. Dans ce contexte, et pour le besoin d'appliquer noffe travail ir des donnfes massives, notamment en termes de volume, notre choix a port6 sur le systdme

d'enseignement sup6rieur de

I'Inde,

et ce, vu la population de ce

pays

qui a enregistte 1,26

milliards

d'habitants

en20l6 (I7%

de la population mondiale) selon Wikip6dia, cela d'une

part. Le besoin d'analyser des donn6es massives du domaine de l'enseignement sup6rieur nous a conduites d chercher des donndes volumineuses disponibles gratuitement. Dans ce sens, les donndes de l'enseignement sup6rieur indien satisfont nos besoins.

Dans ce chapitre, nous pr6sentons d'abord le systdme d'enseignement sup6rieur de

l'Inde.

Par la suite, nous pr6sentons les donn6es 6ducatives que nous avons utilis6es dans notre travail.

Aussi, nous pr6sentons de exemples de besoins d'analyse sur css donn6es. Enfin, nous

motivons

l'utilisation

d'une base de don:r6es orientde graphes pour l'analyse de donn6es dducatives.

2. Pr6sentation

de

systime

d'enseignement

sup6rieur indien

Le systdme d'enseignement supdrieur indien est similaire au systdme alg6rien. Un dipldme

de Bachelor peut Otre obtenu en trois ann6es d'6tudes (quatre pour les frlidres d'ing6nierie). Les Masters peuvent par la suite Otre ddcroches en une ou deux ann6es d'6tudes suppl6mentaires,

pour finalement mener au doctorat en trois anndes d'6fudes additionnelles [20].

L'enseignement indien a tent6 de r6pondre d la demande en provoquant une expansion de grande envergure.

Ainsi,

entre les ann6es 2000

et 20l0,ce

sont quelques 20.000 < colldgesl>

qui ont 6t6 cr66s, accueillant plus de 3.000.000 dtudiants suppl6mentaires. D'aprds

I'UNESCO,

le nombre total d'6tudiants indiens 6tait, en 2013, de28,2

millions

(pour 34

millions

d'6tudiants chinois).

2.1. Enseignement

sup6rieur

Une enqu€te a 6t61anc6e par le ministdre du d6veloppement des ressources humaines indien

(MHRD),

qui calcule des statistiques pour construire une 6tude sur l'enseignement sup6rieur au 23 septembre 2010. Le rapport de cette enquOte ddfrnit I'enseignement sup6rieur cofilme une

t

_Nous_utilisons_le

_terme

_{collEge dans le sens anglais}_{comme 6tant}_un_{6tablissement}

(35)

Chapitre 2

:

pr6sentation

de

l'6tude

de cas dducation qui est obtenue aprds avoir termind 12 anndes de scolaritd ou l'6quivalent de la dur6e d'au moins neuf mois (d temps plein), ou aprds 10 ann6es de scolarit6 de la dur6e d'au moins 3

ans. L'6ducation peut Otre de la nature de 1'6ducation g6ndrale, professionnelle ou technique

l2rl.

2.2. Type

d'institutions

Toutes les institutions, dans lesquelles I'enseignement sup6rieur est

ddfini

ci-dessus, seront couvertes par cette enqu6te. Les dtablissements couverts ont 6t6 classds en trois grandes catdgories:

/

Etablissements universitaires

/

Colldges

/

dtablissements - affilids / reconnus avec I'Universit6

/

Etablissements autonomes - non afFrlids / reconnus avec I'universitd

)

Etablissements

universitaires

En vertu de la

loi

de 1956 sur la Commission des subventions universitaires (UGC), universitd signifie Universit6 dtablie ou constitude en vertu d'une

loi

centrale, d'une

loi

provinciale ou d'une

loi

d'Etat et comprenant toute institution qui en consultation avec 1'universit6 int6ress6e, peut 0tre reconnue par Ia Commission conformdment aux rdglements

pris en application de la pr6sente

Acte

_[21].

Ce sont des institutions qui peuvent mener des programmes d'6tudes, mais ne sont pas habilit6es d

fournir

un dipldme de leur propre chef et doivent ndcessairement Otre attachds avec un Institution de niveau universitaire / universitaire dans le but d'obtenir un dipl6me. Pour le but de I'enqu6te ces institutions ont 6td class6es coflrms

suit

[21]

:

F

Cotldges

affili6s

i

des

institutions

de niveau

universitaire

Les colldges peuvent 6tre de deux types :

(i)

Colldge universitaire

/

constitutif - Un colldge maintenu par I'Universit6

(ii)

Colldge

affilid

)

Institutions

reconnues

par

I'Universit6

(36)

Chapitre 2

:

pr6sentation

de

I'6tude

de cas

I1 existe plusieurs institutions qui ne reldvent pas de I'Universitd et du Colldge.

Ces institutions gdrent g6n6ralement des prograrnmes de niveau Dipl6me / PG pour

lesquels elles doivent 6tre reconnues par I'un ou l'autre des organismes statutaires.

Aux

fins de l'enquOte, ces institutions seront consid6rdes cofllme des institutions autonomes. Ces

institutions reldvent principalement des catdgories suivantes

_[21]

:

r

Institut indien de gestion

(IIM)

ddcernant principalement PG Dipldme en gestion de dur6e de deux ans dont la qualification d'entrde est dip16m6e.

e

Polytechniques

o

Secr6taire d'entreprise, comptable agr66, science actuarielle, etc.

3. Donn6es

6ducatives

de

I'enseignement

sup6rieur indien

Grdce au

Big

Data et

i

l'essor de

l'informatique

et du num6rique dans l'6ducation, l'analyse

des donn6es permet ddsormais d'amdliorer les systdmes scolaires et 6ducatifs du monde entier.

Pour le besoin d'analyser des donn6es massives li6es d 1'6ducation, et vu la disponibilit6 des donndes de ce domaine pour

l'lnde,

cela nous a permis de cibler ces donndes couvrant cinq

anndes universitaire cons6cutives (de l'ann6e universitaire

20ll-2012jusqu'i

l'ann6e

universitaire 20 | 5 -2A

rc).

Les donn6es sont disponibles sur le site https://www.kasgle.com/rajanand/aishe/version/1.

Les donn6es de l'enseignement sup6rieur indien ont 6t6 collect6es dans le cadre d'un projet

AISI{E (All

Indian Survey On Higher Education)

initid

par le ministdre indien du

d6veloppement des ressources humaines.

L'objectif

6tant

d'identifier

et de capturer toutes les

institutions d'enseignement sup6rieur et de collecter les donn6es sur ces institutions relatives d divers aspects.

3.1. Description

des

donn6es

Les donndes collect€es dans

le

cadre du projet

AISHE

et utilisdes dans notre travarl portent

(37)

ntation

de

l'6tude

de cas

Les informations d6taill6es sur les institutions Les informations d6tai1l6es des enseignants Les informations du personnel non enseignant

Les offres d,enseignement dans les facu1t6s, les 6coles, les d6partements et les centres Les r6sultats d,examens de la demidre annde d'6tude de chaque offre de

formation

Les informations financidres notamment de r6ception et de ddpenses'

La disponibilitd des infrastructures

Les bourses, les pr6ts et les accrdditations

3.2. Mod6lisation

togique

(relationnelle)

des donn6es dducatives

Les donndes que nous avons utilisdes sont disponibles en format

csv

et correspondent pratiquement d des donn6es structur6es du niveau physique' Pour mieux comprendre ces donn6es, nous avons proc6dd d la construction

d'un

sch6ma

relationnel

paf reverse

engineering, ce qui a conduit d un grand nombre de tables relationnelle. Nous avons choisi de ne pas remonter jusqu'au niveau conceptuel avec le moddle conceptuel de donndes

(MCD)

ou le moddle Entitd Association vu que cela engendrera 6norm6ment d'associations entre les entit6s et donc aboutira d un moddle complexe'

Le sch6ma

l',outil

<< yed >> et on l',utilise dans ce

travail (voir figure

2'I)'Le

sch6ma est

pr6sent6 d

titre illustratif

pour montrer le grand nombre de tables relationnelles ainsi que les

divers liens de type pdre-frls entre les tables'

o a a a

(38)

Chapitre 2

:

pr6sentation

de ln6tude de cas

T----.

I I

Figure 2.1 : Sch6ma relationnel de donndes dducatives

pens _{ce sch6ma, les formes}_{rectangulaires}_{reprdsentent les tables}_{relationnelles}_{en nombre}

de 47 tables

qui

comportent des attributs parmi lesquels une cl6 primaire identifie de manidre tmique chaque occrrrence de la table et dventuellement une ou plusieurs c16s dtrangdres

qui

sont des cl6s primaires dans une autre table.

Ces

tables

sont li6es entre

elles

avec

des

fldches

qui

reprdsentent des liens fils-pdre (du

fils

vers le pdre), dans le sens que la fldche d6marre

i

partir de la table qui contient la cl6 dtrangdre vers la table qui possdde la cl6 primaire. Dans le cas des associations hi6rarchiques (de type _[1,

n]),

la cl6 primaire correspondant d I'entit6 pdre (c6t6 1) migre comme cl6 dtrangdre dans la relation correspondant d I'entit6

fils

(c6t6

n)

et

pour

les associations non hi6rarchiques (de type _[n,

n]),

elles deviennent une relation < table D

comme

dans notre sch6ma deux tables portant le nom de

Pgm_broad_DG

et

Course_exam_result.

(39)

Chapitre 2

:

pr6sentation

de

l'6tude

de cas

La figure 2.2 illustre une partie de sch6ma relationnel plus iisible.

Figure 2.2 : partie de Sch6ma relationnel de donndes 6ducatives

4. Exemples

de

besoins

d'analyse

*R6ponses

des

universit6s au

projet AISHE

En2016-2A17

,864

universit6s figurant sur le portail

AISHE

devaient t6l6charger les

donndes. Le nombre d'universitds avec leurs types est indiqu6 dans le tableau 2.1. Les d6tails de type des 864 universit6s sont donn6s ci-dessous. Parmi eux 795 universit6s ont t6l6chargd les donndes au cours