• Aucun résultat trouvé

Applications traditionnelles de gestion de donn ´ees

N/A
N/A
Protected

Academic year: 2022

Partager "Applications traditionnelles de gestion de donn ´ees"

Copied!
48
0
0

Texte intégral

(1)

2 mai 2016

INF344: Donn ´ees du Web

Les quatrevde la datamasse du Web

(2)

La datamasse

Ladatamasse, leBig Data, lesmasses de donn ´ees:

Donn ´ees collect ´ees pour certaines applications, par certaines entreprises, donn ´ees librement disponibles, etc.

Tr `es grande valeur `a analyser (fouille, pr ´ediction)

Significativement plus complexeque les donn ´ees traditionnelles : Volume : ordres de grandeur au-dessus de ce qu’on peut

traiter de mani `ere centralis ´e

Vari ´et ´e : types de donn ´ees (texte, multim ´edia, graphes, structur ´ees) vari ´es, organisation des donn ´ees vari ´ees

V ´elocit ´e : donn ´ees changeantes ou produites `a grande vitesse (LHC : 100 millions de collision par seconde), parfois

(3)

2 mai 2016

Affronter la datamasse

Impacte des domaines vari ´es : fouille de donn ´ees, apprentissage, visualisation, respect de la vie priv ´ee. . . et bien s ˆurgestion de donn ´ees

On a besoin denouveaux algorithmes, denouveaux outils, de nouveaux mod `eles

Ce cours : focus sur les probl `emes de gestion de donn ´eesissues du Web

On va bien au-del `a de SQL sur des SGBD relationnel. . . mais on retrouve lesm ˆemes concepts de base

(4)

Plan

Volume

Vari ´et ´e

V ´elocit ´e

V ´eracit ´e

Conclusion

(5)

2 mai 2016

Applications traditionnelles de gestion de donn ´ees

Donn ´ees d’unforum Web populaire 1000 posts par jour

5 Kio de donn ´ees par post 10 ans de dur ´ee de vie

⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).

Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction

1 an d’historique dans le syst `eme de production

⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur quelques serveurs (p. ex., Oracle, DB2, PostgreSQL).

(6)

Applications traditionnelles de gestion de donn ´ees

Donn ´ees d’unforum Web populaire 1000 posts par jour

5 Kio de donn ´ees par post 10 ans de dur ´ee de vie

⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).

Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction

1 an d’historique dans le syst `eme de production

⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur quelques serveurs (p. ex., Oracle, DB2, PostgreSQL).

(7)

2 mai 2016

Applications traditionnelles de gestion de donn ´ees

Donn ´ees d’unforum Web populaire 1000 posts par jour

5 Kio de donn ´ees par post 10 ans de dur ´ee de vie

⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).

Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction

1 an d’historique dans le syst `eme de production

⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur quelques serveurs (p. ex., Oracle, DB2, PostgreSQL).

(8)

Applications traditionnelles de gestion de donn ´ees

Donn ´ees d’unforum Web populaire 1000 posts par jour

5 Kio de donn ´ees par post 10 ans de dur ´ee de vie

⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).

Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction

1 an d’historique dans le syst `eme de production

⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur

(9)

2 mai 2016

Donn ´ees massives

Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]

Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]

Facebook

1,5 milliards d’utilisateurs

∼10 Mio de donn ´ees par utilisateurs

⇒∼15 Pio de donn ´ees

Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.

Pas seulement une question de taille :

Tr `es grand nombre derequ ˆetes par seconde

R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde

(10)

Donn ´ees massives

Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]

Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]

Facebook

1,5 milliards d’utilisateurs

∼10 Mio de donn ´ees par utilisateurs

⇒∼15 Pio de donn ´ees

Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.

Pas seulement une question de taille :

Tr `es grand nombre derequ ˆetes par seconde

R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde

(11)

2 mai 2016

Donn ´ees massives

Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]

Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]

Facebook

1,5 milliards d’utilisateurs

∼10 Mio de donn ´ees par utilisateurs

⇒∼15 Pio de donn ´ees

Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.

Pas seulement une question de taille :

Tr `es grand nombre derequ ˆetes par seconde

R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde

(12)

Donn ´ees massives

Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]

Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]

Facebook

1,5 milliards d’utilisateurs

∼10 Mio de donn ´ees par utilisateurs

⇒∼15 Pio de donn ´ees

Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.

Pas seulement une question de taille :

Tr `es grand nombre derequ ˆetes par seconde

R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde

(13)

2 mai 2016

Donn ´ees massives

Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]

Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]

Facebook

1,5 milliards d’utilisateurs

∼10 Mio de donn ´ees par utilisateurs

⇒∼15 Pio de donn ´ees

Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.

Pas seulement une question de taille :

Tr `es grand nombre derequ ˆetes par seconde

R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde

(14)

Principes g ´en ´eraux du stockage sur grappe

Deux grandes strat ´egies :

Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.

Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.

R ´eplication des donn ´eespour

1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees

3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique

Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme

Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails

(15)

2 mai 2016

Principes g ´en ´eraux du stockage sur grappe

Deux grandes strat ´egies :

Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.

Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.

R ´eplication des donn ´eespour

1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees

3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique

Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme

Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails

(16)

Principes g ´en ´eraux du stockage sur grappe

Deux grandes strat ´egies :

Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.

Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.

R ´eplication des donn ´eespour

1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees

3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique

Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme

Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails

(17)

2 mai 2016

Principes g ´en ´eraux du stockage sur grappe

Deux grandes strat ´egies :

Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.

Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.

R ´eplication des donn ´eespour

1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees

3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique

Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme

Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails

(18)

Plan

Volume

Vari ´et ´e

V ´elocit ´e

V ´eracit ´e

Conclusion

(19)

PAGE 9 / 31

2 mai 2016

Licence de droits d’usage

Diff ´erentes sources organisent diff ´eremment les m ˆemes donn ´ees

Jeffrey D. Ullman

List of publications from the DBLP Bibliography Server FAQ

Coauthor Index Ask others: ACM DL/Guide CiteSeer CSB Google MSN Yahoo

Home Page

2007

240 EE Foto N. Afrati, Chen Li, Jeffrey D. Ullman: Using views to generate efficient evaluation plans for queries. J. Comput. Syst. Sci. 73(5): 703724 (2007)

2005

239 EE Jeffrey D. Ullman: Gradiance OnLine Accelerated Learning. ACSC 2005: 36

238 EE Serge Abiteboul, Rakesh Agrawal, Philip A. Bernstein, Michael J. Carey, Stefano Ceri, W. Bruce Croft, David J. DeWitt, Michael J. Franklin, Hector GarciaMolina, Dieter Gawlick, Jim Gray, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, Martin L. Kersten, Michael J. Pazzani, Michael Lesk, David Maier, Jeffrey F. Naughton, HansJörg Schek, Timos K. Sellis, Avi Silberschatz, Michael Stonebraker, Richard T. Snodgrass, Jeffrey D. Ullman, Gerhard Weikum, Jennifer Widom, Stanley B.

Zdonik: The Lowell database research selfassessment. Commun. ACM 48(5): 111118 (2005) 237 EE Serge Abiteboul, Richard Hull, Victor Vianu, Sheila A. Greibach, Michael A. Harrison, Ellis Horowitz,

Daniel J. Rosenkrantz, Jeffrey D. Ullman, Moshe Y. Vardi: In memory of Seymour Ginsburg 1928 2004.

SIGMOD Record 34(1): 512 (2005)

2003

236 EE Jeffrey D. Ullman: A Survey of New Directions in Database System. DASFAA 2003: 3

235 EE Jeffrey D. Ullman: Improving the Efficiency of DatabaseSystem Teaching. SIGMOD Conference 2003:

13

234 EE Jim Gray, HansJörg Schek, Michael Stonebraker, Jeffrey D. Ullman: The Lowell Report. SIGMOD Conference 2003: 680

233 EE Serge Abiteboul, Rakesh Agrawal, Philip A. Bernstein, Michael J. Carey, Stefano Ceri, W. Bruce Croft, David J. DeWitt, Michael J. Franklin, Hector GarciaMolina, Dieter Gawlick, Jim Gray, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, Martin L. Kersten, Michael J. Pazzani, Michael Lesk, David Maier, Jeffrey F. Naughton, HansJörg Schek, Timos K. Sellis, Avi Silberschatz, Michael Stonebraker, Richard T. Snodgrass, Jeffrey D. Ullman, Gerhard Weikum, Jennifer Widom, Stanley B.

Zdonik: The Lowell Database Research Self Assessment CoRR cs.DB/0310006: (2003)

232 EE Anand Rajaraman, Jeffrey D. Ullman: Querying websites using compact skeletons. J. Comput. Syst. Sci.

66(4): 809851 (2003)

2001

231 EE Chen Li, Mayank Bawa, Jeffrey D. Ullman: Minimizing View Sets without Losing QueryAnswering Power.

ICDT 2001: 99113

230 EE Anand Rajaraman, Jeffrey D. Ullman: Querying Websites Using Compact Skeletons. PODS 2001 229 EE Foto N. Afrati, Chen Li, Jeffrey D. Ullman: Generating Efficient Plans for Queries Using Views. SIGMOD

Conference 2001: 319330

228 EE Edith Cohen, Mayur Datar, Shinji Fujiwara, Aristides Gionis, Piotr Indyk, Rajeev Motwani, Jeffrey D.

Ullman, Cheng Yang: Finding Interesting Associations without Support Pruning. IEEE Trans. Knowl.

Data Eng. 13(1): 6478 (2001)

2000

227 Hector GarciaMolina, Jeffrey D. Ullman, Jennifer Widom: Database System Implementation PrenticeHall 2000

226 EE Jeffrey D. Ullman: A Survey of AssociationRule Mining. Discovery Science 2000: 114 225 EE Edith Cohen, Mayur Datar, Shinji Fujiwara, Aristides Gionis, Piotr Indyk, Rajeev Motwani, Jeffrey D.

(20)

PAGE 9 / 31

2 mai 2016

Licence de droits d’usage

Diff ´erentes sources organisent diff ´eremment les m ˆemes donn ´ees

Advanced Scholar Search

Scholar Preferences Scholar Help

Scholar All articles Recent articles Results 1 10 of about 12 for author:"jd ullman". (0.07 seconds)

jd ullman J Ullman J Hopcroft A Rajaraman B Konikow ska A Aho

Querying websites using compact skeletons all 11 versions »

A Rajaraman, JD Ullman Journal of Computer and System Sciences, 2003 Elsevier Several commercial applications, such as online comparison shopping and process automation, require integrating information that is scattered across multiple w ebsites or XML documents. Much research has been devoted to this problem, ...

Cited by 13 Related Articles Web Search

[BOOK] Wprowadzenie do teorii automatów, jezyków i obliczen JE Hopcroft, JD Ullman, B Konikow ska 2003 Wydaw . Naukow e PWN Cited by 15 Related Articles Web Search

Improving the efficiency of databasesystem teaching all 3 versions »

JD Ullman Proceedings of the 2003 ACM SIGMOD international conference …, 2003 portal.acm.org ABSTRACT The education industry has a very poor record of produc tivity gains.

In this brief article, I outline some of the w ays the teaching of a college course in database systems could be made more ecient, and sta time used ...

Cited by 4 Related Articles Web Search

A survey of new directions in database systems all 5 versions »

JD Ullman Database Systems for Advanced Applications, 2003.(DASFAA …, 2003 ieeexplore.ieee.org A survey of new directions in database systems. Ullman, JD Stanford University;

This paper appears in: Database Systems for Advanced Applications, 2003.

(DASFAA 2003). Proceedings. Eighth International ...

Cited by 3 Related Articles Web Search [CITATION] ????

AV Aho, R Sethi, JD Ullman 2003 ??: ???????

Cited by 6 Related Articles Web Search [BOOK] Automi, linguaggi e calcolabilità

… Hopcroft, R Motw ani, JD Ullman, L Bernardinello, L … 2003 Pearson Education Italia Cited by 5 Related Articles Web Search

[CITATION] ???????

H GarciaMolina, JD Ullman, J Widom 2003 ??: ???????

Cited by 4 Related Articles Web Search [BOOK] Implementacja systemów baz danych

H GarciaMolina, J Widom, M Jurkiew icz, JD Ullman 2003 Wydaw nictw a Naukow oTechniczne Cited by 3 Related Articles Web Search

[BOOK] Projektowanie i analiza algorytmów: klasyczna praca z teorii algorytmów komputerowych AV Aho, JE Hopcroft, JD Ullman, W Derechow ski 2003 Helion

Cited by 2 Related Articles Web Search [CITATION] ???????

AV AHO, JE HOPCROFT, JD ULLMAN 2003 ??: ???????

Cited by 1 Related Articles Web Search

Result Page: 1 2 Next

(21)

2 mai 2016

Int ´egration des donn ´ees

But :obtenir des donn ´ees de diff ´erentes sources de donn ´ees avec une interface/requ ˆeteunique

Exemples :

Science : interroger diff ´erentes bases de donn ´ees g ´enomiques Commerce : interroger les catalogues de diff ´erents vendeurs Administration : int ´egrer les donn ´ees financi `eres de diff ´erentes branches

Web : trouver des donn ´ees sur une personne de nombreuses sources Web

T ˆache complexe : d ´ecrire des connections potentiellement

complexes entre les sources de donn ´ees, utiliser de las ´emantique Buzz word : Web s ´emantique

(22)

S ´emantique : la colle entre sources

Les sources de donn ´ees :

ont ´et ´e d ´evelopp ´ees ind ´ependamment sont autonomes

tr `es h ´et ´erog `enes

De las ´emantiqueest n ´ecessaire pour relier les concepts et leurs structures

De lalogiqueest utilis ´ee pour d ´ecrire cette s ´emantique

(23)

2 mai 2016

Exemple

O `u puis-je voir un film de Woody Allen aujourd’hui `a Paris ? Woody Allenplays inun film X

Xis shown at theaterY Yis located inParis

Ignorer les sources non pertinentes : Air France, etc.

Trouver les sources pertinentes et comprendre comment les utiliser :

IMDB (Internet Movie Database) : films avec beaucoup d’informations ; fournit la liste des films de Woody Allen Allocin ´e : dit quand un film a lieu `a Paris

Combiner leurs r ´esultats

(24)

Deux approches principales

Poser les requ ˆetes dans unsch ´emaglobal

Pour r ´epondre, utiliser des donn ´ees sur lessch ´emas locaux Dans les deux approches, les formules relient les sch ´emas locaux au sch ´ema global

Approche entrep ˆot

L’instance globale est mat ´erialis ´ee

Les donn ´ees sont transform ´ees depuis les instances locales et charg ´ees dans l’instance globale

Les requ ˆetes sont ´evalu ´ees sur l’instance globale Approche m ´ediateur

L’instance globale est virtuelle

Les requ ˆetes sont ´evalu ´ees en utilisant des requ ˆetes aux instances

(25)

2 mai 2016

Vues

L’int ´egration peut ˆetre approch ´ee comme une vue sur les bases de donn ´ees locales

Une vue est unerequ ˆete nomm ´eequi peut ˆetre utilis ´ee dans d’autres requ ˆetes

Exemple

View1(X,Y1,Y2) : Flight(X)∧DepartureAirport(X,Y1)

∧ArrivalAirport(X,Y2)

View2(X,Y) : Place(X)∧Located(X,Y)∧Capital(Y)

Vue mat ´erialis ´ee : calcul ´ee `a l’avance et stock ´ee, dans l’esprit de l’entrep ˆot

En m ´emoire ou en cache Mises `a jour co ˆuteuses

Maintenance : propager les mises `a jours pour actualiser la vue Vue virtuelle : `a la demande, dans l’esprit de la m ´ediation

Les requ ˆetes sont co ˆuteuses

(26)

Deux principales approches : comparaison

Approche entrep ˆot

Cr ´eation : co ˆut du calcul et du stockage Evaluation des requ ˆetes tr `es efficace´

Mises `a jour co ˆuteuses : besoin de propager les mises `a jour locales vers l’entrep ˆot

Sinon les donn ´ees stock ´ees peuvent ˆetres obsol `etes Approche m ´ediateur

Cr ´eation : pas de co ˆut

Requ ˆetes : co ˆut de la reformulation, peut- ˆetre du calcul, peut- ˆetre de la communication

Mises `a jour : pas de co ˆut

Compromis classique en bases de donn ´ees entre mises `a jour et

(27)

2 mai 2016

L’approche m ´ediateur – d ´etails

Sch ´ema global : D ´efinit unsch ´ema m ´ediateur

Vocabulaire structur ´e servant comme interface de requ ˆete pour les requ ˆetes utilisateur

Typiquement, un sch ´ema par domaine

Sch ´emas locaux : D ´eclare unesource de donn ´ees

Mod `ele le contenu de la source `a int ´egrer en termes du sch ´ema m ´ediateur

Connecte les concepts/relations de la source `a celles du sch ´ema m ´ediateur

Traitement des requ ˆetes

Reformuler et d ´ecomposer une requ ˆete utilisateur sur le sch ´ema global en des requ ˆetes sur le sch ´ema local qui sont ´evalu ´ees sur les sources de donn ´ees

Combiner les r ´eponses des requ ˆetes locales pour construire la r ´eponse `a la requ ˆete globale

(28)

L’usage de la logique dans l’int ´egration

D ´efinir un sch ´ema m ´ediateur Unsch ´ema de bases de donn ´ees

Contraintes : formules delogique du premier ordre D ´eclarer une source de donn ´ees

Une source est uneinstance de bases de donn ´ees

Liens avec le sch ´ema m ´ediateur : formules delogique du premier ordre

Requ ˆetes

Exprim ´ees comme des formules delogique du premier ordre L’ ´evaluation de la requ ˆete globale peut utiliser unoptimiseur de requ ˆetes

Chaque ´evaluation de requ ˆete locale peut utiliser unoptimiseur de requ ˆetes

(29)

2 mai 2016

Plan

Volume

Vari ´et ´e

V ´elocit ´e

V ´eracit ´e

Conclusion

(30)

Volatilit ´e de l’information du Web

La demi-vie du contenu du Web est de quelques ann ´ees [Koehler, 2003]

Sur les r ´eseaux sociaux comme Twitter, l’information ne peut parfois plus ˆetre recherch ´ee au bout d’une semaine [Twitter, 2011]

Extr ˆeme diversit ´e detaux de rafraˆıchissementdu contenu des URLs, de la fraction de seconde `a des dizaines d’ann ´ees Indispensable d’archiver l’information du Web d’aujourd’hui pour les historiens de demain [Masan ´es, 2005]

Utile pour un moteur de recherche comme Google de permettre de rechercher dans les actualit ´es r ´ecentes

(31)

2 mai 2016

Rafraˆıchissement des URL

Le contenu du Webchange Taux de changementsvariables :

page principale d’un site d’actualit ´es : toutes les minutes

article sur arXiv : essentiellement pas de changement

Collectecontinueet identification des taux de changements pour une collecteadaptative: comment d ´eterminer ladate de derni `ere modificationd’une page Web ?

(32)

Estampille HTTP

Deux m ´ecanismes d’estampille temporelle en HTTP :balises entit ´eset dates de modification. Peuvent ˆetre fournies `a chaque requ ˆete :

ETag: "497bef-1fcb-47f20645"

Last-Modified: Tue, 01 Apr 2008 09:54:13 GMT

Etag : identifiant unique pour le document fourni, change si le document change ; peut ˆetre utilis ´e dans des requ ˆetes avecIf-MatchetIf-None-Match.

Last-Modified : heure de derni `ere modification ; peut ˆetre utilis ´e dans des requ ˆetes avecIf-Modified-Sinceet

If-Unmodified-Since.

Information g ´en ´eralement fournie et fiable pour le contenu

(33)

2 mai 2016

Estampilles dans le contenu des pages Web

Tr `es fr ´equentdans les sites Web dynamiques : soit comme une estampilleglobal(Last modified :) ;

soit sur des entr ´eesindividuelles: articles, commentaires, etc.

(est-ce que l’estampille globale est le maximum des estampilles individuelles ?) ;

parfois ´egalement dans des m ´eta-donn ´ees de la page Web : commentaires HTML, balises<meta>Dublin Core.

Relativement facile `a identifier et `a extraire de la page Web (mots-clefs, expressions rationnelles pour les dates).

Informel : parfois partiel (pas d’indication de temps), souvent sans fuseau horaire.

Pas n ´ecessairement fiable.

(34)

Estampilles s ´emantiques aditionnelles

Fichiers d’autres types que HTML peuvent avoir des m ´ecanismes d’estampille temporelles ´emantique:

PDF, documents Office, etc. : date decr ´eationet demodification disponible en m ´eta-donn ´ees. Assez fiable.

Flux RSS : estampilless ´emantiquesfiables.

Images, sons : m ´eta-donn ´eesEXIF(ou similaire). Pas toujours fiable, et la date de capture d’une image peut ne pas avoir de rapport avec la date de publication.

Contenu s ´emantique externe utilis ´e pour dater une page Web : Possibilit ´e d’apparier unflux RSSau contenu d’une page Web Sitemapfournie par le propri ´etaire du site.

(35)

2 mai 2016

Plan

Volume

Vari ´et ´e

V ´elocit ´e

V ´eracit ´e

Conclusion

(36)

Donn ´ees incertaines

Sources nombreuses dedonn ´ees incertaines: Erreurs de mesure

Int ´egration de donn ´ees de sources contradictoires

Correspondances impr ´ecises entre sch ´emas h ´et ´erog `enes Processus automatique incertaine (extraction d’information, traitement du langage naturel, etc.)

Jugement humain imparfait Mensonges, opinions, rumeurs

(37)

2 mai 2016

Donn ´ees incertaines

Sources nombreuses dedonn ´ees incertaines: Erreurs de mesure

Int ´egration de donn ´ees de sources contradictoires

Correspondances impr ´ecises entre sch ´emas h ´et ´erog `enes Processus automatique incertaine (extraction d’information, traitement du langage naturel, etc.)

Jugement humain imparfait Mensonges, opinions, rumeurs

(38)

Cas d’ ´etude : Extraction d’information Web

Never-ending Language Learning (NELL, CMU), http://rtw.ml.cmu.edu/rtw/kbbrowser/

(39)

2 mai 2016

Cas d’ ´etude : Extraction d’information Web

Google Squared (termin ´e), capture d’ ´ecran de [Fink et al., 2011]

(40)

Cas d’ ´etude : Extraction d’information Web

Suject Pr ´edicat Objet Confiance

Elvis Presley diedOnDate 1977-08-16 97.91%

Elvis Presley isMarriedTo Priscilla Presley 97.29%

Elvis Presley influences Carlo Wolff 96.25%

YAGO,http://www.mpi-inf.mpg.de/yago-naga/yago

(41)

2 mai 2016

Incertitude

dans l’extraction d’information Web

Le syst `eme d’extraction d’information estimpr ´ecis

Le syst `eme a une certaineconfiancedans l’information extraite, qui peut ˆetre :

uneprobabilit ´eque l’information soit vraie (p. ex., champs al ´eatoires conditionnels)

un score de confiance num ´eriquead-hoc

un niveaudiscretde confiance (faible, moyen, haut)

Et si cette information incertaine n’est pas quelque chose de final, mais est utilis ´ee comme une source de donn ´ees, p. ex., dans un syst `eme d’interrogation ?

(42)

Diff ´erents types d’incertitude

Deux dimensions Diff ´erent types :

Valeurinconnue: NULL dans les SGBD

Alternativeentre plusieurs possibilit ´es : soit A soit B soit C Impr ´ecision sur une valeur num ´erique: un capteur donne une valeur qui est une approximation de la valeur r ´eelle

Confiance dans un fait dans son ensemble: cf. extraction d’information

Incertitude structurelle: le sch ´ema des donn ´ees lui-m ˆeme est incertain

Incertitudequalitative(NULL) ouquantitative(95%, faible confidence, etc.)

(43)

2 mai 2016

Syst `emes

Trio http://infolab.stanford.edu/trio/, calcule `a la fois la v ´eracit ´e et lalign ´eedes donn ´ees

MayBMS http://maybms.sourceforge.net/, SGBD relationnel probabiliste complet au-dessus de PostgreSQL, utilisable pour des applications pratiques.

Voir les s ´eances sur gestion d’incertitude, MayBMS pour plus de d ´etails

(44)

Plan

Volume

Vari ´et ´e

V ´elocit ´e

V ´eracit ´e

Conclusion

(45)

2 mai 2016

Conclusion

Les 4 v de la datamasse sont des d ´efis pour le traitement des donn ´ees du Web

INF344 couvre :

Acquisition et enrichissement de donn ´ees Web (crawl, extraction d’informations, recherche d’informations, ranking Web, fouille d’opinions).

La mod ´elisation et le raisonnement sur les donn ´ees Web (Web s ´emantique, donn ´ees probabilistes).

Le stockage et le calcul sur les donn ´ees Web (MapReduce, HBase).

(46)

Bibliography I

Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh,

Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. Bigtable : A Distributed Storage System for Structured Data. InIntl. Symp. on Operating System Design and Implementation (OSDI), 2006.

Robert Fink, Andrew Hogue, Dan Olteanu, and Swaroop Rath.

SPROUT2 : a squared query engine for uncertain web data. In SIGMOD, 2011.

David R. Karger, Eric Lehman, Frank Thomson Leighton, Rina Panigrahy, Matthew S. Levine, and Daniel Lewin. Consistent Hashing and Random Trees : Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web. InProc. ACM SIGACT Symp. on the Theory of Computing (STOC), pages 654–663, 1997.

(47)

Bibliography II

Julien Masan ´es. Web archiving methods and approaches : A comparative study. Library Trends, 54 :72–90, 2005. doi : 10.1353/lib.2006.0005.

Twitter. Historical data not working.

https://dev.twitter.com/discussions/2483, 2011.

(48)

Licence de droits d’usage

Contexte public}avec modifications

Par le t ´el ´echargement ou la consultation de ce document, l’utilisateur accepte la licence d’utilisation qui y est attach ´ee, telle que d ´etaill ´ee dans les dispositions suivantes, et s’engage `a la respecter int ´egralement.

La licence conf `ere `a l’utilisateur un droit d’usage sur le document consult ´e ou t ´el ´echarg ´e, totalement ou en partie, dans les conditions d ´efinies ci-apr `es et `a l’exclusion expresse de toute utilisation commerciale.

Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique ou papier,

– le droit de diffuser tout ou partie du document au public sur support papier ou informatique, y compris par la mise `a la disposition du public sur un r ´eseau num ´erique,

– le droit de modifier la forme ou la pr ´esentation du document,

– le droit d’int ´egrer tout ou partie du document dans un document composite et de le diffuser dans ce nouveau document, `a condition que : – L’auteur soit inform ´e.

Les mentions relatives `a la source du document et/ou `a son auteur doivent ˆetre conserv ´ees dans leur int ´egralit ´e.

Le droit d’usage d ´efini par la licence est personnel et non exclusif.

Tout autre usage que ceux pr ´evus par la licence est soumis `a autorisation pr ´ealable et expresse de l’auteur :sitepedago@telecom-paristech.fr

Références

Documents relatifs

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux

Ecrire en Java la gestion d’un tas, repr´esent´e par un tableau : cr´eer, ins´erer, minimum, supprimer (le minimum), modifier une valeur.. Vous programmerez ceci en TP, et

Pour trouver les coordonn´ ees d’un point dans un rep` ere, on ´ ecrit l’´ equation (vectorielle) caract´ eristique on convertit cette ´ equation en syst` eme num´ erique on

On fixe une cat´ egorie C et on prend comme objets les couples (R, M ) d’une monade R sur C et d’un R-module M. Que peut-on prendre comme morphismes pour faire une cat´

Reformuler et d ´ecomposer une requ ˆete utilisateur sur le sch ´ema global en des requ ˆetes sur le sch ´ema local qui sont ´evalu ´ees sur les sources de donn ´ees. Combiner les

Perdre ses photos de vacances : ¸ca n’a pas de

Programme des enseignements – Syst` emes d’information et conception d’entrepˆ ots de donn´ ees – Les principes et la d´ emarche du Data Mining (fouille de donn´ ees)

Objectifs : Maˆıtriser les structures de base de l’informatique (tableaux, listes, files, piles) et les op´ erations ´ el´ ementaires sur ces structures et introduction au