2 mai 2016
INF344: Donn ´ees du Web
Les quatrevde la datamasse du Web
La datamasse
Ladatamasse, leBig Data, lesmasses de donn ´ees:
Donn ´ees collect ´ees pour certaines applications, par certaines entreprises, donn ´ees librement disponibles, etc.
Tr `es grande valeur `a analyser (fouille, pr ´ediction)
Significativement plus complexeque les donn ´ees traditionnelles : Volume : ordres de grandeur au-dessus de ce qu’on peut
traiter de mani `ere centralis ´e
Vari ´et ´e : types de donn ´ees (texte, multim ´edia, graphes, structur ´ees) vari ´es, organisation des donn ´ees vari ´ees
V ´elocit ´e : donn ´ees changeantes ou produites `a grande vitesse (LHC : 100 millions de collision par seconde), parfois
2 mai 2016
Affronter la datamasse
Impacte des domaines vari ´es : fouille de donn ´ees, apprentissage, visualisation, respect de la vie priv ´ee. . . et bien s ˆurgestion de donn ´ees
On a besoin denouveaux algorithmes, denouveaux outils, de nouveaux mod `eles
Ce cours : focus sur les probl `emes de gestion de donn ´eesissues du Web
On va bien au-del `a de SQL sur des SGBD relationnel. . . mais on retrouve lesm ˆemes concepts de base
Plan
Volume
Vari ´et ´e
V ´elocit ´e
V ´eracit ´e
Conclusion
2 mai 2016
Applications traditionnelles de gestion de donn ´ees
Donn ´ees d’unforum Web populaire 1000 posts par jour
5 Kio de donn ´ees par post 10 ans de dur ´ee de vie
⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).
Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction
1 an d’historique dans le syst `eme de production
⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur quelques serveurs (p. ex., Oracle, DB2, PostgreSQL).
Applications traditionnelles de gestion de donn ´ees
Donn ´ees d’unforum Web populaire 1000 posts par jour
5 Kio de donn ´ees par post 10 ans de dur ´ee de vie
⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).
Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction
1 an d’historique dans le syst `eme de production
⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur quelques serveurs (p. ex., Oracle, DB2, PostgreSQL).
2 mai 2016
Applications traditionnelles de gestion de donn ´ees
Donn ´ees d’unforum Web populaire 1000 posts par jour
5 Kio de donn ´ees par post 10 ans de dur ´ee de vie
⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).
Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction
1 an d’historique dans le syst `eme de production
⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur quelques serveurs (p. ex., Oracle, DB2, PostgreSQL).
Applications traditionnelles de gestion de donn ´ees
Donn ´ees d’unforum Web populaire 1000 posts par jour
5 Kio de donn ´ees par post 10 ans de dur ´ee de vie
⇒∼20Gio de donn ´ees. Tient facilement sur n’importe quel syst `eme de gestion de donn ´ees (p. ex., MySQL).
Comptes d’unebanque 10 millions de clients 5 transactions par jour 100 octets par transaction
1 an d’historique dans le syst `eme de production
⇒∼2 Tio de donn ´ees. Tient dans un syst `eme de bases de donn ´ees classiques, sur un serveur, ou, mieux, distribu ´e sur
2 mai 2016
Donn ´ees massives
Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]
Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]
1,5 milliards d’utilisateurs
∼10 Mio de donn ´ees par utilisateurs
⇒∼15 Pio de donn ´ees
Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.
Pas seulement une question de taille :
Tr `es grand nombre derequ ˆetes par seconde
R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde
Donn ´ees massives
Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]
Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]
1,5 milliards d’utilisateurs
∼10 Mio de donn ´ees par utilisateurs
⇒∼15 Pio de donn ´ees
Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.
Pas seulement une question de taille :
Tr `es grand nombre derequ ˆetes par seconde
R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde
2 mai 2016
Donn ´ees massives
Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]
Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]
1,5 milliards d’utilisateurs
∼10 Mio de donn ´ees par utilisateurs
⇒∼15 Pio de donn ´ees
Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.
Pas seulement une question de taille :
Tr `es grand nombre derequ ˆetes par seconde
R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde
Donn ´ees massives
Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]
Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]
1,5 milliards d’utilisateurs
∼10 Mio de donn ´ees par utilisateurs
⇒∼15 Pio de donn ´ees
Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.
Pas seulement une question de taille :
Tr `es grand nombre derequ ˆetes par seconde
R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde
2 mai 2016
Donn ´ees massives
Google Search:850 Tio de donn ´ees(2006) [Chang et al., 2006]
Google Earth:70 Tio de donn ´ees(2006) [Chang et al., 2006]
1,5 milliards d’utilisateurs
∼10 Mio de donn ´ees par utilisateurs
⇒∼15 Pio de donn ´ees
Besoin d’autres formesde stockage et d’indexation de donn ´ees sur unegrappe de serveurs.
Pas seulement une question de taille :
Tr `es grand nombre derequ ˆetes par seconde
R ´eponse rapide aux requ ˆetes,o `u qu’on soit dans le monde
Principes g ´en ´eraux du stockage sur grappe
Deux grandes strat ´egies :
Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.
Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.
R ´eplication des donn ´eespour
1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees
3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique
Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme
Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails
2 mai 2016
Principes g ´en ´eraux du stockage sur grappe
Deux grandes strat ´egies :
Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.
Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.
R ´eplication des donn ´eespour
1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees
3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique
Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme
Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails
Principes g ´en ´eraux du stockage sur grappe
Deux grandes strat ´egies :
Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.
Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.
R ´eplication des donn ´eespour
1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees
3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique
Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme
Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails
2 mai 2016
Principes g ´en ´eraux du stockage sur grappe
Deux grandes strat ´egies :
Arbre de recherche distribu ´e. Par exemple, BigTable [Chang et al., 2006] (Google), Apache HBase.
Table de hachage distribu ´ee[Karger et al., 1997]. Par exemple, Dynamo (Amazon), Apache Cassandra, Project Voldemort.
R ´eplication des donn ´eespour
1. Pas de perte de donn ´eessuite `a une faille mat ´erielle 2. R ´epartir la chargedes lectures de donn ´ees
3. Eventuellement, plusieurs copies `a diff ´erents emplacements pour´ unelocalit ´e g ´eographique
Limitations : requ ˆetesmoins expressivesque dans les syst `emes classiques,perte de coh ´erencedu syst `eme
Voir INF728 et les s ´eances INF344 sur stockage distribu ´e, HBase pour plus de d ´etails
Plan
Volume
Vari ´et ´e
V ´elocit ´e
V ´eracit ´e
Conclusion
PAGE 9 / 31
2 mai 2016
Licence de droits d’usage
Diff ´erentes sources organisent diff ´eremment les m ˆemes donn ´ees
Jeffrey D. Ullman
List of publications from the DBLP Bibliography Server FAQ
Coauthor Index Ask others: ACM DL/Guide CiteSeer CSB Google MSN Yahoo
Home Page
2007
240 EE Foto N. Afrati, Chen Li, Jeffrey D. Ullman: Using views to generate efficient evaluation plans for queries. J. Comput. Syst. Sci. 73(5): 703724 (2007)
2005
239 EE Jeffrey D. Ullman: Gradiance OnLine Accelerated Learning. ACSC 2005: 36
238 EE Serge Abiteboul, Rakesh Agrawal, Philip A. Bernstein, Michael J. Carey, Stefano Ceri, W. Bruce Croft, David J. DeWitt, Michael J. Franklin, Hector GarciaMolina, Dieter Gawlick, Jim Gray, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, Martin L. Kersten, Michael J. Pazzani, Michael Lesk, David Maier, Jeffrey F. Naughton, HansJörg Schek, Timos K. Sellis, Avi Silberschatz, Michael Stonebraker, Richard T. Snodgrass, Jeffrey D. Ullman, Gerhard Weikum, Jennifer Widom, Stanley B.
Zdonik: The Lowell database research selfassessment. Commun. ACM 48(5): 111118 (2005) 237 EE Serge Abiteboul, Richard Hull, Victor Vianu, Sheila A. Greibach, Michael A. Harrison, Ellis Horowitz,
Daniel J. Rosenkrantz, Jeffrey D. Ullman, Moshe Y. Vardi: In memory of Seymour Ginsburg 1928 2004.
SIGMOD Record 34(1): 512 (2005)
2003
236 EE Jeffrey D. Ullman: A Survey of New Directions in Database System. DASFAA 2003: 3
235 EE Jeffrey D. Ullman: Improving the Efficiency of DatabaseSystem Teaching. SIGMOD Conference 2003:
13
234 EE Jim Gray, HansJörg Schek, Michael Stonebraker, Jeffrey D. Ullman: The Lowell Report. SIGMOD Conference 2003: 680
233 EE Serge Abiteboul, Rakesh Agrawal, Philip A. Bernstein, Michael J. Carey, Stefano Ceri, W. Bruce Croft, David J. DeWitt, Michael J. Franklin, Hector GarciaMolina, Dieter Gawlick, Jim Gray, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, Martin L. Kersten, Michael J. Pazzani, Michael Lesk, David Maier, Jeffrey F. Naughton, HansJörg Schek, Timos K. Sellis, Avi Silberschatz, Michael Stonebraker, Richard T. Snodgrass, Jeffrey D. Ullman, Gerhard Weikum, Jennifer Widom, Stanley B.
Zdonik: The Lowell Database Research Self Assessment CoRR cs.DB/0310006: (2003)
232 EE Anand Rajaraman, Jeffrey D. Ullman: Querying websites using compact skeletons. J. Comput. Syst. Sci.
66(4): 809851 (2003)
2001
231 EE Chen Li, Mayank Bawa, Jeffrey D. Ullman: Minimizing View Sets without Losing QueryAnswering Power.
ICDT 2001: 99113
230 EE Anand Rajaraman, Jeffrey D. Ullman: Querying Websites Using Compact Skeletons. PODS 2001 229 EE Foto N. Afrati, Chen Li, Jeffrey D. Ullman: Generating Efficient Plans for Queries Using Views. SIGMOD
Conference 2001: 319330
228 EE Edith Cohen, Mayur Datar, Shinji Fujiwara, Aristides Gionis, Piotr Indyk, Rajeev Motwani, Jeffrey D.
Ullman, Cheng Yang: Finding Interesting Associations without Support Pruning. IEEE Trans. Knowl.
Data Eng. 13(1): 6478 (2001)
2000
227 Hector GarciaMolina, Jeffrey D. Ullman, Jennifer Widom: Database System Implementation PrenticeHall 2000
226 EE Jeffrey D. Ullman: A Survey of AssociationRule Mining. Discovery Science 2000: 114 225 EE Edith Cohen, Mayur Datar, Shinji Fujiwara, Aristides Gionis, Piotr Indyk, Rajeev Motwani, Jeffrey D.
PAGE 9 / 31
2 mai 2016
Licence de droits d’usage
Diff ´erentes sources organisent diff ´eremment les m ˆemes donn ´ees
Advanced Scholar Search
Scholar Preferences Scholar Help
Scholar All articles Recent articles Results 1 10 of about 12 for author:"jd ullman". (0.07 seconds)
jd ullman J Ullman J Hopcroft A Rajaraman B Konikow ska A Aho
Querying websites using compact skeletons all 11 versions »
A Rajaraman, JD Ullman Journal of Computer and System Sciences, 2003 Elsevier Several commercial applications, such as online comparison shopping and process automation, require integrating information that is scattered across multiple w ebsites or XML documents. Much research has been devoted to this problem, ...
Cited by 13 Related Articles Web Search
[BOOK] Wprowadzenie do teorii automatów, jezyków i obliczen JE Hopcroft, JD Ullman, B Konikow ska 2003 Wydaw . Naukow e PWN Cited by 15 Related Articles Web Search
Improving the efficiency of databasesystem teaching all 3 versions »
JD Ullman Proceedings of the 2003 ACM SIGMOD international conference …, 2003 portal.acm.org ABSTRACT The education industry has a very poor record of produc tivity gains.
In this brief article, I outline some of the w ays the teaching of a college course in database systems could be made more ecient, and sta time used ...
Cited by 4 Related Articles Web Search
A survey of new directions in database systems all 5 versions »
JD Ullman Database Systems for Advanced Applications, 2003.(DASFAA …, 2003 ieeexplore.ieee.org A survey of new directions in database systems. Ullman, JD Stanford University;
This paper appears in: Database Systems for Advanced Applications, 2003.
(DASFAA 2003). Proceedings. Eighth International ...
Cited by 3 Related Articles Web Search [CITATION] ????
AV Aho, R Sethi, JD Ullman 2003 ??: ???????
Cited by 6 Related Articles Web Search [BOOK] Automi, linguaggi e calcolabilità
… Hopcroft, R Motw ani, JD Ullman, L Bernardinello, L … 2003 Pearson Education Italia Cited by 5 Related Articles Web Search
[CITATION] ???????
H GarciaMolina, JD Ullman, J Widom 2003 ??: ???????
Cited by 4 Related Articles Web Search [BOOK] Implementacja systemów baz danych
H GarciaMolina, J Widom, M Jurkiew icz, JD Ullman 2003 Wydaw nictw a Naukow oTechniczne Cited by 3 Related Articles Web Search
[BOOK] Projektowanie i analiza algorytmów: klasyczna praca z teorii algorytmów komputerowych AV Aho, JE Hopcroft, JD Ullman, W Derechow ski 2003 Helion
Cited by 2 Related Articles Web Search [CITATION] ???????
AV AHO, JE HOPCROFT, JD ULLMAN 2003 ??: ???????
Cited by 1 Related Articles Web Search
Result Page: 1 2 Next
2 mai 2016
Int ´egration des donn ´ees
But :obtenir des donn ´ees de diff ´erentes sources de donn ´ees avec une interface/requ ˆeteunique
Exemples :
Science : interroger diff ´erentes bases de donn ´ees g ´enomiques Commerce : interroger les catalogues de diff ´erents vendeurs Administration : int ´egrer les donn ´ees financi `eres de diff ´erentes branches
Web : trouver des donn ´ees sur une personne de nombreuses sources Web
T ˆache complexe : d ´ecrire des connections potentiellement
complexes entre les sources de donn ´ees, utiliser de las ´emantique Buzz word : Web s ´emantique
S ´emantique : la colle entre sources
Les sources de donn ´ees :
ont ´et ´e d ´evelopp ´ees ind ´ependamment sont autonomes
tr `es h ´et ´erog `enes
De las ´emantiqueest n ´ecessaire pour relier les concepts et leurs structures
De lalogiqueest utilis ´ee pour d ´ecrire cette s ´emantique
2 mai 2016
Exemple
O `u puis-je voir un film de Woody Allen aujourd’hui `a Paris ? Woody Allenplays inun film X
Xis shown at theaterY Yis located inParis
Ignorer les sources non pertinentes : Air France, etc.
Trouver les sources pertinentes et comprendre comment les utiliser :
IMDB (Internet Movie Database) : films avec beaucoup d’informations ; fournit la liste des films de Woody Allen Allocin ´e : dit quand un film a lieu `a Paris
Combiner leurs r ´esultats
Deux approches principales
Poser les requ ˆetes dans unsch ´emaglobal
Pour r ´epondre, utiliser des donn ´ees sur lessch ´emas locaux Dans les deux approches, les formules relient les sch ´emas locaux au sch ´ema global
Approche entrep ˆot
L’instance globale est mat ´erialis ´ee
Les donn ´ees sont transform ´ees depuis les instances locales et charg ´ees dans l’instance globale
Les requ ˆetes sont ´evalu ´ees sur l’instance globale Approche m ´ediateur
L’instance globale est virtuelle
Les requ ˆetes sont ´evalu ´ees en utilisant des requ ˆetes aux instances
2 mai 2016
Vues
L’int ´egration peut ˆetre approch ´ee comme une vue sur les bases de donn ´ees locales
Une vue est unerequ ˆete nomm ´eequi peut ˆetre utilis ´ee dans d’autres requ ˆetes
Exemple
View1(X,Y1,Y2) : Flight(X)∧DepartureAirport(X,Y1)
∧ArrivalAirport(X,Y2)
View2(X,Y) : Place(X)∧Located(X,Y)∧Capital(Y)
Vue mat ´erialis ´ee : calcul ´ee `a l’avance et stock ´ee, dans l’esprit de l’entrep ˆot
En m ´emoire ou en cache Mises `a jour co ˆuteuses
Maintenance : propager les mises `a jours pour actualiser la vue Vue virtuelle : `a la demande, dans l’esprit de la m ´ediation
Les requ ˆetes sont co ˆuteuses
Deux principales approches : comparaison
Approche entrep ˆot
Cr ´eation : co ˆut du calcul et du stockage Evaluation des requ ˆetes tr `es efficace´
Mises `a jour co ˆuteuses : besoin de propager les mises `a jour locales vers l’entrep ˆot
Sinon les donn ´ees stock ´ees peuvent ˆetres obsol `etes Approche m ´ediateur
Cr ´eation : pas de co ˆut
Requ ˆetes : co ˆut de la reformulation, peut- ˆetre du calcul, peut- ˆetre de la communication
Mises `a jour : pas de co ˆut
Compromis classique en bases de donn ´ees entre mises `a jour et
2 mai 2016
L’approche m ´ediateur – d ´etails
Sch ´ema global : D ´efinit unsch ´ema m ´ediateur
Vocabulaire structur ´e servant comme interface de requ ˆete pour les requ ˆetes utilisateur
Typiquement, un sch ´ema par domaine
Sch ´emas locaux : D ´eclare unesource de donn ´ees
Mod `ele le contenu de la source `a int ´egrer en termes du sch ´ema m ´ediateur
Connecte les concepts/relations de la source `a celles du sch ´ema m ´ediateur
Traitement des requ ˆetes
Reformuler et d ´ecomposer une requ ˆete utilisateur sur le sch ´ema global en des requ ˆetes sur le sch ´ema local qui sont ´evalu ´ees sur les sources de donn ´ees
Combiner les r ´eponses des requ ˆetes locales pour construire la r ´eponse `a la requ ˆete globale
L’usage de la logique dans l’int ´egration
D ´efinir un sch ´ema m ´ediateur Unsch ´ema de bases de donn ´ees
Contraintes : formules delogique du premier ordre D ´eclarer une source de donn ´ees
Une source est uneinstance de bases de donn ´ees
Liens avec le sch ´ema m ´ediateur : formules delogique du premier ordre
Requ ˆetes
Exprim ´ees comme des formules delogique du premier ordre L’ ´evaluation de la requ ˆete globale peut utiliser unoptimiseur de requ ˆetes
Chaque ´evaluation de requ ˆete locale peut utiliser unoptimiseur de requ ˆetes
2 mai 2016
Plan
Volume
Vari ´et ´e
V ´elocit ´e
V ´eracit ´e
Conclusion
Volatilit ´e de l’information du Web
La demi-vie du contenu du Web est de quelques ann ´ees [Koehler, 2003]
Sur les r ´eseaux sociaux comme Twitter, l’information ne peut parfois plus ˆetre recherch ´ee au bout d’une semaine [Twitter, 2011]
Extr ˆeme diversit ´e detaux de rafraˆıchissementdu contenu des URLs, de la fraction de seconde `a des dizaines d’ann ´ees Indispensable d’archiver l’information du Web d’aujourd’hui pour les historiens de demain [Masan ´es, 2005]
Utile pour un moteur de recherche comme Google de permettre de rechercher dans les actualit ´es r ´ecentes
2 mai 2016
Rafraˆıchissement des URL
Le contenu du Webchange Taux de changementsvariables :
page principale d’un site d’actualit ´es : toutes les minutes
article sur arXiv : essentiellement pas de changement
Collectecontinueet identification des taux de changements pour une collecteadaptative: comment d ´eterminer ladate de derni `ere modificationd’une page Web ?
Estampille HTTP
Deux m ´ecanismes d’estampille temporelle en HTTP :balises entit ´eset dates de modification. Peuvent ˆetre fournies `a chaque requ ˆete :
ETag: "497bef-1fcb-47f20645"
Last-Modified: Tue, 01 Apr 2008 09:54:13 GMT
Etag : identifiant unique pour le document fourni, change si le document change ; peut ˆetre utilis ´e dans des requ ˆetes avecIf-MatchetIf-None-Match.
Last-Modified : heure de derni `ere modification ; peut ˆetre utilis ´e dans des requ ˆetes avecIf-Modified-Sinceet
If-Unmodified-Since.
Information g ´en ´eralement fournie et fiable pour le contenu
2 mai 2016
Estampilles dans le contenu des pages Web
Tr `es fr ´equentdans les sites Web dynamiques : soit comme une estampilleglobal(Last modified :) ;
soit sur des entr ´eesindividuelles: articles, commentaires, etc.
(est-ce que l’estampille globale est le maximum des estampilles individuelles ?) ;
parfois ´egalement dans des m ´eta-donn ´ees de la page Web : commentaires HTML, balises<meta>Dublin Core.
Relativement facile `a identifier et `a extraire de la page Web (mots-clefs, expressions rationnelles pour les dates).
Informel : parfois partiel (pas d’indication de temps), souvent sans fuseau horaire.
Pas n ´ecessairement fiable.
Estampilles s ´emantiques aditionnelles
Fichiers d’autres types que HTML peuvent avoir des m ´ecanismes d’estampille temporelles ´emantique:
PDF, documents Office, etc. : date decr ´eationet demodification disponible en m ´eta-donn ´ees. Assez fiable.
Flux RSS : estampilless ´emantiquesfiables.
Images, sons : m ´eta-donn ´eesEXIF(ou similaire). Pas toujours fiable, et la date de capture d’une image peut ne pas avoir de rapport avec la date de publication.
Contenu s ´emantique externe utilis ´e pour dater une page Web : Possibilit ´e d’apparier unflux RSSau contenu d’une page Web Sitemapfournie par le propri ´etaire du site.
2 mai 2016
Plan
Volume
Vari ´et ´e
V ´elocit ´e
V ´eracit ´e
Conclusion
Donn ´ees incertaines
Sources nombreuses dedonn ´ees incertaines: Erreurs de mesure
Int ´egration de donn ´ees de sources contradictoires
Correspondances impr ´ecises entre sch ´emas h ´et ´erog `enes Processus automatique incertaine (extraction d’information, traitement du langage naturel, etc.)
Jugement humain imparfait Mensonges, opinions, rumeurs
2 mai 2016
Donn ´ees incertaines
Sources nombreuses dedonn ´ees incertaines: Erreurs de mesure
Int ´egration de donn ´ees de sources contradictoires
Correspondances impr ´ecises entre sch ´emas h ´et ´erog `enes Processus automatique incertaine (extraction d’information, traitement du langage naturel, etc.)
Jugement humain imparfait Mensonges, opinions, rumeurs
Cas d’ ´etude : Extraction d’information Web
Never-ending Language Learning (NELL, CMU), http://rtw.ml.cmu.edu/rtw/kbbrowser/
2 mai 2016
Cas d’ ´etude : Extraction d’information Web
Google Squared (termin ´e), capture d’ ´ecran de [Fink et al., 2011]
Cas d’ ´etude : Extraction d’information Web
Suject Pr ´edicat Objet Confiance
Elvis Presley diedOnDate 1977-08-16 97.91%
Elvis Presley isMarriedTo Priscilla Presley 97.29%
Elvis Presley influences Carlo Wolff 96.25%
YAGO,http://www.mpi-inf.mpg.de/yago-naga/yago
2 mai 2016
Incertitude
dans l’extraction d’information Web
Le syst `eme d’extraction d’information estimpr ´ecis
Le syst `eme a une certaineconfiancedans l’information extraite, qui peut ˆetre :
uneprobabilit ´eque l’information soit vraie (p. ex., champs al ´eatoires conditionnels)
un score de confiance num ´eriquead-hoc
un niveaudiscretde confiance (faible, moyen, haut)
Et si cette information incertaine n’est pas quelque chose de final, mais est utilis ´ee comme une source de donn ´ees, p. ex., dans un syst `eme d’interrogation ?
Diff ´erents types d’incertitude
Deux dimensions Diff ´erent types :
Valeurinconnue: NULL dans les SGBD
Alternativeentre plusieurs possibilit ´es : soit A soit B soit C Impr ´ecision sur une valeur num ´erique: un capteur donne une valeur qui est une approximation de la valeur r ´eelle
Confiance dans un fait dans son ensemble: cf. extraction d’information
Incertitude structurelle: le sch ´ema des donn ´ees lui-m ˆeme est incertain
Incertitudequalitative(NULL) ouquantitative(95%, faible confidence, etc.)
2 mai 2016
Syst `emes
Trio http://infolab.stanford.edu/trio/, calcule `a la fois la v ´eracit ´e et lalign ´eedes donn ´ees
MayBMS http://maybms.sourceforge.net/, SGBD relationnel probabiliste complet au-dessus de PostgreSQL, utilisable pour des applications pratiques.
Voir les s ´eances sur gestion d’incertitude, MayBMS pour plus de d ´etails
Plan
Volume
Vari ´et ´e
V ´elocit ´e
V ´eracit ´e
Conclusion
2 mai 2016
Conclusion
Les 4 v de la datamasse sont des d ´efis pour le traitement des donn ´ees du Web
INF344 couvre :
Acquisition et enrichissement de donn ´ees Web (crawl, extraction d’informations, recherche d’informations, ranking Web, fouille d’opinions).
La mod ´elisation et le raisonnement sur les donn ´ees Web (Web s ´emantique, donn ´ees probabilistes).
Le stockage et le calcul sur les donn ´ees Web (MapReduce, HBase).
Bibliography I
Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh,
Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. Bigtable : A Distributed Storage System for Structured Data. InIntl. Symp. on Operating System Design and Implementation (OSDI), 2006.
Robert Fink, Andrew Hogue, Dan Olteanu, and Swaroop Rath.
SPROUT2 : a squared query engine for uncertain web data. In SIGMOD, 2011.
David R. Karger, Eric Lehman, Frank Thomson Leighton, Rina Panigrahy, Matthew S. Levine, and Daniel Lewin. Consistent Hashing and Random Trees : Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web. InProc. ACM SIGACT Symp. on the Theory of Computing (STOC), pages 654–663, 1997.
Bibliography II
Julien Masan ´es. Web archiving methods and approaches : A comparative study. Library Trends, 54 :72–90, 2005. doi : 10.1353/lib.2006.0005.
Twitter. Historical data not working.
https://dev.twitter.com/discussions/2483, 2011.
Licence de droits d’usage
Contexte public}avec modifications
Par le t ´el ´echargement ou la consultation de ce document, l’utilisateur accepte la licence d’utilisation qui y est attach ´ee, telle que d ´etaill ´ee dans les dispositions suivantes, et s’engage `a la respecter int ´egralement.
La licence conf `ere `a l’utilisateur un droit d’usage sur le document consult ´e ou t ´el ´echarg ´e, totalement ou en partie, dans les conditions d ´efinies ci-apr `es et `a l’exclusion expresse de toute utilisation commerciale.
Le droit d’usage d ´efini par la licence autorise un usage `a destination de tout public qui comprend : – le droit de reproduire tout ou partie du document sur support informatique ou papier,
– le droit de diffuser tout ou partie du document au public sur support papier ou informatique, y compris par la mise `a la disposition du public sur un r ´eseau num ´erique,
– le droit de modifier la forme ou la pr ´esentation du document,
– le droit d’int ´egrer tout ou partie du document dans un document composite et de le diffuser dans ce nouveau document, `a condition que : – L’auteur soit inform ´e.
Les mentions relatives `a la source du document et/ou `a son auteur doivent ˆetre conserv ´ees dans leur int ´egralit ´e.
Le droit d’usage d ´efini par la licence est personnel et non exclusif.
Tout autre usage que ceux pr ´evus par la licence est soumis `a autorisation pr ´ealable et expresse de l’auteur :sitepedago@telecom-paristech.fr