• Aucun résultat trouvé

T RUTH TTRIBUTE  F INDING  P ARTITIONING   WITH   A

N/A
N/A
Protected

Academic year: 2022

Partager "T RUTH TTRIBUTE  F INDING  P ARTITIONING   WITH   A"

Copied!
20
0
0

Texte intégral

(1)

T RUTH  F INDING   WITH   

A TTRIBUTE  P ARTITIONING  

M. Lamine BA (Télécom ParisTech), Roxana HORINCAR (Télécom ParisTech), 

Pierre SENELLART (Télécom ParisTech), Huayu WU (A*STAR, I2R) 

(2)

D ATA  Q UALITY  P ROBLEM  

  Dirty data 

  Incomplete data 

  Duplicates 

  Inaccurate data 

  Inconsistent data 

  Stale data 

  MisformaQed data 

  Undocumented data 

  ConflicTng data 

  How does data get dirty? 

  Data gathering 

  Storage 

  Transmission 

  TransformaTon 

  IntegraTon 

  Deliberately falsified 

(3)

O UTLINE  

  Truth Finding 

  ExploiTng Structure 

  Experimental Results 

  Conclusions 

(4)

O UTLINE  

  Truth Finding 

  ExploiTng Structure 

  Experimental Results 

  Conclusions 

(5)

T RUTH  F INDING  

  Context 

  MulTple sources: websites, blogs, forums, mailing lists, documents 

  RelaTons claimed by sources: objects, aQributes 

  “One truth” se`ng: 1 true value, n false values 

  Problem: determine which of the statements made by  contradictory sources is correct 

  Goals: source accuracy level, aQribute value correctness level,  correct aQribute values discovery 

  Real‐world applicaTons: query answering, source selecTon, 

crowdsourcing, data integraTon, Web data quality 

(6)

T RUTH  F INDING  A LGORITHMS  

  Majority VoTng algorithm: true value provided by the largest number  of sources 

  Weighted VoTng algorithms (e.g., AccuVote [Dong et al., 2009]): 

assigns a higher vote to a source with a higher accuracy, true value  with the highest sum of votes 

  Source accuracy level 

  Value correctness level 

  Improvements based on domain‐specific characterisTcs 

  AQribute value similarity [Yin et al., 2008] 

  Copying relaTonships between sources [Dong et al., 2009] 

  Source correlaTons [Pochampally et al., 2014] 

  Fact hardness [Galland et al., 2010] 

  But none of them look at the structure of the facts… we do! 

(7)

O UTLINE  

  Truth Finding 

  ExploiTng Structure 

  Experimental Results 

  Conclusions 

(8)

E XAM   EXAMPLE

3  STUDENTS  ( SOURCES ), 2  TESTS  ( OBJECTS ), 2  QUESTIONS  ( ATTRIBUTES ),   2  DOMAINS  (M ATH , G EOGRAPHY ) 

Test  Math  Geography 

Student 1  Test 1  {2, 3, 5, 7}  Melbourne 

Test 2  24  Spain 

Student 2  Test 1  {2, 4, 6, 8}  Canberra 

Test 2  26  France 

Student 3  Test 1  {2, 3, 5, 7}  Sydney 

Test 2  41  France 

Test 1:  [Math] Provide the set of prime numbers smaller than 10. 

[Geography] What is the capital city of Australia? 

Test 2:  [Math] Give a natural number x saTsfying x mod 4 = 0.  

[Geography] What is the largest country in the European Union? 

(9)

C ORRELATED  A TTRIBUTES   IN  T RUTH  F INDING  

  Objects with inherent structure 

  Different local source accuracies on different aQribute  subsets, rather than one global accuracy 

  Unknown correlated aQributes: challenge & opportunity 

(10)

A TTRIBUTE  P ARTITIONING  

  AccuParTTon problem 

  Find an opTmal parTTon of the aQribute set such that running any base  truth finding algorithm on each parTTon subset maximizes the overall  precision of the truth finding process 

  OpTmal parTTon esTmaTon 

  ParTTon weight 

 

EsTmates the precision of the truth finding process on a parTTon, the opTmality  level of a given parTTon 

  Subset score funcTon 

 

EsTmates the precision of the truth finding process on a parTTon subset 

 

Evaluated based on local source accuracy values: maxAccu, avgAccu, oracle  10 

(11)

S OLVING  A CCU P ARTITION  

  Start with any exisTng truth finding algorithm 

  Explore the parTTon space and determine the opTmal  parTTon 

  Use the truth finding algorithm separately on the subsets 

of the opTmal parTTon 

(12)

F INDING   THE  O PTIMAL  P ARTITION  

  Exact algorithm, opTmal soluTon 

  GenAccuParTTon 

 

ExhausTve exploraTon 

 

ExponenTal in the size of the aQribute set 

  Approximate algorithm, near‐opTmal soluTon 

  SamplingAccuParTTon 

 

Random uniform sampling approach 

 

Restricts the opTmal parTTon search to a limited number of candidates 

12 

(13)

O UTLINE  

  Truth Finding 

  ExploiTng Structure 

  Experimental Results 

  Conclusions 

(14)

E XPERIMENTAL  E VALUATION  

  Precision results: GenAccuParTTon, SamplingAccuParTTon 

  Baseline: AccuVote; also Vote 

  Experimental setup 

  SyntheTc data 

 

60,000 data items: 10 sources, 1000 objects, 6 aQributes 

 

Generator: uniform distribuTon funcTons m1, m2 

  Real data: Exam dataset 

 

247 students (sources), 1 test (object), 124 quesTons (aQributes) 

 

9 domains: Math 1A, Physics, Chemistry 1, Math 1B, Electrical Engineering,  Computer Science, Chemistry 2, Life Sciences, Math 2 

 

False value generator, domain size: 25, 50, 100, 1000 

Configs  m1  m2  config 1  1.0  0.0  config 2  0.8  0.0  config 3  0.8  0.2  config 4  0.6  0.4 

14 

(15)

S YNTHETIC  D ATA  

config 1 config 2 config 3 config 4 0.65

0.7 0.75 0.8 0.85

p reci si on

vote accu

oracle maxAccu

avgAccu

(16)

R EAL ‐W ORLD  D ATA   WITH  A RTIFICIAL  C OVERAGE  

25 50 100 1000

0.65 0.7 0.75 0.8

domain size

p reci si on

vote accu oracle maxAccu avgAccu manual split

16 

124 aQributs 

(17)

R EAL ‐W ORLD  D ATA  

32 62 124

0.75 0.8 0.85 0.9

number of attributes

p reci si on

vote

accu

oracle

maxAccu

avgAccu

manual split

(18)

O UTLINE  

  Truth Finding 

  ExploiTng Structure 

  Experimental Results 

  Conclusions 

18 

(19)

C ONCLUSIONS  & P ERSPECTIVES  

   Conclusions 

  AQributes with inherent structure 

  Possible to use structure to improve quality of truth finding 

  AccuParTTon: can be used on top of any truth finding method 

   PerspecTves 

  New subset scores and parTTon weighTng funcTons 

  AutomaTc parTTon generaTon 

 

Greedy approach 

 

FuncTonal dependencies discovery 

  Combine aQribute parTToning with source selecTon methods 

(20)

R EFERENCES  

 

X. L. Dong, L. BerT‐Equille, Y. Hu, and D. Srivastava. Global detecTon of complex copying relaTonships  between sources. VLDB Endow., 3(1), 2010. 

 

X. L. Dong, L. BerT‐Equille, and D. Srivastava. IntegraTng conflicTng data: the role of source dependence. 

PVLDB, 2(1), 2009.  

 

X. L. Dong, L. BerT‐Equille, and D. Srivastava. Truth discovery and copying detecTon in a dynamic world. 

PVLDB, 2(1), 2009. 

 

A. Galland, S. Abiteboul, A. Marian, and P. Senellart. CorroboraTng informaTon from disagreeing views. 

In WSDM, 2010. sources for data integraTon. PVLDB, 5(6), 2012. 

 

X. Li, X. L. Dong, K. Lyons, W. Meng, and D. Srivastava. Truth finding on the deep web: Is the problem  solved? PVLDB, 6(2), 2012. 

 

R. Pochampally, A. Das Sarma, X. L. Dong, A. Meliou, and D. Srivastava. Fusing data with correlaTons. In  SIGMOD, 2014. 

 

X. Yin, J. Han, and P. S. Yu. Truth discovery with mulTple conflicTng informaTon providers on the web. 

IEEE TKDE, 2008. 

Thank you!  20 

Références

Documents relatifs

Exprimez littéralement puis calculez numériquement le travail du poids du piston lesté par la masse M et de la force pressante atmosphérique au cours de

Le voyage de l’escargot - Ruth Brown – Gallimard Jeunesse. La tortue et l’escargot - Pittau et Gervais-

 Plusieurs modalités de rappel de récit seront mises en œuvre : à partir d’images de l’histoire, à plusieurs, en complétant le récit du maître, en incluant des..

6 Puis elle se leva, elle et ses belles-filles, afin de quitter le pays de Moab, car elle apprit au pays de Moab que l'Éternel avait visité son peuple et lui avait donné du pain!.

II est clair que toute / presque surharmonique dans un ouvert U est aussi (îî-surmédiane dans U, quelle que soit la base Ûi considérée dans la définition 2.?. Ceci admet

On veut déterminer une équation de la tangente à la courbe représentative de f au point A de la courbe d'abscisse 2.. De même, on obtient que la fonction f est croissante

Un tel ampèremètre est “absolu” en ce sens qu'il ne nécessite pas de com- paraison entre le courant étudié et des “courants de référence” : c'est le même courant

mahakamensis Pouyaud, Gustiano & Teugels, 2002 (Siluriformes, Pangasiidae) in Southeast Asia revealed the presence of three species of Monogenea.. One (Thaparocleidus