HAL Id: hal-00464922
https://hal.archives-ouvertes.fr/hal-00464922
Submitted on 23 Mar 2010
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Représentation optimiste de contenus dans les système
P2P
Anthony Ventresque, Philippe Lamarre, Sylvie Cazalens, Patrick Valduriez
To cite this version:
Anthony Ventresque, Philippe Lamarre, Sylvie Cazalens, Patrick Valduriez. Représentation optimiste
de contenus dans les système P2P. Journées Francophones de Bases de Données Avancées, Oct 2009,
Namur, Belgique. 18 p. �hal-00464922�
systèmes P2P AnthonyVentresque
1
,2
,PhilippeLamarre1
,2
,SylvieCazalens1
,and Patri kValduriez2
,3
1
LINA,UniversitédeNantes FirstName.LastNameuniv-nantes. fr
2
INRIA
FirstName.LastNameinria.fr
3
LIRMM,UniversitédeMontpellier
Résumé Nousnousintéressonsauxsystèmesdistribuésethétérogènes disposant denombreusessour es d'informationautonomes,telsque les systèmespair àpair non stru turés.Dans detels systèmes,le routage desrequêtes, en parti ulier lesrequêtes top-k,estsouvent limitéàdes algorithmessimples pro hesdes par ours en largeurouen profondeur, telsle ooding. Des améliorations utilisant des pro essus de gossiping oudeshistoriquesdesrequêtespasséesontétéproposées.Cependant,ils restentgourmandsenenvoisdemessagesetnegarantissentpasd'obtenir lesmeilleursrésultats.Eneet,ilsnedisposentpasd'unereprésentation dessour es leurpermettantdedé ider apriorisi l'envoid'unerequête est inutile. Dans e but,nous dénissons la propriétéd'optimisme de l'évaluation d'une représentation d'une sour e par rapport à une me-suredepertinen e: elle- i,pourunerequêtedonnée,évaluetoujoursla représentation d'unesour eave unevaleursupérieureouégaleà elle qu'auraitn'importequelleinformationa essiblevia ettesour e,àune distan edonnée.Dansun premiertemps,nous motivonsl'utilitéd'une tellereprésentationsurdesexemples.Nous proposonsensuite une ana-lysedespropriétésné essaires àlareprésentationd'unensemblede do- umentspourl'usagevisé.Puis,dansle asdedo umentsreprésentéspar desve teurssémantiques,nousdénissons(i)uneagrégation in rémen-taleet omposableet(ii)unereprésentationoptimisteparrapportàune mesuredepertinen ebaséesurle osinus.
Danslesréseaux pairs-à-pairs(P2P) non stru turés, leroutage derequêtes est très souvent gourmanden ressour es: puisqu'il n'estpas possiblepourun pairdelo aliserpré isémentlessour esd'informationpertinentes,illuifaut in-terrogertoutsonvoisinage.Con ernantlesrequêtes
k
-meilleurs(top-k),oùilest demandéde retournerlesk
résultatslespluspertinents, late hniquepar inon-dationduvoisinage(ooding)esttrèsutilisée,bienqu'ellené essitebeau oupde ressour es(messages, al uls), et onnaît nalement peu d'améliorations. Cer-taines solutionsproposentden'envoyerqu'à ertainsvoisins,entenant ompte de résultats antérieurs sur des requêtes similaires [10,18℄ ou d'estimationspar gossiping surles ontenus despairs[5,22℄. Mais este hniques,sielleslimitent lesenvoisdemessages,n'assurentabsolumentpasd'avoirlesmeilleursrésultats. Ilreste don àdénirdesalgorithmes quifournissent lesk
-meilleuresréponses à une distan e déterminée de l'initiateur de la requête (par le TTL) tout en permettantdeguiderleroutageetmêmedediminuerlesenvois.Selonnous, leproblème entralest de faireensorteque lespairsdisposent d'une représentation satisfaisante de leurs voisins qui leur permette de juger l'intérêtd'un envoi.Pour ela, nousproposonsde dénirune représentationde pairoptimiste :sonévaluationdepertinen eparrapportàlarequêteesttoujours supérieureouégaleà elleden'importequelleinformationa essiblevia epair, epouruneprofondeurdonnée.Ainsi,lorsduroutage,ilseraitpossibledesavoir siunvoisinest sus eptiblederemonterdesrésultatsplusintéressantsque eux qui sontdéjà onnus.Etdon s'ilestné essaire deluienvoyerlarequête.
L'obje tifde et arti leest(i) dedénirde manièregénéraledespropriétés delareprésentationd'unensembled'informationutilesàunetelleappro he,(ii) proposerunereprésentationpossédant espropriétésdansle asoùles informa-tionssontreprésentéespardesve teurssémantiques.
Dansun adregénéral,l'ensembledesinformationsa essiblesviaunpairà une profondeurdonnéedoitêtrereprésenté demanièresynthétique.Ainsi, l'es-pa edereprésentationdel'ensemblen'estpasfor émentlemêmeque eluid'une information. Cependant, s'il semblenaturel de distinguerplusieurs niveaux de représentation, au nal, la pertinen e doit êtremesurée dans le même espa e. Nous introduisonsdon desfon tions d'aggrégationet de on rétisation de re-présentation qui nous permettent d'exprimer de manière pré ise la propriété d'optimisme. Par ailleurs,il faut prendre en ompte l'évolutiond'un ensemble d'information. En parti ulier, unensemble ayant été agrégé,il est souhaitable que l'ajout d'une information ne né essite pas le al ul omplet de l'agrega-tion du nouvel ensemble obtenu, mais prote plutt de l'agrégation déjà al- ulée.Nousappelons ettepropriété in rémentalité. Demême la omposabilité on ernedeuxagrégationsquel'on veutfusionner.
Les espa es ve toriels sémantiques [21℄, sont un modèle de représentation utilisantles on eptsd'uneontologiepluttquedestermespourindexer haque dimension. Chaqueinformation est représentéepar unve teur sémantique.Ce typedereprésentationesttrès adaptéàdesdo umentset requêtestextuelspar
d'undo ument
d
i
(respe tivementd'unerequêteq
)suivantsonimportan edansd
i
(resp.dansq
).Dans e ontexte, nousproposonsde dénirunefon tion dereprésentation qui soit optimiste par rapport àlamesure depertinen e lassique: le osinus. Nousutilisonspouryarriverune fon tiond'agrégationin rémentale et ompo-sable, e qui permet de gérerladynamique desagrégationsdéjà réaliséessans problème.Notrereprésentationd'unensemble(exemple :unpair)permet d'as-surerque pourune requêtedonnée, il n'est paspossiblede trouver une partie (exemple : un do ument) ayant une valeur de pertinen e plus forte que l'en-semble. Nous montrons que notre fon tion est optimiste dans un adre homo-gène. Nous explorons ensuitela possibilitéd'une telle appro he dansun adre hétérogène.
Dans la se tion 2, nous motivons l'utilité de la propriété d'optimisme sur des exemples top-k. Nousdénissons ensuite dans lase tion 3, les propriétés d'optimisme,d'in rémentalitéet de omposabilité dansun adregénéral.Puis, dansle asdeve teurssémantiques,nousdénissons lesfon tionsd'agregation et on rétisationet montrons les troispropriétés itéespré édemment.La se -tion5poseleproblèmedu adrehétérogène.Nousnoussituonsparrapportaux appro hes lassiquesdanslase tion6,puisnous on luons(se tion7).
2 Motivations
Nous onsidérons des systèmes P2P non-stru turés qui permettent la plus grande autonomie des pairset une plus grande toléran e aux fautes [3℄. Nous nousintéressonsauproblèmeduroutagede requêtedanslessystèmesP2P non-stru turés, 'est-à-direau problèmede la diusion derequêtes jusqu'auxpairs possédantdesdonnéespertinentesetàlaremontéedeleursrésultats[19℄.Nous nous on entronssur unseul type derequête, lesrequêtes top-
k
,dont l'utilité adéjà été montrée dansdes domainestels que lare her hed'information [12℄, les bases de données multimédia [8℄, la gestion de donnéesen général lorsque le nombre de résultats est potentiellement très grand: le sous-ensemble desk
meilleursrésultatsest engénéralsusant[2℄.Parexemple,imaginonsquatrepairsAli e,Bob,CharlieetDave.Ali eadeux voisins: Bob et Charlie; Charliea unvoisin, Dave( f. gure 1). Le voisinage est dansnotre modèleune relationnonsymétrique: Bobest voisind'Ali e qui n'est pasfor émentsa voisine. Ali e est initiatri e d'un envoide requête dans le système. L'idée générale des algorithmesde routage dans les systèmes P2P est qu'Ali e envoie sarequête àBob et àCharlie (de manière séquentielle ou parallèle), puis que Charlie envoie la requête à Dave. Ali e reçoit au plus
k
réponsesdespairsqu'ellea onta té(moinsdek
s'ilsnedisposentpasd'autant deréponses).Par défaut, esalgorithmesn'utilisentau uneheuristiquelorsdel'envoides requêtes,qui peutêtreséquentiel,parallèleouhybride. Ainsi,ils nesaventpas s'ils peuvent obtenir desinformations pertinentes viaun pair donné. Le hoix
Fig.1.Routagedesrequêtesetretourdes
k
-meilleurs(oumoinsdek
)résultats lassés par ha undespairs.aléatoire; e qui est a priori dommageable ar une onnaissan e du voisinage permet de guider lesenvois derequêtes verslespairs lesplus pertinents. Cer-taines solutionsutilisentdon desinformationssupplémentairespouravoirune estimationdelapertinen ed'unpair;parexempledeshistoriquesdesrequêtes antérieures, ommedans intelligent BFS [10℄ ouadaptative probabilisti sear h [18℄;maisaussiuneindexationdu ontenudesvoisins[5,22℄.
Prenons intelligent BFS [10℄. Cette amélioration de Gnutella (algorithme d'inondation en largeurd'abord) utilisedans haquepairune table de or-respondan esrequête-pairpourtoussesvoisins,indiquantlesrequêtesauxquelles lespairs ont répondu ( 'est-à-diequ'ils avaientun résultatpertinent).Cet al-gorithmetravaillesurdesrequêtesexa tmat h oùlafon tiondepertinen eest booléenne(vrai/faux).Dans e as,siunpairenvoieuneréponseàunerequête donnée, 'est qu'ildispose d'uneréponse pertinente à ette requête.Si une re-quêtesimilairedoitànouveauêtreroutéeparlepairenutilisantintelligentBFS, il interrogelatable de orrespondan ean deséle tionnerunsousensemble
m
desesn
voisins(paramétrable)àquienvoyerlarequête.Cettesolutiondiminue grandementlenombredemessagesé hangés,maisn'assurepasd'obtenirtoutes lesréponses.Selonnous,ilmanqueà ettesolutionunereprésentationd'unpair qui permette de dire si ee tivement il peut être intéressantde lui envoyerla requête. C'est e que nous appelonsune représentation optimiste : elle assure quesonévaluation parrapportàlarequêteest for émentsupérieure à elle de ha unedesinformationsquel'on peutobtenir.Demêmedansle adrederequêtes
k
-meilleurs,ilestaussipossibled'utiliser une représentationoptimistepourrouter.Puisque ettedernièrenousdonnela valeurmaximalequ'unerequêtepeutobtenir hezunpairoudansunvoisinage (un voisin et ses propres voisins jusqu'à un pasn
), il est possible de réaliser des oupesdanslesenvoissiunvoisinouunvoisinagenepeutpasdisposerde résultatintégrabledanslalistek
-meilleursa tuelle.pouvonsimaginerqu'Ali edisposed'unereprésentationdu ontenudesesvoisins luipermettantdeguider sonenvoi.Ainsielle enverraitàBob avant Charlieet Eve, ar elui-làaune valeurdepertinen eplusélevéeque es deux- ipoursa requête.Cettesolutionpeutavoiraumoinsdeuxavantages.Lepremierestque lesmeilleursrésultatspourraientêtreatteintslesplustt.EnvoyeràBob,puisà Charlieet Eve,si elui-làestee tivementleplusintéressant,permetd'obtenir l'informationlaplusintéressanteplustt.
Fig.2.Lavaleurdepertinen edeBobétantplusforte,Ali eluienvoiesarequêteen premier.
Imaginonsde plusqu'il n'existe pas dedonnée d'Evequi ait une valeurde pertinen esupérieureà elle desareprésentation.Celanousdonneune estima-tion haute du rang possible de ses résultats, i.e. de la valeur maximale dans le lassement
k
-meilleurs qu'ils peuvent obtenir. Dans l'exemple, la valeur0.3
qu'obtientlareprésentationd'Eveindiqueque ette dernièrenepeutpasavoir de do ument ayantune meilleurevaleur de pertinen e. Supposons maintenant quelavaleurlaplusbassedesrésultats olle tésparAli edansson lassementk
-meilleurs après ré eption des résultats de Bob et Charlie soit de0.4
, don supérieure à la valeurobtenue par la représentation d'Eve ( f. gure 3). Il ne seraalorspasné essaired'interroger ette dernière:ellenepourrapasavoirde résultatdanslek
-meilleurs global.Mais ette onditionnepourra êtreatteinte quesilareprésentationestoptimiste, 'est-à-direquelavaleurdepertinen ede lareprésentationparrapportàlarequêtenepeutpasêtredépasséeparunedesL'exemple pré édent est très simple ar il ne onsidère que les voisins im-médiats d'Ali e. Il segénéralisebien à ondition queles pairs n'aient pas une représentationuniquementdeleursvoisinsmaisdeleurvoisinage(voisinset voi-sinsdeleursvoisinsjusqu'àunrayondonné).Ilfautdon quelareprésentation puisse intégrerdesensemblesdedo uments,maisaussidesensemblesdepairs, et sipossibledelamême façon.Ainsiilserapossibled'utiliser notredémar he pourtouslespairsinterrogésave unTTLdelarequêteégalàleurprofondeur de onnaissan eduvoisinage.
Reprenonsl'exemple pré édent en ajoutant des voisins à Charlie, Dave,et Eve, Fran k ( f. gure 4). Si leTTL dela requête vaut 1,alors nous sommes dans le as pré édent et la représentation desvoisins dire ts d'Ali e permet à ette dernière de guider la requête, voir de ouper des envois. Si le TTL est égal à 2, alors Ali e onsidère la représentation de Charlie et Eve ave une profondeurde1,tenant omptedeDaveetFran k.Lepro essuspré édentpeut alorsêtreutilisé.Bob onservelaplusfortevaleuretest lassénuméroun.C'est lareprésentation de{Charlie,Dave}qui vientensuite, ave
0.6
. Ennlavaleur laplusfaibleest elledelareprésentationde{Eve,Fran k}.Ilestaussipossible de ouper( f. gure5) e dernier envoisi parexemple, après l'envoiàBob et Charlie, et ré eption de leurs résultats, la valeur minimale duk
-meilleurs estde2.Suivantlavaleurdu TTL (1ou2), elleutilise l'unoul'autrepour savoirdans quelordreenvoyerlarequête.
Fig.5.LeTTLdelarequêteestà2,Ali eutiliselareprésentationave unrayonde 2etpeutéviterl'envoiàEve,silesreprésentationssontoptimistes.
3 Agréger et on rétiser la représentation de do uments pour aider le routage
é hangée entre pairs dans le système, elle se doit d'être synthétique : il n'est pasenvisageabled'envoyerlareprésentationdetouslesdo uments.Nous propo-sonsdon d'introduire deuxniveaux on eptuelsdiérents( f. gure6). Outre leniveaudesdo umentsetdesrequêteseux-même,nousintroduisonsleniveau desreprésentations(
R
), eluioùsesitueles al ulsdepertinen eparexemple; ainsiqueleniveaudesabstra tions(A
quin'estpasfor émentlemêmequeR
), qui sontlesdes riptionsd'ensemblesdedo uments,depairs,et . Unefon tion d'agrégation abstraitune agrégationàpartird'unensemble dereprésentations dedo uments.Pourévaluerlapertinen eàunmêmeniveaud'abstra tion,deux voies sont envisageables : (i)transformer la requêteau même titre que les do- umentsl'ontétéou(ii)àpartirdel'agrégation, on rétiser unereprésentation parti ulière que l'on peut omparer à la requête. C'est ette deuxième solu-tionquenousavons hoisie, arellepermetderéutiliserdire tementlafon tion d'évaluationdepertinen eexistante.Fig.6. Représentations de do uments et requêtes (niveau 1). Les do uments sont abstraits enuneagrégation(niveau2)quipeutêtre on rétisée pourêtre omparéeà unerequêteauniveaudesreprésentations.
Parabusdenotation
d
etq
n'indiquerontdon danslasuitepasundo ument ouunerequêtemaislesreprésentations d'undo umentoud'unerequête.Nouspouvons dénirune fon tiond'agrégation dans un adre très général ommeune fon tionqui prend en entrée unensembled'éléments(parexemple desdo uments) et génèrel'agrégation.Plus parti ulièrement,nousadoptonsla dénition suivante :
Dénition1 (Fon tiond'agrégation). Soit
R
D
l'ensembledesreprésentationsde do uments.
agr
:R
D
7→ A
{d
1
, . . . , d
n
} → agr({d
1
, . . . , d
n
})
Une fon tion d'agrégation doit être une base ommune à toutes les repré-sentations.Elledoitdé rire demanièresynthétique lesdo umentsdelaoudes olle tionsquila omposent.C'estpourquoinousvoulonsqu'ellesoitfa ilement extensible. Lapremièrepropriété envisagée est alorsl'in rémentalité, 'est-à-direle fait qu'ellepuisse s'enri hir denouveaux do uments sansque l'onait besoindetout re al uler.
Dénition2 (Agrégationin rémentale).
Soient
{d
1
, . . . , d
n
}, n ∈ N
unensemblede do umentsetd
′
undo ument. Une agrégation
agr
est in rémentalesi:il existe unefon tion
add : A × R 7→ A
telleque
∀d
′
∈ {d
/
1
, . . . , d
n
} add({agr({d
1
, . . . , d
n
}), d
′
}) = agr({d
1
, . . . , d
n
, d
′
})
Ilestfa ilededéduirede ettedénitionla ommutativité(l'ordred'ajoutdes do umentsn'importepas)et l'in rémentalitéensembliste(plusieurs do uments peuventêtreajoutéssimultanément)d'unefon tiond'agrégationin rémentale. Ces propriétés sont importantes pour simplier la gestion de l'agrégation de plusieursdo uments.
Nous pouvons dénir ensuite la omposabilité de la fon tion d'agrégation, 'est-à-direlapossibilitéde ombinerdeuxagrégations.
Dénition3 (Agrégation omposable). Soient
{d
1
1
, . . . , d
1
n
1
}
et{d
2
1
, . . . , d
2
n
2
}, n
1
et n
2
∈ N
deux ensembles de do u-ments.Une agrégation
agr
est omposable si: il existe unefon tionmerge : A × A 7→ A
tellequemerge(agr({d
1
1
, . . . , d
1
n
}), agr({d
2
1
, . . . , d
2
n
})) = agr({d
1
1
, . . . , d
1
n
, d
2
1
, . . . , d
2
n
})
Cette propriété permet de fa iliter la gestion de l'agrégation de plusieurs ensemblesdedo uments.
Unefon tionde on rétisationestunefon tionquiprendenentréeune abs-tra tion d'éléments (par exemplede do uments) et génère une représentation. Cettereprésentationne orrespondpasné essairementàundo umentexistant, maissimplementunedes ription ompatibleave l'abstra tiondontelleestissue enrapportave larequête.
Dénition4 (Fon tionde on rétisationparrapportàunerequête). Soit
−
→
q
unerequête.Une fon tion, notée
concr
,est une fon tionde on rétisationsielleala signa-turesuivante :concr
:A 7→ R
a → concr
q
(a)
Notonsaussiquelesmesuresdepertinen eontpourargumentsdeséléments de
R
,pasdeA
.Noussouhaitonsqu'unefon tionde on rétisationsoitoptimiste par rapport à une mesure de pertinen e, 'est-à-dire qu'ellene sous-estime pas lesvaleursdeses omposantesparrapportà ette mesure.Dénition 5 (Con rétisation optimiste par rapport à une mesure de perti-nen e).
Soient
{d
1
, . . . , d
n
}, n ∈ N
unensemblede do umentsetqune requête. Soitrel
une mesurede pertinen eentreéléments deR
.concr
estune on rétisationoptimistesi:∀i, 1 ≤ i ≤ n, rel(q, concr
q
(agr({d
1
, . . . , d
n
}))) ≥ rel(q, d
i
)
.4 Agrégation et on rétisation pour les ve teurs sémantiques
Dans ette se tion, nous supposons que do uments et requêtes sont repré-sentéspardesve teurssémantiques.
R
estdon l'ensembledetouslesve teurs sémantiques.4.1 Représentation de do uments et requêtes par ve teurs sémantiques
Lemodèleve torielest unmodèle lassique enre her he d'information[4℄. L'idée deve teurssémantiquesest elleplusré ente [21,11℄. Formellement, ela onsisteàprendreles on eptsd'uneontologie ommedimensionsd'unespa ede représentationpourdo umentsetrequêtes.Le adregénérald'untelmodèleest eluidelagure7:requêteset do umentssontindexéssémantiquementetles do uments sont lassésparrapportà haquerequête,par exempleenutilisant le osinus ommemesuredepertinen e.
Dénition6 (Ve teursémantique). Unve teursémantique
−
→
v
Ω
estuneappli ationdéniesurl'ensembledes on eptsC
Ω
d'une ontologieΩ ∀c ∈ C
Ω
, −
→
v
Ω
: c → [0, 1]
Considérerlesvaleursdans
[0, 1]
estarbitraireetne hangeenrienle raison-nement.Dans emodèleve toriel,les on eptsdel'ontologiesontsouventappelés lesdimensionsdesve teurs.Parexemple, onsidéronsl'ontologiedelagure8. Elleest omposéededouze on epts,ave desliensdesubsomption(is-a)entre eux.Parexemplele on eptpubli s hool estunesorte(is-a)du on epts hool. Surleve teur,nous voyonsque−
→
d
i
[bank] = 1
,−
→
d
i
[f inancial institution] = 0.5
,−
→
d
i
[central bank] = 0.8
,−
→
d
i
[university] = 0.8
et−
→
d
sémantique.
que ledo ument est liéà es inqdimensions, plusfortementau on ept bank qu'auxautres,mêmesi les on epts entral bank et university sontimportants. En e qui on ernelesdeuxautres on epts,nan ialinstitution ets hool, leur pondérationindiqueque ene sont pasdesdimensions entrales pour le do u-ment.
4.2 All1, une fon tiond'agrégationin rémentaleet omposable
Nousproposonsladénitiondeall1,unefon tiond'agrégationsatisfaisant lespropriétésénon éespré édemment.
Dénition7 (All1).
Soient
Ω
une ontologie etC
Ω
l'ensemblede ses on epts. Soit{
−
→
d
1
, . . . ,
−
d
→
n
}, n ∈ N
unensemble dedo umentssurC
Ω
. All1estune fon tiond'agrégation telleque :∀c ∈ C
Ω
all1({
−
→
d
1
, . . . ,
−
d
→
n
})[c] =
1
si∃
−
→
d
i
, i ∈ [0..1],
−
→
d
i
[c] > 0
0
sinonAll1estdon unefon tionquidonneàla ara térisationd'unensemblede do uments lavaleur
1
à haquedimensionpourlaquelle il existe undo ument qui la pondère de manière non nulle. L'ensemble des agrégationsA
est don l'ensembledesve teurssémantiquesn'utilisantquedespondérationsà0ou1.Il endé oulequeA ⊆ R
.Cettepropriétépermet d'utiliserall1enlieuetpla etion(is-a)etleve teursémantiqued'undo ument ara térisésur etteontologie.
desfon tions
add
etmerge
pourexprimerlespropriétés d'in rémentalitéet de omposabilité.Théorème 1(All1est in rémentale).
Soient
Ω
une ontologie etC
Ω
l'ensemblede ses on epts. Soit{
−
→
d
1
, . . . ,
−
d
→
n
}, n ∈ N
unensemble dedo umentssurC
Ω
.∀
→
−
d /
∈ {
−
→
d
1
, . . . ,
d
−
→
n
} ∀c ∈ C
Ω
all1({
all1({
−
→
d
1
, . . . ,
−
d
→
n
}),
−
→
d }) =
all1({
−
→
d
1
, . . . ,
−
d
→
n
,
−
→
d })
Théorème 2(All1est omposable).
Soient
Ω
une ontologie etC
Ω
l'ensemblede ses on epts. Soient{
−
→
d
1
1
, . . . ,
−→
d
1
n
1
}
et{
−
→
d
2
1
, . . . ,
−→
d
2
n
2
}, n
1
et n
2
∈ N
deux ensembles de do u-mentssurC
Ω
. all1(
all1({
−
→
d
1
1
, . . . ,
−
→
d
1
n
}),
all1({
−
→
d
2
1
, . . . ,
−
→
d
2
n
})) =
all1({
−
→
d
1
1
, . . . ,
−
→
d
1
n
,
−
→
d
2
1
, . . . ,
−
→
d
2
n
})
Lespreuvesde es deuxthéorèmessonttriviales.
4.3 Adapt2Query, une fon tionde on rétisation optimiste
Soient
Ω
une ontologie etC
Ω
l'ensemblede ses on epts. Soit{
−
→
d
1
, . . . ,
−
d
→
n
}, n ∈ N
unensemblededo umentssurC
Ω
.Soit−
→
q
unerequête sur
C
Ω
.Adapt2Query,notéeA2Q
→
−
q
,estune fon tionde on rétisationtelleque:∀c ∈ C
Ω
A2Q−
→
q
(
all1({
−
→
d
1
, . . . ,
−
d
→
n
}))[c] = −
→
q [c] ×
all1(
all1({
−
→
d
1
, . . . ,
−
d
→
n
}))[c]
Cette dénition attribue à haque dimension partagée entre la requête et l'ensemble dedo umentsla pondération quelui onfère larequête. All1est un masquebooléen pour lesve teurs sémantiquesdes requêtes, qui permet de manièree a ede onserverlesdimensionsapparaissantdansune olle tionet degénérerAdapt2Query.
Théorème 3(Adapt2Queryestunefon tionde on rétisationoptimistepar rapportau osinus).
Soient
Ω
une ontologie etC
Ω
l'ensemblede ses on epts. Soit{
−
→
d
1
, . . . ,
−
d
→
n
}, n ∈ N
un ensemble de do uments quel onque surC
Ω
. Nous avons:∀i, 1 ≤ i ≤ n cos(−
→
q ,
A2Q−
→
q
(
all1({
−
→
d
1
, . . . ,
−
d
→
n
}))) ≥ cos(−
→
q ,
−
→
d
i
)
Démonstration. Notons−
→
a =
A2Q−
→
q
(
all1({
−
→
d
1
, . . . ,
−
d
→
n
}))
. Supposons qu'ilexiste un do ument−
→
d
i
,i ∈ [1..n]
dansl'agrégation qui ait un osinusave larequêtesupérieurà eluidelareprésentationave larequête−
→
q
. Supposonsque lareprésentationaitk
on epts en ommunave larequête,et quenousayions|C
→
−
q
| = l
,aveC
−
→
q
représentantl'ensembledes on epts entraux delarequête−
→
q
.Dans e as,
l ≥ k
.Supposonsque−
→
d
i
aitj
on eptsen ommun ave la requête. Par dénition, nous savons que{c
1
, . . . c
j
} ⊆ {c
1
, . . . c
k
} ⊆
{c
1
, . . . c
l
}
, arles on eptsdudo umentspondèrentall1,quipermetd'avoir une pondération dansAdapt2Query,seulementsi larequêteenaune aussi: ledo umentnepeutdon pasavoirplusde on eptsen ommunave larequête dequel'agrégation.cos(−
→
q , −
→
a ) < cos(−
→
q ,
−
→
d
i
)
−
→
q · −
→
a
|−
→
q | × |−
→
a |
<
−
→
q ·
−
→
d
i
|−
→
q | × |
−
→
d
i
|
−
→
q · −
→
a
|−
→
a |
<
−
→
q ·
−
→
d
i
|
−
→
d
i
|
Or,puisque
{c
1
, . . . c
k
} ⊆ {c
1
, . . . c
l
}
n nousavonsdon :P
c
∈{c
1
,...c
k
}
−
→
q [c] × −
→
a [c]
q
P
c
∈{c
1
,...c
k
}
−
→
a [c]
2
<
−
→
q ·
−
→
d
i
|
−
→
d
i
|
Et puisque par onstru tion
−
→
a [c] = −
→
q [c]
pour tous les on epts qu'ils ont en ommun:P
c
∈{c
1
,...c
k
}
−
→
a [c]
2
q
P
c
∈{c
1
,...c
k
}
−
→
a [c]
2
<
−
→
q ·
−
→
d
i
|
−
→
d
i
|
Or,∀x ∈ R
x
√
x
=
√
x
.Don :s
X
c
∈{c
1
,...c
k
}
−
→
a [c]
2
<
P
c
∈{c
1
,...c
j
}
−
→
q [c] ×
−
→
d
i
[c]
q
P
c
∈C
Ω
−
→
d
i
[c]
2
En ore une fois, pardénition,les valeursde
→
−
a
et de−
→
q
sontidentiquespour tous les on epts qu'ils ont en ommun,{c
1
, . . . c
k
}
, et omme{c
1
, . . . c
j
} ⊆
{c
1
, . . . c
k
}
:s
X
c
∈{c
1
,...c
k
}
−
→
a [c]
2
<
P
c
∈{c
1
,...c
j
}
−
→
a [c] ×
−
→
d
i
[c]
q
P
c
∈C
Ω
}
−
→
d
i
[c]
2
1 <
P
c
∈{c
1
,...c
j
}
−
→
a [c] ×
−
→
d
i
[c]
q
P
c
∈{c
1
,...c
k
}
−
→
a [c]
2
×
q
P
c
∈C
Ω
−
→
d
i
[c]
2
1 < cos(−
→
a ,
−
→
d
i
)
Cequin'estpaspossible,le osinusprenantsesvaleursdans
[0, 1]
.Iln'yadon pasdedo umentpouvantavoirunevaleurdepertinen esupérieureà elledela représentationAdapt2Query.Adapt2Query estunefon tionde représenta-tionoptimiste.5 Cadre sémantiquement hétérogène : quelques réexions
Nous onsidéronsqu'unsystèmeestsémantiquementhétérogènelorsque dif-férentes ontologies peuvent être utilisées par diérents pairs. Le on ept de
k
meilleurs do uments reste lemême à onditiond'a epterque haquepair est responsable de l'évaluation de la pertinen e de ses do ument et de faire l'hy-pothèseque ha unévaluelapertinen edans lemêmeréférentiel,i.e.le même intervalle.Mêmesous eshypothèses,leproblèmemajeurdel'hétérogénéitéreste la ompréhensiond'unerequête.Unepremièresolution onsiste àmettre enpla e desalignementsentre on-tologies, 'est-à-dire des orrespondan es entre les on epts et relations de es ontologies[7℄. Bien souvent,parmi elles- i, seules sont onsidérées les équiva-len es entre on epts. Dans e as,la ompréhension d'unerequêteest réduite aux on eptspartagésqu'ellepondère.Certains on eptsdelarequêtesontdon perdus pourlefournisseurdedo uments.Celapeutaltérerfortementsa
om-pré édemment,ave lesmêmespropriétés.
Pour assurer une meilleure ompréhension entre initiateur et fournisseurs, nousavonsproposé uneméthode quipermet d'utiliserdes on eptsnon parta-géspourexprimerlarequête( téinitiateur)etpourl'interpréter( té fournis-seur)[20℄.
L'ar hite turegénéraleentredeuxpairsest elleprésentéeàlagure9.Après indexationdelarequêtedanssonontologie,l'initiateurengénèreuneexpansion quiexpliquelesdiérentesdimensionsde elle- i.S'appuyantsurleséquivalen es entre leurs deux ontologies, le fournisseur interprète les expli ations dans sa propreontologie.Ils'appuiesursoninterprétationpouradapterlades riptionde ha undesesdo umentsàlarequête.Soulignonsquel'ar hite turenené essite au unemodi ationdesmodulesd'unsystèmed'informationdistribuéhomogène sémantiquement( f.gure7,se tion2),etquelesnouveauxmoduless'intègrent fa ilement.CettesolutionaétéappeléeExSI
2
D pourExpansionStru turante, Interprétationet ImagedesDo uments.
Fig.9.Le adred'ExSI 2
D.
L'agrégationdeve teurssémantiquesparunpairesttoujourspossibledela mêmemanièrequepré édemment.Laphasede on rétisationdoitêtreadaptée desorteàprendreen omptelefaitqu'ExSI
2
Dévaluelapertinen edelarequête nonpasparrapportauve teursémantiqued'undo ument,maisparrapportà
lamêmeontologie.Ellepermetàunpairdedéterminerrapidements'il dispose potentiellementdedo umentsdépassantun ertainseuildepertinen esansavoir àanalysertoutesa olle tion.
L'agrégationdeve teurssémantiquesreprésentésdansdesespa esdiérents (ontologiesdiérentes)estunproblèmeensoi.Lasolution onsistantàexpliquer et interpréter une agrégation est envisageable, mais nous n'avons pas été en mesuredeproposerune on rétisationoptimisitedans e as.
6 Travaux liés
Certains algorithmes de routage dans les systèmes P2P non stru turés es-saient d'avoir un aperçu de leur voisinage pour diriger les envois vers les voi-sinsstatistiquementplusintéressants[10,18,5,22℄.Ilfauttoutd'abordnoterque ontrairementà esappro hes,nous nenous limitons pas àdesrequêtes exa t mat h, 'est-à-dire ave une fon tion de pertinen e booléenne, mais que nous pouvonsaussifaireduroutagesurdesrequêtes
k
-meilleurs.Lesautressolutions peuventsansdoutes'adapterau adrek
-meilleurs,maissansdoutedi ilement, aril faudraitavoirunefon tiond'évaluation d'unelistederésultatsretournée àunerequête.D'autrepart,même sinouspartageonslemêmeobje tif que es te hniques, qui est de guider les requêtes vers les meilleurs pairs, nous avons aussi la possibilité de ne pas envoyeraux pairs ayant des résultats médio res tout enétantsûrsque 'estvrai(optimisme).Denombreusessolutionsessaientdegénérerdes orrespondan esentrepairs dans un système distribué hétérogène sémantiquement. Dans SomeWhere [15℄ ouPiazza[9℄, lespairs réentdesmappings entreleurs ontologieset réé rivent les requêteslorsduroutage. D'autres solutionsessaientde trouverdemanière semi-automatique des mappings, omme Hyperion [14℄ ou GLUE [6℄, grâ e à des tables de mappings et l'aide de l'utilisateur. Quelques systèmes essaient même de dé ouvrir automatiquementles mappings (PeerDB [13℄, Chatty Web [1℄)quiserventensuiteàdirigerleroutageverslespairsquipeuvent omprendre les requêtes. Notre solution ne s'oppose pas à es appro hes qui her hent à onstruire des orrespondan es entre ontologies, elleles prolonge. Dans toutes es appro hes, les alignements ne sont pas omplets et il demeure des parties non partagéesentre lesontologies. Ilest alors possible d'utiliser ExSI
2 D pour gagnereninteropérabilité.
Dans le domaine des bases de données, de nombreux travaux on ernent l'obtention de modèles de haut-niveau.Les résumés [16℄ permettent d'obtenir une réponse,de naviguer,et . sansfor émentinterroger l'ensemble de la base dedonnées.Ce sontdesreprésentationstoutefois assezvolumineuseset dontla onstru tionet lamise àjourpeuventêtre oûteuses. Deplus,ellesne sonten généralpaspenséesdansunobje tifderoutagederequêtes.
Les solutionsde lustering et lassi ation des do uments [17℄ utilisent ou peuventgénérerdesabstra tionspourlemodèleve toriel( entroïdes,médoïdes,
peuventserviràestimerla lasseàlaquelledoitappartenirundo ument,ousi une lassedoitévoluer(fusionner,ses inder,et .).S'ilpeutaussiservirpourle routagederequêtes,iln'est ependantpasoptimiste, equilerendévidemment moinsutilequenotresolution.
7 Con lusion
Dans et arti lenous avonsproposéde distinguerfon tionsd'agrégationet de on rétisation.Lapremièrepermetd'agrégerunensembledereprésentations d'informations.Onpasseainsiàunniveaud'abstra tionplushaut.Ladeuxième permetderepasserdanslemêmeespa edereprésentationque eluides informa-tinos, equipermetde onfronterlerésultatd'uneagrégationàlareprésentation d'unerequête.Nousavonsdénilespropriétésd'in rémentalitéet omposabilité d'uneagrégationqui permettentunegestionsimpliéedesregroupementsdans unsystèmedistribué.Lapropriétéd'optimismed'unefon tionde on rétisation aétéproposée.Elleprésentel'avantaged'assurerqu'au uneinformationnepeut avoirune mesure de pertinen e supérieure à elle obtenue par une agrégation danslaquelleelleapparait.Nousavonsmontrésurun ertainnombred'exemples l'intérêtque elapeutavoirpourguiderlare her hed'uneinformationdansun systèmedistribué,enpermettantenparti ulierd'éviterdevisiter ertainspairs. Cette propriété peut aussi être utilisée par un pair lo alement pour éviter de onsultersystématiquementl'ensembledesa olle tiond'informations.
Dans le adre d'une représentation par ve teurs sémantiques, nous avons proposéuneagrégationin rémentale et omposableainsiqu'une on rétisation optimiste parrapport àla mesure de pertinen e usuelle qu'estle osinus. Ces dénitions et propriétés peuvent être utilisées dans un adre distribué séman-tiquement homogène. Nous avons montré qu'un adre hétérogène présente un ertainnombrededi ultés liéesàl'utilisationd'espa esdereprésentation dif-férents.
Cestravauxpeuventêtreétendusdansdeuxdire tions.Lapremière on erne l'étudedepropriétéssupplémentairesdel'abstra tionetdela on rétisation.En parti ulier, nous n'avonspourl'instant pas onsidéré leretrait d'une informa-tion. Prendre en ompte au plus vite, et don à un oût minimal, un retrait d'informationnousasemblémoins important arsi unretraitn'estpasreété dansl'agrégationon onservetoutefoislapropriétéd'optimisme.
Ladeuxièmedire tion on ernel'exploitationdel'agrégationetdela on ré-tisationparlesalgorithmesdere her hetop-k.Enpremierlieu, uneévaluation pré isedesinformationsa essiblesvialesvoisinspermetdeguiderl'envoidela requête. En se ond lieu, la propriétéd'optimisme permet d'éviter l'envoide la requêteaux voisins vialesquelsil estalors ertainque nesera obtenueau une information pluspertinente que ellesdéjà obtenues. Ilsembledon né essaire de revisiterun ertain nombred'algorithmesqui guideraientainsimieux la
re-1. K. Aberer, P. Cudré-Mauroux, and M. Hauswirth. The hatty web : emergent semanti sthroughgossiping. InWWW'03:Pro eedingsofthe12thinternational onferen eonWorldWideWeb,pages197206,NewYork,NY,USA,2003.ACM. 2. R.Akbarinia,E.Pa itti,andP.Valduriez.Redu ingnetworktra inunstru tured p2psystemsusingtop-kqueries. DistributedandParallelDatabases, 19(2-3):67 86,2006.
3. R. Akbarinia, E. Pa itti, and P. Valduriez. Query pro essing in p2p systems. Te hni alReport6112, INRIA,Fran e,2007.
4. M.W.Berry,Z.Drma ,andE.R.Jessup.Matri es,ve torspa es,andinformation retrieval. SIAMRev.,41(2):335362, 1999.
5. A. Crespo and H. Gar ia-Molina. Routingindi es for peer-to-peersystems. In ICDCS '02 : Pro eedings of the 22 nd International Conferen e on Distributed Computing Systems (ICDCS'02), page 23, Washington, DC, USA, 2002. IEEE ComputerSo iety.
6. A.Datta,M.Hauswirth,andK.Aberer. Updatesinhighlyunreliable,repli ated peer-to-peersystems.InICDCS'03:Pro eedingsofthe23rdInternational Confe-ren e on Distributed Computing Systems, page76, Washington, DC, USA,2003. IEEEComputerSo iety.
7. J.EuzenatandP.Shvaiko.Ontologymat hing. Springer-Verlag,Heidelberg(DE), 2007.
8. L. Gravano and A. Marian. Optimizing top-k sele tion queries over multime-dia repositories. IEEE Trans. onKnowl. andData Eng.,16(8) :9921009, 2004. Member-SurajitChaudhuri.
9. A. Y.Halevy,Z. G.Ives, P.Mork,and I.Tatarinov. Piazza :datamanagement infrastru ture for semanti webappli ations. InWWW '03 : Pro eedings of the 12thinternational onferen eonWorldWideWeb,pages556567,NewYork,NY, USA,2003.ACM.
10. V.Kalogeraki,D.Gunopulos,andD.Zeinalipour-Yazti.Alo alsear hme hanism forpeer-to-peernetworks.InCIKM'02:Pro eedingsoftheeleventhinternational onferen eonInformationandknowledgemanagement,pages300307,NewYork, NY,USA,2002.ACM.
11. R.Krovetzand W.B. Croft. Lexi alambiguityandinformationretrieval. Infor-mationSystems, 10(2):115141,1992.
12. S.Mi hel,P.Triantallou,andG.Weikum.Klee:aframeworkfordistributed top-kqueryalgorithms.InVLDB'05:Pro eedingsofthe31stinternational onferen e onVerylargedatabases,pages637648.VLDBEndowment,2005.
13. B. C. Ooi, Y. Shu,and K.-L.Tan. Relational data sharing in peer-based data managementsystems. SIGMODRe .,32(3):5964,2003.
14. P.Rodríguez-Gianolli,A.Kementsietsidis,M.Garzetti,I.Kiringa,L.Jiang,M. Ma-sud,R.J.Miller,andJ.Mylopoulos. Datasharinginthehyperionpeerdatabase system. InVLDB '05 : Pro eedings of the31st international onferen e on Very largedatabases,pages12911294.VLDBEndowment,2005.
rization. InVLDB,pages733744,2005.
17. M. Steinba h,G.Karypis,and V.Kumar. A omparison ofdo ument lustering te hniques.InPro .ofTextMiningWorkshop,SIGKDD,2000.
18. D.TsoumakosandN.Roussopoulos. Adaptiveprobabilisti sear hforpeer-to-peer networks. InP2P'03: Pro eedings of the3rd InternationalConferen e on Peer-to-PeerComputing,pages102109,Washington,DC,USA,2003.IEEEComputer So iety.
19. D. TsoumakosandN.Roussopoulos. Analysisand omparisonofp2psear h me-thods.InInfoS ale'06:Pro eedingsofthe1stinternational onferen eonS alable informationsystems, page25,NewYork,NY,USA,2006. ACM.
20. A.Ventresque,S.Cazalens,P.Lamarre,andP.Valduriez. Improving interoperabi-lityusing queryinterpretationinsemanti ve torspa es. InESWC'08,European Semanti WebConferen e, pages 539553, 2008. nominee for best paper award (4/51a eptedpapers).
21. W.Woods. Con eptualindexing:Abetterwaytoorganizeknowledge. Te hni al report,SunMi rosystemsLaboratories,April1997.
22. B. Yang and H. Gar ia-Molina. Improving sear h in peer-to-peer networks. In ICDCS '02 : Pro eedings of the 22 nd International Conferen e on Distributed ComputingSystems(ICDCS'02),page5,Washington,DC,USA,2002.IEEE Com-puterSo iety.