• Aucun résultat trouvé

Dans un syst`eme d’int´egration de donn´ees, la phase de matching est celle o`u l’in-certitude est souvent g´en´er´ee. Celle-ci permet de d´efinir des mappings incertains entre les sch´emas des sources de donn´ees (i.e., plusieurs mappings alternatifs). L’incertitude des mappings peut ˆetre repr´esent´ee `a l’aide de deux m´ethodes : m´ethode quantitative et m´ethode qualitative. Dans l’approche quantitative, chaque mapping possible a une pro-babilit´e qui d´efinit son degr´e de certitude ; Les m´ethodes qualitatives utilisent la logique floue et la th´eorie des possibilit´es afin de repr´esenter les pr´ef´erences de l’exactitude des mappings.

Magnani et al. [73] proposent une m´ethode pour la gestion de l’incertitude entre les sch´emas. Dans ce travail, les correspondances entre les sch´emas sont d´efinies de fa¸con globale `a l’aide de six relations s´emantiques (e.g., equivalence ≡ , subset-subsumption ⊂, superset-subsumption ⊃, intersection ∩, disjointness ⊕, incompatibility , etc). Plus pr´ecis´ement, le r´esultat du processus de matching d´efinit l’ensemble des mappings possibles qui peuvent ˆetre exist´es entre les relations plutˆot qu’entre les attributs. Magnani et al. [73] sugg`erent que l’indication d’une probabilit´e exacte pour chaque mapping possible est une tˆache difficile. Par cons´equent, ils introduisent la notion de l’Intervalle de Probabilit´e, tel que chaque mapping possible est associ´ee `a un intervalle [L, U ] qui d´ecrit sa probabilit´e minimale L, et sa probabilit´e maximale U .

Nottelmann et al. [85,86] proposent une extension probabiliste pour le mod`ele Datalog (Probabilistic Datalog, ou pDatalog) dans le but d’encoder les mappings incertains entre les sch´emas de sources de donn´ees. A la diff´erence de l’approche pr´ec´edente dans laquelle les mappings possibles sont d´efinis entre les relations, dans le travail de Nottelmann et al. [85, 86], les mappings sont d´efinis au niveau des attributs. De plus, ces mappings sont de type 104 2. SYST `EMES D’INT ´EGRATION DE DONN ´EES INCERTAINS

binaire1 (i.e., similaire , non similaire). Dans le mod`ele pDatalog, un mapping possible est d´ecrit par une r`egle : α S1(a)←−S2(b), o`u α est la probabilit´e pour que l’attribut a dans le sch´ema S1 soit similaire `a l’attribut b dans le sch´ema S2. La probabilit´e de chaque r`egle est calcul´ee en agr´egeant les r´esultats obtenus par un ensemble de classificateurs. Deux cat´egories de classificateurs sont utilis´ees : classificateurs `a base de sch´ema (e.g., noms et types des attributs ), et classificateurs `a base de contenu (e.g., KNN, naive bayes, KL-distance).

Les auteurs dans [32] introduisent un framwork g´en´erique qui permet la g´en´eration des Top-k mappings en se basant sur un ensemble de syst`emes de matching. Les similarit´es entre les attributs sont calcul´ees par cet ensemble de syst`emes de matching, et combin´ees pour g´en´erer le classement final. Par exemple, un ensemble de syst`emes de matching peut impliquer des techniques de similarit´e `a base de domaine, `a base de nom, etc. Chaque syst`eme de matching utilise une fonction d’agr´egation locale (e.g., moyenne) pour g´en´erer la mesure de similarit´e des sch´emas `a partir des mesures de similarit´e des attributs. La g´en´eration des Top-k mappings est r´ealis´ee de fa¸con g´en´erique en utilisant les mesures de similarit´e obtenues. Le travail dans [32] support plusieurs algorithmes pour la g´en´eration des meilleurs mappings, `a savoir : Threshold [38], Matrix-Direct (une simple extension de l’algorithme COMA [31]), CrossThreshold (une solution hybride des deux derniers algorithmes).

Dong et al. [33, 34] proposent une premi`ere analyse formelle des mappings incertains. Dans leur travail, les correspondances entre un sch´ema m´ediateur T et un des sch´emas sources S sont repr´esent´ees par un mapping probabiliste P M :(T , S, m), o`u m :{(m1, P r(m1)), (m2, P r(m2)),. . . , (mn, P r(mn))} est l’ensemble des mappings possibles. Chaque mapping possible miest associ´e `a une probabilit´e P r(mi), i.e., P M d´efinit une distribution de probabilit´e sur l’ensemble des mappings possibles. La somme des probabilit´es de tous les mappings possibles est ´egale `a 1. Les mappings probabilistes peuvent ˆetre interpr´et´es de deux mani`eres : by-table, et by-tuple. Dans l’interpr´etation by-table, un seul mapping dans P M est correcte, et il est appliqu´e sur tous les tuples dans S. En revanche, dans l’interpr´etation by-tuple, plusieurs mappings sont partiellement correctes, et chacun est appropri´e pour un sous-ensemble de tuples dans S, par cons´equent il n’est pas possible de 1. La plupart des travaux utilisent ce type de relation pour repr´esenter les mappings entre les sch´emas

sp´ecifier pour tout tuple le mapping le plus convenable.

D’apr`es Dong et al. [33,34], le nombre des mappings possibles peut ˆetre tr`es large voire exponentiel, surtout dans le cas o`u le mapping probabiliste correspondant est interpr´et´e par la s´emantique by-tuple. Dans ce sens, ils proposent trois repr´esentations permettant de r´eduire consid´erablement la taille des mappings probabilistes. La premi`ere repr´esentation permet de partitionner l’ensemble de tous les attributs (i.e., les attributs dans T et S) en groupes, et ensuite les mappings possibles sont sp´ecifi´es pour chaque groupe s´epar´ement. La deuxi`eme repr´esentation permet de repr´esenter un mapping probabiliste par les pro-babilit´es marginales des correspondances entre les attributs. La derni`ere repr´esentation consiste `a d´ecrire les mappings probabilistes via les r´eseaux bay´esiens (ou graphe proba-biliste orient´e). Ces r´eseaux bay´esiens permet de r´eduire la complexit´e de stockage des mappings possibles de O(2n) `a O(n).

Une approche int´eressante [27, 105] a ´et´e propos´ee pour adresser le probl`eme de la g´en´eration des mappings probabilistes dans les syst`emes d’int´egration de donn´ees automa-tiques (i.e., une int´egration `a la demande). La premi`ere ´etape consiste `a calculer l’ensemble des correspondances pond´er´ees CP entre les attributs du sch´ema m´ediateur T et les attri-buts du sch´ema source S. Une correspondance pond´er´ee CPij ∈ CP d´efinit une similarit´e agr´eg´ee entre le i -`eme attribut dans T et le j -`eme attributs dans S. Plus pr´ecis´ement, CPij= " l X k=1 simk(ai, bj) #

/l, o`u simk est la k -´eme m´ethode de matching utilis´ee pour

cal-culer le degr´e de similarit´e entre aiet bj. La deuxi`eme ´etape permet de g´en´erer le mapping probabiliste P M en se basant sur l’ensemble des correspondances pond´er´ees CP . Cepen-dant, plusieurs mappings probabilistes peuvent ˆetre consistants avec le mˆeme ensemble des correspondances pond´er´ees CP . Pour r´esoudre ce probl`eme, Sarma et al. [27, 105] utilise l’Entropie de Shannon pour choisir le meilleur mapping probabiliste parmi ceux qui sont consistants avec CP . Le meilleur mapping probabiliste est celui dont la distribution de probabilit´e maximise l’Entropie de Shannon, i.e., maximise la valeur de Pn

j=1 −pij* log pij, o`u {pi1, pi2,. . . , pin} sont les probabilit´es des mappings possibles.

Une autre fa¸con pour repr´esenter les mappings incertains est d’utiliser les ensembles flous pour formaliser les similarit´es entre les attributs [43, 44], tel que les relations entre deux sch´emas S1 et S2 sont d´efinies par une fonction µ : S1 × S2 −→ [0,1].