Matching des sch´ emas avec incertitude - Modélisation sémantique du cloud computing : vers une

Dans un système d’intégration de données, la phase de matching est celle où l’in-certitude est souvent générée. Celle-ci permet de définir des mappings incertains entre les schémas des sources de données (i.e., plusieurs mappings alternatifs). L’incertitude des mappings peut être représentée à l’aide de deux méthodes : méthode quantitative et méthode qualitative. Dans l’approche quantitative, chaque mapping possible a une pro-babilité qui définit son degré de certitude ; Les méthodes qualitatives utilisent la logique floue et la théorie des possibilités afin de représenter les préférences de l’exactitude des mappings.

Magnani et al. [73] proposent une méthode pour la gestion de l’incertitude entre les schémas. Dans ce travail, les correspondances entre les schémas sont définies de fa¸con globale à l’aide de six relations sémantiques (e.g., equivalence ≡ , subset-subsumption ⊂, superset-subsumption ⊃, intersection ∩, disjointness ⊕, incompatibility , etc). Plus précisément, le résultat du processus de matching définit l’ensemble des mappings possibles qui peuvent être existés entre les relations plutôt qu’entre les attributs. Magnani et al. [73] suggèrent que l’indication d’une probabilité exacte pour chaque mapping possible est une tâche difficile. Par conséquent, ils introduisent la notion de l’Intervalle de Probabilité, tel que chaque mapping possible est associée à un intervalle [L, U ] qui décrit sa probabilité minimale L, et sa probabilité maximale U .

Nottelmann et al. [85,86] proposent une extension probabiliste pour le modèle Datalog (Probabilistic Datalog, ou pDatalog) dans le but d’encoder les mappings incertains entre les schémas de sources de données. A la différence de l’approche précédente dans laquelle les mappings possibles sont définis entre les relations, dans le travail de Nottelmann et al. [85, 86], les mappings sont définis au niveau des attributs. De plus, ces mappings sont de type 104 2. SYST ÈMES D’INT ÉGRATION DE DONN ÉES INCERTAINS

binaire¹ (i.e., similaire , non similaire). Dans le modèle pDatalog, un mapping possible est décrit par une règle : α S1(a)←−S2(b), où α est la probabilité pour que l’attribut a dans le schéma S₁ soit similaire à l’attribut b dans le schéma S₂. La probabilité de chaque règle est calculée en agrégeant les résultats obtenus par un ensemble de classificateurs. Deux catégories de classificateurs sont utilisées : classificateurs à base de schéma (e.g., noms et types des attributs ), et classificateurs à base de contenu (e.g., KNN, naive bayes, KL-distance).

Les auteurs dans [32] introduisent un framwork générique qui permet la génération des Top-k mappings en se basant sur un ensemble de systèmes de matching. Les similarités entre les attributs sont calculées par cet ensemble de systèmes de matching, et combinées pour générer le classement final. Par exemple, un ensemble de systèmes de matching peut impliquer des techniques de similarité à base de domaine, à base de nom, etc. Chaque système de matching utilise une fonction d’agrégation locale (e.g., moyenne) pour générer la mesure de similarité des schémas à partir des mesures de similarité des attributs. La génération des Top-k mappings est réalisée de fa¸con générique en utilisant les mesures de similarité obtenues. Le travail dans [32] support plusieurs algorithmes pour la génération des meilleurs mappings, à savoir : Threshold [38], Matrix-Direct (une simple extension de l’algorithme COMA [31]), CrossThreshold (une solution hybride des deux derniers algorithmes).

Dong et al. [33, 34] proposent une première analyse formelle des mappings incertains. Dans leur travail, les correspondances entre un schéma médiateur T et un des schémas sources S sont représentées par un mapping probabiliste P M :(T , S, m), où m :{(m1, P r(m₁)), (m₂, P r(m₂)),. . . , (m_n, P r(m_n))} est l’ensemble des mappings possibles. Chaque mapping possible miest associé à une probabilité P r(mi), i.e., P M définit une distribution de probabilité sur l’ensemble des mappings possibles. La somme des probabilités de tous les mappings possibles est égale à 1. Les mappings probabilistes peuvent être interprétés de deux manières : by-table, et by-tuple. Dans l’interprétation by-table, un seul mapping dans P M est correcte, et il est appliqué sur tous les tuples dans S. En revanche, dans l’interprétation by-tuple, plusieurs mappings sont partiellement correctes, et chacun est approprié pour un sous-ensemble de tuples dans S, par conséquent il n’est pas possible de 1. La plupart des travaux utilisent ce type de relation pour représenter les mappings entre les schémas

sp´ecifier pour tout tuple le mapping le plus convenable.

D’après Dong et al. [33,34], le nombre des mappings possibles peut être très large voire exponentiel, surtout dans le cas où le mapping probabiliste correspondant est interprété par la sémantique by-tuple. Dans ce sens, ils proposent trois représentations permettant de réduire considérablement la taille des mappings probabilistes. La première représentation permet de partitionner l’ensemble de tous les attributs (i.e., les attributs dans T et S) en groupes, et ensuite les mappings possibles sont spécifiés pour chaque groupe séparément. La deuxième représentation permet de représenter un mapping probabiliste par les pro-babilités marginales des correspondances entre les attributs. La dernière représentation consiste à décrire les mappings probabilistes via les réseaux bayésiens (ou graphe proba-biliste orienté). Ces réseaux bayésiens permet de réduire la complexité de stockage des mappings possibles de O(2ⁿ) à O(n).

Une approche intéressante [27, 105] a été proposée pour adresser le problème de la génération des mappings probabilistes dans les systèmes d’intégration de données automa-tiques (i.e., une intégration à la demande). La première étape consiste à calculer l’ensemble des correspondances pondérées CP entre les attributs du schéma médiateur T et les attri-buts du schéma source S. Une correspondance pondérée CPij ∈ CP définit une similarité agrégée entre le i -ème attribut dans T et le j -ème attributs dans S. Plus précisément, CP_ij= " l X k=1 sim_k(a_i, b_j) #

/l, où sim_k est la k -éme méthode de matching utilisée pour

cal-culer le degré de similarité entre aiet bj. La deuxième étape permet de générer le mapping probabiliste P M en se basant sur l’ensemble des correspondances pondérées CP . Cepen-dant, plusieurs mappings probabilistes peuvent être consistants avec le même ensemble des correspondances pondérées CP . Pour résoudre ce problème, Sarma et al. [27, 105] utilise l’Entropie de Shannon pour choisir le meilleur mapping probabiliste parmi ceux qui sont consistants avec CP . Le meilleur mapping probabiliste est celui dont la distribution de probabilité maximise l’Entropie de Shannon, i.e., maximise la valeur de Pn

j=1 −p_ij* log pij, o`u {pi1, pi2,. . . , pin} sont les probabilit´es des mappings possibles.

Une autre fa¸con pour représenter les mappings incertains est d’utiliser les ensembles flous pour formaliser les similarités entre les attributs [43, 44], tel que les relations entre deux schémas S₁ et S₂ sont définies par une fonction µ : S₁ × S₂ −→ [0,1].

Dans le document Modélisation sémantique du cloud computing : vers une composition de services DaaS à sémantique incertaine (Page 119-122)