• Aucun résultat trouvé

2.1 Le problème d’appariement

2.1.2 Les stratégies d’appariement

A chaque étape du processus d’appariement, il peut y avoir différentes stratégies pos- sibles.

Dans l’exécution des techniques d’appariement, nous avons pu cerner d’après [Euzenat et Shvaiko, 2013] et [Rahm, 2011] quatre stratégies d’exécution de techniques d’ap- pariement comme suit :

– La stratégie séquentielle consiste à appliquer successivement différentes techniques d’appariement. Chaque technique dépend des modèles de données et des résultats de la technique qui l’a précédée. La Figure III.5 illustre le principe de cette stratégie.

Figure III.5 — La stratégie de combinaison séquentielle

– La stratégie parallèle consiste à exécuter sur les modèles de données (après pré- traitement) différentes techniques d’appariement, puis agréger les résultats de ces techniques pour obtenir un seul ensemble de correspondances. La Figure III.6 montre le principe de cette stratégie. [Euzenat et Shvaiko, 2013] distinguent deux sous-types de stratégie de composition parallèle : (1) la composition parallèle hétérogène où les modèles d’entrée sont fragmentés, chaque technique prend deux fragments de don- nées de même type puis une agrégation se fait entre les résultats de toutes les tech- niques (2) la composition parallèle homogène où les modèles sont passés en entier à chaque technique puis une agrégation se fait entre ces différents résultats.

Figure III.6 — La stratégie de combinaison parallèle

de la stratégie parallèle puisque à chaque itération le calcul des nouvelles correspon- dances va dépendre du calcul précédant. La Figure III.7 illustre le principe de cette stratégie.

Figure III.7 — La stratégie de combinaison itérative

– La stratégie mixte est un mélange de toutes les autres stratégies dans n’importe quel ordre, tous les cas de figure sont possibles. Par exemple, nous pouvons appliquer une première technique, puis itérer sur une deuxième technique, puis appliquer en paral- lèle d’autres techniques, etc.

Dans la combinaison des résultats de techniques d’appariement, il y a trois stratégies : – La stratégie de pondération dans laquelle des fonctions mathématiques sont utilisées pour combiner les résultats d’agrégation. Ces fonctions peuvent être min, max, pro- duit pondéré, distance de Minkowski, somme pondérée, etc. La plupart de ces fonc- tions dépendent d’un poids qui doit être donné en entrée par l’utilisateur ou déduit par apprentissage.

– La stratégie de vote correspond à une mise en place d’un système de vote entre les résultats des différentes techniques d’appariement. Ces stratégies peuvent être un vote par majorité, un vote par majorité pondérée, etc.

– La stratégie d’argumentation consiste à faire une négociation entre deux ou plusieurs agents où chacun argumente les correspondances qu’il doit défendre. Cette stratégie peut être mise en place par des systèmes multi-agents.

Dans la sélection des correspondances, il y a trois stratégies possibles :

– La stratégie de sélection par seuil consiste à sélectionner les correspondances dont la valeur de similarité n est supérieure à un certain seuil. Il y a différents types de seuil : (1) le seuil strict (Hard threshold) correspond à une valeur donnée x, (2) le seuil delta (Delta threshold) est la différence entre la plus grande valeur de similarité et une valeur donnée x, (3) le seuil d’écart (Gap threshold) retient les correspondances dans l’ordre décroissant de leurs valeurs de similarité jusqu’à ce que la différence entre ces dernières devienne supérieure à une valeur donnée x, (4) le seuil proportionnel

(Porportional threshold) correspond au pourcentage de correspondances ayant la plus grande similarité, (5) le seuil de pourcentage correspond à une sélection de cor- respondances dont la valeur de similarité est au-dessus des x% valeurs de similarité des autres correspondances. Il peut aussi y avoir d’autres techniques statistiques pour l’apprentissage des seuils.

– La stratégie de sélection par "points forts ou faibles" consiste à appliquer une fonction qui s’appelle sigmoid avec un paramètre de pente pour découper les correspondances en zones de fortes et de faibles mesures de similarité. Les correspondances doivent être sélectionnées dans les zones supérieures.

– La stratégie de sélection par résolution du problème de mariage stable ou du pro- blème de couplage de poids maximal. La résolution du problème de mariage stable permet d’extraire des correspondances de telle sorte qu’une entité figure dans au plus une seule correspondance. La résolution de ce problème se fait généralement par des algorithmes gloutons. Le problème de couplage de poids maximal consiste à cher- cher le meilleur ensemble de correspondances maximisant la somme de leurs valeurs de similarité. La résolution de ce problème peut se faire par des algorithmes glou- tons, heuristiques ou par la programmation linéaire. Nous notons que le problème de mariage stable retourne un optimum local et le problème de couplage de poids maxi- mal retourne un optimum global [Euzenat et Shvaiko, 2013]. Un optimum global est la meilleure solution dans l’espace de toutes les solutions possibles alors qu’un opti- mum local est une solution meilleure sur une partie de l’espace des solutions. L’op- timum global est meilleur que l’optimum local et dans certains cas les deux peuvent coïncider. La Figure III.8 montre cette différence d’une façon générale et la Figure III.9 montre un exemple illustrant la différence entre la solution d’un mariage stable et la solution d’un couplage.

Figure III.8 — Solution optimale locale vs solution optimale globale

Nous soulignons que dans la phase de pré-traitement la plupart des approches trans- forment les modèles de données en entrée en un modèle de représentation interne de don- nées [Agreste et al., 2014]. Ce modèle de représentation interne peut être un tableau de termes, un arbre, une forêt, un graphe orienté acyclique, un graphe orienté / non-orienté étiqueté/non-étiqueté.

Après avoir donné un aperçu sur les diverses possibilités qui peuvent être déployées pour la résolution d’un problème d’appariement, nous étudions dans la suite les approches

Figure III.9 — La solution du problème de mariage stable vs la solution du problème de

couplage