• Aucun résultat trouvé

État de l’art sur les mesures de similarité

Chapitre II Classification structurelle des documents multimédias : état de l’art

II. Mesure de similarité

II.2. État de l’art sur les mesures de similarité

L’évaluation de la proximité de deux objets est un problème qui a motivé de nombreux travaux et dans des domaines variés que ce soit en reconnaissance des formes, en vision assistée par ordinateur, en analyse des données, en recherche d’information, en classification des objets, etc. De nombreuses mesures ont été proposées pour des objectifs applicatifs et des contextes variés. En comparaison d’images [Sorlin S. et al., 2006], en recherche d’images [Smeulders A.W. et al., 2000], en biologie [Steichen O. et al., 2006] et [Lord P et al., 2003], pour comparer des objets de conception assistée par ordinateur [Champin P.A. et Solnon C., 2003], etc. Dans [Champclaux Y., 2009], il existe quatre modèles de similarité : (1) les modèles basés sur les caractéristiques, la comparaison de deux objets représentés par deux ensembles (leurs caractéristiques) revient à comparer ces deux ensembles, (2) les modèles géométriques, (3) les modèles à alignement structurel, (4) les modèles basés sur la notion de distance transformationnelle : la similarité entre deux objets est fonction du nombre d’opérations nécessaires pour transformer la structure de l’un des objets en la structure de l’autre.

Les modèles à alignement structurel ont été abordés dans les travaux de [Gentner D., 1983] et [Holyok K.J. et Tagard, 1989]. Plusieurs travaux ont utilisé l’alignement structurel pour comparer des objets. Dans ce contexte, nous citons entre autres [Bassok M. et al., 1997] pour la comparaison des phrases, [Mbarki M., 2008], [Aitelhadj A. et al., 2009] pour comparer les structures documentaires représentées à l’aide des arbres, [Djemal K., 2010] pour comparer les graphes représentant les structures multiples des documents multimédia, [Sorlin S. et al., 2006], [Demirci M.F. et al. 2006] pour comparer les images représentés à l’aide des graphes, etc.

Avant de citer quelques mesures de distance ou de similarité issues de l’état de l’art, nous énonçons d’abord ce que c’est qu’une distance au sens mathématique.

II.2.1. La notion mathématique de distance

Une distance métrique d sur un ensemble E est une application de E x E vers R+ telle que :

(1)  x,y E ; d(x,y) = 0 x = y séparation (2)  x,y E ; d(x,y) = d(y,x) symétrie

(3)  x,y,z  E ; d(x,z)< = d(x,y)+d(y,z) inégalité triangulaire

La distance dans un espace vectoriel

Soit E un espace vectoriel muni d’une base orthonormée, une distance d sur E est définie à partir de la norme vectorielle comme suit :

Ali Idarrou

-61-

En particulier si E = Rn alors  (x,y) E x E, x et y peuvent être écrits respectivement par : x = (x1,x2,..xn) et y = (y1,y2,…yn).

Dans les sections suivantes, nous présentons les mesures de distance ou de similarité standards les plus connues dans la littérature.

II.2.1.1. La distance de Minkowski

La distance de Minkowski entre x et y est définie par :

  1 1 ( , ) ( ) n p p i i i d x y x y  

p est un paramètre réel (positif) qui dépend de l’application de cette distance. La distance de Minkowski est générique dans le sens où d’autres distances sont des cas particuliers de celle-ci.

II.2.1.2. La distance de Manhattan

La distance de Manhattan entre x et y est définie par :

  n i=1 2 ( , ) | i i| d x y

xy

Cette distance peut être vue comme un cas particulier de la distance de Minkowski (cas où p=1).

II.2.1.3. La distance euclidienne

La distance euclidienne entre x et y est définie par :

  2 1 3 ( , ) ( , ) n i i i d x y x y  

La distance euclidienne peut être vue comme un cas particulier de la distance de Minkowski (cas où p=2).

Exemple

Soient les documents d1=document numérique, d2=document multimédia numérique, d3=

document.

Le lexique de ces documents est L= {document, multimédia, numérique}. Le vecteur v1, v2

et v3 représentant respectivement d1, d2 et d3 sont v1 (1, 0,1), v2 (1, 1,1) et v3 (1, 0,0).

- En utilisant la distance euclidienne on obtient : d (v1, v2)=1 et d (v2, v3)=1,4142.

- En utilisant la distance Manhattan on obtient : d (v1, v2)=1 et d (v2, v3)=2.

Ali Idarrou

-62-

II.2.2.

Mesure de similarité ou de dissimilarité

Parmi les mesures standards, les plus connues, nous citons le coefficient de Jaccard, celui de Dice et la mesure Cosinus.

- Le coefficient de Jaccard

L’indice ou coefficient de Jaccard (1901) est défini par :

 4 | | | | | | X Y Jaccard(X,Y) X Y X Y     

Dans l’exemple de la section II.2.1.3 page 61, Jaccard (d1. d2)=0.67, Jaccard (d1. d3)=0.5

Dans la littérature, la mesure de Jaccard a été utilisée sous plusieurs variantes [5].

 5 | | ( , ) | | X Y Jaccard X Y X Y    - Le coefficient de Dice

Le coefficient de Dice (1945) est défini par :

 6 2* | | ( , ) | | X Y Dice X Y X Y   

Le coefficient de Dice est dérivé du coefficient de Jaccard en donnant plus d’importance aux éléments partagés (deux fois plus). Il est lié au coefficient de Jaccard par la relation suivante :  7 ( , ) ( , ) 2 ( , ) Dice X Y Jaccard X Y Dice X Y  

Dans l’exemple de la section II.2.1.3 page 61, Dice(d1. d2)=0.75, Dice (d1. d3)=0.66

Les mesures de Jaccard et de Dice ont été initialement construites pour des analyses écologiques.

- La mesure Cosinus

Pour évaluer la similarité entre deux entités représentées par X et Y, on pourra utiliser la mesure Cosinus :  8 | | ( , ) | | . | | X Y Cosinus X Y X Y  

La mesure de Cosinus a été utilisée sous plusieurs formats, par exemple :

 9 . ( , ) || || . || || u v Cosinus X Y u v

Ali Idarrou

-63-

où u (resp. v) le vecteur représentant la première entité (resp. la deuxième entité) et u.v est le produit scalaire de u et v.

Dans l’exemple de la section II.2.1.3 page 61, Cosinus(v1, v2)=0.81 et Cosinus(v1, v3)=0.70.

Issue de l’algèbre linéaire, la mesure de Cosinus a été utilisée dans plusieurs travaux notamment en recherche d’information.

Dans la section suivante, nous évoquons quelques mesures de distance ou de similarité qui ont été utilisées en comparaison des graphes.

- Distance d’édition de graphes

La distance d’édition sur les graphes est une extension de la distance d’édition sur les chaînes de caractères de [Levenshtein V., 1966].

La distance d’édition entre deux graphes permet d’évaluer le degré d’isomorphisme, entre ces deux graphes. Elle repose sur le coût minimal pour transformer un graphe en un autre. Pour cette transformation, on dispose de quelques opérations élémentaires : l’insertion, la suppression et le ré-étiquetage de nœuds et d’arcs, etc. Un coût est associé à chacune de ces opérations et le coût de la transformation est la somme des coûts des opérations élémentaires. La distance entre ces graphes est déterminée par la séquence qui nécessite le moindre coût. Il est donc évident que plus cette distance est grande et plus les graphes sont distants. Cependant, trouver cette séquence est un problème combinatoire et donc la recherche des valeurs pour le moindre coût est non triviale. Dans [Bunke H., 1999], la fonction de coût est très importante pour calculer la distance d’édition entre deux graphes mais le choix d’une telle fonction est parfois très difficile.

Figure II.12 - Transformation d’un graphe en un autre : distance d’édition

Dans cet exemple (figure II.12), pour transformer G en G’, on doit faire les transformations suivantes :

- renommer un nœud de G (D devient C), - insérer un nœud (le nœud E) dans G,

- insérer une arête et son étiquette dans G.

Pour évaluer la proximité de deux graphes, [Kriegel H.P. et al., 2003] proposent une fonction de coût de mise en correspondance des arcs de ces graphesqui permet de calculer la distance entre deux graphes par la recherche du coût minimal pour maximiser le nombre d’arcs mis en correspondance. Dans leurs travaux de classification de documents, les auteurs de [Dalamagas T. et al., 2004] et de [Dalamagas T. et al., 2006] ont utilisé la distance d’édition sur des résumés d’arbres.

Ali Idarrou

-64-

- Similarité basée sur le plus grand sous-graphe commun

Le plus grand sous-graphe commun de deux graphes permet de déterminer les points communs entre ces deux graphes. Par conséquent, plus le nombre de points communs des deux graphes est grand plus les deux graphes se ressemblent. Deux graphes sont alors jugés d’autant plus similaires que leur intersection est grande [Lin D., 1998] et [Tversky A., 1977]. Dans [Bunke H., 1997], il a été démontré que le plus grand sous-graphe commun et la distance d’édition entre graphes donnent des résultats équivalents. Bunke a proposé la relation suivante, entre la distance d’édition et le plus grand sous-graphe commun (mcs : maximal common subgraph) :

 

10

( , ') | | | ' | 2 | ( , ') |

d G GGGmcs G G

La mesure de similarité basée sur le plus grand sous-graphe commun (mcs) a été proposée dans les travaux de [Bunke H. et Shearer, 1998] :

 11 | ( , ') | ( , ') (| |,| ' |) mcs mcs G G Sim G G Max G G

où |mcs(G,G’)|, | G | et | G’| sont respectivement la taille de mcs, G et G’.

Dans les travaux de [Yan X. et al., 2005] et [Shang H. et al., 2010], le sous-graphe commun maximal a été utilisé pour calculer la similarité entre graphes. La similarité basée sur la recherche d’un plus grand sous-graphe commun est plus flexible. L’appariement recherché détermine les parties communes (les parties appariées : ensemble de nœuds et d’arêtes) des graphes comparés.

II.3. Conclusion

Dans la littérature, plusieurs travaux ont introduit (ou utilisé) une mesure de distance ou de similarité pour évaluer la proximité entre objets représentés à l’aide des graphes. Cependant, dans un processus de comparaison de deux graphes, les mesures de similarité ou de distance, ne sont pas définies dans les mêmes contextes ce qui impose, à chaque fois, des contraintes sur l’appariement recherché entre les graphes. Ces contraintes dépendent du problème à résoudre, du domaine d’application, des modèles utilisés pour représenter les objets etc. Il faut donc trouver à chaque fois un compromis entre l’objectif et le comportement effectif de la mesure définie. Par conséquent, il est difficile de comparer et d’appréhender les résultats de nombreux travaux qui ont abordé ce sujet.

Dans [Atteneave F., 1950] et [Thibaut J.P., 1997], la distance de Manhattan est utilisée pour comparer des attributs psychologiquement et/ou physiologiquement séparables. Selon [Gardenfors P., 2000], la distance euclidienne est le meilleur choix pour comparer deux attributs liés. Les mesures de similarité de Jaccard, de Dice et de Cosinus sont largement utilisées dans le domaine de la recherche d’information. En revanche, les auteurs de [Witten I.H. et al., 1999] préconisent l’utilisation de la mesure de Cosinus, en recherche d’information, au lieu de la distance de Minkowski car celle-ci est plus appropriée pour la manipulation des vecteurs pondérés.

Les auteurs de [Hummel J.E., 2000] et [HummelJ.E., 2001] ont montré que les modèles géométriques et les modèles basés sur les attributs ne permettent pas la comparaison des objets structurés. Les modèles à alignement structurel permettent de comparer des

Ali Idarrou

-65-

représentations complexes et des structures hiérarchiques. Ils permettent de prendre en compte, non seulement les correspondances entre composants de ces structures mais aussi les ressemblances dans les relations entre ces composants [champclaux Y., 2009].

Le calcul d’une distance, en utilisant le modèle vectoriel, ne pose aucun problème à part le choix de la mesure [Bärecke T., 2009]. En revanche, pour les modèles à alignement structurel, on doit souvent définir une métrique entre les structures dont le temps de calcul est généralement élevé et qui croit avec la taille des structures manipulées.

Avant d’aborder la classification documentaire, nous faisons un bref tour d’horizon sur la théorie de la classification en général.