• Aucun résultat trouvé

Equivalence topologique entre mesures de proximité.

N/A
N/A
Protected

Academic year: 2022

Partager "Equivalence topologique entre mesures de proximité."

Copied!
13
0
0

Texte intégral

(1)

HAL Id: hal-02939789

https://hal.archives-ouvertes.fr/hal-02939789

Submitted on 15 Sep 2020

HAL

is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire

HAL, est

destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

D.A. Zighed, Rafik Abdesselam, Ahmed Bounekkar

To cite this version:

D.A. Zighed, Rafik Abdesselam, Ahmed Bounekkar. Equivalence topologique entre mesures de prox-

imité.. Revue des Nouvelles Technologies de l’Information, Editions RNTI, 2011. �hal-02939789�

(2)

Djamel Abdelkader Zighed, Rafik Abdesselam∗∗, Ahmed Bounekkar∗∗∗

Laboratoire ERIC, Université Lumière Lyon 2 5 Avenue Pierre Mendès-France, 69676 Bron Cedex, France

abdelkader.zighed@univ-lyon2.fr, http://eric.univ-lyon2.fr/zighed

∗∗rafik.abdesselam@univ-lyon2.fr http://eric.univ-lyon2.fr/rabdesselam/fr/

∗∗∗ahmed.bounekkar@univ-lyon1.fr http://eric.univ-lyon2.fr/

Résumé. Le choix d’une mesure de proximité entre objets a un impact direct sur les résultats de toute opération de classification supervisée ou pas, de comparai- son, d’évaluation ou de structuration d’un ensemble d’objets. Pour un problème donné, l’utilisateur est amené à choisir une parmi les nombreuses mesures de proximité existantes. Or, selon la notion d’équivalence topologique choisie, cer- taines sont plus ou moins équivalentes. Dans cet article, nous proposons une nouvelle approche pour choisir puis comparer les mesures de proximité dans un but de discrimination. A cet effet, nous introduisons un nouveau concept baptisé équivalence topologique. Ce dernier fait appel à la structure de voisinage local.

Nous proposons alors de définir l’équivalence topologique entre deux mesures de proximité à travers la structure topologique induite par chaque mesure. Nous illustrons le principe de ce choix et de cette comparaison sur un exemple simple pour une quinzaine de mesures de proximités de la littérature.

1 Introduction

Comparer des objets, des situations ou des idées sont des tâches essentielles pour identifier quelque chose, évaluer une situation, structurer un ensemble d’éléments matériels ou abstraits etc. En un mot pour comprendre et agir, il faut savoir comparer. Cette comparaison, que le cerveau accomplit naturellement, doit cependant être explicitée si l’on veut la faire accomplir à une machine. Pour cela, on fait appel aux mesures de proximité.

Les mesures de proximité sont caractérisées par des propriétés mathématiques précises.

Sont-elles, pour autant, toutes équivalentes ? Peuvent-elles être utilisées dans la pratique de manière indifférenciée ? Autrement dit, est-ce que, par exemple, la mesure de proximité entre individus plongés dans un espace multidimensionnel commeRp, influence ou pas le résultat des opérations comme la classification en groupes ou la recherche des k-plus-proches voisins ? Cette problématique est importante dans les applications pratiques. Par exemple, pour la recherche d’information dans une base de données ou sur internet. En soumettant une requête à

(3)

un moteur de recherche, de manière rapide, celui-ci nous retourne une liste de réponses classées selon leur degré de pertinence par rapport à la requête. Ce degré de pertinence peut alors être perçu comme une mesure de dissimilarité/similarité entre la requête et les objets disponibles dans la base. Est-ce que la façon dont on mesure la similarité ou la dissimilarité entre objets affecte le résultat d’une requête ? Si oui, comment décider de quelle mesure de similarité ou de dissimilarité il faut se servir. Il en est de même quand dans de nombreux domaines on souhaite réaliser un regroupement des individus en classes. La manière de mesurer la distance impacte directement la composition des groupes obtenus.

Une mesure de proximité peut être définie de manière intuitive, par exemple, comme le fait Lin (1998) et selon les hypothèses retenues ou les axiomes requis, cela débouche sur des mesures ayant des propriétés diverses et variées. Le terme proximité recouvre des significations telles que la similarité, la ressemblance, la dissimilarité, la dissemblance, etc. On trouve dans la littérature des dizaines de mesures différentes, notamment si on prend en compte la diversité des types de données (binaires, quantitatifs, qualitatifs, flou...). Dès lors, le choix de la mesure de proximité reste posé. Certes, le contexte d’application, les connaissances a priori, le type de données etc., peuvent aider à identifier les mesures idoines. Par exemple, si les objets à comparer sont décrits par des vecteurs booléens, on peut se limiter à une catégorie de mesures spécifiquement dédiées. Néanmoins, comment faire quand le nombre de mesures candidates reste grand ? Si toutes les mesures étaient équivalentes, il suffirait d’en prendre une au hasard.

Pour faire face à ce problème de comparaison et de choix entre mesures de proximités , trois approches sont utilisées.

1. Par agrégation de mesures : il s’agit déviter de choisir une mesure particulière. Par exemple, Richter (1992) utilise, sur un même jeu de données, plusieurs mesures de proximité et agrège ensuite, arithmétiquement, les résultats partiels de chacune en une valeur unique. Le résultat final, peut être perçu comme une synthèse des différents points de vues exprimés par chaque mesure de proximité. Cette approche, évite ainsi de traiter la question de la comparaison qui reste cependant un problème en soi.

2. Par évaluation empirique : de nombreux travaux exposent des méthodologies pour com- parer les performances des différentes mesures de proximité. Pour cela il est fait appel soit à des benchmarks comme dans Liu et al. , Strehl et al. (2000) dont les résultats attendus sont connus préalablement, soit à des critères jugés pertinents pour l’utilisateur et qui permettent, in fine, d’identifier la mesure de proximité la plus appropriée. On peut citer quelques travaux dans cette catégorie comme Noreault et al. (1980), Malerba et al.

(2002), Spertus et al. (2005).

3. Par comparaison : l’objectif des travaux qui se situent dans cette catégorie vise à compa- rer les mesures de proximité entre elles. Par exemple, on vérifie si elles ont des propriétés communes Clarke et al. (2006), Lerman (1967) ou si l’une peut s’exprimer en fonction de l’autre Zhang et Srihari (2003), Batagelj et Bren (1995) ou simplement si elles four- nissent le même résultat sur une opération de classification Fagin et al. (2003), etc. Dans ce cas précis, les mesures de proximité peuvent alors être catégorisées selon leur degré de ressemblance. L’utilisateur peut ainsi identifier les mesures qui sont équivalentes de celles qui le sont le moins Lesot et al. (2009), Bouchon-Meunier et al. (1996).

Le travail que nous proposons dans ce papier se situe dans la troisième catégorie qui vise à comparer les mesures de proximité entre elles afin de détecter celles qui sont identiques de

(4)

celles qui le sont moins. Il s’agit en fait de les regrouper en classes selon leurs similitudes. Pour comparer deux mesures de proximité, l’approche consiste, jusque là, à comparer les valeurs des matrices de proximité induites Batagelj et Bren (1995), Bouchon-Meunier et al. (1996), et, le cas échéant, à établir un lien fonctionnel explicite quand les mesures sont équivalentes. Pour comparer deux mesures de proximité, Lerman (1967) s’intéresse aux préordres induits par les deux mesures de proximité et évalue leur degré de ressemblance par la concordance entre les préordres induits sur l’ensemble des couples d’objets. D’autres auteurs, Schneider et Borlund (2007b) évaluent l’équivalence entre deux mesures par un test statistique entre les matrices de proximité. Les indicateurs numériques issus de ces comparaisons croisées servent alors à ca- tégoriser les mesures. L’idée commune à ces travaux de comparaison s’appuie sur un postulat qui dit que deux mesures de proximité sont d’autant plus proches que les préordres induits sur les couples d’objets ne changent pas. On donnera plus loin des définitions plus précises.

Dans ce papier, nous proposons une autre définition. Pour cela, on va s’intéresser à la structure de voisinage des objets que l’on appellera la structure topologique induite par la mesure de proximité. Si la structure de voisinage entre objets, induite par une mesure de proximitéuine change pas par rapport à celle d’une autre mesure de proximitéuj, cela signifie que les res- semblances locales entre individus n’ont pas changées. Dans ce cas, on dira que les mesures de proximitéui etuj sont en équivalence topologique. On pourra ainsi calculer une mesure d’équivalence topologique entre les couples de mesures de proximité et effectuer ensuite une classification sur les mesures de proximité. Nous allons définir cette nouvelle approche et mon- trer les premiers liens que nous avons identifiés entre elle et celle basée sur la préordonnance.

A ce jour, nous n’avons pas trouvé de publications qui abordent le problème sous le même angle que nous. Ce papier est organisé comme suit. Dans la section2, nous allons décrire de manière plus précise le cadre théorique dans lequel nous nous plaçons et nous rappelons les définitions classiques et notamment l’approche basée sur la préordonnance induite. Dans la section3, nous introduisons notre approche d’équivalence topologique. Dans la section4, on effectuera quelques évaluations en comparaison avec les anciennes approches et on tentera de mettre en évidence les liens entre les deux démarches. Les ouvertures qu’offre notre approche seront détaillées en conclusion.

2 Comparaison de mesures de proximité

Une mesure de proximité entre objets peut être définie selon d’une part les propriétés ma- thématiques requises et, d’autre part, l’espace de description des objets à comparer. Dans cet article, nous allons nous restreindre aux mesures de proximité construite surRp. Nous verrons dans la partie conclusion et perspectives que notre approche peut être étendue à n’importe quel type de mesure de proximité, qu’elle soit binaire Batagelj et Bren (1995), Lerman (1967), Warrens (2008), Lesot et al. (2009), floue Zwick et al. (1987), Bouchon-Meunier et al.

(1996), symbolique Malerba et al. (2002), Malerba et al. (2001), etc.

2.1 Les mesures de proximité et leurs propriétés

On considère un échantillon denindividusx, y, . . .plongés dans un espace àpdimensions.

Les individus sont décrits par des variables continues : x = (x1, . . . , xp). Une mesure de proximitéuentre deux points-individusxetydeRpest définie comme suit :

(5)

u:Rp×Rp7−→R (x, y) 7−→ u(x, y) avec les propriétés suivantes,(x, y)∈Rp×Rp:

P1 : u(x, y) =u(y, x) P2 : u(x, x)≥u(x, y) P3 : ∃α∈R u(x, x) =α P2’ : u(x, x)≤u(x, y)

Une mesure de proximité uvérifiant les propriétés P1 et P2 est une mesure de ressem- blance. Si elle vérifie les propriétés P1 et P2’ c’est une mesure de dissemblance. Il est facile de montrer que toute mesure de ressemblancerpeut être transformée en une mesure de dissem- blancedcomme suit :r(x, y) =−d(x, y).

On peut également définir une mesure de proximitéδ:δ(x, y) =u(x, y)−αqui vérifie les propriétés suivantes,(x, y)∈Rp×Rp:

T1 : δ(x, y)≥0 T2 : δ(x, x) = 0 T3 : δ(x, x)≤δ(x, y) Une mesure de proximité qui vérifie les propriétés T1, T2 et T3 est une mesure de dissimi- larité. On peut également citer d’autres propriétés comme :

T4 : δ(x, y) = 0⇒ ∀z∈Rp δ(x, z) =δ(y, z) T5 : δ(x, y) = 0⇒x=y

T6 : δ(x, y)≤δ(x, z) +δ(z, y) T7 : δ(x, y)≤max(δ(x, z), δ(z, y)) T8 : δ(x, y) +δ(z, t)≤max((δ(x, z) +δ(y, t)),(δ(x, t) +δ(y, z)))

On trouve dans Batagelj et Bren (1992) quelques relations entre ces inégalités : T7(Inég. Ultramétrique)⇒ T6(Inég. Triangulaire)⇐ T8(Inég. de Buneman) Une mesure de dissimilarité qui vérifie les propriétés T5 et T6 est une distance.

Il faut souligner le fait que ces propriétés ne sont pas spécifiques aux mesures de proximité construites surRp. Nous donnons en annexe Tableau 1 quelques mesures de proximité clas- siques définies surRp. Il convient de noter, que certaines mesures supposent que les valeursxi

soient toutes positives. C’est ce que nous gardons pour nos expérimentations.

2.2 Comparaison de deux indices de proximité

Il est facile de constater que sur un même jeu de données, deux mesures de proximitéuiet ujconduisent généralement à des matrices de proximité différentes. Peut-on dire que ces deux mesures de proximité sont différentes ? De nombreux articles ont été consacré à cette question.

On peut trouver dans Lerman (1967) une proposition qui consiste à dire que deux mesures de promiximitéuietujsont équivalentes dès lors que le préordre induit par chacune des mesures sur tous les couples d’objets sont identiques. d’où la définition suivante.

Equivalence en préordonnance Soient n objetsx, y, z...deRpquelconques et deux mesures de proximitéuietujsur ces objets. Si pour tout quadruplé(x, y, z, t), on a :

ui(x, y)≤ui(z, t)⇒uj(x, y)≤uj(z, t) alors les deux mesuresuietujsont consi- dérées comme équivalentes.

Cette définition a été ensuite reprise dans de nombreux papiers Batagelj et Bren (1995), Bouchon-Meunier et al. (1996), Lesot et al. (2009) et Schneider et Borlund (2007a) mais ce dernier, ne cite pas Lerman (1967). Cette définition débouche sur un théorème intéressant dont on peut trouver la démonstration dans Batagelj et Bren (1995).

(6)

Théorème 1 Soient deux mesures de proximitéuietuj, s’il existe une fonctionf strictement monotone telle que pour tout couple d’objets(x, y)on aui(x, y) = f(uj(x, y))alors uietuj induisent des préordres identiques et par conséquent, elles sont équivalentes : ui≡uj. La réciproque étant également vraie, i.e. deux mesures de proximité dont l’une est fonction de l’autre induisent le même préordre et sont, par conséquent, équivalentes.

On peut alors proposer d’utiliser un indice de discordance entre préordres induits comme mesure de proximité entre deux mesuresuietuj. A cet effet, on peut, à l’instar de Rifqi et al.

(2003) utiliser le tau de Kendall généralisé qui repose sur la mesure de concordance des rangs.

Les rangs desn(n−1)paires de valeurs de proximité entrexetyselonuisont comparés à ceux selonuj. On noteRi(x, y)etRj(x, y)les rangs respectifs deui(x, y)etuj(x, y).

Kui,uj =n(n21)

x

y̸=xδij(x, y) avec δij=

{ 0 si Ri(x, y) =Rj(x, y) 1 sinon

Cette définition montre ainsi que l’équivalence ne repose pas sur les valeurs numériques des deux matrices mais sur les préordres induits sur les couples de points. La comparaison entre indices de proximité a été étudiée par Schneider et Borlund (2007a,b) sous un angle statistique.

Les auteurs proposent une approche empirique qui vise à comparer les matrices de proximité obtenues par chaque mesure de proximité sur les couples d’objets. Ils proposent ensuite de tes- ter si les matrices sont statistiquement différentes ou pas en utilisant le test de Mantel, Mantel (1967). Le critère utilisé par ces auteurs est le coefficient des rangs de Spearman :

ρs= 16∑

x

y̸=x(Ri(x, y)−Rj(x, y))2 n(n21)

Les mêmes auteurs proposent de traiter la comparaison des préordre induits par les mesures de proximité dans le cadre de l’analyse de Procruste. Ces techniques visant à comparer direc- tement des matrices de proximité ont été développées pour des domaines appliqués comme l’écologie, les sciences sociales, la géographie, la psychologie et l’anthropologie. Dans ce tra- vail, nous ne discutons pas du choix de la mesure de comparaison des matrices de proximité.

Nous nous contentons d’utiliser l’expression présentée plus haut. Nous re-précisons que notre objectif n’est pas de comparer des matrices de proximité ni les préordres induits mais de pro- poser une autre notion qui est l’équivalence topologique que nous comparons à l’équivalence préordinale en essayant d’identifier les liens entre les deux approches.

3 Equivalence topologique

L’équivalence topologique repose en fait sur la notion de graphe topologique que l’on dé- signe également sous le nom de graphe de voisinage. L’idée de base est en fait assez simple : deux mesures de proximité sont équivalentes si les graphes topologiques induits sur l’ensemble des objets restent identiques. Mesurer la ressemblance entre mesures de proximité revient à comparer les graphes de voisinage et à mesurer leur ressemblance. Nous allons tout d’abord définir de manière plus précise ce qu’est un graphe topologique et comment le construire. Nous proposons ensuite une mesure de proximité entre graphes topologiques qui servira à comparer les mesures de proximité dans la section d’après.

(7)

3.1 Graphe topologique

Sur un ensemble de pointx, y, z, . . .deRp, on peut, au moyen d’une mesure de proximité uidéfinir une relation de voisinageVuqui sera une relation binaire surE×E. Pour simplifier la compréhension mais sans nuire à la généralité du propos, considérons un ensemble d’objet E = {x, y, z, . . .}den = |E|objets plongés dansRp. Il existe de nombreuses possibilités pour construire une relation binaire de voisinage.

Par exemple, on peut construire l’arbre de longueur minimale sur(E×E)et dire que deux objetsxetyvérifient la propriété de voisinage selon l’Arbre de Longueur Minimale (ALM), Kim et Lee (2003), s’ils sont reliés par une arête directe. Dans ce cas,Vu(x, y) = 1sinon Vu(x, y) = 0. OùVuest la matrice d’adjacence associée au graphe ALM, formée de0et de1.

On peut utiliser de nombreuses définitions pour construire la relation binaire de voisinage.

Par exemple, on peut recourir aux Graphes des Voisins Relatifs (GVR), Toussaint (1980); Pre- parata et Shamos (1985), dont tous les couples de points voisins vérifient la propriété suivante :

uE(x, y)max(uE(x, z), uE(y, z)) ; ∀z∈E− {x, y}

ce qui signifie, sur le plan géométrique, que l’hyper-Lunule (intersection des deux hyper- sphères centrées sur les deux points) est vide. La figure 1 montre un résultat dansR2. Dans ce cas,uE(x, y) =√∑p

i=1(xi−yi)2est la distance euclidienne.













. . . x y z t u . . . ... ... ... ... ... ... ... . . . x . . . 1 1 0 0 0 . . . y . . . 1 1 1 1 0 . . . z . . . 0 1 1 0 1 . . . t . . . 0 1 0 1 0 . . . u . . . 0 0 1 0 1 . . . ... ... ... ... ... ... ... . . .













FIG. 1 – Exemple de GVR pour un ensemble de points dansR2 et la matrice d’adjacence associée.

De manière analogue, on peut utiliser le Graphe de Gabriel (GG), Park et al. (2006), dont tous les couples de points vérifient :

uE(x, y)≤min(

u2E(x, z) +u2E(y, z)) ; ∀z∈E− {x, y}

Autrement dit, l’hypersphère de diamètreuE(x, y)est vide. Ce qui donnerait, sur l’exemple dansR2, le graphe de voisinage de la figure 2.

(8)













. . . x y z t u . . . ... ... ... ... ... ... ... . . . x . . . 1 1 0 1 0 . . . y . . . 1 1 1 1 0 . . . z . . . 0 1 1 1 1 . . . t . . . 1 1 1 1 0 . . . u . . . 0 0 1 0 1 . . . ... ... ... ... ... ... ... . . .













FIG. 2 – Exemple de GG pour un ensemble de points dansR2 et la matrice d’adjacence associée.

3.2 Proximité entre graphes topologiques

Pour fixer les idées, considérons deux mesures de proximitéui etuj prises parmi celles que nous avons recensées en annexe tableau 1. Prenons par exemple, la distance euclidienne uE(x, y)et la distance de MahalanobisuM ah(x, y), et soientDE(E×E)etDM ah(E×E) les tableaux des distances associés.

Pour une propriété de voisinage donnée, chacune de ces deux distances engendre une struc- ture topologique sur les objetsE. Une telle structure est parfaitement décrite par sa matrice d’adjacence. On noteraVEetVM ahles deux matrices d’adjacence associées aux deux struc- tures toplogiques. Pour mesurer le degré de ressemblance entre graphes, il suffit de compter le nombre de discordances entre les deux matrices d’adjacence. La matrice étant symétrique, on peut alors calculer cette quantité par :

D(VE, VM ah) =

n i=1

n j=1δij

N2 avec δij=

{ 0 si VE(i, j) =VM ah(i, j) 1 sinon

Dest la mesure de disimilarité qui varie dans l’intervalle[0,1]. La valeur0signifie que les deux matrices d’adjacence sont identiques et par conséquent, la structure topologique induite par les deux mesures de proximité est la même. Dans ce cas, on parle d’équivalence topolo- gique entre les deux mesures de proximité. La valeur1signifie que la topologie a totalement changé, autrement dit, aucun couple de voisins dans la structure topologique induite par la première mesure de proximité, n’est resté voisin dans la structure topologique induite par la seconde mesure et vice versa.Ds’interprète également comme le pourcentage de désaccord entre des tableaux d’adjacence.

Grâce à cette mesure de proximité, nous allons enfin pouvoir comparer les mesures de proximité et les classer selon leur degré de ressemblance. Nous verrons que les résultats ob- tenus sur ces classifications sont différents. En effet, une équivalence topologique n’implique pas une équivalence en préordonance. En revanche, une équivalence en préordonance entraîne une équivalence topologique.

(9)

4 Classification des mesures de proximité

Nous nous limitons dans ce travail à la classification des mesures de proximité dansRp. Ce travail peut être étendu à toutes les autres mesures dès lors qu’on est capable de construire une structure topologique sur les objets. Nous considérons un jeu de données relativement simple, celui des Iris de Fisher. Pour construire la structure topologique, nous utilisons la propriété du graphe des voisins relatifs Toussaint (1980).

Le tableau de dissimilarité entre les13mesures de proximité est donné en annexe tableau 2. L’application d’un algorithme de construction d’une hiérarchie de partition selon le critère de ward Ward Jr (1963) permet d’obtenir le dendogramme suivant.

Pearson Correlation Cosine Dissimilarity Histogram Intersection Mahalanobis Chi-Squared Jeffrey Divergence Squared Chord Canberra Tchebytchev Minkowski Manhattan Weighted Euclidean Euclidean

FIG. 3 –Arbre hiérarchique - Topologie.

4.1 Comparaison

Si nous comparons les mêmes mesures selon le critère de préordonnance, nous obtenons la matrice de dissimilarité donnée en annexe tableau 2 et le dendogramme suivant.

Mahalanobis Pearson Correlation Cosine Dissimilarity Chi-Squared

Squared Chord Jeffrey Divergence Canberra

Histogram Intersection Tchebytchev

Manhattan Minkowski Weighted Euclidean Euclidean

FIG. 4 – Arbre hiérarchique - Préordonnance.

(10)

On constate que les résultats de la classification diffèrent selon que l’on compare les me- sures de proximité au moyen de l’équivalence de préordonnance ou de l’équivalence topolo- gique.

Nous allons maintenant montrer quelques résultats plus généraux. Du théorème 1 d’équi- valence en préordonnance, on en déduit la propriété suivante.

Propriété Soientfune fonction strictement monotone deR+dansR+,uietujdeux mesures de proximité telles que : ui(x, y)→f(ui(x, y)) =uj(x, y)alors :

ui(x, y) max(ui(x, z), ui(y, z)) uj(x, y) max(uj(x, z), uj(y, z)).

Démontration Supposons que : max(ui(x, z), ui(y, z)) =ui(x, z), d’après le théorème 1 d’équivalence en préordonnance,

ui(x, y)≤ui(x, z)⇒f(ui(x, y))≤f(ui(x, z)), de plus, ui(y, z)≤ui(x, z)⇒f(ui(y, z))≤f(ui(x, z))

⇒f(ui(x, z))≤max(f(ui(x, z)), f(ui(y, z))), d’où le résultat, uj(x, y)≤max(uj(x, z), uj(y, z)).

L’implication réciproque est vraie, vu quef est continue et strictement monotone alors, son application réciproquef1est continue et de même sens de variation quef. On peut ainsi dire, dans le cas oùf est strictement monotone, que si le préordre est conservé alors la topologie est conservée et inversement. Cette propriété nous amène à énnoncer le théorème suivant.

Théorème 2 - Equivalence en topologie Soient deux mesures de proximitéuietuj, s’il existe une fonction f strictement monotone telle que pour tout couple d’objets(x, y) on a ui(x, y) =f(uj(x, y))alorsuietujinduisent des graphes topologiques identiques et par conséquent, elles sont équivalentes :ui ≡uj. La réciproque étant également vraie, i.e. deux mesures de proximité dont l’une est fonction de l’autre induisent la même to- pologie et sont, par conséquent, équivalentes.

La proposition ci-dessous montre que l’équivalence en préordonnance de deux mesures de proximitéuietuj =f(ui)implique nécessairement l’équivalence en topologie, quelque soit la fonctionf.

Proposition Dans le cadre des structures topologiques induites par le graphe des voisins re- latifs, si deux mesures de proximitéuietujsont équivalentes en préordonnance, alors elles sont en équivalence topologique.

Démontration Siui≡uj(équivalence en préordonnance) alors, ui(x, y)≤ui(z, t)⇒uj(x, y)≤uj(z, t) ∀x, y, z, t∈Rp on a, en particulier pour{ t=x=y et =t,

ui(x, y)≤ui(z, x)⇒uj(x, y)≤uj(z, x) ui(x, y)≤ui(z, y)⇒uj(x, y)≤uj(z, y) on en déduit,

ui(x, y)≤max(ui(z, x), ui(z, y))⇒uj(x, y)≤max(uj(z, x), uj(z, y)) en utilisant la propriété P1 de symétrie,

ui(x, y)≤max(ui(x, z), ui(y, z))⇒uj(x, y)≤max(uj(x, z), uj(y, z)) d’où,ui≡uj(équivalence topologique).

(11)

5 Conclusion et perspectives

Le choix d’une mesure de proximité est très subjectif, il est souvent fondé sur des habi- tudes ou sur des critères tels que l’interprétation a posteriori des résultats. Ce travail propose une nouvelle approche d’équivalence entre mesures de proximité. Cette approche que nous appelons topologique est basée sur la notion de graphe de voisinage induit par la mesure de de proximité. D’un point de vue pratique, dans ce papier, les mesures que nous avons com- parées sont toutes construites sur des données quantitatives. Mais ce travail peut parfaitement s’étendre aux autres en choisissant la bonne structure topologique adaptée.

Nous envisageons d’étendre ce travail à d’autres structures topologiques et d’utiliser un cri- tère de comparaison, autre que les techniques de classification, afin de valider le degré d’équi- valence entre deux mesures de proximité. Par exemple, un critère basé sur un test non para- métrique (la corrélation de rang de Spearman, le tau de concordance de rang de Kendall, ou encore le test de Mantel, etc.). L’application d’un test par permutations, sur les matrices d’ad- jacence associées à ces mesures, vont permettre de donner une signification statistique entre les deux matrices de ressemblance et de valider ou pas l’équivalence topologique c’est-à-dire, si vraiment elles induisent ou pas la même structure de voisinage sur les objets.

Batagelj et Bren (1995) ; Malerba et al. (2001) ; Rifqi et al. (2003)

Références

Batagelj, V. et M. Bren (1992). Comparing resemblance measures. Technical report, Proc.

International Meeting on Distance Analysis (DISTANCIA’92).

Batagelj, V. et M. Bren (1995). Comparing resemblance measures.Journal of classification 12, 73–90.

Bouchon-Meunier, B., M. Rifqi, et S. Bothorel (1996). Towards general measures of compar- ison of objects.Fuzzy sets and systems 84(2), 143–153.

Clarke, K., P. Somerfield, et M. Chapman (2006). On resemblance measures for ecological studies, including taxonomic dissimilarities and a zero-adjusted bray-curtis coefficient for denuded assemblages.Journal of Experimental Marine Biology & Ecology 330(1), 55–80.

Fagin, R., R. Kumar, et D. Sivakumar (2003). Comparing top k lists. In Proceedings of the fourteenth annual ACM-SIAM symposium on Discrete algorithms, pp. 36. Society for Industrial and Applied Mathematics.

Kim, J. et S. Lee (2003). Tail bound for the minimal spanning tree of a complete graph.

Statistics Probability Letters 64(4), 425–430.

Lerman, I. (1967). Indice de similarité et préordonnance associée, Ordres. Travaux du sémi- naire sur les ordres totaux finis, Aix-en-Provence.

Lesot, M.-J., M. Rifqi, et H. Benhadda (2009). Similarity measures for binary and numerical data: a survey.IJKESDP 1(1), 63–84.

Lin, D. (1998). An information-theoretic definition of similarity. InProceedings of the 15th International Conference on Machine Learning, Volume 296304. Citeseer.

Liu, H., D. Song, S. Ruger, R. Hu, et V. Uren. Comparing dissimilarity measures for content- based image retrieval.Information Retrieval Technology, 44–50.

(12)

Malerba, D., F. Esposito, V. Gioviale, et V. Tamma (2001). Comparing dissimilarity measures for symbolic data analysis. Proceedings of Exchange of Technology and Know-how and New Techniques and Technologies for Statistics 1, 473–481.

Malerba, D., F. Esposito, et M. Monopoli (2002). Comparing dissimilarity measures for prob- abilistic symbolic objects.Series Management Information Systems 6, 31–40.

Mantel, N. (1967). A technique of disease clustering and a generalized regression approach.

Cancer Research 27, 209–220.

Noreault, T., M. McGill, et M. Koll (1980). A performance evaluation of similarity measures, document term weighting schemes and representations in a boolean environment. InPro- ceedings of the 3rd annual ACM conference on Research and development in information retrieval, pp. 76. Butterworth & Co.

Park, J., H. Shin, et B. Choi (2006). Elliptic gabriel graph for finding neighbors in a point set and its application to normal vector estimation.Computer-Aided Design 38(6), 619–626.

Preparata, F. et M. Shamos (1985). Computational geometry: an introduction. Springer.

Richter, M. (1992). Classification and learning of similarity measures. Proceedings der Jahrestagung der Gesellschaft f ur Klassifikation, Studies in Classification, Data Analysis and Knowledge Organisation. Springer Verlag.

Rifqi, M., M. Detyniecki, et B. Bouchon-Meunier (2003). Discrimination power of measures of resemblance.IFSA’03.

Schneider, J. et P. Borlund (2007a). Matrix comparison, part 1: Motivation and important issues for measuring the resemblance between proximity measures or ordination results. Journal American Society for Information Science and Technology 58(11), 1586–1595.

Schneider, J. et P. Borlund (2007b). Matrix comparison, part 2: Measuring the resemblance between proximity measures or ordination results by use of the mantel and procrustes statis- tics.Journal American Society for Information Science and Technology 58(11), 1596–1609.

Spertus, E., M. Sahami, et O. Buyukkokten (2005). Evaluating similarity measures: a large- scale study in the orkut social network. In Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, pp. 684. ACM.

Strehl, A., J. Ghosh, et R. Mooney (2000). Impact of similarity measures on web-page clus- tering. InWorkshop on Artificial Intelligence for Web Search (AAAI 2000), pp. 58–64.

Toussaint, G. (1980). The relative neighbourhood graph of a finite planar set.Pattern recogni- tion 12(4), 261–268.

Ward Jr, J. (1963). Hierarchical grouping to optimize an objective function. Journal of the American statistical association 58(301), 236–244.

Warrens, M. (2008). Bounds of resemblance measures for binary (presence/absence) variables.

Journal of Classification 25(2), 195–208.

Zhang, B. et S. Srihari (2003). Properties of binary vector dissimilarity measures. InProc.

JCIS Int’l Conf. Computer Vision, Pattern Recognition, and Image Processing. Citeseer.

Zwick, R., E. Carlstein, et D. Budescu (1987). Measures of similarity among fuzzy concepts:

A comparative analysis. INT. J. APPROX. REASON. 1(2), 221–242.

(13)

Annexe

Mesure Formule

u1: Euclidean uE(x, y) =√∑p

i=1(xiyi)2

u2: Mahalanobis uM ah(x, y) =

(xy)t−1

(xy) u3: Manhattan (City-block) uM an(x, y) =p

i=1|xiyi|

u4: Minkowski uM inγ(x, y) = (p

i=1|xiyi|γ)

1 γ

u5: Tchebytchev uT ch(x, y) = max1≤i≤p|xiyi| u6: Cosine Dissimilarity uCos(x, y) = 1 <x,y>

∥x∥∥y∥

u7: Canberra uCan(x, y) =p

i=1

|xi−yi|

|xi|+|yi|

u8: Squared Chord uSC(x, y) =p

i=1(xi− √yi)2

u9: Weighted Euclidean uEw(x, y) =√∑p

i=1αi(xiyi)2

u10: Chi-square uχ2(x, y) =p

i=1 (xi−mi)2

mi

u11: Jeffrey Divergence uJ D(x, y) =p

i=1(xilog xi

mi+yilog yi

mi) u12: Histogram Intersection Measure uHIM(x, y) = 1

p

i=1(min (xi,yi))

p j=1yj

u13: Pearson’s Correlation Coefficient uρ(x, y) = 1− |ρ(x, y)|

TABLE1 – Quelques mesures de proximité.

Où,pest la dimension de l’espace,x= (xi)i=1,...,pety= (yi)i=1,...,pdeux points deRp,i)i=1,...,p0,−1

l’inverse de la matrice des variances covariances,γ >0,mi= xi+2yi et ρ(x, y)désigne le coefficient de corrélation linéaire de Bravais-Pearson.

D u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 u11 u12 u13 u1 1 .776 .973 .988 .967 .869 .890 .942 1 .947 .945 .926 .863 u2 .876 1 .773 .774 .752 .701 .707 .737 .776 .739 .738 .742 .703 u3 .964 .840 1 .964 .940 .855 .882 .930 .973 .933 .932 .924 .848 u4 .964 .876 .947 1 .967 .871 .892 .946 .988 .950 .949 .925 .866 u5 .947 .858 .929 .964 1 .865 .887 .940 .957 .942 .942 .914 .860 u6 .858 .858 .840 .840 .858 1 .893 .898 .869 .899 .899 .830 .957 u7 .911 .840 .929 .893 .911 .822 1 .943 .890 .940 .942 .874 .868 u8 .947 .840 .947 .929 .947 .858 .947 1 .942 .995 .998 .913 .884 u9 1 .876 .964 .964 .947 .858 .911 .947 1 .947 .945 .926 .863 u10 .947 .840 .947 .929 .947 .858 .947 1 .947 1 .998 .912 .885 u11 .947 .840 .947 .929 .947 .858 .947 1 .947 1 1 .914 .884 u12 .884 .813 .884 .867 .902 .884 .884 .920 .884 .920 .920 1 .825 u13 .867 .849 .831 .867 .867 .973 .796 .849 .867 .849 .849 .876 1

TABLE2 –Tableaux des dissimilarités - Topologie (ligne) & Préordonnance (colonne).

Les éléments situés au-dessus de la diagonale principale correspondent aux dissimilarités en préordonnance et ceux au-dessous correspondent aux dissimilarités en topologie.

Summary

The choice of a proximity measure between objects has a direct impact on the results of any operation of supervised or unsupervised classification, comparison, evaluation or structuring a set of objects. For a given problem, the user is prompted to choose one among the many existing proximity measures. However, according to the notion of topological equivalence chosen, some are more or less equivalent. In this paper, we propose a new approach to select and compare the proximity measures for the purpose of discrimination. In a context of discrimination, we introduce a new concept of topological equivalence. This approach exploits the concept of local neighborhood and believes that two proximity measures are equivalent if they induce the same neighborhood structure on the objects. We illustrate the principle of this selection and comparison on a simple example for about fifteen proximity measures of the literature.

Références

Documents relatifs

Toute uti- lisation commerciale ou impression systématique est constitutive d’une infraction pénale.. Toute copie ou impression de ce fichier doit conte- nir la présente mention

Construction de V^ — Soit un complexe A^ défini de la manière sui- vante ( 1 ) : on considère une boule ( 2 ) £3 et une courbe F reliant deux points P, Ç de sa frontière, et

D'après 8 on peut remplacer la condition «continu transversal au sens f o r t » par la condition plus modeste : R est un continu transversal au sens faible, et So et Si sont fermés;

Les modèles d'une théorie algébrique s'avérèrent donc spécifiables — pour le dire maintenant en les termes 'diagrammatiques&#34; d'Ehresmann[21][23][19] — comme réalisa-

Cependant, les crit`eres les plus fins sont li´es `a la conjecture d’Erd˝os datant de la fin des ann´ees 1930, mentionn´ee dans [3] et ´etablie dans [6], selon laquelle presque

Proposition 1 Biased edges impact graph structure : if the service bothers to bias recommendations to a user, it is because it effectively impacts that user navigation among

Il s’agit de mettre de l’ordre dans les côtés de ce polygône, et de le ramener à une forme &#34;normale&#34;: L’orientation de la surface dé…nit un sens de parcours du bord;

Les points d’insertion de la marque sont localisés par un calque constitué de composants connexes d’une ou plusieurs coupes choisies en