• Aucun résultat trouvé

Une famille d'indices de similarité généralisant la mesure de cosinus

N/A
N/A
Protected

Academic year: 2021

Partager "Une famille d'indices de similarité généralisant la mesure de cosinus"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: hal-01504528

https://hal.archives-ouvertes.fr/hal-01504528

Submitted on 10 Apr 2017

HAL

is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire

HAL, est

destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Une famille d’indices de similarité généralisant la mesure de cosinus

Julien Ah-Pine

To cite this version:

Julien Ah-Pine. Une famille d’indices de similarité généralisant la mesure de cosinus. 17èmes Ren-

contres de la Société Francophone de Classification (SFC 2010), Jun 2010, Saint-Denis de la Réunion,

France. �hal-01504528�

(2)

Une famille d’indices de similarité généralisant la mesure de cosinus

Julien Ah-Pine

Xerox Research Centre Europe, 6 chemin de Maupertuis, 38740 Meylan, France julien.ah-pine@xrce.xerox.com

Résumé. Dans ce papier, nous nous intéressons aux mesures de similarité dé- finies pour des objets représentés par des vecteurs dans des espaces métriques.

En particulier, nous introduisons une nouvelle famille d’indices de similarité qui généralise la mesure du cosinus de l’angle entre deux vecteurs. Notre approche consiste à affiner la mesure de cosinus en tenant compte d’une autre mesure géo- métrique qui est le rapport des normes des vecteurs. Nous étudions les proprié- tés de ces coefficients et nous montrons qu’ils respectent les axiomes classiques définissant le concept de mesure de similarité géométrique. En particulier, nous montrons que ces indices de similarité définissent des métriques. Nous montrons également le lien entre ces nouvelles mesures et un certain nombre d’indices définis pour la mesure de similarité entre vecteurs de présence/absence. Nous validons expérimentalement l’intérêt de ces nouveaux indices dans le cadre de tâches de classification automatique.

1 Introduction

Mesurer la proximité entre objets représentés dans un espace métrique est un problème fondamental en analyse de données et en apprentissage statistique. Lorsque ces objets sont représentés par des vecteurs dans un espace métrique réel, un des indices de similarité des plus populaires est la mesure du cosinus de l’angle formé par deux vecteurs. Soientx ety deux vecteurs deRp, leur mesure de cosinus est donnée par :cos(θ(x,y)) = √ hx,yi

kxk2kyk2, où θ(x,y)1est la mesure angulaire entrexety,hx,yiest le produit scalaire canonique etkxk la norme dex. Dans cette contribution, nous introduisons en section 2, une nouvelle famille d’indices de similarité qui généralise la mesure de cosinus. Nous étudions les propriétés de ces coefficients en section 3. Nous validons ensuite l’intérêt de ces nouvelles mesures dans le cadre de tâches de classification automatique en section 4.

2 Indices de similarité d’ordre t

Nous introduisons une nouvelle famille d’indices de similarité que nous dénommons “in- dice de similarité d’ordret” oùtest un réel strictement positif. L’indice de similarité d’ordre

1Par la suite, nous noteronsθ(x,y)de manière brève parθ.

(3)

Une famille d’indices de similarité généralisant la mesure de cosinus

FIG. 1 –Graphes deSt(θ, γ)en fonction deγ, pourSt(−1, γ)à gauche etSt(1, γ)à droite.

1 1.2 1.4 1.6 1.8 2

−1

−0.95

−0.9

−0.85

−0.8

−0.75

−0.7

−0.65

−0.6

−0.55

−0.5

\gamma\in [1,2]

Normalized kernel values with cos \theta = −1

S0 S1 S10 S100 Sinf

1 1.2 1.4 1.6 1.8 2

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1

\gamma\in [1,2]

Normalized kernel values with cos \theta = −1

S0 S1 S10 S100 Sinf

t >0entre deux vecteursxetydeRp, dénotéSt(x,y)est défini comme suit :

St(x,y) = hx,yi

Mt(kxk2,kyk2) (1)

oùMt(a, b) =1

2(at+bt)1t

est une moyenne généralisée de Hölder2. Afin de mieux appré- hender l’interprétation de ces indices, nous pouvons écrireSt(x,y)en fonction des mesures géométriquescosθetγ(x,y) = maxkxk

kyk,kykkxk

=max(kxk,kyk)

min(kxk,kyk).γ(x,y)3prend ses valeurs dans[1,+∞[et est relatif à la différence entre les normes dexety. Nous avons :

St(x,y) = cosθ Mtkxk

kyk,kykkxk = cosθ

Mt(γ, γ−1) = cosθ

21/tγ (1 +γ2t)1/t

=St(θ, γ) (2)

La mesure de cosinus est un cas particulier deSt(θ, γ)qui correspond au cas limitet→0.

Dans ce cas précis, le rapport des normesγne joue aucun rôle et seulcosθintervient dans la mesure de similarité. Cependant, dès quet > 0,γjoue un rôle discriminatif vis à vis de la mesure de similarité et permet d’affiner la mesure de cosinus en tenant compte de la différence des normes entre vecteurs. Nous avons en fait, les comportements suivants :(i)St(θ, γ)est monotone croissant par rapport àcosθ;(ii)pourt > 0,St(θ, γ)est monotone décroissant par rapport àγsicosθ > 0et(iii)pourt > 0,St(θ, γ)est monotone croissant par rapport àγsicosθ <0. Intuitivement, le paramètreγpermet d’affiner la mesure de cosinuscosθau sens suivant : plus la différence entre les normes de deux vecteurs est grande, moins la mesure angulaire est pertinente pour juger de la similarité entre deux vecteurs et dans le cas extrême oùγ→+∞, il est alors préférable de prédire une valeur de similarité qui tend vers0malgré le fait quecosθsoit proche des bornes−1ou1. Dans la Figure 1, nous traçons le graphe de St(θ, γ)pour différentes valeurs det(t→0, t= 1,t= 10,t= 100ett→+∞) et quandγ varie de1à2(pour le graphe de gauche,θ=−1et pour le graphe de droite,θ= 1).

3 Propriétés des indices de similarité d’ordre t

2Les cas particuliers classiques de cette moyenne généralisée sont donnés part→ −∞,t=−1,t0,t= 1et t+∞qui sont respectivement le minimun, les moyennes harmonique, géométrique et arithmétique et le maximum.

3Par la suite, nous noteronsγ(x,y)de manière brève parγ.

(4)

FIG. 2 –Illustration de la projection orthogonale dexsury

-y

3 x 6

-hx,yi hy,yiy

Vecteur de l’erreur d’approximation

Axiomes et propriétés métriques. St(x,y)vérifie les axiomes de base des indices de si- milarité géométriques (voir par exemple (Santini et Jain, 1999)). Il est borné, ∀t > 0 :

|St(x,y)| ≤ 1. Il vérifie l’axiome de l’auto-similarité maximale, St(x,x) = 1. Il est sy- métrique,St(x,y) = St(y,x). Il vérifie la propriété suivante,x = y ⇔ St(x,y) = 1.

Notons que cette propriété n’est pas vraie pour t → 0 pour lequel nous avons uniquement l’implication :x = y ⇒ St→0(x,y) = 1. Nous pouvons ensuite remarquer que le signe deSt(x,y)est uniquement dépendant decosθet indépendant de la valeur det. Nous avons par ailleurs, la relation d’ordre suivante entre deux indices de similarité de deux ordrestett0 différents,∀t ≥ t0 > 0 : |St(x,y)| ≤ |St0(x,y)|. En particulier, nous avons :∀t ≥ t0 >

0 :St(x,y)≤St0(x,y)sicosθ≥0etSt(x,y)≥St0(x,y)sicosθ≤0. Ces dernières ex- pressions sont à mettre en relation avec la Figure 1 et les commentaires s’y associant : plus γest grand, moins la mesure de cosinus est pertinente et plus la valeur deSt(x,y)tend vers 0. Les relations précédentes expriment le fait que cette convergence est d’autant plus rapide quet augmente. Enfin, un aspect théorique important concerne la propriété de métricité des indices de similarité d’ordret. Nous avons le résultat suivant (la preuve repose sur le théorème de Gershgorin (Horn et Johnson, 1985)) :

Théorème 1. La matrice de similaritéStd’un ensemble de vecteurs deRp, de terme général St(x,y)défini par l’équation (1) avect >0, est semi-définie positive.

Un corollaire de ce théorème est que la mesure de distance,Dt(x,y), définie parDt(x,y) = p2(1−St(x,y)), respecte l’inégalité triangulaire (Gower et Legendre, 1986) : ∀t > 0,

∀(x,y,z) :Dt(x,y)≤Dt(x,z) +Dt(z,y).

Interprétation géométrique et liens avec des indices de similarité pour vecteurs de pré- sence/absence. En statistiques, il est courant d’approximer un vecteur par un autre en consi- dérant la projection orthogonale du premier sur le second. Considérons la relations suivante également illustrée dans la Figure 2 :x = hx,yihy,yiy+h

x−hx,yihy,yiyi

. SoitPy(x), le coeffi- cient defini parPy(x) = hx,yihy,yi = cosθ

kxk kyk

.Py(x)etPx(y)indiquent chacun une mesure asymétrique de la proximité entrexety. Nous avons en fait la propriété suivante,∀t > 0: St(x,y) =M−t(Py(x), Px(y)). Sixetysont des vecteurs binaires de{0,1}p, alorsPx(y) etPy(x)sont équivalents aux coefficients de Rappel et de Précision employés en apprentissage statistique et en recherche d’information. Dans le contexte de vecteurs binaires toujours, nous avons également les liens suivants : le cas limiteSt→−∞(x,y)est l’indice de Simpson ; le coefficientS−1(x,y)est l’indice de Kulczynski ; la mesureSt→0(x,y)est l’indice d’Ochiaï ; le coefficientS1(x,y)est l’indice de Dice ou de mesure F1 ; et le cas limiteSt→+∞(x,y)est

(5)

Une famille d’indices de similarité généralisant la mesure de cosinus

FIG. 3 – Résultats de classification automatique mesurés par des valeurs de NMI .

Iris Ecoli Pi. Ind. Diab. Yeast 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7

NMI value

S0 S1 S10 Sinf

l’indice de Braun-Blanquet. Les résultats de ce papier permettent ainsi d’étendre de manière naturelle ces indices de similarité aux vecteurs réels. Par ailleurs, la métricité de nombreux in- dices de similarité pour vecteurs binaires a été étudiée dans (Gower et Legendre, 1986; Fichet et Le Calvé, 1984). Les résultats présentés ici permettent d’étendre ces résultats sur la métricité à un certain nombre d’indices tel que l’indice de Braun-Blanquet.

4 Validation expérimentale

Nous avons employé les indices de similarité d’ordretdans le cadre de tâches de classi- fication automatique. L’approche utilisée est la suivante : (i) calcul de la matrice de similarité St, (ii) décomposition spectrale deStet représentation des données dans un espace de faible dimension4, (iii) classification automatique par la méthodek-means. Nous illustrons dans la Figure 3, les résultats (en termes de “Normalized Mutual Information” (NMI)) obtenus pour4 exemples issus de “UCI Repository” qui montrent les meilleures performances des indicesSt en comparaison de la mesure de cosinus.

Références

Fichet, B. et G. Le Calvé (1984). Structure géométrique des principaux indices de dissimilarité sur signes de présence-absence.Statistique et analyse de données 9, 11–44.

Gower, J. et P. Legendre (1986). Metric and euclidean properties of dissimilarity coefficients.

Journal of classification 3, 5–48.

Horn, R. et C. Johnson (1985).Matrix analysis. Cambridge University Press.

Santini, S. et R. Jain (1999). Similarity measures.IEEE Trans. on PAMI 21(9), 871–883.

Summary

In this paper, we are concerned with similarity indices for objects that are represented as vectors in a metric space. Particularly, we introduce a new family of similarity indices which extends the cosine similarity measure. Our approach aims at refining the latter by taking into account another geometrical measure which is the vectors’ norm ratio. We study the properties of such coefficients and we prove that they are metrics. Besides, we show that many existing similarity measures for binary vectors are particular cases of this family of similarity coefficients. We show the benefits of those new measures in the context of clustering tasks.

4Le nombre de dimensions retenu est égal au nombre de classes moins1.

Références

Documents relatifs

B. SUBSTANCES TRKS ABSORBANTES. - 10 Mcthodes utilisant deux mesures à chaque longueur d’onde. Plusieurs me- thodes ont ete propos6es r6cemment :. a) Une des techniques

Les points de d viennent en coïncidence avec les points du cercle. est une mesure de l'arc et plus généralement les réels de la forme x + k2. En effet, la différence entre

images a et a’ se forment alors sur des points symétriques des deux rétines, et nous voyons deux images apparaître.. En fermant un oeil, nous ferons disparaître

Dans ce contexte, notre contribution est double : un cadre théorique pour définir une mesure de si- milarité pour les séquences complexes basée sur le nombre de sous-séquences

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Pour une mesure de similarité dédiée aux motifs séquentiels, de nombreuses applications sont envisageables comme le clustering des motifs séquentiels pour identifier des

Angle Famille Mesure.. • La mesure des angles

D’autre part, l’idée principale de la métrique TagLink (Camacho et Salhi, 2006) est de considérer le pro- blème de comparaison de chaînes comme étant celui d’affectation,