• Aucun résultat trouvé

Indice et distance de Jaccard

N/A
N/A
Protected

Academic year: 2022

Partager "Indice et distance de Jaccard"

Copied!
3
0
0

Texte intégral

(1)

27/3/2014 Indice et distance de Jaccard — Wikipédia

http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard 1/3

Indice et distance de Jaccard

L'indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont nommées d'après le botaniste suisse Paul Jaccard.

Sommaire

1 Description formelle

2 Similarité entre des ensembles binaires 2.1 Exemple

3 Voir aussi 4 Références 5 Liens externes

Description formelle

L'indice de Jaccard (ou coefficient de Jaccard) est le rapport entre le cardinal (la taille) de l'intersection des ensembles considérés et le cardinal de l'union des ensembles. Il permet d'évaluer la similarité entre les ensembles. Soit deux ensembles et , l'indice est :

.

L'extension à ensembles est triviale :

.

La distance de Jaccard mesure la dissimilarité entre les ensembles. Elle consiste simplement à soustraire l'indice de Jaccard à 1.

. De la même manière que pour l'indice, la généralisation devient :

.

Similarité entre des ensembles binaires

L'indice de Jaccard est utile pour étudier la similarité entre des objets constitués d'attributs binaires.

Soit deux séquences et , chacune avec attributs binaires. Chaque attribut peut être à 0 ou 1. On a ainsi :

(2)

27/3/2014 Indice et distance de Jaccard — Wikipédia

http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard 2/3

On définit plusieurs quantités qui caractérisent les deux ensembles : représente le nombre d'attributs qui valent 1 dans A et dans B représente le nombre d'attributs qui valent 0 dans A et 1 dans B représente le nombre d'attributs qui valent 1 dans A et 0 dans B représente le nombre d'attributs qui valent 0 dans A et dans B

Chaque paire d'attributs doit nécessairement appartenir à l'une des quatre catégories, de telle sorte que : .

L'indice de Jaccard devient :

En utilisant ces deux dernières expressions, on obtient :

Il suffit donc de ne calculer que les nombres d'attributs : valant 1 dans tous les ensembles

valant 0 dans tous les ensembles

La dernière écriture de cette formule, faisant intervenir , est généralisable pour l'étude de similarité de plusieurs ensembles binaires (en calculant et avec autant de 0 et de 1 que d'ensembles).

La distance de Jaccard devient:

Exemple

En utilisant l'écriture de la formule faisant intervenir (plus rapide) :

(3)

27/3/2014 Indice et distance de Jaccard — Wikipédia

http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard 3/3

Voir aussi

Similarité cosinus

Références

Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7 Paul Jaccard (1901) Bulletin de la Société Vaudoise des Sciences Naturelles 37, 241-272.

Tanimoto, T.T. (1957) IBM Internal Report 17th Nov. 1957.

Liens externes

(en) indice de Jaccard et diversité entre espèces (http://www.cals.ncsu.edu/course/ent591k/gcextend.html#diversity)

(en) Exemple de coefficient de Jaccard (http://people.revoledu.com/kardi/tutorial/Similarity/Jaccard.html)

(en) Introduction à la fouille de données (http://www-users.cs.umn.edu/~kumar/dmbook/dmslides/chap2_data.pdf)

(en) SimMetrics, une implémentation des métriques de similarité (http://sourceforge.net/projects/simmetrics/)

(fr) Similarité et Duplicate content : L'indice de Jaccard (http://b1n.sp1n.me/seo/similarite-duplicate-content-indice- jaccard.109.html)

Ce document provient de « http://fr.wikipedia.org/w/index.php?title=Indice_et_distance_de_Jaccard&oldid=101477499 ».

Dernière modification de cette page le 21 février 2014 à 22:51.

Droit d'auteur : les textes sont disponibles sous licence Creative Commons paternité partage à l’identique ; d’autres conditions peuvent s’appliquer. Voyez les conditions d’utilisation pour plus de détails, ainsi que les crédits graphiques. En cas de

réutilisation des textes de cette page, voyez comment citer les auteurs et mentionner la licence.

Wikipedia® est une marque déposée de la Wikimedia Foundation, Inc., organisation de bienfaisance régie par le paragraphe 501(c)(3) du code fiscal des États-Unis.

Références

Documents relatifs

In this paper we present a novel similarity, Unilateral Jaccard Sim- ilarity Coefficient (uJaccard), which doesn’t only take into consideration the space among two points but also

Henri Ceppi, le guide botanique du jour, et Najla Naceur, présidente de la Société vaudoise d’entomo- logie, ont prononcé quelques mots de salutations et de bienvenue, puis le

Plantes nouvelles pour la Flore valaisanne et stations particulièrement intéressantes.. Rectifications à une liste des plantes des environs

Le document ci-dessous propose quelques solutions pour préserver les équilibres naturels. Exercice 3 :

L’aire grisée est la partie complémentaire de deux triangles (blancs) dans

~ Activité : Faire placer deux points A et B de coordonnées entières, construire le milieu M de [AB] et en lire les coordonnées. Chercher une formule permettant d’obtenir

on trouve la grandeur de leur plus courte distance en menant par Tune un plan P parallèle à l'autre, et pre- nant la distance d'un point de la dernière, par exemple de sa trace sur

Nous n'oserions prétendre résoudre ce problème épineux et important en quelques lignes, mais apporter des indications sur une conduite à tenir qui serait conforme à l'esprit de