M´ etriques - Similarit´ e/ dissimilarit´ e

1.5 Similarit´ e/ dissimilarit´ e

1.5.1 M´ etriques

Pour comparer les objets entre eux, on utilise donc une notion de proximité. Celle-ci peut être exprimée par une mesure de similarité, dissimilarité ou par une distance. La construction et le choix de cette mesure sont déterminants pour le résultat d’une sélection de composés. Il convient donc d’adapter la mesure de comparaison aux données et au domaine concerné. Par exemple, les mesures seront différentes selon que les données sont quantitatives ou qualitatives.

Dans un premier temps nous présentons les propriétés d’une mesure de similarité puis nous exposerons quelques mesures de similarité adaptées aux différents types de variables.

1.5.1.1 Propri´et´es

Une mesure de similarité est une application réelle positive symétrique s de M ×M

−→ R⁺ telle que la similarité entre un objet et lui même s(mi, mi) est maximale. Plus deux objetsmi etmj sont similaires et plus cette mesures(mi, mj) est élevée. De la même

manière, on peut définir la mesure de dissimilarité entre deux objetsmietmjpard(mi, mj) avec les propriétés opposées à la mesure de similarité présentée avant. Nous présentons les propriétés de minimalité, de symétrie, d’identité et d’inégalité triangulaire (citées de la thèse [102]) pour définir les notions d’indice de dissimilarité ou de distance.

Propriété 1.1 Minimalité : Une mesure de dissimilarité d : M ×M −→R⁺ vérifie la propriété de minimalité si et seulement si :

∀m_i ∈ M, d(m_i, m_i) = 0

Propriété 1.2 Symétrie : Une mesure de dissimilarité d : M ×M −→ R⁺ est sym´ e-trique si et seulement si :

∀m_i, mj ∈ M, d(mi, mj) =d(mj, mi)

Propriété 1.3 Identité : Une mesure de dissimilarité d : M ×M −→ R⁺ vérifie la propriété d’identité si et seulement si :

∀m_i, m_j ∈ M, d(m_i, m_j) = 0⇒m_i =m_j

Propriété 1.4 Inégalité triangulaire: Une mesure de dissimilarité d :M ×M −→R⁺ vérifie l’inégalité triangulaire si et seulement si :

∀m_i, m_j, m_k∈ M,d(m_i, m_j)≤d(m_i, m_k) +d(m_k, m_j)

On appelle distance, une mesure qui vérifie les quatres propriétés précédemment ci-tées (cf. Tableau 1.2) alors qu’un indice de dissimilarité ne vérifie que les propriétés de minimalité et de symétrie.

Type de mesure Minimalité Symétrie Identité Inégalité triangulaire Indice de dissimilarité X X

Distance X X X X

Table1.2: Propriétés mathématiques des indices de dissimilarités et des distances

1.5.1.2 Les diff´erentes mesures de similarit´e

Nous citons deux types de mesures adaptées respectivement aux données numériques et aux données dites symboliques ou qualitatives. Pour les besoins des définitions, nous donnons quelques notations :

– SoitMun ensemble den mol´ecules not´e M={m_i}_i=1...n

– etV un ensemble dep variables notéV ={v_j}_j=1...poùvj(mi) indique la valeur que prend la variablev_j pour la moléculem_i

Mesures pour les variables numériques La distance la plus connue et la plus utilisée est la distance euclidienne, cas particulier de la distance de Minkowski que l’on définit comme suit :

D´efinition 1.1 Distance de Minkowski d(mi, mj) = ( X

k=1...p

|v_k(mi)−v_k(mj)|^l)^1/l

Selon les valeurs que prend le param`etrel, on distingue : – la distance euclidienne avecl= 2

– la distance de Manhattan avec l= 1 – la distance de Chebychev avecl=∞

Une autre distance est également très utilisée : celle du cosinus. La distance du cosinus correspond au cosinus de l’angle θ formé par les deux vecteurs m_i etm_j (ce sont en effet des vecteurs de variables) :

D´efinition 1.2 Distance du cosinus

d(mi, mj) =cos(θ) = mi·mj

Mesures pour les variables symboliques Quand les variables sont qualitatives, les distances citées plus haut n’ont pas de sens. Les indices de similarité les plus couramment utilisés dans le cadre des valeurs qualitatives sont les indices de Rand[103] et de Jaccard [104]. Ils permettent de comparer deux objets m_i et m_j, dont les vecteurs d’attributs respectifs sont notés A et B, en effectuant un comptage des propriétés communes. L’indice de Rand permet une comparaison de vecteurs symétriques⁷, alors que l’indice de Jaccard permet une comparaison de vecteurs asymétriques⁸. Pour notre étude nous ne détaillons que le coefficient de Jaccard, sa forme générale est la suivante :

D´efinition 1.3 Indice de Jaccard

J(mi, mj) = |A∩B|

|A∪B|

En règle générale, l’espace des descriptions constitué de variables qualitatives est red´ e-fini avec des attributs binaires. On appelle cela un codage disjonctif complet. Par exemple, la variable ”couleur des yeux” prenant 3 modalités (bleu, vert, marron) est redéfinie par 3 variables bi-modales : ”bleu” : oui ou non, ”vert” : oui ou non, ”marron” : oui ou non (les modalités oui et non peuvent prendre respectivement les valeurs 1 et 0 pour obtenir des vecteurs d’attributs binaires). Le comptage de propriétés communes devient alors plus aisé.

Nous d´efinissons 4 compteurs avec lesquels on peut construire le tableau de contingence (cf. Tableau 1.3) :

– a : le nombre de bits valant 1 dans le vecteur A – b : le nombre de bits valant 1 dans le vecteur B

– c : le nombre de bits valant 1 partag´es par les vecteurs A et B – p : le nombre de bits total

L’indice de Jaccard devient donc pour la comparaison de vecteurs de bits asym´etriques : J(m_i, m_j) = c

(a−c) + (b−c) +c = c a+b−c

7. toutes les modalit´es d’une variable sont prises en compte de la mˆeme fa¸con

8. Certaines modalités ne sont pas prises en compte car elles ne comportent que peu d’intérêt dans la comparaison. Par exemple en chémoinformatique, lorsque l’on compare des vecteurs de bits codant pour l’absence ou la présence de certains fragments. La présence de fragment a une signification alors que l’absence de fragment ne donne pas d’information intéressante sur le composé. Dans ce cas, le fait que deux molécules aient la valeur 0 pour un fragment n’aura pas d’influence dans la comparaison.

mj / mi 0 1 0 p−(a+b−c)) a−c

1 b−c c

Table 1.3: Tableau de contingence pour des vecteurs binaires

Toutefois, cet indice est plus adapt´e dans le cas de descripteurs initialement binaires.

En effet, une redéfinition de l’espace des descriptions telle que nous l’avons exposée risque de donner trop de poids à certaines variables comportant beaucoup de modalités. En effet, si on a 2 descripteurs : l’un X prenant deux modalités et l’autre Y prenant dix modalités ; le descripteur X étant déjà binaire, il ne changera pas, en revanche le descripteur Y sera redéfini en 10 descripteurs binaires. Lorsqu’on effectuera un calcul de similarité entre deux objets décrits par ces variables, le descripteur Y aura dix fois plus de poids dans la similarité que le descripteur X.

Indice de Jaccard et coefficient de Tanimoto En chémoinformatique l’un des coef-ficients de similarité le plus utilisé est le coefficient de Tanimoto. Défini pour la première fois en 1957 [105], ce coefficient peut être écrit sous sa forme générale de la même fa¸con que l’indice de Jaccard (cf. définition 1.3). Ces deux mesures de similarité sont donc souvent considérées comme équivalentes. Cependant, Cha et al. [106] montrent qu’ils diffèrent sous leur forme de vecteur numérique et par la fa¸con dont ils sont dérivés. Néanmoins, pour des vecteurs binaires, non seulement les équations de l’indice de Jaccard et du coefficient de Tanimoto sont équivalentes, mais en plus l’inégalité triangulaire de la distance de Tani-moto a été prouvée dans ce cadre [107]. En chémoinformatique, le coefficient de Tanimoto est utilisé pour des binaires, cela nous permet donc de considérer la distance de Tanimoto (D_T) obtenue par la formule :D_T = 1−T (avec T le coefficient de Tanimoto) comme une distance à part entière. Cette notion est importante car certains algorithmes de clustering, que nous détaillerons par la suite, sont con¸cus pour obtenir des résultats optimaux avec de vraies distances.

Résumé des mesures de similarité et distances D’autres distances et mesures de similarité comme la distance de Soergel et le coefficient de Dice sont souvent utilisées en chémoinformatique. Nous résumons dans le tableau 1.4 les principales mesures de simila-rité, dissimilarité et de distances citées notamment par [102, 108, 109, 110].

MesuresFormulevariablescontinuesFormulevariablesbinaires DistancedeHammingoudeManhattanDmi,mj=

P k=1...p|vk(mi)−vk(mj)|Dmi,mj=a+b−2c DistanceEuclidienneDmi,mj=rP k=1...p(vk(mi)−vk(mj))2Dmi,mj=√ a+b−2c DistancedeSoergelDmi,mj=

P k=1...p|vk(mi)−vk(mj)| P k=1...pmax(vk(mi),vk(mj))Dmi,mj=1−c a+b−c=a+b−2c a+b−c CoefficientducosinusSmi,mj=

P k=1...pvk(mi)vk(mj) rP k=1...pvk(mi)2P k=1...pvk(mj)2Smi,mj=c√ ab CoefficientdeTanimotooudeJaccardSmi,mj=

P k=1...pvk(mi)vk(mj) P k=1...pvk(mi)2+

P k=1...pvk(mj)2−

P k=1...pvk(mi)vk(mj)Smi,mj=c a+b−c DistancedeTanimotoDmi,mj=1−c a+b−c CoefficientdeDiceSmi,mj=

P k=1...pvk(mi)vk(mj) P k=1...pvk(mi)2+

P k=1...pvk(mj)Smi,mj=2c a+b Table1.4:Tableaurécapitulatifdesmesureslesplusutiliséesenapprentissageetenchémoinformatique,a=variablesà1pourmi,b= variablesà1pourmjetc=variablesà1pourmietmj

Nous remarquons que dans le cas des vecteurs de bits, la distance de Tanimoto est

´equivalente `a la distance de Soergel.

Dans le document Chimiothèque : vers une approche rationnelle pour la sélection de sous-chimiothèques (Page 31-36)