1.5 Similarit´ e/ dissimilarit´ e
1.5.1 M´ etriques
Pour comparer les objets entre eux, on utilise donc une notion de proximit´e. Celle-ci peut ˆetre exprim´ee par une mesure de similarit´e, dissimilarit´e ou par une distance. La construction et le choix de cette mesure sont d´eterminants pour le r´esultat d’une s´election de compos´es. Il convient donc d’adapter la mesure de comparaison aux donn´ees et au domaine concern´e. Par exemple, les mesures seront diff´erentes selon que les donn´ees sont quantitatives ou qualitatives.
Dans un premier temps nous pr´esentons les propri´et´es d’une mesure de similarit´e puis nous exposerons quelques mesures de similarit´e adapt´ees aux diff´erents types de variables.
1.5.1.1 Propri´et´es
Une mesure de similarit´e est une application r´eelle positive sym´etrique s de M ×M
−→ R+ telle que la similarit´e entre un objet et lui mˆeme s(mi, mi) est maximale. Plus deux objetsmi etmj sont similaires et plus cette mesures(mi, mj) est ´elev´ee. De la mˆeme
mani`ere, on peut d´efinir la mesure de dissimilarit´e entre deux objetsmietmjpard(mi, mj) avec les propri´et´es oppos´ees `a la mesure de similarit´e pr´esent´ee avant. Nous pr´esentons les propri´et´es de minimalit´e, de sym´etrie, d’identit´e et d’in´egalit´e triangulaire (cit´ees de la th`ese [102]) pour d´efinir les notions d’indice de dissimilarit´e ou de distance.
Propri´et´e 1.1 Minimalit´e : Une mesure de dissimilarit´e d : M ×M −→R+ v´erifie la propri´et´e de minimalit´e si et seulement si :
∀mi ∈ M, d(mi, mi) = 0
Propri´et´e 1.2 Sym´etrie : Une mesure de dissimilarit´e d : M ×M −→ R+ est sym´ e-trique si et seulement si :
∀mi, mj ∈ M, d(mi, mj) =d(mj, mi)
Propri´et´e 1.3 Identit´e : Une mesure de dissimilarit´e d : M ×M −→ R+ v´erifie la propri´et´e d’identit´e si et seulement si :
∀mi, mj ∈ M, d(mi, mj) = 0⇒mi =mj
Propri´et´e 1.4 In´egalit´e triangulaire: Une mesure de dissimilarit´e d :M ×M −→R+ v´erifie l’in´egalit´e triangulaire si et seulement si :
∀mi, mj, mk∈ M,d(mi, mj)≤d(mi, mk) +d(mk, mj)
On appelle distance, une mesure qui v´erifie les quatres propri´et´es pr´ec´edemment ci-t´ees (cf. Tableau 1.2) alors qu’un indice de dissimilarit´e ne v´erifie que les propri´et´es de minimalit´e et de sym´etrie.
Type de mesure Minimalit´e Sym´etrie Identit´e In´egalit´e triangulaire Indice de dissimilarit´e X X
Distance X X X X
Table1.2: Propri´et´es math´ematiques des indices de dissimilarit´es et des distances
1.5.1.2 Les diff´erentes mesures de similarit´e
Nous citons deux types de mesures adapt´ees respectivement aux donn´ees num´eriques et aux donn´ees dites symboliques ou qualitatives. Pour les besoins des d´efinitions, nous donnons quelques notations :
– SoitMun ensemble den mol´ecules not´e M={mi}i=1...n
– etV un ensemble dep variables not´eV ={vj}j=1...po`uvj(mi) indique la valeur que prend la variablevj pour la mol´eculemi
Mesures pour les variables num´eriques La distance la plus connue et la plus utilis´ee est la distance euclidienne, cas particulier de la distance de Minkowski que l’on d´efinit comme suit :
D´efinition 1.1 Distance de Minkowski d(mi, mj) = ( X
k=1...p
|vk(mi)−vk(mj)|l)1/l
31
Selon les valeurs que prend le param`etrel, on distingue : – la distance euclidienne avecl= 2
– la distance de Manhattan avec l= 1 – la distance de Chebychev avecl=∞
Une autre distance est ´egalement tr`es utilis´ee : celle du cosinus. La distance du cosinus correspond au cosinus de l’angle θ form´e par les deux vecteurs mi etmj (ce sont en effet des vecteurs de variables) :
D´efinition 1.2 Distance du cosinus
d(mi, mj) =cos(θ) = mi·mj
Mesures pour les variables symboliques Quand les variables sont qualitatives, les distances cit´ees plus haut n’ont pas de sens. Les indices de similarit´e les plus couramment utilis´es dans le cadre des valeurs qualitatives sont les indices de Rand[103] et de Jaccard [104]. Ils permettent de comparer deux objets mi et mj, dont les vecteurs d’attributs respectifs sont not´es A et B, en effectuant un comptage des propri´et´es communes. L’indice de Rand permet une comparaison de vecteurs sym´etriques7, alors que l’indice de Jaccard permet une comparaison de vecteurs asym´etriques8. Pour notre ´etude nous ne d´etaillons que le coefficient de Jaccard, sa forme g´en´erale est la suivante :
D´efinition 1.3 Indice de Jaccard
J(mi, mj) = |A∩B|
|A∪B|
En r`egle g´en´erale, l’espace des descriptions constitu´e de variables qualitatives est red´ e-fini avec des attributs binaires. On appelle cela un codage disjonctif complet. Par exemple, la variable ”couleur des yeux” prenant 3 modalit´es (bleu, vert, marron) est red´efinie par 3 variables bi-modales : ”bleu” : oui ou non, ”vert” : oui ou non, ”marron” : oui ou non (les modalit´es oui et non peuvent prendre respectivement les valeurs 1 et 0 pour obtenir des vecteurs d’attributs binaires). Le comptage de propri´et´es communes devient alors plus ais´e.
Nous d´efinissons 4 compteurs avec lesquels on peut construire le tableau de contingence (cf. Tableau 1.3) :
– a : le nombre de bits valant 1 dans le vecteur A – b : le nombre de bits valant 1 dans le vecteur B
– c : le nombre de bits valant 1 partag´es par les vecteurs A et B – p : le nombre de bits total
L’indice de Jaccard devient donc pour la comparaison de vecteurs de bits asym´etriques : J(mi, mj) = c
(a−c) + (b−c) +c = c a+b−c
7. toutes les modalit´es d’une variable sont prises en compte de la mˆeme fa¸con
8. Certaines modalit´es ne sont pas prises en compte car elles ne comportent que peu d’int´erˆet dans la comparaison. Par exemple en ch´emoinformatique, lorsque l’on compare des vecteurs de bits codant pour l’absence ou la pr´esence de certains fragments. La pr´esence de fragment a une signification alors que l’absence de fragment ne donne pas d’information int´eressante sur le compos´e. Dans ce cas, le fait que deux mol´ecules aient la valeur 0 pour un fragment n’aura pas d’influence dans la comparaison.
mj / mi 0 1 0 p−(a+b−c)) a−c
1 b−c c
Table 1.3: Tableau de contingence pour des vecteurs binaires
Toutefois, cet indice est plus adapt´e dans le cas de descripteurs initialement binaires.
En effet, une red´efinition de l’espace des descriptions telle que nous l’avons expos´ee risque de donner trop de poids `a certaines variables comportant beaucoup de modalit´es. En effet, si on a 2 descripteurs : l’un X prenant deux modalit´es et l’autre Y prenant dix modalit´es ; le descripteur X ´etant d´ej`a binaire, il ne changera pas, en revanche le descripteur Y sera red´efini en 10 descripteurs binaires. Lorsqu’on effectuera un calcul de similarit´e entre deux objets d´ecrits par ces variables, le descripteur Y aura dix fois plus de poids dans la similarit´e que le descripteur X.
Indice de Jaccard et coefficient de Tanimoto En ch´emoinformatique l’un des coef-ficients de similarit´e le plus utilis´e est le coefficient de Tanimoto. D´efini pour la premi`ere fois en 1957 [105], ce coefficient peut ˆetre ´ecrit sous sa forme g´en´erale de la mˆeme fa¸con que l’indice de Jaccard (cf. d´efinition 1.3). Ces deux mesures de similarit´e sont donc souvent consid´er´ees comme ´equivalentes. Cependant, Cha et al. [106] montrent qu’ils diff`erent sous leur forme de vecteur num´erique et par la fa¸con dont ils sont d´eriv´es. N´eanmoins, pour des vecteurs binaires, non seulement les ´equations de l’indice de Jaccard et du coefficient de Tanimoto sont ´equivalentes, mais en plus l’in´egalit´e triangulaire de la distance de Tani-moto a ´et´e prouv´ee dans ce cadre [107]. En ch´emoinformatique, le coefficient de Tanimoto est utilis´e pour des binaires, cela nous permet donc de consid´erer la distance de Tanimoto (DT) obtenue par la formule :DT = 1−T (avec T le coefficient de Tanimoto) comme une distance `a part enti`ere. Cette notion est importante car certains algorithmes de clustering, que nous d´etaillerons par la suite, sont con¸cus pour obtenir des r´esultats optimaux avec de vraies distances.
R´esum´e des mesures de similarit´e et distances D’autres distances et mesures de similarit´e comme la distance de Soergel et le coefficient de Dice sont souvent utilis´ees en ch´emoinformatique. Nous r´esumons dans le tableau 1.4 les principales mesures de simila-rit´e, dissimilarit´e et de distances cit´ees notamment par [102, 108, 109, 110].
33
MesuresFormulevariablescontinuesFormulevariablesbinaires DistancedeHammingoudeManhattanDmi,mj=
P k=1...p|vk(mi)−vk(mj)|Dmi,mj=a+b−2c DistanceEuclidienneDmi,mj=rP k=1...p(vk(mi)−vk(mj))2Dmi,mj=√ a+b−2c DistancedeSoergelDmi,mj=
P k=1...p|vk(mi)−vk(mj)| P k=1...pmax(vk(mi),vk(mj))Dmi,mj=1−c a+b−c=a+b−2c a+b−c CoefficientducosinusSmi,mj=
P k=1...pvk(mi)vk(mj) rP k=1...pvk(mi)2P k=1...pvk(mj)2Smi,mj=c√ ab CoefficientdeTanimotooudeJaccardSmi,mj=
P k=1...pvk(mi)vk(mj) P k=1...pvk(mi)2+
P k=1...pvk(mj)2−
P k=1...pvk(mi)vk(mj)Smi,mj=c a+b−c DistancedeTanimotoDmi,mj=1−c a+b−c CoefficientdeDiceSmi,mj=
2
P k=1...pvk(mi)vk(mj) P k=1...pvk(mi)2+
P k=1...pvk(mj)Smi,mj=2c a+b Table1.4:Tableaur´ecapitulatifdesmesureslesplusutilis´eesenapprentissageetench´emoinformatique,a=variables`a1pourmi,b= variables`a1pourmjetc=variables`a1pourmietmj
Nous remarquons que dans le cas des vecteurs de bits, la distance de Tanimoto est
´equivalente `a la distance de Soergel.