• Aucun résultat trouvé

1.5 Similarit´ e/ dissimilarit´ e

1.5.1 M´ etriques

Pour comparer les objets entre eux, on utilise donc une notion de proximit´e. Celle-ci peut ˆetre exprim´ee par une mesure de similarit´e, dissimilarit´e ou par une distance. La construction et le choix de cette mesure sont d´eterminants pour le r´esultat d’une s´election de compos´es. Il convient donc d’adapter la mesure de comparaison aux donn´ees et au domaine concern´e. Par exemple, les mesures seront diff´erentes selon que les donn´ees sont quantitatives ou qualitatives.

Dans un premier temps nous pr´esentons les propri´et´es d’une mesure de similarit´e puis nous exposerons quelques mesures de similarit´e adapt´ees aux diff´erents types de variables.

1.5.1.1 Propri´et´es

Une mesure de similarit´e est une application r´eelle positive sym´etrique s de M ×M

−→ R+ telle que la similarit´e entre un objet et lui mˆeme s(mi, mi) est maximale. Plus deux objetsmi etmj sont similaires et plus cette mesures(mi, mj) est ´elev´ee. De la mˆeme

mani`ere, on peut d´efinir la mesure de dissimilarit´e entre deux objetsmietmjpard(mi, mj) avec les propri´et´es oppos´ees `a la mesure de similarit´e pr´esent´ee avant. Nous pr´esentons les propri´et´es de minimalit´e, de sym´etrie, d’identit´e et d’in´egalit´e triangulaire (cit´ees de la th`ese [102]) pour d´efinir les notions d’indice de dissimilarit´e ou de distance.

Propri´et´e 1.1 Minimalit´e : Une mesure de dissimilarit´e d : M ×M −→R+ v´erifie la propri´et´e de minimalit´e si et seulement si :

∀mi ∈ M, d(mi, mi) = 0

Propri´et´e 1.2 Sym´etrie : Une mesure de dissimilarit´e d : M ×M −→ R+ est sym´ e-trique si et seulement si :

∀mi, mj ∈ M, d(mi, mj) =d(mj, mi)

Propri´et´e 1.3 Identit´e : Une mesure de dissimilarit´e d : M ×M −→ R+ v´erifie la propri´et´e d’identit´e si et seulement si :

∀mi, mj ∈ M, d(mi, mj) = 0⇒mi =mj

Propri´et´e 1.4 In´egalit´e triangulaire: Une mesure de dissimilarit´e d :M ×M −→R+ v´erifie l’in´egalit´e triangulaire si et seulement si :

∀mi, mj, mk∈ M,d(mi, mj)≤d(mi, mk) +d(mk, mj)

On appelle distance, une mesure qui v´erifie les quatres propri´et´es pr´ec´edemment ci-t´ees (cf. Tableau 1.2) alors qu’un indice de dissimilarit´e ne v´erifie que les propri´et´es de minimalit´e et de sym´etrie.

Type de mesure Minimalit´e Sym´etrie Identit´e In´egalit´e triangulaire Indice de dissimilarit´e X X

Distance X X X X

Table1.2: Propri´et´es math´ematiques des indices de dissimilarit´es et des distances

1.5.1.2 Les diff´erentes mesures de similarit´e

Nous citons deux types de mesures adapt´ees respectivement aux donn´ees num´eriques et aux donn´ees dites symboliques ou qualitatives. Pour les besoins des d´efinitions, nous donnons quelques notations :

– SoitMun ensemble den mol´ecules not´e M={mi}i=1...n

– etV un ensemble dep variables not´eV ={vj}j=1...po`uvj(mi) indique la valeur que prend la variablevj pour la mol´eculemi

Mesures pour les variables num´eriques La distance la plus connue et la plus utilis´ee est la distance euclidienne, cas particulier de la distance de Minkowski que l’on d´efinit comme suit :

D´efinition 1.1 Distance de Minkowski d(mi, mj) = ( X

k=1...p

|vk(mi)−vk(mj)|l)1/l

31

Selon les valeurs que prend le param`etrel, on distingue : – la distance euclidienne avecl= 2

– la distance de Manhattan avec l= 1 – la distance de Chebychev avecl=∞

Une autre distance est ´egalement tr`es utilis´ee : celle du cosinus. La distance du cosinus correspond au cosinus de l’angle θ form´e par les deux vecteurs mi etmj (ce sont en effet des vecteurs de variables) :

D´efinition 1.2 Distance du cosinus

d(mi, mj) =cos(θ) = mi·mj

Mesures pour les variables symboliques Quand les variables sont qualitatives, les distances cit´ees plus haut n’ont pas de sens. Les indices de similarit´e les plus couramment utilis´es dans le cadre des valeurs qualitatives sont les indices de Rand[103] et de Jaccard [104]. Ils permettent de comparer deux objets mi et mj, dont les vecteurs d’attributs respectifs sont not´es A et B, en effectuant un comptage des propri´et´es communes. L’indice de Rand permet une comparaison de vecteurs sym´etriques7, alors que l’indice de Jaccard permet une comparaison de vecteurs asym´etriques8. Pour notre ´etude nous ne d´etaillons que le coefficient de Jaccard, sa forme g´en´erale est la suivante :

D´efinition 1.3 Indice de Jaccard

J(mi, mj) = |A∩B|

|A∪B|

En r`egle g´en´erale, l’espace des descriptions constitu´e de variables qualitatives est red´ e-fini avec des attributs binaires. On appelle cela un codage disjonctif complet. Par exemple, la variable ”couleur des yeux” prenant 3 modalit´es (bleu, vert, marron) est red´efinie par 3 variables bi-modales : ”bleu” : oui ou non, ”vert” : oui ou non, ”marron” : oui ou non (les modalit´es oui et non peuvent prendre respectivement les valeurs 1 et 0 pour obtenir des vecteurs d’attributs binaires). Le comptage de propri´et´es communes devient alors plus ais´e.

Nous d´efinissons 4 compteurs avec lesquels on peut construire le tableau de contingence (cf. Tableau 1.3) :

– a : le nombre de bits valant 1 dans le vecteur A – b : le nombre de bits valant 1 dans le vecteur B

– c : le nombre de bits valant 1 partag´es par les vecteurs A et B – p : le nombre de bits total

L’indice de Jaccard devient donc pour la comparaison de vecteurs de bits asym´etriques : J(mi, mj) = c

(a−c) + (b−c) +c = c a+b−c

7. toutes les modalit´es d’une variable sont prises en compte de la mˆeme fa¸con

8. Certaines modalit´es ne sont pas prises en compte car elles ne comportent que peu d’int´erˆet dans la comparaison. Par exemple en ch´emoinformatique, lorsque l’on compare des vecteurs de bits codant pour l’absence ou la pr´esence de certains fragments. La pr´esence de fragment a une signification alors que l’absence de fragment ne donne pas d’information int´eressante sur le compos´e. Dans ce cas, le fait que deux mol´ecules aient la valeur 0 pour un fragment n’aura pas d’influence dans la comparaison.

mj / mi 0 1 0 p−(a+b−c)) a−c

1 b−c c

Table 1.3: Tableau de contingence pour des vecteurs binaires

Toutefois, cet indice est plus adapt´e dans le cas de descripteurs initialement binaires.

En effet, une red´efinition de l’espace des descriptions telle que nous l’avons expos´ee risque de donner trop de poids `a certaines variables comportant beaucoup de modalit´es. En effet, si on a 2 descripteurs : l’un X prenant deux modalit´es et l’autre Y prenant dix modalit´es ; le descripteur X ´etant d´ej`a binaire, il ne changera pas, en revanche le descripteur Y sera red´efini en 10 descripteurs binaires. Lorsqu’on effectuera un calcul de similarit´e entre deux objets d´ecrits par ces variables, le descripteur Y aura dix fois plus de poids dans la similarit´e que le descripteur X.

Indice de Jaccard et coefficient de Tanimoto En ch´emoinformatique l’un des coef-ficients de similarit´e le plus utilis´e est le coefficient de Tanimoto. D´efini pour la premi`ere fois en 1957 [105], ce coefficient peut ˆetre ´ecrit sous sa forme g´en´erale de la mˆeme fa¸con que l’indice de Jaccard (cf. d´efinition 1.3). Ces deux mesures de similarit´e sont donc souvent consid´er´ees comme ´equivalentes. Cependant, Cha et al. [106] montrent qu’ils diff`erent sous leur forme de vecteur num´erique et par la fa¸con dont ils sont d´eriv´es. N´eanmoins, pour des vecteurs binaires, non seulement les ´equations de l’indice de Jaccard et du coefficient de Tanimoto sont ´equivalentes, mais en plus l’in´egalit´e triangulaire de la distance de Tani-moto a ´et´e prouv´ee dans ce cadre [107]. En ch´emoinformatique, le coefficient de Tanimoto est utilis´e pour des binaires, cela nous permet donc de consid´erer la distance de Tanimoto (DT) obtenue par la formule :DT = 1−T (avec T le coefficient de Tanimoto) comme une distance `a part enti`ere. Cette notion est importante car certains algorithmes de clustering, que nous d´etaillerons par la suite, sont con¸cus pour obtenir des r´esultats optimaux avec de vraies distances.

R´esum´e des mesures de similarit´e et distances D’autres distances et mesures de similarit´e comme la distance de Soergel et le coefficient de Dice sont souvent utilis´ees en ch´emoinformatique. Nous r´esumons dans le tableau 1.4 les principales mesures de simila-rit´e, dissimilarit´e et de distances cit´ees notamment par [102, 108, 109, 110].

33

MesuresFormulevariablescontinuesFormulevariablesbinaires DistancedeHammingoudeManhattanDmi,mj=

P k=1...p|vk(mi)−vk(mj)|Dmi,mj=a+b−2c DistanceEuclidienneDmi,mj=rP k=1...p(vk(mi)−vk(mj))2Dmi,mj=√ a+b−2c DistancedeSoergelDmi,mj=

P k=1...p|vk(mi)vk(mj)| P k=1...pmax(vk(mi),vk(mj))Dmi,mj=1−c a+bc=a+b2c a+bc CoefficientducosinusSmi,mj=

P k=1...pvk(mi)vk(mj) rP k=1...pvk(mi)2P k=1...pvk(mj)2Smi,mj=c ab CoefficientdeTanimotooudeJaccardSmi,mj=

P k=1...pvk(mi)vk(mj) P k=1...pvk(mi)2+

P k=1...pvk(mj)2

P k=1...pvk(mi)vk(mj)Smi,mj=c a+bc DistancedeTanimotoDmi,mj=1−c a+bc CoefficientdeDiceSmi,mj=

2

P k=1...pvk(mi)vk(mj) P k=1...pvk(mi)2+

P k=1...pvk(mj)Smi,mj=2c a+b Table1.4:Tableaur´ecapitulatifdesmesureslesplusutilis´eesenapprentissageetench´emoinformatique,a=variables`a1pourmi,b= variables`a1pourmjetc=variables`a1pourmietmj

Nous remarquons que dans le cas des vecteurs de bits, la distance de Tanimoto est

´equivalente `a la distance de Soergel.

Documents relatifs