Notion de similarité sémantique sur GO

j=1 j=2 ... j=m MaxLigne i=1 · · · . . . · · · i=2 . . . · · · ... . .

. M atSim[x, y] =SemSim(t₁_,x, t₂_,y) M axLigne[x]=

M ax(M atSim[k, x])∀k∈[1, m] ... . . . · · · i=n . . . · · ·

MaxColonne ... M axColonne[y]=M ax(M atSim[h, y])∀h∈[1, n] ... BM A= 1 2( Pn i=1 n M axligne[i] + Pm j=1 m M axColonne[j])

4.3.1 Définition générale des mesures de similarité

Dans les résultats d’analyse de données d’expression, les biologistes ont souvent tendance à

vérifier si les gènes co-exprimés, partagent aussi les mêmes processus biologiques. En partant de

cette hypothèse, une alternative aux études d’enrichissement des termes d’annotations consiste à

calculer la similarité entre des produits de gènes annotés avec des termes GO. Pour cela, l’intérêt

d’avoir une métrique pour mesurer la similarité entre des objets complexes (produits de gène),

qui sont annotés par des annotations sémantiques (termes GO par exemple), se révèle impératif.

La notion générale d’une similarité est de pouvoir mesurer des objets s’ils partagent des attributs

ou caractéristiques similaires. En effet, dans le monde réel chaque objet peut être décrit par

une liste d’attributs et de primitives le distinguant des autres objets. Pour cela, Tversky et

al. définissent une mesure de similarité comme étant une fonction qui permet de comparer les

attributs qui représentent les deux objets comparés [Tve77]. Les applications des mesures de

similarité sont diverses, notamment en clustering où on a comme objectif de regrouper les objets

qui sont similaires. SelonRifqi et al., les mesures de similarité peuvent être appliquées à différents

types de données : par exemple binaire, numérique et structurée [LRB09b].

Les attributs sont binaires dans le sens où ils sont notés par présence (noté par 1) ou absence (noté

par 0) dans les données. Dans ce cas, la description des objets est dans l’ensemble χ={0,1}p,

oùp est le nombre d’attributs. Un exemple réel dans le cas de données transcriptomiques est le

marquage de présence ou non d’un terme d’annotation GO dans un vecteur définissant un gène.

De façon générale, si l’on considère deux objets x= (x1, x2, .., xp) et y = (y1, y2, .., yp) dont les

attributs sont dansχ2, la similarité entre les objetsxety ayant des attributs binaires, se définit

ainsi par une fonction :

SIM(x, y) :χ2 −→R, verif iant3conditions:











P ositive:∀x, y∈χ, SIM(x, y)≥0

M aximale:∀x, y∈χ, SIM(x, x)≥SIM(x, y)

Symetrique:∀x, y∈χ, SIM(x, y) =SIM(y, x)

. (8)

On définit pour chaque objet x et y les ensembles de leurs attributs présents dénotés X =

{i| xi = 1} etY ={i| yi = 1} respectivement. Le nombre d’attributs partagés entre les deux

objetsxety est dénoté par :a=|X∩Y|. Le nombre d’attributs dansxet non dansyest dénoté

par :b=|X−Y|. Réciproquementc=|Y −X|est le nombre d’attributs dans l’objet y et pas

dansx. La quantitéd=|X∩Y|est le nombre d’attributs qui ne sont présents ni dansx ni dans

y. Finalement, e=|X∪Y|représente le nombre d’attributs qui sont dans x ou dansy.

Plusieurs mesures de similarité ont été proposées sur ce genre de données, selon que l’on ne prend

pas en considération le facteurd(attributs non présents dans les deux objets) et dans ce cas les

mesures de similarité sont dites de type 1, ou dans le cas contraire, où les mesures de similarité

sont dites de type 2 [LRB09b]. La Table (7) présente une chronologie des mesures de similarité

qui ont été proposées.

Dans le cas de données numériques, chaque objet est représenté sous forme d’un vecteur

d’attri-buts définis dansχ =Rp. Sur ce type de données, il n’est pas possible d’appliquer des mesures

de similarité exploitant les quantités ensemblistes (a,b,c,d,e) présentées auparavant. Pour cela, la

similarité entre deux objetsxetyest quantifiée via une fonctionSIM (9) qui est exprimée soit en

relation à une expression de distance, soit par le produit scalaire de leurs vecteurs représentatifs

Mesure de similarité de type 1 Formule (SIM)

Jaccard (1908) a+ab+c

Kulczynski (1927) 12(a+ab +a+ac)

Dice (1945) 2a+2ab+c

Sorensen (1948) 4a+4ab+c

Ochiai (1957) √ a

a+b+√a+c

Anderberg (1973) 8a+8ab+c

Sneath et Sokal (1973) a+2(ab+c)

Tversky (1977) a+α.ba+β.c

Mesure de similarité de type 2 Formule

Russel et Rao (1940) a+b+ac+d

Yule et Kendall (1950) adad+bc

Sokal et Michener (1958) a+ab++dc+d

Rogers et Tanimoto (1960) a+2(ab++dc)+d

Sokal et Sneath (1963) a+d

a+

(b+c)+d

Table7 – Chronologie des mesures de similarité de type 1 (haut), et de type 2 (bas du tableau).

Certaines mesures de similarité peuvent varier dans [-1,1], notamment pour les mesures de

si-milarité du deuxième type. Ces mesures de sisi-milarité sont appliquées sur des données binaires

[LRB09b].

Distance Formule

Euclidienne d(x, y) =pΣpi=1(xi−yi)2

Euclidienne pondérée d(x, y) =pΣpi=1αi(xi−yi)2

Mahalanobis d(xi, yj) =p(xi−yj)tΣ−1(xi−yj),Σ: matrice de covariance

Minkowski dγ(x, y) = (Σpi=1|xi−yi|γ)

,γ : paramètre positif.

Manhattan d(x, y) = Σpi=1|xi−yi| (Minkowski pour γ=1)

Table8 – Différentes mesures de distance entre objets caractérisés par des attributs numériques

[LRB09b].

attributs sont dansχ², la similarité entre les objetsxety ayant des attributs binaires, se définit

SIM(x, y) :χ² −→R, verif iant3conditions:

{i| x_i = 1} etY ={i| y_i = 1} respectivement. Le nombre d’attributs partagés entre les deux

d’attri-buts définis dansχ =R^p. Sur ce type de données, il n’est pas possible d’appliquer des mesures

Jaccard (1908) _a₊^a_b₊_c

Kulczynski (1927) ¹₂(_a₊^a_b +_a₊^a_c)

Dice (1945) ₂_a₊²^a_b₊_c

Sorensen (1948) ₄_a₊⁴^a_b₊_c

Ochiai (1957) √ ^a

a+b+^√a+c

Anderberg (1973) ₈_a₊⁸^a_b₊_c

Sneath et Sokal (1973) _a₊₂₍^a_b₊_c₎

Tversky (1977) _a₊_α.b^a₊_β.c

Russel et Rao (1940) _a₊_b₊^a_c₊_d

Yule et Kendall (1950) _ad^ad₊_bc

Sokal et Michener (1958) _a₊^a_b⁺₊^d_c₊_d

Rogers et Tanimoto (1960) _a₊₂₍^a_b⁺₊^d_c₎₊_d

Sokal et Sneath (1963) ^a⁺^d

Table^{7 – Chronologie des mesures de similarité de type 1 (haut), et de type 2 (bas du tableau).}

Euclidienne d(x, y) =^pΣ^p_i₌₁(x_i−y_i)2

Euclidienne pondérée d(x, y) =^pΣ^p_i₌₁α_i(x_i−y_i)2

Mahalanobis d(x_i, y_j) =^p(x_i−y_j)tΣ−1(x_i−y_j),Σ: matrice de covariance

Minkowski dγ(x, y) = (Σ^p_i₌₁|xi−yi|γ)

Manhattan d(x, y) = Σ^p_i₌₁|xi−yi| (Minkowski pour γ=1)

SIM :R^p×R^p −→[0,1]

(x, y)7−→SIM(x, y)^. ⁽⁹⁾

cosinus des deux vecteurs :SIM(x, y) = _||^<x,y>_x_||_._||_y_||.

PosonsO une ontologie du domaine, telle que : O=(C,v_C, A), où C={c1, c2, ..., cn} est un

en-semble fini de concepts,Aest l’ensemble des attributs des concepts, etv_C est une relation d’ordre

simila-rité sémantique entre leurs annotations issues de l’ontologie GO (O_GO). En effet, les biologistes

GO) [SSP⁺05, BW07].

Notonsg₁ etg₂ deux produits de gènes annotés par deux listes de termes GO :g₁={t₁_,₁, ..., t₁_,i,

d’annotation qui est l’ancêtre commun le plus spécifique des deux termes d’annotationt₁ ett₂.

(SIM(g₁, g₂)) peut être quantifiée à partir des mesures de similarité sémantique entre les termes

qui les annotent :SemSIM(t_i, t_j),∀ t_i∈g₁,∀t_j ∈g₂.

étant une fonctionSemSIM, qui pour un couple de termes de l’ontologie GO (ti,tj)∈O_GO²

re-tourne une valeur numérique qui reflète la proximité sémantique entre les deux termes [PFF⁺09].

Figure ^{11 – Exemple d’un ensemble de termes d’annotations structurés dans le graphe de}

de l’ontologie GO, Pesquita et al. [PFF⁺09] distinguent de la même façon que Blanchard et