Notions mathématiques

x∈LCA(t1,t2)

_{W u}−P almer

considérer qu'une base de données sur des interactions entre protéines comme des connaissances

sur ces protéines : ici, une protéine ne représente pas un individu, mais une conceptualisation

représentant un ensemble d'objets interchangeables. De même que l'interaction décrite entre deux

protéines n'est pas une donnée résultant de l'observation de l'interaction de deux individus, mais

une connaissance généralisable comme une relation entre deux classes d'individus.

L'avantage qu'ont les ontologies sur les LOD pour la représentation et l'exploitation des

connaissances réside dans les capacités de raisonnement leur étant associées, notamment par

l'utilisation de la hiérarchie de concepts. Il est en théorie possible d'utiliser ce raisonnement avec

les données du LOD, cependant les grandes quantités de LOD rendent cette tâche de

raisonne-ment dicileraisonne-ment généralisable à l'échelle des LOD.

1.2 Notions mathématiques

Cette section a pour objectif d'introduire les notions mathématiques qui seront utilisées dans

les diérents travaux présentés dans cette thèse.

1.2.1 Relations d'ordre et treillis

Les treillis sont des outils mathématiques qui peuvent notamment être utilisées pour comparer

et organiser des données dans un processus de découverte de connaissances. Un treillis est une

structure algébrique permettant d'organiser des objets munis d'une relation d'ordre [Birkho,

1949].

Dénition 3. Un ordre ≤ sur un ensemble E est une relation binaire entre les éléments de E,

telle que, pour toutx, y etz éléments de E :

≤ est réexif : x≤x

≤ est anti-symétrique : x≤y et y≤x⇔x=y

≤ est transitif : x≤y et y≤z⇒x≤z

An de dénir un treillis, il n'est pas nécessaire de disposer d'un ordre total, c'est-à-dire d'un

ordre déni pour toute paire d'éléments de son domaine.

Dénition 4. Un ordre ≤ sur un ensemble E est dit total si et seulement si pour tout x et y

éléments de E,x et y sont comparables, c'est-à-dire que l'on a x≤y ou y≤x. Sinon, cet ordre

est dit partiel.

Un treillis peut alors être déni à partir d'un ensemble partiellement ordonné où chaque paire

d'éléments admet une borne supérieure et inférieure. A fortiori, on peut dénir un treillis à partir

de tout ensemble totalement ordonné.

Dénition 5. Un treillis est un ensemble E muni de deux lois de composition internes

∧

( meet) et∨ ( join), telles que, pour tout x, y et z éléments deE :

∧ et ∨ sont associatives :x∧(y∧z) = (x∧y)∧z

∧ et ∨ sont commutatives :x∧y=y∧x

∧ et ∨ vérient la loi d'absorption :x∧(x∨y) =x∨(x∧y) =x

3. Une loi de composition interne surEest une opération binaire qui à deux éléments deEassocie un élement

deE.

On peut dénir à partir des deux lois internes du treillis une relation d'ordre ≤ telle que

a ≤ b ⇔ a∨b = b. À l'inverse, on peut dénir un treillis à partir d'un ensemble

partielle-ment ordonné, c'est-à-dire, muni d'une relation d'ordre partielle sur ses élépartielle-ments, tel que, pour

tout x ety éléments deE :

x et y admettent une borne supérieure sup(x, y)∈E

x et y admettent une bonne inférieure inf(x, y)∈E

Cette relation d'ordre permet alors de dénir les lois internes du treillis telles quex∧y= inf(x, y)

et x∨y= sup(x, y).

Puisque chaque paire d'éléments du treillis admettent une borne inférieure et une borne

supérieure, il existe une borne supérieure et une borne inférieure à l'ensemble de ses éléments.

1.2.2 Mesures de similarité et métriques

Une mesure de similarité est dénie dans [Tversky, 1977] comme une fonction réelle

permet-tant de comparer des objets représentés par des ensemble d'attributs. Les mesures de similarité

proposent de quantier la similarité de deux objets. A l'inverse, les métriques quantient la

dissimilarité de deux objets.

Dénition 6. Une métriqued sur un ensemble E est une fonction réelled:E×E →R

telle

que, pour tout x,y, etz éléments deE :

dvérie l'identité des indiscernables : d(x, y) = 0⇔x=y

dest symétrique : d(x, y) =d(y, x)

dvérie l'inégalité triangulaire : d(x, z)≤d(x, y) +d(y, z)

Une fonction ne vériant que les deux premières propriétés est appelée semi-métrique.

On notera qu'on pourra dans la plupart des cas, pour une similaritésbornée par[0,1], dénir

une semi-métrique (et plus rarement une métrique)d(x, y) = 1−s(x, y).

Similarité de Dice La similarité de Dice [Dice, 1945] quantie la similarité de deux ensembles,

en comparant leurs cardinalités à celle de leur intersection.

Dénition 7. Soient deux ensembles X et Y, la similarité de Dice de ces deux ensembles est

dénie telle que :

sim

(X, Y) = 2|X∩Y|

|X|+|Y|

Similarité de Jaccard La similarité de Jaccard [Jaccard, 1901] quantie la similarité de deux

ensembles, en comparant la cardinalité de leur intersection avec celle de leur union.

Dénition 8. Soient deux ensemblesX et Y, la similarité de Jaccard de ces deux ensembles est

dénie telle que :

sim

(X, Y) = |X∩Y|

|X∪Y|

Cette similarité peut être transformée en une métrique [Kosub, 2016] d

(X, Y) = 1−

_∧

Dénition 6. Une métriqued sur un ensemble E est une fonction réelled:E×E →_R

(X, Y) = ²^|^X^∩^Y^|

(X, Y) = ^|^X^∩^Y^|

) = ²^×^IC⁽^LCA⁽^t

^{, t}

⁾⁾