• Aucun résultat trouvé

à la classification hiérarchique

N/A
N/A
Protected

Academic year: 2022

Partager "à la classification hiérarchique"

Copied!
23
0
0

Texte intégral

(1)

SEMIN­

Introduction

à la classification hiérarchique

Loïc PONGER

MNHN, Régulation et Dynamique des Génomes

(2)

Une introduction `a la classification hi´erarchique

Lo¨ıc PONGER

[email protected]

USM 503 - R´egulation et Dynamique des G´enomes Mus´eum National d’Histoire Naturelle

43 rue Cuvier 75005 Paris

23 juin 2009

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 1 / 10

(3)

Probl`eme biologique : la m´ethylation des cytosines

(4)

Autres probl`emes pour le clustering ...

Clustering ...

de g`enes en fonction de donn´ees d’expression dans diff´erents tissus

de prot´eines en fonction de leur similarit´e (orthologues)

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 3 / 10

(5)

Introduction

Classification hi´erarchique

Objectif : regrouper les individus proches en k-classes

k n’´etant pas fix´ea priori (Partitionnement)

R´esultat : un dendrogramme ascendante vs. descendante Fonction : hclust()

(6)

Algorithme

1 choix des distances et de la m´ethode de regroupement

2 calcul de distances entre toutes les paires d’individus (matrice)

3 chaque individu est consid´er´e comme un cluster

4 recherche des deux clusters `a regrouper (cf. m´ethode de regroupement)

5 fusion des deux clusters et mise `a jour de la matrice de distances

6 r´ep´etition `a partir de l’´etape 4 jusqu’`a n’avoir qu’un cluster

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 5 / 10

(7)

Algorithme

1 choix des distances et de la m´ethode de regroupement

2 calcul de distances entre toutes les paires d’individus (matrice)

3 chaque individu est consid´er´e comme un cluster

4 recherche des deux clusters `a regrouper (cf. m´ethode de regroupement)

5 fusion des deux clusters et mise `a jour de la matrice de distances

6 r´ep´etition `a partir de l’´etape 4 jusqu’`a n’avoir qu’un cluster

(8)

Algorithme

1 choix des distances et de la m´ethode de regroupement

2 calcul de distances entre toutes les paires d’individus (matrice)

3 chaque individu est consid´er´e comme un cluster

4 recherche des deux clusters `a regrouper (cf. m´ethode de regroupement)

5 fusion des deux clusters et mise `a jour de la matrice de distances

6 r´ep´etition `a partir de l’´etape 4 jusqu’`a n’avoir qu’un cluster

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 5 / 10

(9)

Choisir ...

... une distance entre individus

mesure de dissimilarit´e entre N individus

fonctions : dist, dist.binary(), dist.quant(), dist.genet(), dist.prop(), dist.dudi(), dist.neig() (package ade4)

r´esultat : matrice de distances (NxN)

(10)

Choisir ...

... une m´ethode de regroupement des clusters

lien simple :min(d(i,j),i ∈Ci,j ∈Cj) (arbres applatis)

lien complet :max(d(i,j),i ∈Ci,j ∈Cj) (arbres allong´es) lien moyen (UPGMA) :

X

i,j

d(i,j)

n1xn2 ,i ∈Ci,j ∈Cj distance des centres de gravit´es :deucl(g1,g2) distance de Ward :q

n1xn2

n1+n2deucl(g1,g2)

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 7 / 10

(11)

Choisir ...

... une m´ethode de regroupement des clusters

lien simple :min(d(i,j),i ∈Ci,j ∈Cj) (arbres applatis) lien complet :max(d(i,j),i ∈Ci,j ∈Cj) (arbres allong´es)

lien moyen (UPGMA) : X

i,j

d(i,j)

n1xn2 ,i ∈Ci,j ∈Cj distance des centres de gravit´es :deucl(g1,g2) distance de Ward :q

n1xn2

n1+n2deucl(g1,g2)

(12)

Choisir ...

... une m´ethode de regroupement des clusters

lien simple :min(d(i,j),i ∈Ci,j ∈Cj) (arbres applatis) lien complet :max(d(i,j),i ∈Ci,j ∈Cj) (arbres allong´es) lien moyen (UPGMA) :

X

i,j

d(i,j)

n1xn2 ,i ∈Ci,j ∈Cj

distance des centres de gravit´es :deucl(g1,g2) distance de Ward :q

n1xn2

n1+n2deucl(g1,g2)

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 7 / 10

(13)

Choisir ...

... une m´ethode de regroupement des clusters

lien simple :min(d(i,j),i ∈Ci,j ∈Cj) (arbres applatis) lien complet :max(d(i,j),i ∈Ci,j ∈Cj) (arbres allong´es) lien moyen (UPGMA) :

X

i,j

d(i,j)

n1xn2 ,i ∈Ci,j ∈Cj distance des centres de gravit´es :deucl(g1,g2)

distance de Ward :q

n1xn2

n1+n2deucl(g1,g2)

(14)

Choisir ...

... une m´ethode de regroupement des clusters

lien simple :min(d(i,j),i ∈Ci,j ∈Cj) (arbres applatis) lien complet :max(d(i,j),i ∈Ci,j ∈Cj) (arbres allong´es) lien moyen (UPGMA) :

X

i,j

d(i,j)

n1xn2 ,i ∈Ci,j ∈Cj distance des centres de gravit´es :deucl(g1,g2) distance de Ward :q

n1xn2

n1+n2deucl(g1,g2)

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 7 / 10

(15)

Questions

meilleur dendrogramme ?

o`u couper le dendrogramme (d´eterminer k) ? validit´e des clusters ?

(16)

Validit´e des clusters

package pvclust et pvclust() (Suzuki, 2006)

coh´erence des clusters par rapport aux donn´ees

Approximately Unbiased p-value (multiscale bootstrap resampling, Shimodaira)

Bootstrap p-value

nombre de bootstrap : N=1000 puis N=10000 pvrect() : rectangles autour des clusters significatifs seplot() : affiche le sd des AU p-values

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 9 / 10

(17)

Validit´e des clusters

package pvclust et pvclust() (Suzuki, 2006) coh´erence des clusters par rapport aux donn´ees

Approximately Unbiased p-value (multiscale bootstrap resampling, Shimodaira)

Bootstrap p-value

nombre de bootstrap : N=1000 puis N=10000 pvrect() : rectangles autour des clusters significatifs seplot() : affiche le sd des AU p-values

(18)

Validit´e des clusters

package pvclust et pvclust() (Suzuki, 2006) coh´erence des clusters par rapport aux donn´ees

Approximately Unbiased p-value (multiscale bootstrap resampling, Shimodaira)

Bootstrap p-value

nombre de bootstrap : N=1000 puis N=10000 pvrect() : rectangles autour des clusters significatifs seplot() : affiche le sd des AU p-values

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 9 / 10

(19)

Validit´e des clusters

package pvclust et pvclust() (Suzuki, 2006) coh´erence des clusters par rapport aux donn´ees

Approximately Unbiased p-value (multiscale bootstrap resampling, Shimodaira)

Bootstrap p-value

nombre de bootstrap : N=1000 puis N=10000

pvrect() : rectangles autour des clusters significatifs seplot() : affiche le sd des AU p-values

(20)

Validit´e des clusters

package pvclust et pvclust() (Suzuki, 2006) coh´erence des clusters par rapport aux donn´ees

Approximately Unbiased p-value (multiscale bootstrap resampling, Shimodaira)

Bootstrap p-value

nombre de bootstrap : N=1000 puis N=10000 pvrect() : rectangles autour des clusters significatifs

seplot() : affiche le sd des AU p-values

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 9 / 10

(21)

Validit´e des clusters

package pvclust et pvclust() (Suzuki, 2006) coh´erence des clusters par rapport aux donn´ees

Approximately Unbiased p-value (multiscale bootstrap resampling, Shimodaira)

Bootstrap p-value

nombre de bootstrap : N=1000 puis N=10000 pvrect() : rectangles autour des clusters significatifs seplot() : affiche le sd des AU p-values

(22)

Pour finir

dendrogram : as.dendrogram(), rev(), cut()

package cluster : agnes (similar hclust), diana (CHD), ...

Lo¨ıc PONGER ([email protected]) Une introduction `a la classification hi´erarchique 23 juin 2009 10 / 10

(23)

Pour finir

dendrogram : as.dendrogram(), rev(), cut()

package cluster : agnes (similar hclust), diana (CHD), ...

Références

Documents relatifs

[11]Alg` ebres de Hecke et arithm´ etique des jacobiennes de courbes modulaires, en pr´ eparation (r´ esultats par- tiellement present´ es dans un “cours Peccot”, Coll` ege

De manière générale, chaque noeud de niveau 1/2 se sépare en |K| noeuds de niveau l/2 n , qui sont les classes de séries égales entre elles jusqu'à leur terme... De

[r]

Validation des classes à l’aide des variables externes Premièrement, la répartition des patients dans chacun des profils en fonction du type de greffe reçu indique que les

Partant d'un sommet s on cherche le sommet v(s) qui en est le plus proche en calculant les n distances de s à tous les sommets non rangés dans la chaîne; en cherche ensuite v(v(s))

La formule vaut en par- ticulier pour deux classes {i} et {i 1 } réduites chacune à un point affecté d'une masse, et désignées plus simplement par i et i'.. (1)

Dans la pratique, avant d'adopter une classification hiérarchique type, il est nécessaire d'examiner si le partage en classes de chaque niveau est uniformément fin et si

vol.. Ceci présente un intérêt dans le traitement de grands ensembles de données où l'on désire avoir un ensemble de hiérarchies localement optima- les par rapport à un