• Aucun résultat trouvé

HDclassif : un package R pour la classification non-supervisée de données en grande dimension

N/A
N/A
Protected

Academic year: 2022

Partager "HDclassif : un package R pour la classification non-supervisée de données en grande dimension"

Copied!
36
0
0

Texte intégral

(1)

HDclassif : un package R pour la classification non-supervisée de données en grande dimension

Laurent Bergé

MAP5 (UMR 8145), Université Paris-Descartes & Sorbonne Paris Cité GREThA (UMR 5113), University of Bordeaux

10 Juin 2016, Journée R, Muséum National D’Histoire Naturelle, Paris

(2)

Qu’est-ce que la classification non-supervisée ?

(3)

Qu’est-ce que la classification non-supervisée ?

But de la classification non-supervisée

1 Catégoriser des observations dans des groupes cohérents

2 (optionnel) Avoir le “bon” nombre de groupes

(4)

Pourquoi faire de la classification non-supervisée ?

Synthétiserdes données complexes et volumineuses

Partitionner les individus en des classeshomogènes etinterprétables

(5)

Schématisation du problème

Classification non-supervisée input: nobservations xi∈Rp

output: la partition {z1, . . . zn} (et le nombre de classesK)

(6)

Plan

1 Modèle de Mélange Gaussien

2 Modèles HDDC

3 Package HDclassif

(7)

Modèle de Mélange Gaussien

Modèle génératif:

Chaque observation iest générée de façonindépendantede la façon suivante :

1 zi∼ M(π1, . . . , πK)

2 Sachantzi=k:

xi∼ N(µk,Σk)

Paramètres du modèle

Pour chaque classek∈ {1, . . . , K}:

πk proportion µk vecteur moyenne

Σk matrice de variance-covariance

(8)

Modèle de Mélange Gaussien

Modèle génératif:

Chaque observation iest générée de façonindépendantede la façon suivante :

1 zi∼ M(π1, . . . , πK)

2 Sachantzi=k:

xi∼ N(µk,Σk)

Paramètres du modèle

Pour chaque classek∈ {1, . . . , K}:

πk proportion µk vecteur moyenne

Σk matrice de variance-covariance

(9)

Modèle de Mélange Gaussien

Modèle génératif:

Chaque observation iest générée de façonindépendantede la façon suivante :

1 zi∼ M(π1, . . . , πK)

2 Sachantzi=k:

xi∼ N(µk,Σk)

Paramètres du modèle

Pour chaque classek∈ {1, . . . , K}:

πk proportion µk vecteur moyenne

Σk matrice de variance-covariance

(10)

Modèle de Mélange Gaussien

Modèle génératif:

Chaque observation iest générée de façonindépendantede la façon suivante :

1 zi∼ M(π1, . . . , πK)

2 Sachantzi=k:

xi∼ N(µk,Σk)

Paramètres du modèle

Pour chaque classek∈ {1, . . . , K}:

πk proportion µk vecteur moyenne

Σk matrice de variance-covariance

(11)

Estimateurs

Probabilité d’observerxi sachant zi=k:

P(xi|zi=k, µkk)

=f(xikk)

= exp(xiµk)tΣ−1k (xiµk) + log(det Σk) +Cte

Estimateurs

Les estimateursµˆk et Σˆk sont les paramètres qui maximisent la vraisemblance.

(12)

Règle de Bayes

Si on ne connait pas zi:

P(zi=k|xi, µ,Σ) = πkf(xikk) P

k0πk0f(xik0k0)

tik

Par définition: Pktik= 1.

(13)

Algorithme EM

1 Initialisation des zi

2 Calcul des paramètres (πk,µk et Σk) sachant zi

3 Boucler jusqu’à convergence:

1 Calcul destik

2 Estimation des paramètres (πk,µk etΣk) sachant tik

(14)

Algorithme EM

1 Initialisation des zi

2 Calcul des paramètres (πk,µk et Σk) sachant zi

3 Boucler jusqu’à convergence:

1 Calcul destik

2 Estimation des paramètres (πk,µk etΣk) sachant tik

(15)

Algorithme EM

1 Initialisation des zi

2 Calcul des paramètres (πk,µk et Σk) sachant zi

3 Boucler jusqu’à convergence:

1 Calcul destik

2 Estimation des paramètres (πk,µk etΣk) sachant tik

(16)

Algorithme EM

1 Initialisation des zi

2 Calcul des paramètres (πk,µk et Σk) sachant zi

3 Boucler jusqu’à convergence:

1 Calcul destik

2 Estimation des paramètres (πk,µk etΣk) sachant tik

(17)

Algorithme EM

1 Initialisation des zi

2 Calcul des paramètres (πk,µk et Σk) sachant zi

3 Boucler jusqu’à convergence:

1 Calcul destik

2 Estimation des paramètres (πk,µk etΣk) sachant tik

(18)

Illustration Modèle de Mélange Gaussien

Classification non-supervisée :

(19)

Difficultés du monde réel

Les données réelles sont souvent en grande dimension (pest très grand)

Le nombre d’observation est souvent faible (np)

0 1000 2000 3000 4000 5000 6000

Problèmes

Quand pest grand ⇒ nombre de paramètres explose, complexitép2 Quand n < p⇒ modèle pas estimable (dû à l’estimation deΣk)

(20)

Difficultés du monde réel

Les données réelles sont souvent en grande dimension (pest très grand)

Le nombre d’observation est souvent faible (np)

0 1000 2000 3000 4000 5000 6000

Problèmes

Quand pest grand ⇒ nombre de paramètres explose, complexitép2 Quand n < p⇒ modèle pas estimable (dû à l’estimation deΣk)

(21)

Plan

1 Modèle de Mélange Gaussien

2 Modèles HDDC

3 Package HDclassif

(22)

Décomposition spectrale

Décomposition spectrale de Σk:

Σk=QkkQtk, avec:

Qk la matrice desvecteurs propresde Σk etQ−1k =Qtk

k la matrice diagonale desvaleurs propres deΣk:

k=

λ1 0

. ..

0 λp

,

λ1> λ2>· · ·> λp.

(23)

Décomposition spectrale

Décomposition spectrale de Σk:

Σk=QkkQtk, avec:

Qk la matrice desvecteurs propresde Σk etQ−1k =Qtk

k la matrice diagonale desvaleurs propres deΣk:

k=

λ1 0

. ..

0 λp

,

λ1> λ2>· · ·> λp.

(24)

Décomposition spectrale

Décomposition spectrale de Σk:

Σk=QkkQtk, avec:

Qk la matrice desvecteurs propresde Σk etQ−1k =Qtk

k la matrice diagonale desvaleurs propres deΣk:

k=

λ1 0

. ..

0 λp

,

λ1> λ2>· · ·> λp.

(25)

Re-paramétrisation du modèle de mélange

Hypothèse sur ∆k:

k=

ak1 0 0

0 . .. 0 0 akdk

bk 0 0 . .. 0

0 0 bk

dk

pdk

(26)

Paramètres du modèle

Pour chaque classek:

πk, proportion µk, vecteur moyenne

dk, nombre dedimensions intrinsèques de la classek akj,j`eme valeur propre deΣk (j∈ {1, . . . dk}) bk, «bruit» de la classe

Q˜k: seulementdk premiers vecteurs propres

(27)

Le modèle

h

a

kj

b

k

Q

k

d

ki

et ses sous-modèles

Le modèle général peut être régularisé:

Au sein de la classe:

I ak1=· · ·=akdk=ak

Entre les classes:

I d1=· · ·=dK=d

I Q1=· · ·=QK=Q

I b1=· · ·=bK=b

I a11=· · ·=aK1=a1

=⇒ 14 modèles

(28)

Estimation de d

k

1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

Eigenvalues

+ +

+

+

+

+ + + +

Cattel's scree−test

1 2 3 4 5 6 7 8 9

0.0 0.2 0.4 0.6 0.8 1.0

=⇒ on peut faire varier le seuil

dk peut être sélectionné par le BIC

(29)

Estimation du nombre de groupes K

C’est un problème difficile. Néanmoins différents critères existent:

BIC (Bayesian Information Criterion) ICL (Information Classification Likelihood) Heuristique de pente

(30)

Plan

1 Modèle de Mélange Gaussien

2 Modèles HDDC

3 Package HDclassif

(31)

Package HDclassif: inputs

La fonctionhhdc prends en entrée:

model: Le nom d’un des 14 modèles. Par défaut “AkjBkQkDk”. Peut être un vecteur.

K: Lenombre de classes. Peut être un vecteur.

threshold: Le seuil pour le scree-testde Cattell. Peut être un vecteur.

criterion: Le critère de sélection (BIC, ICL ou slope).

algo: L’algorithmeà utiliser (EM, SEM ou CEM).

init: Le type d’initialisation (random, kmeans, ...).

mc.cores: Nombre de coeurs à utiliser pour lecalcul en paralèlle.

(32)

Package HDclassif: autres fonctions

La fonctionpredict calcule la probabilité d’appartenance d’une observation à chacune des classes en fonction de paramètres estimés par hddc.

La fonctionplot montre la sélection des dimensions intrinsèques.

(33)

Package HDclassif: output

La fonctionhddc donne en sortie:

prms: L’ensemble des paramètres estimés (πk,µk,dk,akj,bk etQ˜k).

Loglik,BIC,ICL,slope: La valeur de ces critères pour le modèle.

all_results: Tous les modèles qui ont été estimés.

class: La classe associée à chaque observation.

posterior: La matrice n×K des tik.

(34)

Exemple en direct

Avec tous les risques inhérents !

(35)

Conclusion

HDclassif:

Permet la classification non-supervisée (et supervisée) de façon efficace en grande dimension

Est particulièrement efficace quandnp Est flexible (variété de modèles régularisés) Permet une sélection de modèle parallèlisable Tout commentaire est bienvenu,

(36)

Merci !

Merci de votre attention !

Références

Documents relatifs

Après avoir rappelé quelques notions élémentaires de classification non supervisée, nous pro- posons dans la suite de cette thèse d’étudier la classification au travers des

Exemple : si deux mots ont la même étiquette, ils sont en rapport avec une même

Se fondant ainsi sur des données et une mesure de proximité quantifiant la ressemblance ou la dissemblance entre les individus, nous pouvons désormais définir de manière informelle

Mots-clés : statistique bayésienne, données fonctionnelles, processus de Dirichlet, classification de courbes, MCMC Keywords: bayesian statistics, functional data, Dirichlet

`a un petit nombre de variables latentes (Friguet et al. La strat´egie propos´ee consiste `a appliquer les proc´edures sur les donn´ees conditionnellement `a cette struc- ture

We use the k−means algorithm (that we initialize many times, retaining the minimum within cluster distance solution) where the input data are the selected scales of the (AR) and

Dans la suite des expériences, HDDA et HDDC seront comparées à différents modèles classiques de mélange gaussien : modèle gaussien avec une matrice de covariance pleine pour

Une famille de modèles gaussiens pour la grande dimension : qui prend en compte le fait que les données de grande dimension vivent dans sous-espaces de dimensions faibles, dont