HDclassif : un package R pour la classiﬁcation non-supervisée de données en grande dimension

(1)

HDclassif : un package R pour la classification non-supervisée de données en grande dimension

Laurent Bergé

MAP5 (UMR 8145), Université Paris-Descartes & Sorbonne Paris Cité GREThA (UMR 5113), University of Bordeaux

10 Juin 2016, Journée R, Muséum National D’Histoire Naturelle, Paris

(2)

Qu’est-ce que la classification non-supervisée ?

(3)

Qu’est-ce que la classification non-supervisée ?

But de la classification non-supervisée

1 Catégoriser des observations dans des groupes cohérents

2 (optionnel) Avoir le “bon” nombre de groupes

(4)

Pourquoi faire de la classification non-supervisée ?

Synthétiserdes données complexes et volumineuses

Partitionner les individus en des classeshomogènes etinterprétables

(5)

Schématisation du problème

Classification non-supervisée input: nobservations xi∈R^p

output: la partition {z₁, . . . zn} (et le nombre de classesK)

(6)

Plan

1 Modèle de Mélange Gaussien

2 Modèles HDDC

3 Package HDclassif

(7)

Modèle de Mélange Gaussien

Modèle génératif:

Chaque observation iest générée de façonindépendantede la façon suivante :

1 z_i∼ M(π₁, . . . , π_K)

2 Sachantzi=k:

xi∼ N(µk,Σ_k)

Paramètres du modèle

Pour chaque classek∈ {1, . . . , K}:

π_k proportion µk vecteur moyenne

Σ_k matrice de variance-covariance

(8)

Modèle de Mélange Gaussien

1 z_i∼ M(π₁, . . . , π_K)

2 Sachantzi=k:

xi∼ N(µk,Σ_k)

(9)

Modèle de Mélange Gaussien

1 z_i∼ M(π₁, . . . , π_K)

2 Sachantzi=k:

xi∼ N(µk,Σ_k)

(10)

Modèle de Mélange Gaussien

1 z_i∼ M(π₁, . . . , π_K)

2 Sachantzi=k:

xi∼ N(µk,Σ_k)

(11)

Estimateurs

Probabilité d’observerxi sachant zi=k:

P(x_i|z_i=k, µ_k,Σ_k)

=f(xi|µ_k,Σ_k)

= exp(x_i−µ_k)^tΣ⁻¹_k (x_i−µ_k) + log(det Σ_k) +C^te

Estimateurs

Les estimateursµˆk et Σˆ_k sont les paramètres qui maximisent la vraisemblance.

(12)

Règle de Bayes

Si on ne connait pas zi:

P(z_i=k|x_i, µ,Σ) = π_kf(x_i|µ_k,Σ_k) P

k⁰πk⁰f(xi|µ_k⁰,Σk⁰)

≡t_ik

Par définition: ^P_ktik= 1.

(13)

Algorithme EM

1 Initialisation des z_i

2 Calcul des paramètres (π_k,µ_k et Σ_k) sachant zi

3 Boucler jusqu’à convergence:

1 Calcul dest_ik

2 Estimation des paramètres (π_k,µ_k etΣ_k) sachant t_ik

(14)

Algorithme EM

1 Calcul dest_ik

(15)

Algorithme EM

1 Calcul dest_ik

(16)

Algorithme EM

1 Calcul dest_ik

(17)

Algorithme EM

1 Calcul dest_ik

(18)

Illustration Modèle de Mélange Gaussien

Classification non-supervisée :

(19)

Difficultés du monde réel

Les données réelles sont souvent en grande dimension (pest très grand)

Le nombre d’observation est souvent faible (np)

0 1000 2000 3000 4000 5000 6000

Problèmes

Quand pest grand ⇒ nombre de paramètres explose, complexitép² Quand n < p⇒ modèle pas estimable (dû à l’estimation deΣ_k)

(20)

Difficultés du monde réel

Les données réelles sont souvent en grande dimension (pest très grand)

Le nombre d’observation est souvent faible (np)

0 1000 2000 3000 4000 5000 6000

Problèmes

Quand pest grand ⇒ nombre de paramètres explose, complexitép² Quand n < p⇒ modèle pas estimable (dû à l’estimation deΣ_k)

(21)

Plan

2 Modèles HDDC

3 Package HDclassif

(22)

Décomposition spectrale

Décomposition spectrale de Σ_k:

Σ_k=Q_k∆_kQ^t_k, avec:

Qk la matrice desvecteurs propresde Σ_k etQ⁻¹_k =Q^t_k

∆_k la matrice diagonale desvaleurs propres deΣ_k:

∆_k=







λ1 0

. ..

0 λ_p





,

λ1> λ2>· · ·> λp.

(23)

Décomposition spectrale

∆_k=







λ1 0

. ..

0 λ_p





,

λ1> λ2>· · ·> λp.

(24)

Décomposition spectrale

∆_k=







λ1 0

. ..

0 λ_p





,

λ1> λ2>· · ·> λp.

(25)

Re-paramétrisation du modèle de mélange

Hypothèse sur ∆_k:

∆_k=







ak1 0 0

0 . .. 0 0 a_kd_k

bk 0 0 . .. 0

0 0 b_k















 d_k











p−d_k

(26)

Paramètres du modèle

Pour chaque classek:

π_k, proportion µ_k, vecteur moyenne

d_k, nombre dedimensions intrinsèques de la classek akj,j^`^eme valeur propre deΣ_k (j∈ {1, . . . d_k}) b_k, «bruit» de la classe

Q˜_k: seulementd_k premiers vecteurs propres

(27)

Le modèle

^h

a

_kj

b

_k

Q

_k

d

_kⁱ

et ses sous-modèles

Le modèle général peut être régularisé:

Au sein de la classe:

I a_k1=· · ·=a_kd_k=a_k

Entre les classes:

I d₁=· · ·=d_K=d

I Q₁=· · ·=Q_K=Q

I b₁=· · ·=b_K=b

I a₁₁=· · ·=a_K1=a₁

=⇒ 14 modèles

(28)

Estimation de d

_k

1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

Eigenvalues

+ +

+

+ + + +

●

Cattel's scree−test

1 2 3 4 5 6 7 8 9

0.0 0.2 0.4 0.6 0.8 1.0

=⇒ on peut faire varier le seuil

d_k peut être sélectionné par le BIC

(29)

Estimation du nombre de groupes K

C’est un problème difficile. Néanmoins différents critères existent:

BIC (Bayesian Information Criterion) ICL (Information Classification Likelihood) Heuristique de pente

(30)

Plan

2 Modèles HDDC

3 Package HDclassif

(31)

Package HDclassif: inputs

La fonctionhhdc prends en entrée:

model: Le nom d’un des 14 modèles. Par défaut “AkjBkQkDk”. Peut être un vecteur.

K: Lenombre de classes. Peut être un vecteur.

threshold: Le seuil pour le scree-testde Cattell. Peut être un vecteur.

criterion: Le critère de sélection (BIC, ICL ou slope).

algo: L’algorithmeà utiliser (EM, SEM ou CEM).

init: Le type d’initialisation (random, kmeans, ...).

mc.cores: Nombre de coeurs à utiliser pour lecalcul en paralèlle.

(32)

Package HDclassif: autres fonctions

La fonctionpredict calcule la probabilité d’appartenance d’une observation à chacune des classes en fonction de paramètres estimés par hddc.

La fonctionplot montre la sélection des dimensions intrinsèques.

(33)

Package HDclassif: output

La fonctionhddc donne en sortie:

prms: L’ensemble des paramètres estimés (π_k,µ_k,d_k,a_kj,b_k etQ˜_k).

Loglik,BIC,ICL,slope: La valeur de ces critères pour le modèle.

all_results: Tous les modèles qui ont été estimés.

class: La classe associée à chaque observation.

posterior: La matrice n×K des t_ik.

(34)

Exemple en direct

Avec tous les risques inhérents !

(35)

Conclusion

HDclassif:

Permet la classification non-supervisée (et supervisée) de façon efficace en grande dimension

Est particulièrement efficace quandnp Est flexible (variété de modèles régularisés) Permet une sélection de modèle parallèlisable Tout commentaire est bienvenu,

(36)

Merci !

Merci de votre attention !