• Aucun résultat trouvé

Chapitre 3. Modélisation comportementale 85

3.2 État de l’art sur les modèles Bayésiennes non-paramétriques

3.2.3 Extensions du Processus de Dirichlet

3.2.3.1 Processus de Dirichlet à mélange (DPM)

Grâce aux Processus de Dirichlet à Mélange (DPM ou Mixtures par Processus de Diri-chlet), il devient possible de faire du clustering sur des données avec un nombre de clusters

k théoriquement infini. L’aspect clustering vient du fait qu’à partir d’un DP, on peut tirer

une distribution discrète G constituée d’atomes où chacun représente un cluster potentiel. Considérant un tirage à partir de G, les chances de retomber sur les mêmes clusters de poids élevé provoquent un effet clustering.

De manière formelle, on suppose qu’une observation xi est tirée d’une distribution F (par exemple une gaussienne) de paramètre θi, lui même tiré de G, issue d’un DP. Ci-dessous la notation d’un DPM, accompagnée de la figure 3.5 pour sa représentation graphique :

G ∼ DP (α, H)

θiG

xiF (θi)

(3.9)

Figure 3.5 – Représentation graphique et équations d’un DPM.

Notons que la loi a posteriori d’un DP après n observations (θ1, ..., θn) est aussi un pro-cessus de Dirichlet, noté :

P (G|θ1, ..., θn) = DP A α α + nH + 1 α + n n Ø i=1 δθi, α + n B (3.10) Cela permet notamment d’estimer H, la distribution de base sur l’espace des paramètres

3.2. État de l’art sur les modèles Bayésiennes non-paramétriques 93 (e.g. µ et θ de lois gaussiennes) servant à modéliser les clusters à partir des observations. Après plusieurs répétitions au sein d’un processus itératif, on conserve la solution qui offre la plus grande vraisemblance. Finalement, l’algorithme pour la mise en pratique est relativement simple (cf. Algorithme 2).

while Observation Iteration do for each point X in Data do

1) Remove X from its assigned cluster.

2) Re-Estimate parameters for each cluster (without X)

3) Compute the probability vector (length of active clusters) being the

likelihood to be generated by each cluster, with α at the last position (opening the opportunity for new cluster creation)

4) Sample the new class of X according to the Multinomial distribution given by the DP.

5) If last position is chosen, a new cluster is set to be active (should be sampled from G), but in practice, we can estimate the parameters from X

end end

Algorithme 2 : Algorithme pour la mise en pratique du clustering par DP.

La figure 3.6 montre un exemple de clustering sur des données aléatoirement générées par un mélange de gaussiennes. On note la capacité du clustering par DP à proposer des solutions avec des clusters se chevauchant (ou se superposant complètement), contrairement à une approche classique de type K-means.

Figure 3.6 – Comparaison de la méthode K-means et DP sur des données générées aléatoire-ment à partir d’un mélange de gaussiennes. À gauche, pour la méthode K-means, K est calculé automatiquement via une méthode agglomérative à base de dendrogrammes. À droite, le résultat correspond à la 100ème itération d’un DP arrivé à un niveau relativement stable.

94 Chapitre 3. Modélisation comportementale 3.2.3.2 Processus Hiérarchique de Dirichlet (HDP)

Le Processus Hiérarchique de Dirichlet (ou HDP pour Hierarchical Dirichlet Process) [Teh 2006] est une manière de clusteriser des données potentiellement divisées en plusieurs groupes. La classification non-supervisée s’effectue au sein de chaque groupe indépendamment. Les clusters sont cependant partagés entre les groupes (cf. Figure 3.8). Tout comme un DP, le HDP permet de trouver le nombre de clusters et leurs paramètres susceptibles d’expliquer les données en s’appuyant sur les données elles-mêmes. Mais le principal intérêt du HDP réside dans sa capacité à partager l’ensemble des clusters au sein des différents groupes. À chaque cluster est associé un poids (possiblement nul) par groupe. Ainsi, les clusters peuvent n’être associés à aucune donnée dans certains groupes. Un HDP est défini par un DP classique, et plusieurs sous-DPs dépendants (1 associé à chaque groupe). Le DP classique offre le support sur lequel les sous-DPs vont s’appuyer pour échantillonner des observations. Soit la notation suivante, accompagnée de sa représentation graphique :

G0DP (γ, H) Gj ∼ DP (α, G0)

θjiGj xjiF (θji)

(3.11)

Figure 3.7 – Représentation graphique et équations d’un HDP.

Figure 3.8 – Illustration de la faculté de partage des clusters de la méthode HDP sur des données structurées en groupes, comparée à l’approche DP classique.

La nouvelle construction "stick-breaking" pour le HDP est donnée par :

G0 =q∞ k=1π0kδθ k θk ∼ H π0k = β0krkl=1−1(1 − β0l) β0k ∼ Beta(1, γ) Gj =q∞ k=1πjkδθ k πjk = βjkrk−1 l=1(1 − βjl) βjk ∼ Beta(αβ0k, α(1 −qkl=1β0l)) (3.12)

3.2. État de l’art sur les modèles Bayésiennes non-paramétriques 95 3.2.3.3 Autres variantes (NDP, DDP...)

Parmi les variantes notables, on peut mentionner le Nested HDP. En fait, avec le HDP, on considère que l’on connait la structure en groupe des données observées. En pratique, il peut s’avérer que cette structure définie préalablement ne reflète pas vraiment la réalité en termes de regroupement des données. Il se peut que certains groupes soit plus cohérents que d’autres. C’est dans ce cadre que [Rodríguez 2008] propose le "Nested HDP" permettant de clusteriser les groupes grâce à un second niveau de mélange de modèles.

Autre variante, le Dependent Dirichlet Process introduit par [MacEachern 1999] permet de modéliser l’évolution progressive des clusters dans l’espace et dans le temps.

Sinon, on peut mentionner le HDP-HMM [Fox 2008] qui permet de découvrir les états types d’un modèle de Markov caché ainsi que les probabilités de transition associées.

3.2.3.4 Processus hiérarchique de Dirichlet multi-niveaux (MLC-HDP)

Le clustering par processus hiérarchique de Dirichlet multi-niveaux introduit par [ Wul-sin 2012] combine les avantages du HDP et du NDP. Il intègre l’aspect clustering à plusieurs niveaux comme pour le NDP tout en gardant la capacité du HDP à fournir un support com-mun pour le partage des clusters au travers des données. La flexibilité du MLC-HDP permet de définir le nombre de niveaux en fonction de la structure de données utilisée. Voici par exemple la définition d’un MLC-HDP à deux niveaux, et sa représentation graphique associée.

β(2)GEM (γ(2)) π(2) ∼ DP (α(2), β(2)) β(1)GEM (γ(1)) π(1) ∼ DP (α(1), β(1)) φkH zj(2)π(2) zji(1)|zj(2)π(1) zj(2) xji|zji(1)F (φz(1) ji ) (3.13)

Figure 3.9 – Représentation graphique et équations d’un MLC-HDP à deux niveaux.

Dans le modèle MLC-HDP défini ci-dessus, les indices supérieurs indiquent le niveau au sein de la structure hiérarchique. π(n)représente l’ensemble des poids associés à chaque cluster au niveau n. L’indice inférieur associé à π renseigne le cluster de niveau supérieur décrit. z indique le cluster d’appartenance d’une donnée (niv. = 1) ou bien d’un cluster (niv. > 1). Le modèle s’appuie sur un certain nombre d’hyper-paramètres (α et γ à chaque niveau), néanmoins, l’auteur a montré que l’a priori porté par ces hyper-paramètres a une moindre influence sur les résultats finaux [Wulsin 2012].

96 Chapitre 3. Modélisation comportementale 3.2.3.5 Bilan DP, HDP, NDP, MLC-HDP

De manière anticipée, l’exemple ci-après utilise des trajectoires, ce qui permettra de faire le lien avec la section suivante. La figure 3.10 illustre donc à partir de trajectoires le fonction-nement des 4 principaux modèles présentés dans l’état de l’art de ce chapitre, à savoir le DP, le HDP, le NDP et le MLC-HDP. Notons que le DP se contente de regrouper les trajectoires similaires en clusters. L’ensemble des clusters est représenté par une mesure discrète G sur l’espace des paramètres θ (e.g. µ et σ modélisant chaque cluster par une Gaussienne). Le HDP donne lieu à une mesure discrète G0 et des mesures Gi qui partagent les atomes avec G0 mais associées à des poids différents. Le NDP donne lieu à une infinité de mesures discrètes G i

contenant chacune une infinité d’atomes et de poids. Le MLC-HDP donne également lieu à une potentielle infinité de mesures discrètes G1

i, mais ce sont des échantillons de DPs issus d’une mesure de base G1

0.

Figure 3.10 –Comparaison des 4 modèles : Processus de Dirichlet (DP), le processus hiérarchique de Dirichlet (HDP), le processus de Dirichlet imbriqués (NDP) et le clustering HDP multi-niveaux (MLC-HDP). L’exemple utilisé est un jeu de données constitué de 3 ensembles de trajectoires. Chaque couleur correspond à un cluster (figure adaptée de [Wulsin 2012]).