• Aucun résultat trouvé

expn0 2 T r Σ −1 Σ0

o`u T r (M) repr´esente la trace de la matrice M et Γk(·) est la fonction gamma k-vari´ee. Remarque 6. Comme nous l’avons soulign´e pour les m´elanges par processus de Di-richlet (section 2.1.7), la distribution pr´edictive dans les m´elanges par processus de Pitman-Yor n’a pas de forme utilisable en pratique. Les m´ethodes MCMC que l’on verra dans le chapitre 3 permettront d’obtenir de telles estim´ees.

2.4 Les processus d´ependants

Dans les mod`eles bay´esiens non param´etriques vus jusqu’`a pr´esent, la loi a priori porte sur une seule distribution. Cependant, dans certaines applications, l’objectif est de mod´eliser une collections de distributions {Gs, s ∈ S} o`u S est un intervalle temporel, une r´egion de l’espace etc.

Le processus de Dirichlet d´ependant (not´e DDP pour Dependent Dirichlet Process, [Mac99]) introduit une d´ependance dans une collection de distributions en rempla¸cant les poids et les atomes dans la repr´esentation stick-breaking par des processus stochastiques sur S (c’est-`a-dire des collections index´ees de variables al´eatoires, l’ensemble d’indices ´etant typiquement l’espace ou le temps mais il peut ˆetre un espace plus g´en´eral). L’id´ee est que pour tout s, Gs ∼ DP(α, G0) et que si s ≈ s0 alors Gs et Gs0 doivent ˆetre similaires. On a, ∀s, Gs(·) = +∞ X k=1 πskδθ sk(·) (2.33)

c’est-`a-dire que pour k fix´e, les poids πsk et les localisations θsk sont des processus sto-chastiques g´en´eraux. On obtient des collections de processus de Dirichlet qui varient r´eguli`erement comme fonction d’une certaine covariable. Un exemple est le DDP spatial [MKG01] o`u les poids πk sont constants et chaque atome θsk est un processus Gaussien (GP) index´e par s ∈ R2. Il existe plusieurs autres processus d´ependants. On peut ci-ter entre autres le π-DDP [GS06], les GSDP (Generalized Spatial Dirichlet Processes, [DGG07]), ou les KSB (Kernel Stick-Breaking processes [DP08]). Nous allons pr´esenter bri`evement deux cas particuliers de DDP `a savoir le processus de Dirichlet hi´erarchique (HDP) et le processus de Dirichlet imbriqu´e (NDP).

2.4.1 Le processus de Dirichlet hi´erarchique

Le but du processus de Dirichlet hi´erarchique (Hierarchical Dirichlet Process (HDP), [TJBB06]) est d’introduire une d´ependance entre des distributions sp´ecifiant des groupes

o`u les observations sont suppos´ees ˆetres plus similaires dans un mˆeme groupe qu’entre les groupes. L’id´ee est de supposer que ces distributions sont tir´ees d’un DP commun dont la mesure de base est elle-mˆeme tir´ee d’un autre DP. Si on d´esigne par j l’indice des groupes et i celui des observations, le HDP est donn´e par le mod`ele suivant :

G0 ∼ DP(α0, H),

∀j, Gj ∼ DP(α, G0), (2.34) ∀i, θij ∼ Gj.

Ce qui implique que :

G0(·) =

+∞

X

k=1

ωkδθk(·) avec ω ∼ GEM(α0) et θk ∼ H.

Puisque G0 a son support sur l’ensemble Θ = (θk)k=1, alors les Gj ont n´ecessairement le mˆeme support. On a donc pour tout j,

Gj(·) = +∞ X k=1 πjkδθ k(·) avec πj = (πjk)k=1 ∼ GEM(α). (2.35)

La s´equence des poids (wk) est construite de la fa¸con suivante (stick-breaking) :

ωk0 ∼ Beta(1, α0) ωk = ω0k

k−1

Y

l=1

(1− w0l).

La relation entre ω et πj est donn´ee par :

π0jk ∼ Beta αωk, α 1− k X l=1 ωl !! πjk = πjk0 k−1 Y l=1 (1− π0 lj).

En comparant les ´equations2.33 et2.35, on voit que le HDP est un DDP o`u les atomes sont constants entre les groupes, seuls les poids varient. Les atomes sont donc partag´es par les groupes.

Dans le HDP, l’analogie du processus du restaurant chinois du DP est la franchise du restaurant chinois. Dans cette m´etaphore, on a un ensemble de restaurants, chaque restaurant comportant un nombre infini de tables. Les restaurants ont le mˆeme menu compos´e d’un nombre infini de repas. Le premier client `a s’asseoir `a une table s´electionne un repas (`a partir du menu) qui sera partag´e par tous les clients qui s’y installeront. Plusieurs tables dans plusieurs restaurants peuvent servir le mˆeme repas. Les restaurants correspondent aux groupes Gj, les clients aux θji(client i dans restaurant j) et les valeurs uniques θ1, θ2· · · ∼ G0 composent le menu global. L’effet de renforcement statistique du processus se traduit par le fait que les clients pr´ef`erent s’asseoir aux tables les plus occup´ees, et auront une pr´ef´erence pour les repas les plus pl´ebiscit´es par les autres clients.

Teh et al. [TJBB06] ´etendent aussi l’approche aux m´elanges, conduisant aux mod`eles de m´elange par processus de Dirichlet hi´erarchiques (not´es HDPM pour Hierarchical

Les processus d´ependants

Dirichlet Process Mixtures). Dans le HDPM, xij (l’observation i du groupe j) suit une distribution param´etr´ee par θij. Le mod`ele hi´erarchique s’´ecrit :

xij ∼ F (xijij) pour i = 1, 2, . . . , n θij ∼ Gj pour i = 1, 2, . . . , n

Gj ∼ DP(α, G0) pour j = 1, 2, . . . (2.36) G0 ∼ DP(α0, H).

2.4.2 Le processus de Dirichlet imbriqu´e

L’id´ee du processus de Dirichlet imbriqu´e dit aussi emboit´e (Nested Dirichlet Process (NDP), [RDG08]) est de mod´eliser une collection de distributions al´eatoires d´ependantes et de pouvoir les clusteriser.

Un ensemble de distributions{G1, . . . , GJ} est dit suivre un NDP de param`etres α, β et H si

∀j, Gj ∼ Q (2.37)

Q ∼ DP(α, DP(β, H)). Cette d´efinition signifie que

Q(·)=d X k=1 πkδG k(·) o`u π ∼ GEM(α) et Gk∼ DP(β, H). Ce qui implique que

Gk(·)=d

X

l=1

ωlkδθlk(·) avec ωlk ∼ GEM(β) et θlk ∼ H.

Le NDP peut ˆetre ´etendu aux mod`eles de m´elange, appel´es m´elange par processus de Dirichlet imbriqu´es (Nested Dirichlet Process Mixtures (NDPM)). Ainsi, tandis que dans un DPM, la loi a priori sur la distribution m´elangeante est un DP (cf. ´equation

2.13), dans un NDPM la distribution m´elangeante est une collection de distributions {G1, . . . , GJ} dont la loi a priori est un NDP. On a alors

pj(x) = Z Θ f (x|θ)Gj(dθ), Gj(·) ∼ X k=1 πkδG k(·) (2.38) Gk(·) = X l=1 ωlkδθlk(·).

On peut r´e-´ecrire le mod`ele 2.38 de la fa¸con hi´erarchique suivante : xij ∼ F (xijij) pour i = 1, 2, . . . , n

θij ∼ Gj pour j = 1, 2, . . . , J (2.39) {G1, . . . , GJ} ∼ NDP (α, β, H).

Puisque Q(·) = P

k=1πkδG∗

k(·) est discr`ete, plusieurs Gj prendront simultan´ement la mˆeme valeur Gk pour un certain k, induisant un effet de clustering sur ces distributions. De plus, comme chaque Gk est aussi discr`ete, on peut clusteriser les observations ayant la mˆeme distribution Gk et le mˆeme param`etre θlk pour un certain l.

Remarque 7. Le HDP et le NDP induisent tous les deux des d´ependances mais de deux fa¸cons diff´erentes. D’une part, dans le HDP les distributions Gj partagent les mˆemes atomes (localisations des composantes) mais pas les mˆemes poids. Il y’a donc une probabilit´e nulle pour que deux distributions Gj et Gj0 soient ´egales. En cons´equence, le clustering est seulement effectu´e via les atomes. D’autre part, la construction du NDP implique qu’il y’a une probabilit´e non-nulle pour que deux distributions soient ´egales. Cela entraˆıne un clustering `a la fois via les distributions et via les param`etres.

Remarque 8. Pour la reconstruction spatio-temporelle en TEP 4D (chapitre 5), nous mod´elisons les cin´etiques par un processus emboit´e mais qui sera diff´erent du NDP. Les cin´etiques d´ecrivent l’´evolution dans le temps de l’activit´e dans une zone c´er´ebrale donn´ee. Notre but sera de clusteriser ces cin´etiques afin d’identifier des volumes fonc-tionnels (zones du cerveau dont l’activit´e a le mˆeme comportement cin´etique). Mais contrairement au mod`ele 2.39, dans notre mod´elisation le nombre de groupes (les cin´etiques) ne sera pas fixe et la mesure de base du NDP ne sera pas un processus de Dirichlet mais un processus d’arbres de P´olya que nous allons maintenant aborder.