• Aucun résultat trouvé

Chapitre 3. Modélisation comportementale 85

3.2 État de l’art sur les modèles Bayésiennes non-paramétriques

3.2.2 Présentation succincte des modèles Bayésiens non-paramétriques

Cette section a pour objectif d’accompagner le lecteur en apportant les principes néces-saires à la compréhension de ce qu’est le clustering de Dirichlet. Néanmoins, cette section n’a pas pour ambition de dérouler un état de l’art exhaustif sur les méthodes Bayésiennes non-paramétriques, ce qui sortirait du cadre de cette thèse. Pour plus de détails sur les fonde-ments, on conseille au lecteur de se reporter aux tutoriaux de référence [Teh 2007,Teh 2010, Or-banz 2011,Walker 1999]. Ceux pour qui ces notions sont familières, peuvent passer directement à la section 3.2.3 où sont abordées certaines extensions du processus de Dirichlet telles que le MLC-HDP (pour Multi Layer Clustering HDP) [Wulsin 2012] qui est le maillon clé de notre approche.

3.2.2.1 Loi binomiale / Loi beta

La loi binomial de paramètres n et p est une loi de probabilité discrète qui correspond à l’expérience suivante : "le renouvellement n fois, de manière indépendante, d’une épreuve de Bernoulli de paramètre p". L’épreuve de Bernoulli est une expérience aléatoire à deux issues possibles : "succès" avec la probabilité p, ou sinon "échec" avec la probabilité 1−p. Finalement, on note k est le nombre de succès à l’issue des n tirages. La fonction de densité de probabilité de la loi binomiale est notée :

f (k|n, p) = A n k B pk(1 − p)n−k (3.1)

Maintenant, retournons le problème. On cherche à estimer la densité de probabilité du paramètre p à partir des n observations. Tout d’abord, rappelons qu’une loi conjuguée modélise la densité de probabilité du paramètre d’une loi sachant sa réalisation. Dans notre cas, la loi Binomiale a pour conjuguée la loi Beta, avec respectivement α − 1 et β − 1 les nombres de

3.2. État de l’art sur les modèles Bayésiennes non-paramétriques 89 succès et d’échecs observés. Ainsi, la fonction de densité de probabilité de p sachant α et β est notée :

f (p|α, β) = x

α−1(1 − x)β−1

B(α, β) (3.2)

avec B la fonction Beta notée :

B(x, y) = (x − 1)!(y − 1)!

(x + y − 1)! (3.3)

La figure 3.1 illustre les fonctions de densités de la loi binomiale et de sa conjuguée. Sur cet exemple, la loi binomiale de paramètres p=0.3 et n=30 donne le maximum de la densité de probabilité pour k=9 succès. De manière complémentaire, la loi Beta de paramètres α-1=9, et donc β-1 = n-9 = 21, donne un maximum pour p=0.3.

Figure 3.1 – Exemple de fonctions de densité de probabilité de la loi de Binomiale et de sa conjuguée, la loi Beta.

3.2.2.2 Loi multinomiale / Loi de Dirichlet

La loi binomiale ne prend en compte que deux issues possibles, ce qui est souvent illustré par l’exemple de la pièce de monnaie tombant sur "pile" ou "face". Maintenant, étendons le principe à la loi multinomiale. Celle-ci va permettre de prendre en compte plusieurs résultats. Elle peut être illustrée par n jets d’un dé à K faces, où chaque face a une probabilité pk de succès. La somme des probabilités pkest égale à 1. La densité de la loi multinomiale est notée :

f (x|n, p) = n! x1!...xk!p

x1

1 ... pxk

k (3.4)

où x = (x1, ..., xk) est le nombre de succès de chaque face pour n tirages suivant les probabilités

p = (p1, ..., pk) relatives à chaque face du dé. Maintenant, retournons le problème une nouvelle fois tel que nous l’avons fait pour la loi binomiale. On cherche alors à estimer la densité de probabilité des pk à partir des n observations. Pour cela, on utilise alors la loi de Dirichlet (généralisation de la loi Beta) qui est la conjuguée de la loi multinomiale, où α = (α1, ... , αk) représente le nombre d’observations de chaque face. La densité de probabilité de la loi de Dirichlet est notée :

90 Chapitre 3. Modélisation comportementale f (p1, ... , pk|α) = 1 B(α) k Ù i=1 pαi−1 i (3.5)

avec p1, ... , pk les paramètres à estimer. On note la constante de normalisation B exprimée à l’aide de la fonction Gamma.

B(α) = rK

i=1Γ(αi)

Γ(qKi=1αi) et Γ(n) = (n − 1)! (3.6) Par la suite, on notera le loi de Dirichlet Dir(α1, ..., αK). La figure 3.2 illustre les fonctions de densité de la loi multinomiale et de sa conjuguée sur un exemple de dé à 3 faces. La loi multinomiale de paramètre p = (0.5, 0.2, 0.3) pour n = 10 tirages, donne le maximum de densité de probabilité pour x = (5, 2, 3) succès. De manière complémentaire, la loi de Dirichlet de paramètre α = (5, 2, 3) + 1 donne le maximum de densité de probabilité pour

p = (0.5, 0.2, 0.3). L’idée est que, plus le nombre de tirages augmente, plus la densité vient se

concentrer autour de ce maximum.

Figure 3.2 – Exemple de fonctions de densité de probabilité : loi multinomiale et sa conjuguée, la loi de Dirichlet.

3.2. État de l’art sur les modèles Bayésiennes non-paramétriques 91 3.2.2.3 Processus de Dirichlet (DP) et construction "stick-breacking"

Le processus de Dirichlet (DP) [Ferguson 1973] est une généralisation de la loi de Dirichlet pour le cas où k est infini. Un DP permet de tirer une distribution presque sûrement discrète (appelée G) à partir d’une distribution de probabilité continue (appelée H ou G0). Le tirage de G par un DP est noté G ∼ DP (α, H), avec α (parfois noté γ) un scalaire représentant la concentration (ou paramètre d’échelle). On note pour toutes partitions A1, ..., Ak d’un espace mesurable :

(G(A1), ..., G(Ak)) ∼ Dir(αH(A1), ..., αH(Ak)) (3.7) La figure 3.3 illustre la notion de partitionnement infini.

Figure 3.3 – Exemple où H est une loi de probabilité normale (1 dimension). La densité est partitionnée, et lorsque k → ∞, chaque Ai devient une impulsion de Dirac.

Les DPs peuvent être construits de plusieurs manières : la représentation du "bâton cassé" (ou en anglais "stick-breaking") [Sethuraman 1994], la métaphore du restaurant chi-nois [Teh 2006] ou également la méthode des urnes de polya [Blackwell 1973]. Nous détaillons ci-dessous la construction stick-breacking.

L’objectif est d’associer des poids π (ou masses) tendant à être de plus en plus faibles à l’infinité des impulsions de Dirac (appelées atomes) support de G. Rappelons que ces atomes sont tirés via la loi de Dirichlet (conjuguée de la loi multinomiale) définie par H. Le paramètre

α contrôle la distribution des masses à travers les atomes. Plus α est grand, plus la masse est

concentrée sur les premiers atomes. La notation suivante accompagnée de la figure 3.4 illustre le principe : βi ∼ Beta(1, α) πi = βirkl=1−1(1 − βi) φi ∼ H G =q∞ k=1πkδθk (3.8)

Cette mesure est parfois notée π ∼ GEM(α) faisant référence à Griffiths, Engen, and McCloskey [Pitman 2002].

92 Chapitre 3. Modélisation comportementale

Figure 3.4 – Construction stick-breacking du support de la distribution discrète G à partir de la distribution H.