• Aucun résultat trouvé

Méthodes bayésiennes non paramétriques pour les modèles à variables latentes

3.1.4. c Loi sur les partitions et processus du restaurant chinois

Cete partie introduit leprocessus du restaurant chinois (CRP), pour

chinese restaurant process en anglais, à partir de l’urne de Blackwell- Macueen. LeCRPest étroitement lié à la loi des permutations d’un gène, nommée loi d’Ewens (Ewens,2004). L’objectif est de comprendre la distribution sur les partitions induite par le processus de Dirichlet, et de construire un nouvel algorithme travaillant directement sur ces partitions.

Soient θ1, . . . , θNN paramètres générés suivant un modèle d’urne de

Blackwell-Macueen de paramètre α. On s’intéresse aux sous ensembles formés par les paramètres de même valeur. En regroupant les indices des paramètres de même valeurs, on obtient une partition πNde J1, NK.

NotonsPNl’ensemble des partitions de J1, NK. D’après l’équation (3.24),

la partition πN+1s’obtient en insérant l’entier N+1 à l’un des éléments

de la partition proportionnellement à sa cardinalité, ou en créant un nouveau sous-ensemble formé uniquement de N+1 avec probabilité proportionnelle à α.

La suite(πn)nainsi déinie est une chaîne de Markov inhomogène d’es-

pace d’état ∪

n≥1Pn, où chaque πnest à valeur dansPn. On remarque

immédiatement que π1 = {1}. En notant b les éléments ou bloc d’une

partition, le noyau de transition de la chaîne est donné pour tout couple

(π, π′)∈ Pn× Pn+1, par P[πn+1=π′|πn =π ] =        #b

n+α si π′s’obtient en rajoutant n+1 dans le bloc b pour tout b∈π

α

n+α si π′s’obtient en rajoutant le singleton{n+1}à la partition π

0 sinon,

y q à 91 où #b est la taille du bloc b. Une réalisation duCRPà N clients est notée

πN ∼CRP(α, N). σ(6)=0 1 2 5 3 4 6 8 3 8+α 1 8+α 2 8+α α 8+α

F 3.7 : Génération d’une réalisation du CRP pour N=8. Ici, 7 clients sont déjà répartis sur 3 tables. Le 8eclient

peut s’asseoir à l’une des trois tables déjà occupées ou en dresser une nouvelle.

Le processus stochastique déinit équation (3.25) est appelé leCRPen raison de la métaphore culinaire associée.

La igure3.7illustre cete métaphore. L’espace d’état est un restaurant, les ensembles de la partition des tables et les indices des clients. À chaque itération, le nouveau client s’assoit soit à une table existante proportion- nellement au nombre de client assis soit à une nouvelle table propor- tionnellement à α. Nous garderons dans cete partie ce vocabulaire pour étudier les propriété du processus.

On voit déjà à ce stade l’efet du paramètre α. Si α=0, aucune nouvelle table n’est ajoutée. À l’inverse, si α −→ +∞, πnest réduit à la partition triviale{{1},{2}, . . .}.

Dans le cadre pratique de la classiication non supervisée, les observa- tions, i.e. les clients ici, n’arrivent pas séquentiellement. On préfère alors considérer la loi marginale sur la partition P[πn].

héorème 3.3. Pour tout entier n et toute partition π dePn, on a

La preuve se fait par récurrence, et pourra être trouvée au chapitre 14 de Chafaı̈ et Malrieu (2015). P[πn =π ] = α|π| α(α+1). . .(α+n−1)b

∈π ( #b−1)! , (3.26) où|π|est le nombre d’éléments de la partition.

La loi (3.26) est aussi appelée fonction de probabilité de la partition échangeable (EPPF). La loi (3.26) est invariante vis-à-vis des permuta- tions σ sur l’arrivée des clients, d’où l’adjectif e échangeable u. On peut comprendre la forme du résultat (3.26) sans complètement développer la preuve : le dénominateur est le produit des constantes de normalisa- tion successives en(α+n−1)−1. Le terme en α|π|provient des|π|cas

où l’on a créé une nouvelle table tandis que le terme en(#b−1)! est le produit des tailles successives des tables où les clients vont se rajouter.

D’un point de vue algorithmique, l’échangeabilité permet la mise en place d’un algorithme de Gibbs, comme dans le cas de l’urne de Blackwell-

Macueen. La diférence5est que l’on travaille ici directement sur la par- 5. Reprenons l’exemple de la note4p.90. Désormais, pour faire le même mouve- ment, il suit de metre à jour une seule fois la valeur du paramètre.

tition et non plus sur la partition induite par les valeurs des paramètres. Un tel algorithme sera présenté dans la partie3.1.5.

Notons que pour n ≥ 3, l’EPPF n’est jamais la loi uniforme sur les

partitions. En efet, il est facile6de trouver deux partitions π et πdePn 6. Par exemple si n = 3 et α ̸=2, on peut considérer π = {{1, 2, 3}}

et π= {{1},{2},{3}}, on a

P[π]/P[π′]=2/α2.

telles que P[π]̸=P[π′].

Il est possible de déterminer la loi du nombre de tables, i.e., la loi de la taille de la partition, ainsi que les moments.

héorème 3.4. Soit(πn)nun tirage d’un processus du restaurant chinois

de paramètre α. Notons KNle nombre de tables après l’arrivée de N clients.

Alors P[KN =K ] = s(N, K) α K α(α+1). . .(α+N−1), (3.27) E[KN] = N

n=1 α α+n N→+∞∼ α ln(N), (3.28) Var[KN ] = N

n=1 αn (α+n)2 N→+∞α ln(N), (3.29)

où s(N, K)est le nombre de Stirling de première espèce, qui compte le nombre de permutations de N objets composés d’exactement K cycles dis- joints. 1 2 3 4 5 6 7 8 K 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 p(K) = 1 = 5 F 3.8 : Distribution théorique du nombre de tables d’un processus du restaurant chinois après l’arrivée de 10 clients, pour α=1 (bleu clair) et α=5 (bleu foncé). Ici, E[K10|α=1

]

=2.9 et

E[K10|α=5]=5.8.

La igure3.8illustre la loi du nombre de tables (cf. (3.27)) appelée équation d’Antoniak (Antoniak,1974). Les équations (3.28) et (3.29) montrent que les deux premiers moments de la loi du nombre de tables se comportent asymptotiquement comme ceux d’une loi de Poisson. L’espérance du nombre de table est proportionnel à ln(N). Si l’on choisi le restaurant chi-

nois comme loi a priori sur les partitions pour une tâche de classiication non supervisée, on obtient un modèle qui pénalise le nombre de classe tout en favorisant la diversité lorsque le nombre d’observations augmente.

Ces observations concluent la construction du modèle de mélange bayé- sien non paramétrique que nous allons utiliser dans la prochaine partie pour une formulation bayésienne non paramétrique de la classiication non supervisée. Nous retiendrons qu’en partant d’un objet mathéma- tique complexe, nous avons abouti au CRP, une loi relativement simple et interprétable sur l’ensemble des partitions.