• Aucun résultat trouvé

Si l’observation i possède la caractéristique k alors Z(i, k)=1, (0 si non). Notons que chaque donnée peut posséder plusieurs caractéristiques.

La figure5.1illustre la matrice des variables latentes comme des liaisons entre les caractéristiques et les observations. Ici, dk représente la valeur de la kième caracté-

ristique. Une flèche reliant dkà yiindique que la caractéristique k est présente dans

l’observation i. Les variables latentes binaires ziksont représentées par les flèches qui

nous permettent de savoir si dkest présente (reliée par une flèche) ou absente (non

reliée) pour chaque observation yi. Par exemple, l’observation y3contient des carac- téristiques d3et d4: la flèche relie d3et y3représente la variable latente z33= 1, idem

pour la flèche relie d4 et y3, z34 = 1. Par contre, il n’existe pas une flèche reliant d1

et y3, car z31= 0.

Dans un cadre bayésien, on cherche à définir un a priori sur cette matrice binaire

Z. Le processus du buffet indien (Indian Buffet Process, IBP) a été initialement intro-

duit par Griffiths et Ghahramani dans [57] et a été publié en revue dans [58]. L’IBP est une distribution non paramétrique sur les matrices binaires Z dans laquelle le nombre de caractéristiques (features) est potentiellement infini. Autrement dit, l’IBP peut être choisi comme a priori sur la matrice binaire Z dans le cas où le nombre de caractéristiques est inconnu. Les propriétés de l’IBP en font une distribution intéres- sante pour les applications aux modèles à variables latentes.

L’IBP ne limite pas le nombre de caractéristiques K. Cependant, en donnant un nombre fini N d’observations, la distribution assure que le nombre de caractéris- tiques K est fini avec probabilité un. Le comportement du processus est contrôlé par un seul paramètre α. Ce dernier règle l’a priori sur le nombre de caractéris- tiques observées. Le nombre de caractéristiques K attendues pour N observations est O(α log(N )), une valeur α faible favorisant peu de caractéristiques. Nous pré- sentons dans la suite différentes façons d’obtenir l’IBP de paramètre α. Des versions plus générales de l’IBP à plusieurs paramètres pour contrôler en plus la popularité des caractéristiques et le comportement en loi de puissance seront décrites dans la section5.6.

5.2

Métaphore du buffet indien

Dans la métaphore du buffet indien, les observations (données) sont symbolisées par les clients et les caractéristiques par des plats dans un buffet constitué d’une infi- nité de plats indiens. Le premier client qui entre dans le restaurant choisit Poisson(α) plats, qui vont constituer les premiers plat du buffet. Chaque client i choisit d’abord parmi les K premiers plats avec probabilité mk/ioù mkest le nombre de fois où le

plat k a été choisi par les clients précédents. Puis, ce client i choisit encore un nombre de nouveaux plats knew ∼ Poisson(α/i). Cette étape permet d’enrichir progressi-

vement l’ensemble des plats (caractéristiques) servis. Bien que le buffet soit infini, on peut montrer qu’une telle construction assure que chaque client dispose d’un nombre fini de plats avec probabilité un. Ainsi, pour un nombre fini d’observations, nous nous attendons à un nombre fini de caractéristiques. De plus, s’il y a une infinité d’observations, le nombre de caractéristiques reste dénombrable.

lof

Figure 5.2 – Matrice binaire et sa forme ordonnée à gauche (lof ). La couleur blanche et la couleur noire correspondent respec- tivement à 1 et 0.

Deux propriétés importantes du processus du buffet indien sont mises en évi- dence. Premièrement, nous prévoyons que le nombre de plats (ou caractéristiques actives) augmente quand le nombre d’observations grandit. Deuxièmement, comme chaque client fait d’abord son choix parmi les plats choisis précédemment, nous nous attendons à ce qu’il existe quelques caractéristiques populaires qui se produisent dans de nombreuses observations et de nombreuses caractéristiques rares exprimées dans seulement quelques observations.

Une autre propriété importante du processus du buffet indien est l’échangeabilité à la fois au niveaux des lignes (clients) que des colonnes (caractéristiques latentes). L’ordre dans lequel les clients assistent au buffet n’a pas d’impact sur la distribution de Z sur n’importe permutation des colonnes (l’ordre des plats) et les lignes (clients) sont également indépendantes.

Griffiths et Ghahramani[57] définissent une représentation canonique appelée la forme ordonnée à gauche (left-ordered form, lof ) de Z, écrit [Z] = lof (Z) par la suite. La figure5.2montre un exemple de la fonction lof d’une matrice binaire. La forme ordonnée à gauche prend d’abord la séquence binaire de 0 et de 1 pour chaque co- lonne (appelée l’histoire h) et convertit la séquence binaire en un nombre, en traitant le premier client (ligne ou donnée) comme le bit le plus significatif. Ainsi, chaque colonne (plat ou caractéristique) reçoit une valeur unique. On organise les colonnes par ordre décroissant de valeur. Plusieurs matrices binaires peuvent avoir la même forme ordonnée à gauche. Les deux matrices Z1et Z2 sont lof -équivalentes si Z1et

Z2ont même forme ordonnée à gauche : lof (Z1) = lof (Z2). En revanche, il n’existe

qu’une seule forme ordonnée à gauche pour chaque matrice binaire. On utilise lof pour définir un ensemble de classes d’équivalence. [Z] = lof (Z) désigne la classe d’équivalence pour la relation lof d’une matrice binaire Z.

L’IBP est caractérisée par une distribution sur les classes d’équivalence de matrices binaires [57], c’est-à-dire que la distribution sur Z est invariante par rapport aux per- mutations des colonnes (l’ordre des plats). On déduit d’ailleurs de (5.1) l’échangeabilité des clients et l’invariance de l’ordre des plats, voir Définition6. La probabilité de [Z] est donnée par

P([Z]) = 1 2N−1 h=1 Kh! exp(−α Ni=1 1 i) Kk=1 (N − mk)!(mk− 1)! N ! (5.1)

50 5.2. Métaphore du buffet indien

(a) α = 1 (b) α = 3

(c) α = 5 (d) α = 10

Figure 5.3 – Réalisation selon un processus du buffet indien pour 20 ob- servations et différentes valeurs du paramètre α.

où mkest le nombre d’observations utilisant l’atome (plat) k, K le nombre d’atomes

tels que mk > 0, N le nombre de données et α > 0 le paramètre de l’IBP. En par-

ticulier, nous notons que le nombre K d’atomes actifs n’est pas borné (fixé) dans l’équation (5.1). Khest le nombre d’atomes avec la même histoire Z(:, k)=h. Autre-

ment dit, les plats (atomes) ont été choisis par le même ensemble de client. Le pa- ramètre α quantifie le niveau de régularisation puisque K ∼ Poisson(αHN)avec

HN = N

j=1

1

j ce qui donne IE[K+]≈ α ln N puisque N

j=1

1

j N→∞ ln(N ) .

La figure5.3illustre des réalisations de ce processus pour un même nombre d’obse- rvations et différentes valeurs du paramètre α. Plus α est petit, plus la régularisation est forte, plus le nombre de caractéristiques est petit. Pour N = 20 observations et

αégale à 1, 3, 5, 10, le nombre de plats K est respectivement égale à 3, 9, 15, 30. La figure5.3montre aussi l’effet de la croissance logarithmique du nombre de plats K avec le nombre de clients N . Certains plats sont souvent utilisés et d’autres le sont plus rarement. Par exemple, dans la figure5.3(d), avec α = 10, le troisième plat est utilisé par presque tous les clients tandis qu’un seul client choisit le plat 30. Cela montre un effet parcimonieux.

En bref, l’IBP génère des matrices binaires parcimonieuses et potentiellement infi-

la fois de varier la taille du dictionnaire (potentiellement infinie mais pénalisée) et de promouvoir la parcimonie de la représentation. En pratique, Z est de taille finie car il suffit de travailler sur les K atomes actifs, c’est-à-dire les atomes qui sont associés à au moins une observation.