Estimateurs bayésiens - Approches bayésiennes non paramétriques et apprentissage de dictionnair

(a) Centres des clusters inférés (b) Poids des clusters

Figure 4.5 – Résultat de l’algorithme EM pour mélange de processus de Dirichlet.

Pour rappel, l’algorithme EM est un algorithme itératif proposé dans [75] en 1977. Dans le cadre des approches paramétriques, il s’agit d’une méthode d’estimation s’inscrivant dans le cadre général du maximum de vraisemblance. La figure4.5illustre les résultats obtenus issus du résultat de la dernière itération. La figure4.5(a) affiche les étoiles bleues et rouges correspondant aux centres des clusters estimés. Parmi ces clusters, on retrouve bien les trois clusters souhaités en bleu. La figure4.5(b) affiche l’estimateur des poids πkdes clusters. Les trois clusters qui ont des poids dominants

[0.23 0.5 0.27] correspondent bien aux trois clusters illustrés par les étoiles bleues dans la figure4.5(a). Les étoiles rouges représentent les autres clusters qui ont les poids négligeables, presque nuls. On peut les éliminer avec une étape de post pro-

cessing, qui supprime par exemple tous les clusters dont les poids sont considérés

comme négligeables.

4.6 Estimateurs bayésiens

Les estimateurs bayésiens d’un paramètre sont souvent construit à partir de sa loi a posteriori en minimisant d’une fonction de coût appropriée. Les estimateurs bayésiens proposés dans les applications de traitement du signal sont souvent :

— l’estimateur du maximum de vraisemblance ou maximum likelihood estima-

tion (MLE),

— l’estimateur Minimum Mean Square Error, MMSE minimise le coût qua- dratique. On l’appelle aussi la moyenne de la loi a posteriori du paramètre échantillonné,

— l’estimateur Maximum A Posteriori, MAP prend la forme de l’extremum de la distribution a posteriori du paramètre échantillonné.

Dans un cas paramétrique, les échantillons issus d’une méthode MCMC peuvent approximer ces estimateurs bayésiens. Par exemple, on peut calculer la moyenne de ces échantillons après l’étape de chauffe (burn-in) pour l’estimateur MMSE. Pour l’estimateur MAP, on prend l’échantillon qui maximise la loi a posteriori parmi les échantillons de la série. Toutefois, dans le cadre des approches non-paramétriques, la dimension de l’espace des paramètres n’est pas fixée à l’avance. Cette dimension peut varier au cours des itérations. La question de la définiton d’estimateur non-

paramétrique est une question difficile que nous n’approfondiiront pas dans ce tra- vail.

4.7 Discussion

Le principe des approches non paramétriques est de travailler sur des mesures aléatoires. Dans le cas particulier du DPM, la loi a priori est une mesure aléatoire elle-même distribuée selon un processus de Dirichlet. Les modèles bayésiens non- paramétriques permettent de définir une distribution a priori sur des espaces fonc- tionnels (de dimension infinie) au lieu d’un espace de dimension finie habituelle- ment. Un modèle non paramétrique peut être simplement considéré comme un mo- dèle statistique avec un nombre infini de paramètres. Ceci évite de fixer la complexité ou l’ordre du modèle, le nombre de paramètres pouvant augmenter dynamiquement avec le nombre de données. Par exemple, le Processus de Dirichlet et le processus de Restaurant Chinois ont des applications en statistiques pour les modèles de mélange (mixture models) notamment. Le partie4.5nous présente l’intérêt du processus de Dirichlet dans un modèle de mélange et son inférence permet de retrouver les para- mètres du modèle de mélange, incluant K le nombre de classes. Notons au passage que les problèmes de segmentation d’image se font parfois en s’appuyant sur des modèles de mélange (segmentation non supervisée ou clustering) pour lesquels des algorithmes EM ont souvent été proposés [76].

Le code de DPpackage de Jara [77] contient des fonctions pour effectuer l’inférence par simulation à partir des distributions a posteriori pour les modèles bayésiens non paramétriques. Les sources sont disponibles sous forme de package R sur le site du projet CRAN1_[₇₈_].

Le chapitre5présentera le processus du buffet indien, une distribution non para- métrique utilisée dans l’apprentissage de dictionnaire, qui est aussi un des outils clefs de cette thèse.

CHAPITRE

5

Processus Beta et buffet indien

L’utilisation des méthodes bayésiennes non-paramétriques par l’apprentissage de dictionnaire nous permet de ne pas fixer à l’avance la taille du dictionnaire (nombre d’atomes). Le dictionnaire ainsi que sa taille sont échantillonnés lors de l’inférence. Chaque observation peut être une combinaison de plusieurs caractéristiques ou atomes. Il s’agit des modèles à variables latentes (latent feature model).

Or, dans les modèles de mélange ou dans les approches de classification présentées dans le chapitre4, il n’est pas possible d’affecter plusieurs caractéristiques aux objets observés. Chaque observation ne peut être associée qu’à une seule classe. Par exemple, dans le processus du Restaurant Chinois, les clients ne peuvent s’asseoir qu’à une seule table.

Le processus du buffet indien introduit par Griffiths et Ghahramani [57,58] en 2006 utilise les idées sous-jacentes des modèles de mélange infinis pour représenter les objets en termes d’une infinité de fonctions latentes. Dans le processus du buffet indien, les clients entrent dans un restaurant, mais au lieu de choisir une table à la- quelle s’asseoir, ils choisissent les plats. Chaque client prend à la fois des plats déjà pris et des plats nouveaux. Le nombre total de plats choisis suit une loi Poisson. Ce chapitre rapelle la construction du buffet indien et ses principes propriétés, ainsi que le lien avec les processus Beta.

5.1 Modèle à variables latentes et Processus du buffet indien

Les modèles à variables latentes (latent feature models) s’appliquent aux problèmes composés de plusieurs observations, où chacune des observations peut posséder un ensemble de caractéristiques (features) inconnues. L’affectation des caractéristiques aux observations est encodée par les variables latentes binaires. Ceci est représenté par une matrice binaire Z. Dans ce chapitre, pour être cohérent avec les notations de Griffiths et Ghahramani [57,58], la matrice Z est de taille N × K. Les lignes de la

d1 d2 d3 d4

y₁ y₂ y₃ y₄

z11 z23 z33

Figure 5.1 – Représentation graphique du modèle à variables latentes binaires. Chaque observation y_i est associée par une com- binaison de caractéristiques dk.

48 5.2. Métaphore du buffet indien

Dans le document Approches bayésiennes non paramétriques et apprentissage de dictionnaire pour les problèmes inverses en traitement d'image (Page 69-73)