Problèmes ouverts et perspectives - Approches bayésiennes non paramétriques et apprentissage de

9.2.1 Vers des méthodes d'optimisation

Une des limites de notre algorithme est son coût de calcul dû à l’échantillonnage de Gibbs. Un autre type d’inférence est envisagé pour réduire le temps de calcul. On pense d’abord à l’approximation bayésienne variationnelle. L’idée de l’approximation bayésienne variationnelle (BV) est de chercher une loi qopt_(.)_{la plus proche de la}

loi a posteriori ciblée p(.|y) qui est difficile à calculer. On peut choisir librement la forme de la loi qopt_(.)_{. Cette loi approchant q}opt_(.)_{doit être la plus proche possible de}

p(.|y) au sens où elle doit minimiser une mesure de dissemblance. Un choix naturel de cette mesure est la divergence de Kullback-Leibler (KL) qui est une mesure de la différence entre 2 densités de probabilité. Une étude de l’inférence variationnelle pour le processus de buffet indien a été présentée dans [95]. À courts termes nous souhaitons explorer ces approximations variationnelles afin de réduire les temps de calculs. Cependant notons au passage que comme ils s’agit d’une approximation, l’algorithme peut ne converger que vers un maximum local. Pour cela, une étude se basant sur les travaux de Doshi et al.[95] est nécessaire afin de pouvoir proposer une approximation pertinente pour le modèle IBP-DL.

On pense aussi à explorer de nouveaux modèles conduisant à un jonglage entre les méthodes bayésiennes et d’optimisation. Par exemple, une méthode d’optimisation en utilisant des outils bayésiens a été proposé dans [100]. Nous avons commencé à travailler sur une autre méthode qui se base sur Small Variance Asymptotics (SVA) [101,102]. L’idée consiste à regarder le comportement de l’échantillonneur de Gibbs quand la variance du bruit tend vers 0. Accessoirement, afin de factoriser la vraisem- blance, il est nécessaire de coupler certains paramètres, par exemple dans notre cas

αet σε. À la fin, à partir d’un MAP (Maximum A Posteriori), on espère obtenir une

fonction du coût similaire à celle obtenue avec les méthodes d’optimisation. Ce tra- vail est en cours.

Dans un premier temps, on envisage de poser un nouveau modèle liant les mé- thodes bayésiennes et d’optimisation en utilisant SVA. Cela pourrait nous permettre de trouver les réponses aux heuristiques utilisées dans les méthodes d’optimisation. À moyen terme, on souhaite proposer un algorithme pour minimiser la fonction de coût qui apparaît dans ce nouveau modèle, tout en conservant les intérêts des approches non paramétriques. Cette perspective nécessite un investissement à la fois théorique et expérimental. Nous pensons que cette contribution est importante car

110 9.2. Problèmes ouverts et perspectives à notre connaissance aucune étude de ce type n’a été menée en apprentissage de dictionnaire.

9.2.2 Comportement en loi de puissance

Dans le chapitre5, nous avons présenté une version IBP à trois paramètres qui peut prendre en compte un comportement en loi de puissance liant le nombre d’observa- tions utilisant un atome et le nombre d’atomes utilisés par chaque observation. Un autre modèle plus général est proposé par Caron [103] s’appuyant sur les réseaux bipartites ou les réseaux d’affiliation ou de collaboration. Dans ce type de réseaux, les éléments sont divisés en deux types A et B, et seules les connexions entre les éléments de types différents sont autorisées. Des exemples de ce genre peuvent être des acteurs de cinéma jouant dans le même film, des acheteurs choisissant le même produit, des internautes postant un message sur le même forum, des personnes qui lisent le même livre ou écoutent la même musique, etc. Les méthodes BNP permettent de modéliser les relations entre deux types d’entités. Un étude sur ces modèles a été commencée avec F.Caron pendant un séjour à Oxford au printemps 2015.

Dans [99, 103], un modèle bayésien non paramétrique (BNP) a été proposé où chaque élément possède son propre paramètre de sociabilité permettant de capturer le comportement en loi de puissance observé dans les graphes bipartites réels et re- produire des propriétés statistiques fines des données. Dans ce modèle, les éléments de type A sont des lecteurs et les éléments de type B sont des livres. Les méthodes BNP nous permettent de ne pas fixer à l’avance l’ensemble des livres disponibles{θj},

il peut augmenter à mesure que de nouveaux lecteurs sont ajoutés, sa taille étant po- tentiellement infinie. L’ensemble des livres lu par le lecteur i peut être représenté par le processus ponctuel suivant :

zi = ∞

∑

j=1

zijδθj (9.1)

où zij = 1quand le lecteur i a lu le livre j et 0 sinon. La collection de mesures binaires

(z1, ...,zn)définit l’ensemble des relations entre les lecteurs et les livres. Le modèle

BNP de [103] propose :

p(zij = 1|ωj, γi)∼ Ber(1 − exp(−γiωj)) (9.2)

où les ωj > 0, (ωj, θj)sont issus d’une mesure complètement aléatoire (CRM) et où

chaque lecteur possède son propre paramètre d’intérêt pour la lecture γi > 0. Dans

la métaphore du buffet Indien, chaque client i a son propre appétit γiet chaque plat j

a sa propre popularité ωj. Ce modèle plus flexible permet une distribution des degrés

des lecteurs non Poissonnienne, tout en conservant les propriétés de conjugaison et un processus génératif similaire à l’IBP à trois paramètres (stable).

Le temps d’exécution en Matlab des algorithmes proposés limite la complexifica- tion de nos algorithmes. Nous n’avons pas encore pu utiliser ces modèles dans notre méthode d’apprentissage de dictionnaire. A présent, l’ensemble des codes a été ré- implémenté en C. A court terme, nous envisageons de retravailler sur ces modèles afin de les implémenter dans l’apprentissage de dictionnaire, notamment en traitement d’image. Nous espérons que l’utilisation de ces modèles permettra de prendre

en compte le comportement en loi puissance de la fréquence d’utilisation des atomes. On obtient en plus un lien entre la texture de chaque patch et le nombre de patches utilisés. On peut imaginer un modèle où les patches ayant une texture pauvre sont représentés par peu d’atomes. Réciproquement, les patches ayant une texture riche seront représentés par de nombreux atomes. Nous pensons que ces modèles ouvre de nouvelles perspectives sur l’apprentissage de dictionnaire et méritent d’être étudier.

9.2.3 Application dans l'image couleur

Une perspective au niveau applicatif a aussi été envisagée à court terme. Pour l’instant, l’application de la méthode IBP-DL en traitement d’image concerne les images en niveaux de gris. Nous voulons ensuite l’implémenter dans le cadre des images couleur. Les images couleurs peuvent être construites par la superposition de 3 couches, par exemple RGB ou encore YCbCr. Dans les approches paramétriques et d’optimisation, les trois couches ne peuvent pas être pas traitées indépendam- ment. Comme les 256 atomes sont fixés, les patches au même emplacement sur les 3 couches doivent s’associer aux mêmes atomes. Une question sur l’avantage de BNP pour l’image couleur est posée. Comme K n’est pas fixé, les 3 couches peut être traitées séparément. On peut apprendre un dictionnaire D, incluant un jeu de coef- ficients W pour chaque couche et les combiner à la fin. Cette perspective devra être explorée au travers d’expériences numériques : celles-ci pourront être développées à partir du code C existant.

9.2.4 Le nombre d'atomes et les données

Nous observons dans le chapitre8que le dictionnaire inféré par IBP-DL n’est pas toujours redondant dans le sens où la taille de dictionnaire K est souvent plus pe- tite ou seulement un peu plus grande que la dimension des données (64 ici). On a observé aussi que quand le niveau de bruit est petit on obtient plus d’atomes que quand le niveau de bruit est élevé. Certaines images ont des nombres d’atomes si- milaires. Certaines images ont plus atomes que les autres. Une fois que les modèles d’apprentissage de dictionnaire utilisant l’IBP à trois paramètres et les réseaux bipartites seront mis en place, les résultats obtenus nous donneront un premier avis sur cette observation. On souhaite ensuite étudier le lien entre le nombre d’atomes et l’information apportée par l’image. Pour l’instant, l’entropie de l’image au sens de Shannon est calculée pixels à pixels. Nous souhaitons introduire un autre type d’entropie utilisant les patches. Cela sera une perspective à moyen terme, voire long terme.

ANNEXEA

Annexes

A.1 Modèle linéaire gaussien avec les variables latentes binaires

Dans le document Approches bayésiennes non paramétriques et apprentissage de dictionnaire pour les problèmes inverses en traitement d'image (Page 134-138)