• Aucun résultat trouvé

Inférence variationnelle

Dans le document High dimensional Bayesian computation (Page 36-38)

Les sections précédentes ont exposé différentes méthodes pouvant être utilisées lors de l’approximation d’une distribution a posteriori par échantillonnage. Une autre ap- proche, qui a suscité beaucoup d’intérêt ces dernières années, consiste à construire une approximation de la distribution a posteriori à travers une classe de distributions différente. Ceci est réalisé en résolvant un problème d’optimisation, souvent à l’aide des techniques introduites dans la section précédente. L’une de ces approches est ap- pelée inférence variationnelle et consiste à minimiser la divergence Kullback-Leibler (KL) entre une famille de distributions (la famille variationnelle) et la distribution a posteriori. Comme précédemment, on note les données observées y, la variable latente x et la distribution a posteriori π(x|y)∝ p(y|x)p0(x). La distribution variationnelle est

notée q(x) ∈ Q, oùQdésigne la famille variationnelle. Le problème est défini par :

q?(x) =arg min

q∈QKL(q(x)||π(x|y)),

où KL(q(x)||π(x|y)) = Eq[log q(x) −log π(x|y)]dénote la divergence de Kullback-

Leibler. Choisir une classe de distributions Q revient donc à contrôler la complex- ité du problème et la qualité de l’approximation. La KL peut être réécrite en fonc- tion de l’évidence du modèle Zπet d’un deuxième terme nommé limite inférieure de l’évidence (ELBO) :

KL(q(x)||π(x|y)) =log Zπ− L(q),

oùL(q) =Eq[log p(y|x)p0(x) −log q(x)]est l’ELBO. Par conséquent, la maximisation

de l’ELBO équivaut à la minimisation de la KL, car l’évidence ne dépend pas de la famille variationnelle.

1.5.1 Inférence variationnelle par champ moyen

Un choix courant de famille variationnelleQ est la classe de distributions avec des composants indépendants xj. Cette approche est appelée inférence variationnelle par

champ moyen et repose sur la factorisation

q(x) =

m

j=1

qj(xj),

où les facteurs m sont indépendants les uns des autres. L’avantage de cette approche est que les facteurs optimaux se trouvent sans supposer une forme spécifique de qj(xj).

1.5. Inférence variationnelle 21

En particulier on obtient :

q?j(xj)∝ exp Ei6=jlog{p(y|x)p0(x)} ,

Ei6=j est l’ésperance par rapport à q(x), en omettant le facteur qj(xj), voir Jordan

et al.(1999);Bishop (2006) pour plus de détails. Sous condition de conjugaison du

modèle, les espérances peuvent être évaluées analytiquement (Hoffman et al.,2013). En parcourant toutes les espérances, l’ELBO est maximisé. Cet algorithme s’appelle l’inférence variationnelle par ascension de coordonnées (CAVI), voirBlei et al.(2017). Cependant, cette approche présente un inconvénient majeur : la classe de modèles à laquelle cette approche s’applique est plutôt restrictive.

1.5.2 Inférence variationnelle par Monte Carlo

Il est possible de restreindreQà une classe paramétrique spécifique de distributions, par exemple la classe des distributions normales multivariées N (µ,Σ), paramétrée

par une moyenne µRd et une matrice de covariance Σ, appartenant à l’espace

des matrices symétriques positives sur Rd×d. Ensuite, l’approche variationnelle se

résume à trouver le paramétrage de la gaussienneN (µ?,Σ?)qui se rapproche le plus

de π(x|y)et le problème devient

µ?,Σ? ∈arg min

µ

KL(N (x|µ,Σ)||π(x|y)).

Les espérances liées à la formulation de l’ELBO sont des espérances par rapport à la classe variationnelleQ. Avec une grande classe de familles paramétriques poten- tielles choisies par l’utilisateur, il est souvent possible d’approximer les espérances par échantillonnage Monte Carlo lorsque des formules closes ne sont pas disponibles. Cela conduit à l’idée d’inférence variationnelle par Monte Carlo, qui a pris de l’ampleur dans les années récentes. Elle repose sur une approximation des espérances impliquées et de leurs gradients via l’échantillonnage. L’optimisation de l’ELBO se fait via un schéma d’ascente de gradient sur le paramètre λ ∈ Λ de la famille variationnelle en utilisant les gradients estimés. Dans notre exemple gaussien, nous avons λ= (µ,Σ)

et donc qλ(x)= N (b x|µ,Σ).

Cela fait le lien avec la littérature sur l’optimisation stochastique, introduite dans la section précédente. La différenciation directe de l’ELBO en λ n’est pas possible, car la mesure de l’espérance dépend de ce paramètre. Les deux principales approches pour resourdre ce problème sont l’estimateur de la fonction du score (Ranganath et al.,

2014) et l’estimateur par reparamétrisation (Kingma and Welling,2014).

Le gradient de la fonction score (également appelé gradient REINFORCE (Williams,

1992)) exprime le gradient comme une espérance par rapport à qλ(x)et est donné par

λL(λ) =Eq

Un estimateur de gradient est obtenu en approximant l’espérance avec des échantil- lons indépendants de la distribution variationnelle qλ(x). Cet estimateur est assez générique, et s’applique aux distributions variationnelles continues et discrètes.

Une autre approche est basée sur l’astuce de reparamétrisation, où la distribution sur x est exprimée comme une transformation déterministe d’une distribution dif- férente par rapport à une variable de bruit ε, donc x= gλ(ε)où ε ∼ p(ε). En utilisant la reparamétrisation, l’ELBO est exprimé comme espérance par rapport à p(ε)et la

dérivée est déplacée à l’intérieur de l’intégrale :

λL(λ) =Ep(ε)[∇λlog{p(y|gλ(ε))p0(gλ(ε))} − ∇λlog qλ(gλ(ε))]. (1.12) L’espérance est approximée en utilisant la moyenne de l’échantillon indépendant de la mesure de base p(ε). Cet estimateur est limité aux distributions sur les variables

continues qui permettent une reparamétrisation différentiable en λ.

En utilisant l’un des estimateurs de gradient désignés par ˆgN(λ) ≈ ∇λL(λ), où N est la taille de l’échantillon, l’ELBO peut alors être optimisé par optimisation stochas- tique. Ceci est réalisé en itérant les mises à jour stochastiques du gradient avec un taux d’apprentissage décroissant αt:

λt+1 =λt+αtˆgN(λt). (1.13)

La convergence du schéma d’ascente de gradient dans (1.13) tend à être lente lorsque les estimateurs de gradient ont une grande variance. Par conséquent, diverses approches pour réduire la variance des estimateurs de gradient existent; par exemple les variables de contrôle, la Rao-Blackwellisation et l’échantillonnage préférentiel. Ces schémas de réduction de la variance doivent souvent être adaptés au problème spéci- fique et la recherche de solutions plus générales reste donc un domaine de recherche actif.

D’autres développements récents consistent, par exemple, à appliquer l’inférence variationnelle aux équations différentielles stochastiques (Ryder et al.,2018), ou à des modèles implicites (Tran et al.,2017a,b). Un autre sujet d’intérêt actuel est la dérivation de garanties théoriques pour l’inférence variationnelle, qui manquent à ce jour malgré son succès pratique. Voir par exemple Alquier et al. (2016b);Germain et al. (2016);

Wang and Blei(2018);Chérief-Abdellatif and Alquier(2018) pour des travaux récents.

Dans le document High dimensional Bayesian computation (Page 36-38)

Documents relatifs