Expectation Propagation

3.5 TrueChess : Apprentissage

3.5.1 Expectation Propagation

EP (Min01b) est une méthode générale permettant d’approximer un produit

incalcu-lable

p(x) = t

₁

(x)· · ·t

(x) (3.3)

par un produit calculable de termes approchés

ˆ

p(x) = ˆt

₁

(x)· · ·^ˆt

(x), (3.4)

les termes ˆt

(x) étant membres d’une famille F de fonctions plus simples. Cet algorithme

initialise d’abord tous les termes et les réajuste itérativement et plusieurs fois jusqu’à

convergence. Comme il approxime chaque terme t

(x) par un ˆt

(x), EP trouve une

ap-proximation globale deppar une multitude d’approximations locales. En toute généralité,

une succession d’approximations locales n’implique pas une bonne approximation globale,

mais sous certaines conditions, la qualité du résultat est suffisante.

Une approche naïve et peu précise pour réaliser les approximations locales est

d’ap-proximer chaque terme indépendamment, de sorte que ∀a ˆ_t

₍_x₎≈ t

(x). Il est cependant

plus précis de considérer le contexte de t

(x), son “voisinage”.

Par exemple, les méthodes de filtrage de typeAssumed Density Filtering(ADF (May79)),

affine l’estimation de ˆt

(x) en utilisant le “passé”, c’est-à-dire les ˆt

(x) ∀b < a. Les

mé-thodes ADF sont issues de la théorie de l’automatique et un exemple classique est le filtre

de Kalman (Kal60). Les filtres bayésiens en général fonctionnent sur ce principe.

EP généralise ADF, car il ne suppose pas d’ordre “temporel” et affine chaque terme en

fonction de son contexte complet, “passé” et “futur”. EP n’est pas un filtre, contrairement

à ADF.

EP commence par initialiser tous les ˆt

(x) à une fonction arbitraire, par exemple la

fonction constante 1. La suite est itérative. Nous choisissons un terme approché ˆt

old

(x),

annulons son influence du produit global, le remplaçons par le vrai terme correspondant

t

(x), calculons le nouveaux produit et finalement nous trouvons le nouveau terme approché

ˆ

t

new

(x) qui aurait conduit à ce nouveau produit global, en minimisant une fonction de coût.

Traditionnellement, la fonction de coût est une mesure de “divergence” entre distributions.

L’algorithme 2présente EP dans toute sa généralité. Dans notre application, plusieurs

contraintes facilitent cette procédure. D’abord p(x) est une distribution de probabilités,

c’est donc une fonction normalisée (ou du moins normalisable) positive. De plus, le vecteur

xest le vecteur de toutes les variables aléatoires de notre modèle (cotations, performances,

différences de performance et données observées). En notant x = (x

₁

, . . . , x

), les x

sont

3.5 TrueChess : Apprentissage 71

Algorithme 2: Algorithme EP général.

Entrées :p(x) =t

₁

(x)· · ·t

(x)

Sorties : ˆp(x) = ˆt

₁

(x)· · ·ˆ_t

₍_x₎

Initialisation : ∀a ˆ_t

₍_x₎←1 ;

tant que Critère de convergence non vérifié faire

Choisir un terme ˆt

old

;

Annuler son influence dans l’approximation courante ˆp

old

;

ˆ

p

^\a

(x) :=

^p^ˆ_ˆ_t_old^old⁽^x⁾

a (x)

;

Incorporer à sa place le terme exact t

et trouver le nouveau terme approximé ;

ˆ

t

new a

(x)←ArgMin

_q_∈F

Dpˆ

^\a

(x) t

(x)||pˆ

^\a

(x)q(x) ;

fin

des variables réelles unidimensionnelles. De plus, p(x) se factorise selon le modèle

proba-biliste que nous avons décrit et les termes exacts t

(x) sont les facteurs de notre graphe de

facteur, ce sont les distributions conditionnelles.

En effet, comme pest un distribution jointe sur plusieurs variables, sa factorisation est

déterminée par le modèle probabiliste, comme c’est le cas pour un réseau bayésien :

p(x) = ^Y

p(x

|parents(x

)). (3.5)

Pour TrueChess, comme nous utilisons le formalisme des graphes de facteurs, nous avons :

p(x) = ^Y

t

(x) = ^Y

f

(x

) (3.6)

oùx

est le sous-ensemble de xconnecté au facteur f

.

De plus, nous choisissons pour F la famille des gaussiennes complètement factorisées :

ˆ

p(x) = ^Y

xk∈x

ˆ

p(x

) =^Y

ˆ

p(x

) (3.7)

où chaque ˆp(x

) est une gaussienne unidimensionnelle. Nous avons ainsi deux factorisations

différentes de ˆp qu’il ne faut pas confondre : la factorisation due au modèle probabiliste

ˆ

p(x) = Q

_fˆ

(x

) et la factorisation due aux choix deF : ˆp(x) = Q

pˆ(x

).

Avec ces hypothèses, nous pouvons définir des messages selon le schéma :

ˆ

p(x) =^Y

ˆ

f

(x

) (3.8)

=^Y

Y

xk∈xa

ˆ

f

_a,k

(x

) (3.9)

= ^Y

xk∈x

Y

a∈N_xk

ˆ

f

_a,k

(x

) (3.10)

= ^Y

xk∈x

Y

a∈N_xk

m

_fa→xk

(x

). (3.11)

L’équation 3.8 provient de la factorisation de la jointe, 3.9 de l’hypothèse de factorisation

complète, 3.10 est une réorganisation et 3.11 la définition des messages de facteur à

va-riable. L’identification entre3.11et3.7 prouve l’équivalence entre lesbelief locaux de LBP

(produits des messages arrivant àx

) et les marginales de ˆp.

On définit alors les messages de variable à facteur par

m

_x_k→fa

(x

) := ^Y

b6=a

m

_f_b→xk

(x

) (3.12)

en collectant les messages arrivant à x

.

Grâce à l’hypothèse de factorisation, l’étape de minimisation de l’algorithme 2 devient

locale à chaque facteur. Chaque itération de EP est alors équivalente au passage de tous les

messages issus du facteur choisi (Min01c). Dans cette terminologie, “passer une message”

signifie calculer le nouveau facteur ˆf

(x

) par la minimisation décrite. Ce nouveau facteur

est un produit des ˆf

_a,k

(x

), c’est à dire un produit des messages sortant du facteur. Pour

finir de “passer” ces messages, il faut mettre à jour les distributions marginales ˆp(x

) des

variables liées au facteur.

D’autre part, comme EP ne nécessite pas d’ordre particulier pour le réajustement des

termes et comme les facteurs approximés sont factorisés, la méthode n’impose pas l’ordre

de passage des messages, même au sein d’un même facteur. Cet ordre, ouagenda, qui reste

à définir, influence la vitesse de convergence et détermine le point stationnaire atteint.

Les points stationnaire de EP sont les extrema d’une fonction d’énergie libre non convexe

(HOW

⁺

05;Min01a), mais les approximations produites sont en général de bonne qualité,

surtout lorsque les membres de F forment de bonnes approximations des vrais termes

(MWJ99; KFL01 ;BG96 ; Gal63).

Appliqué au modèle TrueChess, EP devient donc l’algorithme 3, dont les étapes sont

détaillées dans les paragraphes suivants.

Algorithme 3: Principales étapes de l’inférence par passage de messages pour

True-Chess.

Entrées : Résultats des matchs ∆ ={g

}

Sorties : Marginales approchées ∀(i

^∗

, t

^∗

) ˆp(s

t^∗

i∗

|∆)

Construire le graphe de facteurs correspondant à ∆;

Initialiser tous les messages à la distribution uniforme;

Initialiser toutes les marginales à la distribution uniforme;

Déterminer un agenda pour le passage des messages;

tant que Critère de convergence non vérifié faire

Passer le message courant de l’agenda;

en mettant à jour ce message et sa marginale associée;

(si nécessaire, utiliser une approximation gaussienne);

fin

3.5 TrueChess : Apprentissage 73

Justification du choix de EP

EP est particulièrement bien adapté au modèle TrueChess. Étant donné le nombre

de variables cachées et la taille des jeux de données traités, une méthode stochastique

ou exhaustive serait trop coûteuse. En général, EP permet un excellent compromis entre

précision et temps de calcul. De plus, la structure éparse du graphe de dépendance rend

adéquate la délocalisation des calculs apportée par le passage de messages, qui exploite

localement les sous structures non cycliques. Dans cette optique, l’utilisation du classique

LBP n’est pas possible car tous les termes n’appartiennent pas à une même famille

paramé-trique close par passage de message. Grâce à ses phases de projection, EP est en revanche

capable de gérer ce problème. Finalement EP esta priorimieux adaptée que des méthodes

de passage de messages variationnelles de type Mean Field, pour deux raisons. D’abord

nous verrons que nous devons approximer des gaussiennes tronquée rectifiées (GTR, sec.

A.2.3) par des gaussiennes, ce qui est assez facile car les deux types de distributions sont

unimodales. D’autre part, EP et méthodes variationnelles peuvent être unifiées en tant que

minimisation d’α-divergences, avec α = 1 pour EP et α = 0 pour Mean Field (Min05).

Détaillons cette différence et ses conséquences.

Définition 9 (Divergence de Kullback-Leibler). Si X est une variable aléatoire de R

et

∀x∈R

, q(x) = 0⇒p(x) = 0,

la divergence de Kullback-Leibler de q par rapport p est définie par

D

_KL

(p||q) :=E

"

log ^p⁽^X⁾

q(X)

#

=

Z

p(x) log^p⁽^x⁾

q(x)^d^x^. ^(3.13)

Remarques :

– Si p et q ne sont pas normalisées, le termeR

(q(x)−p(x)) dx doit être ajouté.

– En théorie des codes, cette valeur mesure le nombre de bits supplémentaires pour

transmettre des messages distribués selon p mais codés selon q. Intuitivement, c’est

notre surprise moyenne à la réception d’un message produit sous p alors que nous

nous attendions à le voir produit sousq.

– Cette divergence n’étant pas symétrique et ne vérifiant pas l’inégalité triangulaire,

elle n’est pas une distance. Cependant, D

_KL

(p||q) ≥ 0 et p = q presque partout

équivaut à D

_KL

(p||q) = 0.

– La KL-divergence est un cas particulier de la famille des α-divergences (ZR95),

ins-pirées de la théorie de la géométrie de l’information (iAN00).

Définition 10 (α-divergences). L’α-divergences de q par rapport p est définie par :

D

(p||q) := ¹

α(1−α)

Z

α p(x) + (1−α)q(x)−p(x)

^α

q(x)

⁽¹⁻^α)

dx. (3.14)

Remarques :

−6 −4 −2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 1.0 −6 −4 −2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 1.0 −6 −4 −2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 1.0 p q minimisant KL(p,q) q minimisant KL(q,p)

Fig. ^{3.8 – Distributions minimisant les divergences inclusive} ^D

(p||q) et exclusive

D

_KL

(q||p), avec q gaussienne et p bimodale. La première englobe toute la masse de

p, surestimant sa variance. La seconde se concentre sur le plus gros mode et est donc trop

confiante dans son approximation de p. Le choix d’une divergence doit dépendre de sa

simplicité calculatoire, du but du problème et du modèle probabiliste envisagé.

– lim

α→1

D

(p||q) =D

(p||q).

– lim

α→0

D

_α

(p||q) =D

_KL

(q||p).

– D

0.5

(p||q) et D

(p||q) sont de vraies distances (resp. de Hellinger et du χ

).

– Les α-divergences se justifient par leur origine géométrique : elles ne dépendent pas

de la mesure de base de l’espace et sont donc invariantes par reparamétrisation de p

etq.

Divergence inclusive et divergence exclusive Les cas particuliers α = 0 et α = 1

sont fréquemment utilisés pour définir la distribution ArgMin

_q_∈F

D

(p||q). Souvent F

est une famille exponentielle complètement factorisée sur les variables de x.

Pourα= 0,D

_KL

(q||p) est diteexclusiveouforçant les zéroscarp(x) = 0⇒q(x) = 0.

La densitéqa tendance à ne modéliser que le plus gros mode dep(Fig.3.8), sous-estimant

donc sa variance. Les algorithmes variationnels comme Mean Field utilisent cette

diver-gence et sont ainsi souvent trop confiants. Utilisée comme minimisation locale par un

algorithme de passage de messages,D

_KL

(q||p) a cependant l’avantage d’induire une

équi-valence entre minimisation locale et minimisation globale. De plus, elle est appropriée à

certains types de modèles, pour lesquels l’a posterioriprésente de nombreux modes

équiva-lents. Par exemple, pour des modèles de mixture, le nommage de chaque composante n’est

pas pertinent et l’a posteriori aura un mode pour chacun de ces étiquetages. Trouver un

de ces modes symétriques est suffisant.

3.5 TrueChess : Apprentissage 75

La densitéq tente d’englober toute la masse dep, surestimant sa variance.Belief

Propaga-tion etExpectation Propagation utilisent cette divergence et ne sont donc pas bien adaptés

aux modèles de mixture. Ici la minimisation de divergences locales n’est pas strictement

équivalente à une minimisation globale, bien que des expérimentations (Min05) montrent

que cette approximation est assez bonne, surtout si F permet de bien représenter p. En

revanche, lorsque q(x) est complètement factorisée, ses marginales sont exactement celles

de p (Théorème 4). Cette propriété est intéressante lorsque le but de l’inférence est de

trouver ces marginales (comme dans l’application TrueChess), car elle garantit que les

croyances sur les variables après la convergence de l’algorithme de passage de messages

approximent les marginales de p. Ceci n’est pas vrai pour les méthodes variationnelles et

c’est un argument fort en faveur de EP pour le modèle TrueChess.

Théorème 4 (Divergence inclusive et marginales). Si q(x) est totalement factorisée et

minimise D

_KL

(p||q), alors ses marginales coïncident avec celles de p.

Démonstration. On se restreint au cas où les variablesx sont discrètes. Le cas continu est

similaire en utilisant l’optimisation variationnelle. La distribution q étant factorisée, nous

minimisons

Z

p(x) log_Q

^p⁽^x⁾

q

(x

) ^d^x

sous les K contraintes R

q

(x

)dx

= 1. Le lagrangien est alors

L(λ)∝ −

Z

p(x)^X

logq

(x

)dx+^X

λ

Z

q

(x

)dx

−1

.

En supposant que chaque x

prennent I

valeurs possibles x

, les dérivées partielles

sont

∂L(λ)

∂q

(x

=x

i k

) ⁼−

Z

∂[p(x) logq

(x

)]

∂q

(x

=x

i k

) ^d^x⁺^λ

∂

∂q

(x

=x

i k

)

Z

q

(x

)dx

−1

=−

Z

x\k

Z

∂[p(x) logq

(x

)]

∂q

(x

=x

i k

) ^d^x⁺^λ

Z

∂q

(x

)

∂q

(x

=x

i k

)^dx

=−

Z

x\k

p(x

^\k

, x

=x

i k

)

q

(x

=x

i k

) ^d^x

+λ

.

En combinant leur annulation pour tous les i, nous obtenons

Z

x\k

p(x)dx=−λ

q

(x

).

Commeq

est normalisée, nous obtenons son égalité avec lak

ième

marginale dep.

Ainsi nous choisissons EP comme algorithme d’inférence pour TrueChess. Détaillons

les différentes phases de l’algorithme 3.

Dans le document Fondations, méthode et applications de l'apprentissage bayésien. (Page 81-87)

3.5 TrueChess : Apprentissage

3.5.1 Expectation Propagation

EP (Min01b) est une méthode générale permettant d’approximer un produit

incalcu-lable

p(x) = t

(x)· · ·t

(x) (3.3)

par un produit calculable de termes approchés

ˆ

p(x) = ˆt

(x)· · ·ˆt

(x), (3.4)

les termes ˆt

(x) étant membres d’une famille F de fonctions plus simples. Cet algorithme

initialise d’abord tous les termes et les réajuste itérativement et plusieurs fois jusqu’à

convergence. Comme il approxime chaque terme t

(x) par un ˆt

(x), EP trouve une

ap-proximation globale deppar une multitude d’approximations locales. En toute généralité,

une succession d’approximations locales n’implique pas une bonne approximation globale,

mais sous certaines conditions, la qualité du résultat est suffisante.

Une approche naïve et peu précise pour réaliser les approximations locales est

d’ap-proximer chaque terme indépendamment, de sorte que ∀a ˆt

(x)≈ t

(x). Il est cependant

plus précis de considérer le contexte de t

(x), son “voisinage”.

Par exemple, les méthodes de filtrage de typeAssumed Density Filtering(ADF (May79)),

affine l’estimation de ˆt

(x) en utilisant le “passé”, c’est-à-dire les ˆt

(x) ∀b < a. Les

mé-thodes ADF sont issues de la théorie de l’automatique et un exemple classique est le filtre

de Kalman (Kal60). Les filtres bayésiens en général fonctionnent sur ce principe.

EP généralise ADF, car il ne suppose pas d’ordre “temporel” et affine chaque terme en

fonction de son contexte complet, “passé” et “futur”. EP n’est pas un filtre, contrairement

à ADF.

EP commence par initialiser tous les ˆt

(x) à une fonction arbitraire, par exemple la

fonction constante 1. La suite est itérative. Nous choisissons un terme approché ˆt

(x),

annulons son influence du produit global, le remplaçons par le vrai terme correspondant

t

(x), calculons le nouveaux produit et finalement nous trouvons le nouveau terme approché

ˆ

t

(x) qui aurait conduit à ce nouveau produit global, en minimisant une fonction de coût.

Traditionnellement, la fonction de coût est une mesure de “divergence” entre distributions.

L’algorithme 2présente EP dans toute sa généralité. Dans notre application, plusieurs

contraintes facilitent cette procédure. D’abord p(x) est une distribution de probabilités,

c’est donc une fonction normalisée (ou du moins normalisable) positive. De plus, le vecteur

xest le vecteur de toutes les variables aléatoires de notre modèle (cotations, performances,

différences de performance et données observées). En notant x = (x

, . . . , x

), les x

sont

3.5 TrueChess : Apprentissage 71

Algorithme 2: Algorithme EP général.

Entrées :p(x) =t

(x)· · ·t

(x)

Sorties : ˆp(x) = ˆt

(x)· · ·ˆt

(x)

Initialisation : ∀a ˆt

(x)←1 ;

tant que Critère de convergence non vérifié faire

Choisir un terme ˆt

;

Annuler son influence dans l’approximation courante ˆp

;

ˆ

p

(x) :=

;

Incorporer à sa place le terme exact t

et trouver le nouveau terme approximé ;

ˆ

t

(x)←ArgMin

(x)· · ·^ˆt

d’ap-proximer chaque terme indépendamment, de sorte que ∀a ˆ_t

₍_x₎≈ t

(x)· · ·ˆ_t

₍_x₎

Initialisation : ∀a ˆ_t

₍_x₎←1 ;

p(x) = ^Y

p(x) = ^Y

(x) = ^Y

p(x) = ^Y

) =^Y

_fˆ

p(x) =^Y

=^Y

= ^Y

= ^Y