• Aucun résultat trouvé

1.6 Inférence

1.6.1 Un calcul d’intégrales

De façon générale, nous cherchons une distribution sur les variables qui nous intéressent,

conditionnellement aux données et en marginalisant des variables cachées. Dans quelques

cas simples, il n’y a pas de variables cachées et l’application de la règle de Bayes est

immédiate, mais en général, l’inférence consiste en un calcul d’intégrale :

p|,M) = Z

1

Z

p,H,|M)dH

avec Z =

Z

p,H,|M)dHdΘ.

(1.25)

La distribution ainsi calculée représente toute l’information rationnellement dérivable sur

Θ à partir des a priori et des données et uniquement cette information. Cependant, une

1.6 Inférence 33

distribution peut être délicate à manipuler et nous avons parfois besoin d’une

représenta-tion ponctuelle, nécessairement sous optimale. Par exemple, il est courant de chercher le

maximum a posteriori (MAP) :

Θ

MAP

= ArgMax

Θ

p|,M) (1.26)

qui, à la différence du maximum de vraisemblance Θ

ML

= ArgMax

Θ

p(∆|Θ,M), intègre

les informations a priori.

L’utilisation du MAP est un choix mais d’autres alternatives peuvent être plus

perti-nentes comme :

– faire un ou plusieurs tirages, pour s’autoriser à explorer des zones moins probables,

– utiliser l’espéranceE

Θ|∆,M

[Θ], qui a l’avantage de tenir compte de l’a posteriorientier

et d’éviter les maxima locaux, mais qui a aussi ses limites en cas de multimodalité.

De façon générale, il est possible de calculer l’espérance d’une fonction g(Θ)

quel-conque pour obtenir, par exemple, les autres moments dep|,M), ou, sig est une

fonction indicatrice, la probabilité d’une zone de l’espace des Θ,

– utiliser des quantiles, par exemple la médiane qui est une meilleure représentation

que la moyenne pour les distributions monomodales très asymétriques,

– déterminer le Θ

minimisant une fonction de coût. Une telle fonctionLdonne le coût

de décider Θ, alors que sa vraie valeur est Θ

vrai

. Par exemple,L est souvent

quadra-tique pour des modèles de régressions linéaires et dans un contexte de classification

binaire, L définit les coûts des erreurs de type I, de type II et les gains réalisés lors

d’une classification correcte. Comme Θ

vrai

est inconnu, il s’agit de minimiser

L’espérance de L sous la distributiona posteriori :

Θ

= ArgMin

Θ

Z

L,Θ

vrai

) p

vrai

|,M)dΘ

vrai

, (1.27)

– nous pouvons aussi calculer un intervalle de croyance défini comme une zone de

l’espace contenant, par exemple 95% de la probabilité et centrée sur le MAP.

Notons que l’interprétation des intervalles de croyance bayésiens est différente de celle

des intervalle deconfiance fréquencistes. Par exemple, si pour un θ réel,I = [13,21] est un

intervalle de croyance à 95%, alors par définition P(θ[13,21]) = 95%.

En revanche, pour les fréquencistes, un intervalle de confiance est une variable aléatoire

dépendante du jeu de données etθest un paramètre non aléatoire inconnu. Pour chaque jeu

de données de l’espace de toutes les données possibles, un intervalle numérique est produit.

Si, pour le ∆ effectivement observé, l’intervalle est [13,21], alors P(θ [13,21]) n’est pas

95%, mais 0 ou 1, car rien n’est aléatoire dans cette proposition. Soit la “vraie” valeur de

θ est dans [13,21], soit elle n’y est pas. Il est donc incorrect de dire P(θ[13,21]) = 95%.

La bonne interprétation, plus délicate, est la suivante : si nous avions répété 100 fois la

même expérience, alors nous aurions 100 intervalles numériques différents et en moyenne,

95 d’entre eux auraient contenu le vrai θ. Les fréquencistes résument cette information

par : “nous avons une confiance de 95% que θ [13,21]”

Nous retrouvons là une différence fondamentale entre les approches fréquencistes et

subjectives : ne voulant pas considérer une probabilité dans l’espace des paramètres, les

fréquencistes doivent s’appuyer sur un espace d’expériences répétées imaginaires. Les

inté-grations requises par ces méthodes ont lieu dans cet espace des données (sampler espace),

alors que les intégrations bayésiennes ont lieu dans l’espace des paramètres (hypothesis

space, ou model space).

En plus des différences philosophiques et sémantiques que cela implique, cette

dis-tinction a des conséquences en terme de machinerie calculatoire (Lor99). Les intégrales

fréquencistes ne peuvent être que rarement déterminées analytiquement, mais comme les

données sont souvent i.i.d., l’intégrande se factorise selon toutes les dimensionsδ

i

dusample

space et des méthodes de Monte-Carlo simples donnent de bonnes approximations.

Cependant cette propriété de factorisation n’est, en général, plus vraie dans l’espace

des paramètres, ce qui rend le calcul des intégrales bayésiennes bien plus délicat que celui

des intégrales fréquencistes. De plus, l’a posteriori a une forme complexe, souvent

multi-modale. Lorsque la dimension de Θ est petite, les méthodes de quadratures usuelles restent

performantes, mais elles ne sont plus utilisables dès que la dimension dépasse 3 ou 4, à

cause d’une croissance exponentielle de la taille de l’espace (malédiction de la dimension).

En effet, le problème de l’inférence bayésienne exacte a été montré NP-dur (Coo90).

Ainsi les calculs requis par l’inférence bayésienne sont par nature difficiles, mais depuis

une vingtaine d’années, de nouvelles méthodes d’approximation ont permis leur

dissémi-nation. Avant de lister ces différentes techniques de calcul, notons que d’autres quantités

peuvent être déduites de l’a posteriori, éventuellement au prix de nouveaux calculs. Par

exemple nous pouvons être intéressés par lesmarginales a posteriori d’un vecteur Θ :

p(θ

i

|,M) =

Z

p|,M)dΘ

\i

. (1.28)

La distribution prédictive d’une future observation se calcule en moyennant les

prédic-tions associées à chaque valeur de Θ :

p(δ

d+1

|,M) =

Z

p(δ

d+1

|Θ,M) p|,M)dΘ. (1.29)

Cette marginalisation est un avantage intrinsèque à la méthode bayésienne, car elle permet

de combiner les prédictions relatives à chaque Θ par leurs probabilités.

Le formalisme bayésien permet aussi de considérer le modèle M comme une variable

et ainsi de comparer des modèles ou de les combiner. La comparaison de deux modèles se

base sur leurs probabilités a posteriori, en marginalisant leurs paramètres respectifs :

p(M

1

|∆)

p(M

2

|∆) =

p(∆|M

1

)p(M

1

)

p(∆|M

2

)p(M

2

) =

R

p(∆|Θ

1

,M

1

)p

1

|M

1

)dΘ

1

R

p(∆|Θ

2

,M

2

)p

2

|M

2

)dΘ

2

· p(M

1

)

p(M

2

). (1.30)

Le ratio des preuves des modèles est appelé facteur de Bayes (bayes factor). Pour

combi-ner des modèles, il suffit d’appliquer la règle de la somme. Par exemple, pour trouver la

distribution a posteriorid’un paramètre θ :

p(θ|∆) =X

i

1.6 Inférence 35

Cette méthode dite de BMA (bayesian model averaging), étend le principe d’explications

multiples d’Épicure (342-270 av. J.-C.) : si plusieurs théories sont compatibles avec les

données, il faut toutes les conserver. La procédure ajoute une évaluation numérique de leur

“compatibilité” par leurs probabilités a posteriori.

Nous proposons de passer en revue les différentes méthodes d’inférence, en fonction des

types d’intégrations à mener.