Aspects de la robustesse bayésienne

(1)

(2)

.Jt--r=d

y

Exclus du

PrOt.

MINISTERE DE L'ENSEIGNEMENT

SUPERIEUR

SCIENTIFIQUE

UNIVERSITE MOHAMED SEDDIK BEN

ET

DE

LA

RECHERCHE

YAHIA -

JIJEL

Facult6 des sciences exactes et informatique D6partement de rnath6matiqtes

M6moire pour I'obtention du

dipldme

MASTER

Sp6cialit6 : Math6matiques appliqu6es

Option

: Probabilit6s et statistique

Thbme

Pr6sent6 Par :

Samira Benhamada

Zah:ra

Boudadi

t'..,,r,<o}

,Sto-

.

obl16

Pr6sidente Encadreul Examinatrice;

^/

6>

Devant 1e

jury

d'examen comPos6 de :

Z.Djeridt

Maitre

Assistante

A

Dj.Ghouil

Maitre

Assistante

A

N.Sellami

Maitre

Assistante

A

U.Jijei U.Jijel

U.Jijel

Aspects de

la

Robustesse Bay6sienne

(3)

Remerciements

Nous tenons

tout

d'abord d, remerc,ier

notre

Dieu

qui, _nous_adonn6,

la

uolont6, la pat'ience et le courage d'd,tudr,er

et

d,e

terminer

ce mod,este

trauai,l.

Nous remerc'i,ons u'iuement tous les ensei,gnants qui, ont _{trtarti,ci,pd}d, notre _formati,onet parti'culi'd,rement notre encad,reur

Dj.Ghoui,I

d'auo'ir uoulu proposer et aEEurer

la

d,i,recti,on

de ce rn6.mo'ire,

pour

sa confiance et ses conse'ils jud,ici,eur et sa totale d,i,sponi,bi,lit6,

Nous adressons d.galement nos remerc'iements d,

"z.Djeridi,"

et

"N.Sellam'i" les membres

de

jury

qui,

_ont

bi,en uoulu et accept6. de li,re et

jujer

notre trauai,l.

Enfi'n, nous adressons nos salutat'ions d, tous nos colld,gues de la promoti,on d,e probabi,li,t6,s

et stati,sti'que 2015-2016, a'insi, qu'd, toute personne agant contri,bude d,e prds ou de loi,n d"

la

r4.alisation de ce mdmo,ire.

(4)

Table

des

matibres

Introduction

g6n6rale

th6orie

bay6sienne

lntroduction

Principe de l'analyse bay6sienne

L.2.7 Loi

a posteriori

I.2.2

Lois a

priori

1.3 Estimation

bay6sienne ponctuelle

1.3.1 Introduction

A,

la

th6orie de

la

_{d6cision bay6sienne}

L.3.2

Fonctions de perte

et

de risques

-tA

r,= Les m6thodes

MCMC

L.4.7

El6ments sur les chaines de Markov

1.4.2

Chaines de Markov et m6thodes de Monte Carlo

robustesse

baydsienne

Introduction

Quelques notions de base

2.2.1

Diff6r'entes approches

2.2.2

Robustesse par

rapport

i

la

loi

a

priori

2.2.3

Les mesures globales de Ia sensibilit6

2.2.4

Robustesse par

rapport

au modble

2.2.5

Robustesse par

rapport

d

la

fonction de perte

3 Exemple

d'application

3 3 3

1La

1.i

r.2 4 11 11 72 16 -to 77 20 20

2I

21 ,1 28 31 33 35

2La

2.r 2.2

(5)

Introduction

g6n6rale

Contrairement d, la statistique _{classique la}_statistique_{bay6sienne considbre le parambtre}

du modble incertain, le statisticien _{bay6sien va donc chercher}d, quantifier _sonincertitude _en

mobilisant toutes les informations disponibles. C'est ce

qui

fait

toute la

diff6rence puisque cela revient d, conf6rer au parambtre _le

_statut

_de_variable_{al6atoire. Dbs}_lors.

_il

_lui

_attribue

une

distribution

de

probabilit6 qui

d6crit Ie savoir actuel sur ce parambtre et qui quantifie

l'6tat

des connaissances

d'un

expert _{sur le problbme en}_{main. Cette}

_distribution

_de

proba-bilit6

est appel6e la

distribution

a

priori,

et

il

est pr6f6rable que le savoir de I'expert encod6

dans la

loi

a

priori

soit

ind6pendant de

l'6chantilon

en main.

Le fondement de la th6orie bay6sienne s'est bas6 sur le th6orbme d'inversion des proba-bilit6s connu sous le nom du th6orbme de Bayes (Bayes, 1763) qui rassemble

I'infbrmation

apport6e

par

la ioi

a

priori

avec celle apport6e

par

les donn6es dans une nouvelle

distri-bution

_{dite la distribution a}

posteriori,

_{et qui}

est

le

pendant de

la

vraisemblance dans I'approche classique, de

fait

que

toute

inf6rence au sens bay6sien est bas6e sur cette

distri-bution

a posteriori.

Un

de nos

objectifs

derribre ce m6moire est cle

guider le lecteur

b, se

familiariser

un peu dans Ia d6couverte de I'inf6rence bay6sienne.

Un

autre

objectif

trbs

important et

qui est

un objet

de recherche jusqu'), pr6sent chez tous les statisticiens est de construire des

estimateurs robustes.

Dans

la

mise en

€uvre

d'une analyse bay6sienne, le

statisticien

s'est int6ress6 comme une premibre 6tape h proposer un modble

qui

explique Ie comportement des observations, une

loi

a

priori

qui

g6nbre le paramBtre

_{d'int6r6t et}

_une

_fonction

_{de perte}

_qui

_{est utilis6e} pour 6valuer le risque.

Etant

donn6 ces

trois

6l6ments, le _{bay6sien cherche b employer}_des m6thodes

qui

sont

optimales dans

un

certain

sens.

La

robustesse bay6sienne consiste d

6valuer les changements de quantit6s

_{d'int6r6t par rapport}

_aux_{changements dans}

_la

dis-tribution

a

priori,

dans les modbles et clans les fonctions de perte.

Ce m6moire contient

trois

_{chapitres, le premier est}

_un

_aperqu

_sur

_{quelques m6thodes}

de

la

construction

d'une

loi

a

priori et

de

la

_{d6marche bay6sienne dans la}

_Lise

_{en place} d'une inf6rence

sur

un

parambtre 0. Dans

le

deuxibme chapitre, nous avons rassembl6 le bagage n6cessaire

pour

_{effectuer une 6tude}_cle

_la

_{robustesse dans}

_un

_{sens bay6sien. Enfin,}

(6)

TABLE

DES

MATIERES

TABLE

DES

MATIERES

le troixidme chapitre est une

application

des m6thodes abord6es dans les deux chapitres pr6c6dents, or) nous avons appliquer I'approche informelle

pour 6tudier

Ia robustesse des

estimateurs des parambtres

_d'un

modble

AR(1)

aprbs avoir les calculer

par

les m6thodes MCMC.

(7)

Chapitre

1 La

th6orie

bay6sienne

1.

1 Introduction

La statistique bay6sienne est une th6orie concurrente h la statistique classique (fr6quentiste) en ce sens _{que chacune d'elles propose ,vis-d-vis,}

_d'un

_{m6me probldme}

_urr.

_uppro.he

et une r6solution complbtement diff6rente, L'approche _{bay6sienne repr6sente}

_{la dislribution}

_des observations

par

une

fonction

de densit6

_f

(rl0)

or)

le

_{parambtre g est inconnu, mais}_une

variable al6atoire, et on cherche h inf6rer sur ce parambtre.

Dans ce premier chapitre, _{nous pr6senterons les}_notions

_et

_les

_outils

_sur_lesquels_se_fonde une analyse baydsienne,

_et

dont

nous aurons besoin

pour 6tablir

les prochains _chapitres de ce m6moire. Dans

un

premier _{temps, nous allons}_parler_de

_la

_loi

_a_{posteriori et}

_{la loi}

a

priori

sur lesquelles l'approche bay6sienne est bas6e. Ensuite dans la section 3, nous allons

voir

comment estimer au sens bay6sien.

Enfin,

la

dernibre section pr6sente cles mdthodes de calcul _{bay6sien; les m6thodes de}_Monte

_carlo

_par

_{chaines de}_Markov.

I.2 Principe

de l,analyse

bay6sienne

En

mod6iisant _{des parambtres inconnus de}

_la

_distribution

_{d'6chantillonnage}

d, travers

une structure probabiliste, _donc_en_{probabilisant I'inconnu.}_L'analyse_statistique

bay6sienne autorise

un

discours

quantitatif

sur

ces parambtres.

Elle

vise d,

exploiter le

plus

efficace-ment

possible

_{I'information}

_apport6e

_par

_x

_sur

_le

_paramdtre

_{g, pour}

ensuiie construire des proc6dures d'inf6rence.

Bien

que

x

ne

soit

_{qu'une r6alisation al6atoire d,une}

_loi

gou-vern6e

par

0,

elle apporte une actualisation

aux

informations

pr6alablement _recueillies

par

I'exp6rimentateur'

_Elle

permet

aussi

_{I'incorporation de}

_{I'inlormation a priori et}

_de I'impr6cision

_{de cette information}

_dans

_la

_proc6dure

_{inf6rentielle,}

d,

part

des argumenrs subiectifs

et

_{axiomatiques en faveur de I'approche}_bay6sienne,

_qui

_reste

_le

_seul

systbme permettant _de_conditionner_{sur les observations}_et

donc de

mettre

en

€uvre

le

pri'cipe

de

(8)

Loi

a posteriori

CHAPITRE

1. LA

THEORIE

BAYESIENNE

D6finition

L.z.L. Le modble

statistique

bay6sien

Un modble statistique bay6sien est la double donn6e d'un modble param6trique

_{lB(r),

_{g e}

O)

et

une

loi

de

probabilit6

de densit6 n.,

dite loi

a

priori qui

est

la loi

marginale de la variable al6atoire d.

1,.2.L Loi

a

posteriori

C'est

la loi

conditionnelle de 0 sachant

r,

sa densit6 est not6e

r(0lr).

En vertu

de la formule de Bayes on

a

:

r(0lr)

:

f (rl0)r(0)

J

f

@10)r(0) d0

o

f

(*10) d6signant

la

loi

de I'observation ou la vraisemblance.

Cette

loi

a posteriori peut s'interpr6ter

comme une combinaison de

I'infomation a priori

disponible sur

I

avec celle apport6e par les observations.

Au

sens bay6sien

toute

inf6rence peut Otre conduite aprbs calcul de Ia

loi

a posteriori.

Il

est parfois possible

d'6viter

le calcul de l'int6grale

_If

(rl0)n(0)

d0 dans le calcul de

loi

a

posteriori en raisonnant

proportionnellement.

o

Ddfinition

L,2.2.

Soit deux fonctions r6elles

f

et g d6finies sur le m0me espace

J.

On

dit

que

/

et g sont proportionnelles, ce

qui

on note

_f

x

g,

s'il

existe une constante o telle que

f

(a)

:

ag(a),Yy

€

I

Rernarque

L.z.L,

1) Dans

un

conteste bay6sien on a

r(?in)

x

_{f (nl0)r(0)}

les deux expressions

r(0lr)

et

_f

_@l?)r(d)

sont effectivement proportionnelles. La constante o

qui

apparait dans

la d6finition

pr6c6dente est 6gale

ici

iL

-lT@#@a,

d. noter que cette

quantit6 est bien une constante.

2)

On note

la loi

de

distribution par

_[.],

("(P)

:

_lgl,r(glt:)

:

_[01"])

1..2.2

Lois a

priori

On

entend

par information a

priori

sur le

parambtre

d,

toute

information

disponible

sur

I

en

dehors

de

celle apport6e

par

les observations.

_{L'information a priori}

_{sur g}

_est attanh6e

d'incertitude

(si ce

n'6tait

pas le cas. le parambtre g serait connu avec certitude

et

on

n'aurait

pas

i

I'estimer).

Il

est

naturel

de mod6liser

_{cette information a}

priori

au travers d'une

loi

de

probabilit6

appel,6e

loi

a

priori,

not6e

r(0).

(9)

Lois a

priori

_CHAPITRE

_1.

_LA

_THEORIE

_BAYESIENNE

Le choix de

la loi

a

priori

du

parambtre

_d'un

_modble_est

_{l'6tape la plus importante}

_dans I'analyse bay6sienne.

Dans la pratique,

I'information

a

priori peut

6tre _{cod6e selon une des fagons suivantes}:

1.

Prendre une

loi

a

priori

_{vague, c'est-d,-dire non}_informative.

2.

Choisir une

loi

a

priori

conjugu6e d,la _{vraisemblance (commoclit6 math6matique).}

3.

D6terminer une

loi

a

priori

subjectivement.

Lois a

priori

non informatives

Les lois a

priori

non informatives _{repr6sentent une ignorance}_{sur le}_{problbme en main,} mais ne

signifient

pas que

l'on

sache absolument

_{rien sur la distribution}

_statistique

_du parambtre. En effet, on connait _{au moins son domaine de}

_variation,

_{c'est-d,-dire I'ensemble} des

6tats de

la

nature,O,

et le

rdle

de chaque composante

du

parambtre

_sur

_les obser-vables (paramdtre de localisation, _{d'6chelle, etc).}Ces _{lois doivent 6tre donc}_{particulidrement}

construites d,

partir

de la

distribution

_de_{l'6chantillonnage,}_puisque_c'est_{le seul moyen}

dis-ponibie

pour

avoir des _{informations sur le parambtre 0.}

_A

_cet_{8gard, les}_{lois a}

_priori

_non informatives peuvent 6tre consid6r6es comme des lois de _{r6f6rences, auxquelles chacun}

pour-rait

avoir recours quand

toute information

a

priori

sur g est absente.

En

r6sum6, quand on

dit

une

loi

a

priori

non

informative,

il

faut

comprendre que :

1'

Le savoir de

I'expert

sur le problbme en main ne

lui

permet _{pas de}

_lier

_{les paramdtres}

'17

0r

I0z

r

... .L- 0n

+

_ffu,...,0n]:

f[[ArJ

j=L

2'

Toutes les plages de valeurs de 97 sont, aux yeux de

I'expert,

6quiprobables,

c'est-A,-dire

qu'il

ne pariera pas davantage sur une valeur que sur une autre.

Dans ce

qui

suit,

nous d6crirons quelques t6chniques populaires _dans

_la

_construction_des lois a

priori

non informatives.

1. Lois a

priori

invariantes

Le f.ait de formaliser I'absence

d'information

a

priori

par une propri6t6 d'invariance est

naturel au sens

oi

seuls les parambtres de

la distribution

de g changent lorsqu'on effectue une transformation de 0' Par exemple, les distributions de 0 et de

0I

gu, en r6alit6, ne sont pas les mOmes, mais dire qu'elles sont les m6mes. c'est-d-dire

r(0):n(0-0s)

Pour

tout

d6, exprime certainement une ignorance sur g.

On

dit

dans ce cas que

_{la loi}

_{a priori}

_n

_est

_invariante

_par

_translation

,

et

r(0)

:

c

la

loi

uniforme

sur

o.

Cette

_{technique de construction}_des

_{lois non}

_{informatives n,est}_que

partiellement _{satisfaisante,}

_cat

_elle_implique

_la

_{r6f6rence b une}

structure

d'invariance, qui peut €tre parfois _{choisie de plusieurs manibres, ne pas}_{exister, ou 6tre}_sans

_int6r0t

_pour

le d6cideur.

(10)

Lois

a priori

CHAPITRE

1. LA

THEORIE

BAYESIEAINE

2. Lois a

priori

de Jeffreys

La

sp6cification

de

la

loi

a priori

non informative

de

Jeffreys consiste d, assigner d,

un

modble d'6chantillonnage caract6ris6

par

sa vraisemblance

_f

(r;10). Les

lois

a

priori

de

Jeffreys sont fond6es sur

I'information

de Fisher, donn6e par

(1.1)

D'ori

la lois de Jeffrevs est donn6e oar

r(0)

:

lr/2(0)

La

loi

de Jeffreys n'est pas invariante en g6n6ral au sens de I'invariance par une famille de

transformations, mais elle

doit

s'entendte comme une invariance

par rapport

au choix de

la

param6trisation, puisque

pour

une transformation bijective donn6e

h qui

transforme le

parambtre 0 en

h(0),

nous avons la tansfbrmation Jacobienne

r(0)

:

r

(h(o))

:

(h, (o))2

Dans

le

cas

oil

le

parambtre

0

est multidimensionnel,

la

matrice d'information

cte Fisher s'obtient par g6n6ralisation de(1.1). Pour d a les 6l6ments suivants :

Iij(e)

:

_-

"rl#qbg

f

(rlg)1, (i,,

j

:

t,

..., k)

et la

loi

non

informative

de Jeffreys est alors d6finie par

n.(0) x[det(](0))lL/z

La t6chnique de Jeffreys

fournit

une des meilleures t6chniques pour construire une

loi

a

priori

non

informative, et

elle permet bien souvent de retrouver les estimateurs classiques

surtout

dans des cas _{unidimensionnels, mais de}_sa

part,

elle a

6t6 critiqu6e

par

certains

baydsiens corrme 6tant un

outil

sans justifi.cation subjective _en_terme

_{d'information}

_a

_priori.

3. Lois a

priori

de rdf6rence

Une

loi

a

priori

de r6f6rence est

tout

simplement une

loi

a

priori

non

informative

(ob-jective)

_{construite d'une manibre particulibre. Mais}_d.'une_{certaine sorte, toutes}_les_lois

a

priori

non informatives

sont

des

lois

de r6f6rence

du fait

que chaque

loi

a

priori

non in-formative

peut

6tre consid6r6e comme un

point

_{de r6f6rence auquel chacun}

_pourrait

_avoir

recours quand

toute information

sur 0 est absente.

Cette approche est une

modification

de l'approche de Jeffreys

qui

a 6t6 propos6

par

Ber-nardo

(1979),

elle

repose

sur le

principe de faire

la

distinction

entre I'importance

cles

parambtres c'est-d,-dire entre les parambtres de nuisance

et

les paramdtres

d'int6r0t.

Nous allons donner bribvement le

principe

de

la

construction de ces lois en clemendant aux lec-teurs de se r6f6rer d, Berger et Bernardo _{(1989a, 1992b),}_{Bernardo et}

_Smith

_(1gg4)_et_Kass

(11)

Lois

a priori

CHAPITRE

1. LA

THEORIE

BAYESIENNE

et Wasserman (1996). Consid6rons

tout

d'abord le cas d'un paramdtre d deux composantres,

0:

(0u02),

oi

grest le parambtre

d'intdr6t

(de plus importance)

et

02 est le parambtre de

nuisance, et

soit a

_-

_J@10).

La strat6gie

introduite par

Bernardo est Ia suivante :

pour

d1 fix6, on d6termine

tout

d'abord la

densit6 conditionnelle r(0210)comme

la

loi

de

Jeffreys associ6e

_{it f}

(rl0),

puis on calcule n(d1)

qui

est

la loi

de Jeffreys associ6e A

la

loi marginale

La

loi

de r6f6rence de d est le

produit

des deux lois, c'est-h-dire :

n(02,01):

r(0210)r(0)

Cette manibre de faire peut se g6n6raliser si

d:

(0r,...,9n),

et si

I'on

a ordonn6 sans perte

de g6n6ralit6 les 0i par

int6r6t

croissant.

Il

est clair que ce raisonnement n'est pas purement

objectif

parce que donner plus d'importance d, un parambtre qu'd,

un

autre relbve une fbis encore

d'un

choix.

4. Lois a

priori

impropres

Une

loi

impropre (ou g6n6ralis6e) est une mesure

o-finie

sur I'espace des parambtres O, c'est-d,-dire une mesure z- telle que

*oo

Ces lois sont obtenues lorsqu'on dispose des critbres subjectifs ou th6oriques sur Ia

distribu-tion

a

priori

du parambtre,

qui

conduisent b une mesure

o-finie

sur O

plut6t

qu'h, une me-sure de probabilit6. Les lois a

priori

impropres sont utiles dans les moddles non-informatifs cependant, elles ne peuvent 6tre utilis6es que si

la

condition suivante est v6rifi6e :

En conclusion, I'usage de lois a

priori

impropres est

justifi6

si

la

loi

a posteriori est propre car elle ne d6pend pas de

la

constante

multiplicative

de

la

loi

a

priori.

Dans ce cas ces lois sont utiles

du

moins

tant

que

la loi

a posteriori existe car l'inf6rence bay6sienne se fonde sur la

loi

a posteriori

_r(0lr).

Une

difficult6

pratique

dans

I'utilisation

des

lois

impropres

est

cle

v6rifier la

condition

d'int6grabilit6

f@ler):

_I

tcw1,92)

n(g2lor) dgz I

I

r(0)d0

:

, o P t

m*(r):

_{lf@10)r(0)dg<n}

I o I

I

t@10)n(0) d0

<

n

o

(12)

Lois

a

priori

CHAPITRE

1. LA

THEOHIE

BAYESIENNE

Lois a

priori

informatives

1. Lois a

priori

conjugu6es

Ce tvpe de lois a

priori

est

utilis6

quand

I'information

a

priori

disponible sur le modble est

trop

vague

ou peu faible.

Dans ce cas I'analyste regarde

la

forme

de

la

fonction

de

vraisemblance

et

choisit une

famille

de lois

qui

se marie bien avec elle. Par exemple, pour Ia vraisemblance

d'un

n-6chantillon

i.i.d

selon une

distribution

exponentielle de parambtre d'6chelle

p

>

0 qui

est donn6e

par

pn

exp(-nnp),

la

loi

a priori

conjugu6e est une loi Gamma

dont Ia forme

fonctionnelle

s'6crit

p"-1

exp(-bp)

et

appliquant le

th6orbme de

Bayes, Ia

distribution

a posteriori

suit

encore une

loi

Gamma :

pla,b,TL,I

_-

g@

+

n,b

*

n

frt.

Rappelons

ici

qu'une famille .F de

distributions

de

probabilit6

sur d est

dite

conjugu6e (ou ferm6e par 6chantillonnage) par une vraisemblance

_{f (rlg)}

si pour

toute

loi

a

priori

r

€

F,

la distribution

a posteriori

_n'(.lr)

appartient 6galement b

f.

L'avantage des familles conjugu6es est avant

toute la simplicit6

des calculs.

Avant

I'essor du calcul num6rique, ces familles 6taient pratiquement les seules

qui

permettaient de faire

aboutir

des calculs.

L'int6r0t

principal

du

caractdre conjugu6 se manifeste quand

f

est

param6tr6e. Effectivement le passage de la

distlibution

a

priori

i

la clistribution a posteriori

n'est dans ce cas qu'une mise h,

jour

des parambtres correspondants, ce que nous pouvons

le constater dans l'exemple ci-dessus.

Et

par cons6quent, les

distributions

a posteriori sont toujours calcula.bles dans ce cas.

D6finition

L.2.3.

Famille exponentielle

Une telle famille regroupe Ies lois de probabilit6

qui

admettent une densit6 de la forme

f

@le)

:

h(r)

ta@):r(r)

-

't'(o), 0

e

@

7

est une statistique exhaustive. Une telle famille est

dite

r6gulibre si

?

est

un

ouvert

tel

que O

:

_{el

_f

n@t

"a(o)r(t)

dp@)

<

oo}.

En outre, on appelle param6trisation _canonique,

_l'6criture

:

et

famille naturelle I'expression

f

("10)

:

h(r)

"e'r@)

-

t!(o)

f

@|il

:

h(r)

"or(t)

Th6orbme L.z.L.

Farnille

enponentielle

-

Si,

r

-

_{f (rl0)}

:

h(r)

"er@)-{t(o), alors la fami,lte d,e loi,s a

priori

{"^,r(il

x

h(r) e0p-^,!P),^,u}

est conjugu1e.

onnote

_Q,t)elTs.,, est une d,ensi,t6 d,e pro-babi,li,td, si, et seulement

si,.\

>

0

et

pl)' e

@.

La

loi' a

posterio,i

correspond,ante

estr(llxrr,

p+

"(z)).

(13)

Lois a

priori

_CHAPITRE

_1.

_LA

_THEORIE

_BAYESIENNE

En effet,

n;,r@ln)

_o(

h(dser@-t!(e)"e

p'-)'t!@)

o(

h(r;)ee(r(") + P)-(^ + r)il@)

:

7f)+t,1"+r1q(0).

_(r

₂₎

Le tableau ci-dessous pr6sente quelques lois a

priori

conjugu6es

pour

quelques familles exponentielies usuelles.

Tab'

1'1-

lois a

priori

conjugu6es

pour

quelques familles _{exponentielles usuelles}

f ("lo

7T(0)

r(0lr)

Normale

N(0,

o2) Normale

N(p,r')

N(p("'tt

*

r2r),

po2r2)

p:7lkt2

+r2)

Poisson P@) Gamma

9(",13)

9(a+r,13+r)

Gamma

9(u,0)

Gamma

9(u,0)

_9(a+u,0+r)

Binomiale

B(n,0)

BOta Be(a,

p)

Be(a*:x,p+n-r)

Binomiale N6gative

Neg(m.,0)

BOta Be(cu, _{})

Be(u*m,,p+r)

Normale

N(pt,1/0)

Gamma

9(u,0)

9(u*0.5,0+(tt-d,12)

2. Lois a

priori

d'entropie

rnaximale

si

on

dispose

de

_{certaines caract6ristiques de}

_la

_loi

_{a priori}

_de

_type

_E"lgt(0)l

_:

_p*

(moments, quantiles,

etc...)

or)

pour

chaque

k:

_{r,...,,tL, gk est une}

_fonction

_clonn6e.

_on

peut

_{utiliser Ia}

m6thode

d'entropie

maximale d6velopp6e

par

Jaynes (1gg0, 19g3) pour ddterminer une

loi

a

priori

sous ces contraintes.

Pour

comparer

le

caractbre

informatif,

_il

est

n6cessaire

d'avoir

recours

_{b un}

_critdre

d'information' L'entropie

de Shannon permet _{de cl6finir ce}_niveau

_{d'informativit6.}

Dans un cadre

fini

et

discret, cette entropie _{est d6finie comme}

_suit

;

Pour 0

€

{1, ...,

n}

et

r(0)

:7rr,...,rn

_{teI eue}7ri

)

0

et

T4:

t

Ent(n)

:

_-Dnolog(?ri)

i

Sans contraintes sur

n

la distribution

d'entropie maximale est la

clistribution

uniforme sur

O'

Une entropie

petite

s'interprbte _{comrne une}

_loi

_concentr6e

_{et informative. La}

maximi-sation de I'entropie sous ces contraintes _{mbne d une}

_minimisation

_cle

_{I'information}

_a

_priori

apport6e par 7r sur d' Le principe d la base de _{cette m6thode est donc de chercher d calculer}

(14)

Lois

a

priori

CHAPITRE

1. LA

THEORIE

BAYESIEIVNE

Argrnar

Ertt(tr)

sous

la

contrainte

Elgk(0)l:

Fk. La solution de ce problbme est alors donn6e par

n

n*

o

ulr\k

s*@)

oir les )7, sont les

multiplicateurs

de Lagrange associ6s qui se d6terminent dans la pratique par un systbme d'6quations Dr,

partir

des contraintes.

L'extension

au

cas

continu est

diff6rente, ce

n'est

pas possible

de

d6finir

I'entropie comme dans Ie cas discret puisqu'on ne

peut

pas d6nombrer les 6tats en I'absence d'une mesute de r6f6rence. Ceci exige donc

le

choix d'une mesure de r6f6rence r-6

_{eui peut}

6tre caract6ris6e comme

la distribution

complbtement non

informative,

Une fois fis est choisie, I'entropie de

n

est donn6e par

f

/

r(H\\

Ent(nlrs):

J"@)

t"*

(ffiJ

ou

0

qui

est aussi

la

distance de

Kulback

entre

n

et fi's.

Ld. encore,

I'objectif

est de maximiser

Ent(trlTs)

sous Ies contraintes

E"Ign@)]:

1L,p

etla

solution g6n6rale est connue :

7t

zr-(d)

x

,r!,

^u nu@) _nr(o)

Un

inconv6nient

de cette

m6thode

est

que

Ia distribution

d'entropie

maximale d6pend

du

choix

de

Ia

mesure

de

r6f6rence 7rs. Lorsque une

structure de

groupe est disponible,

un

choix raisonnable de z's est

la

mesure de Haar invariante d

droite. En

plus parfois ies

contraintes ne sont pas suffisantes pour obtenir une

distribution

sur

L

qui est le cas quands les contraintes sont li6es aux quantiles,

oi

les fonctions ₉₆₍₉₎sont de

la

forme 11_*,or1 ou

1166,oo1.

Soit

0

un

parambtre r6el. Si

I'on

choisit

la

mesure de r6f6rence est

la

mesure d.e Lebesgue sur lR..

et si

E"[0]

-

pt, alors

la

_th6orie_donne

r(0)

x

e]0 qui

_ne

_peut

_pas_6tre_normalis6e

comme une

distribution

de

probabilit6.

Si de plus on

sait

que

uar(0)

:

o2,la loi

a

priori

d'entropie maximale dans ce cas est

r(0)

x

"\$*Azo2 c'est donc

la

loi

normale

N(0,o2).

(15)

Estimation

bay6sienne

ponctuelle

CHAPITRE

1. LA

THEORIE

BAYESIET\I IE

Lois a

priori

subjectives

Pr6cisons

tout

d'abord

que cette d6marche n'est pas forc6ment facile dans

la

pratique. L'id6e est

d'utiliser

les donn6es ant6rieures. Par exemple dans un cadre param6trique, cela revient d, pr6senter des valeurs ponctuelles de 0 b,l'expert

et

pour _chacune_d'entre_elles,_de

lui

demander les chances

qu'il lui

accorde.

Exemple

X1 le nombre de pibce d6fectueuses dans un

lot

issu de Ia machine num6ro

t

: X1

_-

B(n,pt)

Information

a

priori

sur p1 :

la proprtion

de pibce d6fectueuses.

Tab.7.2

-

Information

a

priori

sur les parambtres de pbce d6fectueuses

machine 1 2 .) 4

Pi

mean ^-N 9b7o crecl.rnt 0.3 [0.1,0.5 0.4 [0.2,0.6] u.b [0.3,0.71 0.2 [0.05,0.4] 4.2 [0.05,0.4]

Si p1

suit

une

loi

BOta.

on

ajuste

les parambtres

pour

que

la

moyenne

et

les quartiles coincident avec nos informations.

Tab. 1.3 - Moddle a

priori

de pidce correspondant

i

I'information du

tableau (1.2)

Time 1 2 3 A F

o

Dist

8(6,74)

B

R._vt ₁₂₎

B(r2,12)

_B(3.5,14

_B(3.5,14)

Ces

distributons

sont dites subjectives parce qu'elles sont propre d

I'expert.

Elles doivent 6tre interpr6t6es comme un

pari

de I'expert.

1.3 Estimation

bay6sienne

ponctuelle

1.3.1 rntroduction

i

la th6orie

de

la

d6cision bay6sienne

Un

problbme de d6cision en g6n6ral est fond6 sur les 6l6ments suivants :

-

Un

ensemble des actions (d6cisions)

D

-

Un

espace des parambtres O

-

Une

fonction

de

cofft

(de

perte)

l(0,6) qui

d6crit

la

perte

de prendre

la

d6cision d

lorsque le parambtre est 0.

-

Un

ensemble des observations.

(16)

Fonctions de

pefte et

de

risques

CHAPITRE

1. LA

THEORIE

BAYESlElf

IE

L.3,2

Fonctions

de

perte

et

de risques

D6finition

1.3,1.

Soit d

€

D

une rdgle de d6cision.

Une fonction de perte(de

cofft)

est une fonction mesurable de

(O

x

2)

A, valeurs dans IR..

not6e l(d, d)

et

d6finie telle que 1. V

(d,p),

l(d,

d)

>

o

2.

V

0,=

5*

tel

que

l(d-(r),0)

:0

S'il

faut faire un choix entre deux rbgles de d6cision, ce choix est impossible sans critbre de

cofit, de sorte b,

d6finir

correctement

la notion

de meilleur estimateur.

D6finition

L.3.2. Le risque fr6quentiste

Pour une fonction de perte donn6e

l(0,6),1a

fonction de risque associ6e est

R(''o)

:

"'i',f

Jrl'u",n,

dp(*)

u,

C'est une

fonction

de

0 et

ne

d6finit

pas

un

ordre

total

sur 7)

et

ne permet donc pas de

comparer toutes d6cisions

et

estimateurs.

Il

n'existe donc pas de meilleur estimateur dans

un

sens absolu.

Ainsi,

I'approche fr6quentiste

restreint

I'espace

d'estimation

en pr6f6rant

la

classe des estimateurs sans

biais

dans laquelle

il

existe des estimateurs de risque uni-form6ment

minimal;

l'6cole bay6sienne ne perd pas en d6finissant

un

risque a posteriori. L'id6e est d'int6grer sur I'espace des parambtres pour

pallier

cette difficult6.

D6finition

1.3.3. Le risque a

posteriori

Une fois donn6es

la

loi

a

priori

zr(9) sur le parambtrc 0 et Ia fonction de perte

l(d,d),

Ie

risque a posteriori est defini

par

:

P(tr''tr)

:

_T

":o';t'i:;"|11'o'*

"@

Ainsi, Ie problbme change selon les donn6es; ceci dff d, la non existence

d'un

_ordre

total

_sur

les estimateurs.

(17)

Fonctions de

perte et de

risques

CHAPITRE

1,

LA

THEORIE

BAYESIENNE

D6finition

L.3.4. Le risque int6gr6

Pour une

foction

de perte donn6e, le risque int6gr6 est d6fini

par

:

r(tr,6):

E(R(g,6)lr)

f

:

|

,@,d)tr(0)d0

"e

Une

fois

la

loi

a

posteriori sur

le

parambtre est disponible,

le

problbme de I'estimation bay6sienne ponctuelle

peut

6tre exprim6 comme un probldme de d6cision.

D6finition

1.3.5. L'estimateur

bay6sien

Un estimateur bay6sien est Ia rbgle de d6cision

d"

qui minimise

r(n,6).

C'est-b-dire qui v6rifie

r(n,5"):

_j$

r(2,

d)

<

oo

Pour obtenir la valeur de

I'infimum

du risque int6gr6

il

faut

donc en th6orie minimiser une int6grale double.

L'introduction

du

risque int6gr6 se

justifie

par le th6orbme suivant.

Th6orbme L.3.1. Mdthod,e de calcul

Si=

6

€D,

r'(tr,d)

<

*

etY

X

e X,

d"(X)

:

Argntin,

_P(n,6lX)

alors 6n(X)

est

un

estimateur bay6,si,en.

D6rnonstration.

f

r(0,6)

:

_I

R(b,0)

r(0)

d0 , uo

rf

:

_I

t(t,0)

_{f (rl0)}

dn

r(o)

d,o

JJ

0r

: [ [,0,,

f (rlo)-tr(o)

_m^b)

d,n dg

J

rn"\fr)

0t

ff

:

J .l

,(u,0)

n(?lr)

m"(r)

d0

dr

n0

r( f

)

:

_|

_\

_|

tQ,0)

n(?lr) d?l

m,(n)

dr

J (J ₎

r0

r

:

_I

p(n,6ln)

m"(r)

dr

, 10 r.)

(18)

Fonctions de

perte et de

risques

CHAPITRE

1. LA

THEORIE

BAYESIENNE

Et

minimiser

r(n,d)

pour toute

valeur de

r,

sera 6quivalent

b

minimiser

la

fonction

de

risque a

posteriori

,

p(tr,lln):

J

,(u,0)

n(llr)

d,0

e

La minimisation de cette dernibre expression peut se faire analytiquement comme elle peut s'approcher num6riquement (par des techniques de simulation) selon la complexit6 du cofit

I

et

de

la

loi

a

posteriori

r(0lr).

Parfois

il

est

impossible

de

calculer

r(0lr)

et

parfois

mOme si elle est connue,

I'integration

analytique

parait

impossible, comme le cas des s6ries

temporlles d, cause de

la

complexit6 de

la

distribution

de vraissemblane. Ce

qui

n6cessite

des approximations num6riques comme les m6thodes

MCMC

abord6es dans

la

prochaine section.

Pour des coitts classiques, les estimateurs de Bayes correspondant sont des caract6ristiques usuelie de Ia

distribution

a posteriori(moyenne, m6diane, fractiles, etc.)

La

perte

quadratique

Une fonction de perte quadratique est une fonction

I:

(o

x D)

-

JR.. donn6e par

t(9,6):

(0

_-

6)2

Ainsi,

soit

r(6'*)

--

'f,]!',,1.:;,:i

,?

e

f ^

f

|

0'

r(0lr)

d0

-

zb

_I

e

r(elfl

d0

+

62

_|

r(0lr)

d,g

r

_ooo

J

.l "'

:

E(021r)

-

26

tr(lln)

+

d,

La d6cision d

qui

minimise

_/(d,

r)

est celle qui v6rifie

4 t6,r)

:

o

dd"'

ce

qui

donne,

-zE@lr)*2d:0

et donc,

6 :

E(?lr)

Donc

pour la

perte quadratique, I'estimateur de Bayes est

la

mo),'enne cle

la

loi

a pos-teriori.

(19)

Fonctions de

perte et

de risques

CHAPITRE

1. LA

THEORIE

BAYESIEAIAIE

La

perte

absolute

De m6me, nous pouvons

v6rifier

ais6ment absolu

t(5,0):

est donn6

par la

m6diane a posteriori.

En remplacons

l(d,0)

dans I'expression de

p(tr,dlr),

nous obtenons

hd

Nous cherchons b minimiser

_l@,*),

donc nous r6solvons

!rr',.r)

:

o d,d"

'

' ga implique que 60t

_r7

I

r(?ln)d?:

I

r(lln)d0

tr,

,u

d est bien entendue

la

mediane de

la distribution

a posteriori.

L'estimateur

MAP

On

appelle

estimateur

MAP

(estimateur de

maximum

a

posteriori)

tout

estimateur

d"(z) qui

maximise

I'information

sur

g

repr6sent6e

par

son

loi

a

posteriori,

c'est-h-dire

tout

estimateur

d'(z)

tel

que

b(r)

e

_{Argmaxr(0lr). d"(z) doit}

_donc_Otre_le_{mode de}_la

distribution

a posteriori.

Le grand avantage de cet estimateur

et

qu'il

ne d6pend pas d.'une fonction de perte et est

utile

pour les approches th6oriques.

L'estimateur

MAP

est le pendant _{bay6sien de}l'estimateur de maximum de vraissemblance, de ce

fait

ils

partagent _{les m6mes inconv6nients comme}_{: Ia non}

_unicit6,

_{I'instabilit6}

_(dus aux calculs

d'optimisation)

et la d6pendance vis-d,-vis de la mesure de r6f6rence (dominant O), seulement I'estimateur

MAP

ne v6rifie pas la non invariance par reparam6trisation qui peut apparaitre

importante

intuitivement.

que

I'estimateur

de Bayes

utilisant un

cofit

ld-dl

f

f(6,r)

:

I

l0

-

6lr(0lr)d0

e

6oz

rf

:

_/

(d-

-

0)r(0lr)d0

+

_I

_@

-

_d)r(?ln)dg

II 15

(20)

Les m6thodes

MCMC

CHAPITRE

1. LA

THEORIE

B.AYESIENNE

L.4 Les m6thodes

MCMC

Nous allons pr,6senter bribvement un aspect trbs

important

dans la statistique bay6sienne qui est un moyen in6vitable

pour

resoudre les problbmes des calculs

pour

divers modbles :

les algorithmes de

Monte

Carlo par chaines de

Markov (MCMC).

Ces algorithmes sont des techniques de simulation

qui

consistent d g6n6rer

un

6chantillon afin de

mettre

en place des chaines de

Marliov

avec des

distributions

ergodiques,

Deux algorithmes

MCMC

sont les pius importants congus

pour

cr6er des chaines de Mar-kov de

loi

stationnaire donn6e.

Le premier a 6t6 propos6

par Metropolis et

al

(1953)

et Hasting

(1970)

et

s'appelle

algo-rithme

de Metropolis-Hasting.

Le deuxibme est

l'algorithme

de Gibbs

introduit

par Geman (1984) et d6velopp6e plus

tard

par Tanner et Wang (1987) ensuite

par

Gelfand

et Smith

(1990).

Ces algorithmes rre peuvent pas s'appliquer sans ordinateur. Le langage de programmation

R

est le mieux plac6

et

est le plus performant pour les statisticiens.

Notre

objectif

est de comprendre Ie m6canisme de fonctionnement de ces m6thodes afin de

les maitriser

et

de

pouvoir

les appliquer dans le chapitre 3.

L.4.L

El6ments

sur

les chaines de

Markov

La propri6t6 des chaines de Markov que nous allons utiliser est que certaines d'entre elles

convergent vers une unique

et

invariante

distribution.

La

th6orie

des chaines de Markov est complexe et nous n'allons

ici

donner que les bases n6cessaires d, nos m6thodes,

D6finition

L.4.L.

Une chaines de Markov est une collection de variables al6atoires

(&)o.r

qui doit v6rifier Ia popri6t6 d'absence de m6moire :

P(Xi+ilXi:

ni,

Xj

:

ri,

i

<

i)

:

P(Xn*rlXt: n)

D6finition

L.4,2.

Chaine

irr6ductible

Une chaine de

Markov

est

dite irr6ductible si

tous les 6tats communiquent entre eux, c'est-d,-dire V0,0' e. O

il y

a une

probabilit6

non nulle que

partant

cle g on aboutisse h g en

un nombre

fini

d'6tapes.

En

terme _{de classe d'6quivalance. une chaine est}_irreductible

_s'il

n'y

a qu'une seule cla,sse d'6quivalance.

D6finition

1.4.3. Chaine recurrente

Une chaine de

Markov irr6ductible

est r6currente

si

I'esp6rance

du

nombre de visites qu'elle accorde b chaque

6tat

est

infini

:

V0,0'

_,

E(0

--

A')

: D

n'(9,0')

:

6p

(21)

Chaines de

Markov

et

mdthodes de

MonteGWffiITRE

1. LA

THEORIE

BAYESIENNE

D6finition

L.4.4.

Chaine ap6riodique

Une chaine de Markov est

dite

ap6riodique si elle est

irr6ductible

et tous les 6tats sont de p6riode 1.

On

appelle une p6riode

T

d'un 6tat

0

appartenant ir, une chaine discdte

et

on note d(0), Ie plus grand commun diviseur des valeurs

r

) l

telles que les probabilit6s de transitions

r'(0,0)

en

r

6tapes sont positives :

d(0):

PGCD{r

€

N*, r'(0,0)

>

0}

Lorsque

la

chaine de Markov v6rifie toutes ces propri6t6s elle sera

dite

chaine ergodique. Nous pouvons maintenant

introduire

le th6orbme fondamental de

I'utilisation

des chaines de Markov dans les m6thodes de Monte Carlo.

Th6orbme L.4.L.

Th€orime

ergodique

Soi,ent

g\),9(z),..,, 0Q)

T

ualeurs d,'une chatne d,e

Markou

ergodi,que d,e d,i,stributi,on

i,naari,ante (stati.onnai,re),

ettel

que

E"lg(0)l

<

oo. Auec une probabi,ti,td. d,gate d, 1,

tT

f

iD,g@at)

;

_{J^t(il"(elddo:}

E"lg(o)l

I

(1.3)

oil,

r

est

la

di,stri,but'ion stati,onna,ire.

Les chaines de Markov produites par les algorithmes

MCMC

sont ergodiques de

distribution

stationnaire

r(0lr).

L.4.2 Chaines de

Markov

et

m6thodes de

Monte

Carlo

Les chaines de

Markov

(0t)1 produites

par

les algorithmes

MCMC

sont b6n6ficies, par construction de propri6t6s de

stabilit6

forte. A, savoir I'existence d'une

distribution

station-naire ou invariante,

soit

une

distribution

n

telle

que, si frn

_-

T,

x)n+l.

-

rr.. Cette propri6t6 signifie dans la dynamique des chaines de Markov que _{lorsqu'on injecte un}

point

de d6part

0 tir6

au

hasard selon

la

densit6

de probabilit6

r,

on

retrouve

g6n6r6

par le

noyau un

point

de sortie

0'

qui

suit

lui

mdme cette mdme

loi

de

probabilit6

zr. Ces chaines sont aussi

irr6ductibles. Gr6ce b, cette

stabilit6,

ces chaines sont r6currentes cle 1oi stationn aire

r(0lr)

c'est-dL-dire que le nombre moyen de visites dans un ensemble

arbitraire

A

de mesure posi-tive est

infini,

ou mOme Harris r6currentes,

c'est-i-dire

telle que Ia probabilit6

_d'un

_nombre

infini

de

visites

dans

A

est

1, ce

qui

assure que

la

chaine possdde les m6mes propri6t6s limites quelle que

soit la

valeur

initiale

B(o) (cette propri6t6 correspond d, l'6rgodicit6 d.e la

chaine)'

La

r6currence au sens de Harris est donc n6cessaire

pour garantir la

convergence

d,

partir

de

tout

point

_{de d6part.}

(22)

Chaines de

Markov

et

m6thodes de

MonteAHffiITRE

1. LA

THEORIE

BAYESIENNE

Par cons6quent, pour un nombre de simulation, k. suffisamment grancl, 1, g1t) r6sultant est distribu6 approximativement selon

la

\oir(lln),

quelle que

soit

Ia valeur

initiale

d(0),

Une fois

h

:

0(k) g6n6r6, une faqon naive de construire

un

6chantillon ind6pendant et identiquement

distribu6

est

d'utiliser le

m6me

algorithme

avec une autre valeur

initiale 0f)

et une autre s6quence de

transition

cle Markov afin

d'obtenir

bet

ainsi de suite.

Donc,

MCMC

est une classe de m6thodes qui consiste b, simuler _{des tirages d6pendants} d,

partir

de

notre

distribution d'int6r6t (la distribution a

posteriori),

_et

les

utiliser

pour calculer les quantit6s

d'int6r€t

de

la

loi

a posteriori.

La partie suivante aborde 1es deux algorithmes

MCMC

les plus utilis6s par les bay6siens.

Algorithme

de Metropolis-Hastings

L'algorithme

de Metropolis-Hastings est

un

algorithme

d'acceptation/rejet.

L'id6e de

cet algorithme est de simuler selon une

autre

distribution

plus simple h simuler, appel6e

ia loi

de

proposition,

et

d'accepter

la

valeur simul6e avec une certaine

probabilit6

d,6tre effectivement

un tirage

selon

la loi

cible,

Tant

qu'une nouvelle valeur n'est pas acceptfe, I'algorithme retourne la dernibre valeur accept6e comme nouvelle valeur de Ia chaine.

ponr

une

distribution

a posteriori donnde

r(0lr)

on

d6finit

par _{recumence les valeurs de g(t+l)}_h

partir

d'une valeur d(i),

D'abord. on choisit

une valeur condidate

0*

tft6e al6atoirement d'une

distribution

de

proposition

q(O.P@) eventuellement dependante

de

g.

Ensuite. en

d6termine a(0*,0Q)) telle que :

a(0*,

g(t\

:min

(

1, "

_r(!^,._{r1:Y(0:,1?::), \}

r(?ti)lr)q(0@le.)'

puis dans

la

pratique, on

tire

une variable al6atoire

u

_-

Llps,1,

_et

on

d6cide de

la

fagon suivante :

-

si

_{u S}

ct(O*,eG))

:TG+r).:0*

_{avec une}

propabilit6

_a(g,e(t1.

-

si

u

>

o(0*,9(t)):

g?nt)

_-.0$)

_avec_une

_{propabirit6r-a(0.',g(r)) et}

_qasignifie

que la chaine ne bouge pas de d(';)

Les d(i),

produient par cet

algorithme construient une chaine de

Markov

ergodique de loi

stationnairer(0lr),

donc on a

la

convergence vers I'esp6rance

(la

_{moyenne a}posteriori).

(23)

ChA|NCS dE MATKOV _{EI M'thOdES}dC

MONTEGHffiITRE

1. LA

THEORIE

BAYESIENNE

Algorithme

de Gibbs

L'algorithme de Gibbs est central en statistique bay6sienne car

il

permet _{de r6duire un} problbme complexe de

simulation,

typiquement,

_la

_simulation

_selon

_la

_{distribution jointe}

a posteriori

des parambtres,

en

une

suite

d'6tapes simples

d

simuler.

pour

cette raison,

l'algorithme

de Gibbs _{est aussi connu sous le}_{nom d'6chantillonneur}_de_Gibbs_{(en anglais,} Gibbs Sampler).

D'un point

de

_{vue historique, l'algorithme de Gibbs}

_tire

_son

_nom

_d'un

_physicien_et math6maticien am6ricain

du

19" sidcle; Josiah

wiilard

Gibbs.

L'algorithme

de Gibbs

permet

_{de simuler}_les

_{distributions}

_marginales

_{a posteriori}

_de

toutes les grandeurs inconnues

du

modble A,

partir

_des

distributions

_{conditionnelles}_a

pos-teriori

de toutes ces grandeurs.

Supposons d'abord que le vecteur d

ait

deux coordonn6s 0

:

(0r,92)

_etsupposons_aussi

que

l'on

_{connaisse les deux densit6s conditionnelles}

191 l02l

et

1er1fir1.

ni'

aonnant les valeurs

initiales

llt)

"t

e[t),,irl,6tape

t,

et

b l,6tape

(t+t)

1) On g6nbre

pll.l]

*

_simulant_selon

_ta-loi

lr,rlit[D]

2) On g6ndre

lf*t)

"n

simulant selon

la

loi

[0^0fi1)]

De fagon g6n6rale,

pour

0

:

(h,...,0n),

on suppose qu'b, l'6tape

t

res 0:t), i,

:fi

sont connus.

L'algorithme

it6ratif

de Gibbs d

l'6tape

(t+1)

est donn6

par

:

1) On g6nbre

,f1.1]

*

simutant selon la

toi

_{Jei,+1);A[q',}

_,Ofr]

2) On g6nbre

0!j*')

"n

simulant seton la

toi

iajr+tl l4yit) ,'0{) ,'

...,

r1f)1 i

k)

On g6nbre

Tf*t)

"n

simulant selon

la

loi

[rlf+r)p{r*t),

.,.,

gfjji)l

Rernarque

L.4.L.

Lorsqu'il

est

difficile

de simuler selon I'une des

distributions

conditionnelles

r;(0l0i,j

_I

i)

on

peut

remplacer cette_6tape

par

une 6tape de Metropolis-Hastings _dont la

distribution cible

est ri(0;10i,

i

₊

_{i).L'introduction}

_d'une_{6tape de}_{Metropolis-Hastings} ne modifie pas

la distribution

stationnaire de

la

chaine

et

est valide.

(24)

Chapitre

2 La

robustesse

bay6sienne

2.L

Introduction

Dans

la

mise en Guvre

d'une

analyse bay6sienne, le

statisticien

s'est int6ress6 comme une premibre 6tape d, proposer

un

modble

qui

explique le comportement des observations, une

loi

a

priori

qui

g6nbre Ie parambtre

d'int6r€t et

une

fonction

de perte

qui

est utilis6e pour 6valuer le risque.

Etant

donn6 ces

trois

6l6ments, le bay6sien cherche d, employer des

m6thodes

qui

sont optimales dans

un

certain sens.

Cependant dans la pratique,

il

est rare de pouvoir proposer une d6termination explicite du modble, de la

loi

a

priori

et de la fonction de perte m6me si on dispose de certaines infor-mations.

La

robustesse bay6sienne consiste h, 6valuer I'influence de cette ind6termination sur les quantit6s

d'int6rdt.

Une pl6thore de m6thodes

et d'outils ont

6t6 propos6s

pour faile

face

h

ce problbme comme les

travaux

de

Good

(1983), Berger

et

Berliner

(1986), Berger

et

Sellke (1987), Wasserman (1992) et

Abraham et

Daur6s (2000).

La

robustesse bay6sienne donc

peut

6tre 6tablie

par

rapport

au

modble propos6,

d

la

loi

a priori

ou

parfois

par rapport

A,

la

fonction

de

perte

quand

il

s'agit d'un

problbme de

ddcision.

Mais.

dans les

trois

cas elle consiste

b

construire

une

classe de modbles/lois a

priori/fonctions

de perte, et dtudier par la suite les changements 6ffectu6s sur les quantit6s a posteriori autours de ces classes,

Dans ce qui suit nous rassemblent quelques notions de base sur la robustesse bay6sienne.

(25)

Quelques notions de base

CHAPITRE

2. LA

ROBUSTESSE

BAYESIENNE

2.2 Quelques

notions

de

base

2.2.L

Diff6rentes

approches

Il

existe

trois

principales approches de

la

robustesse bay6sienne.

La

premibre est

I'approche informelle,

dans laquelle

un

ensemble de

lois

a priori

est

consid6r6

et

les moyennes a

posteriori

correspondantes sont compar6es, Cette approche a

6t6 (et elle est) trbs populaire en raison de sa

simplicit6. En

revanche,

il

est parfois facile de perdre les

lois a

priori

compatibles avec les connaissances

a

priori

disponibles, ce qui mbnerait a des moyennes a posteriori trds diff6rentes.

La

deuxibme approche

est

appel6e

robustesse

globale (voir

Moreno, 2000,

pour

plus de d6tails).

Cette

approche fonctionne id6alement A, I'approche pr6c6dente, elle consiste _d

consid6rer une classe de lois a

priori

compatibles avec les informations a

priori

disponibles, et 6valuer par la suite la diff6rence entre le sup et

I'inf

des moyennes a posteriori autours de

la classe. Cette approche est trbs populaire elle m6me, mais les calculs ne sont pas toujours faciles du

fait

qu'elle exige l'6valuation du sup

et

de

I'inf

des moyennes a posteriori.

La

troixibme approche est

dite robustesse locale.

EIle est d6crite

par

Gustafson (2000)

et

Sivaganesan (2000).

Elle

s'est int6r6ss6e au

taux

de changements dans I'inf6rence par

rapport

aux changements dans

la

loi

a

priori

utilisant

diff6rentes t6chniques. Les mesures

de sensibilit6 (robustesse) locale sont g6n6ralement plus faciles d, calculer que les mesures

globales. mais leur

interpr6tation

n'est pas toujours claire.

2.2.2 Robustesse

par

rapport

h

la

loi

a

priori

Nous allons commencer cette section par un exemple

qui

montre combien

il

est

impor-tant

d'introduire la notion

de

la

sensibilit6 au choix de Ia

loi

a

priori.

Supposons

qu'on

observe

une variable

al6atoire

X

qui suit

la loi

de

Poi,sson(fl), et supposons

qu'il

est connu

a

priori

que

0 a

une

distribution

continnue avec une mediane 6gale

d,2

et

un quantiie d'ordre

3

6gale

d 4. i.e.

p"(0

<

2)

:

0.5

et

p"(0

_{3 4):0.25.}

Si ces informations sont les seules connaissances disponibles

sur le

parambtre g, _les_trois

distributions

suivantes peuvent 6tre consid6r6es comme des lois a

priori

de g :

(i)

rr

: 0

_-

enponenti,elle(a) auec

0,:

log(2);

(ii)

zr2 :

los(0)

_-

N(Ios(Z),(los(z)lz.zs)2)

_;

et

(iii)

zr3 :

los(0)

_-

Caucha(los(2),los(Z)).

et donc,

(i)

sous 11,

0lr

_-

Gamrna(a

*

1,ff

+

1).

et la

moyenne

a posteriori

est

E"t(glr)

:

(a+r)l@+L)

(26)

Robustesse

par

rapport d,la

loi a pT\oTCHAPITRE

2. _LA

_{ROBUSTESSE BAYESIENNE}

(ii)

sous 7r2, si on pose

₇

:

log(0) et

r

:

log(2)lz.2s:

tog(2)10.675 on

obtient

:

E"'(llr)

:

E"'(enp(1)lr)

*oo

I

enTt(-et)erp(1@

+

I))erp(-O

_-

tos(2))2

_ler2))d,1

+oo

I

erp(-et)erp(1r)enp(-

(r

_-

los(2))2

_lQr2))dt

(iii)

sous

Trs, etposant

"r;;

:

log(0),on

obtient

:

E"'(0lr)

:

8""

(erp(1)lr)

*f

"*p1-",)enp(1@+

r))

f

r

+

ff##),],

0., : -€ L --tr-r _J *oo

I

enp(-et)erp(1n)

.t

j

+

f

_\

+kP\zl-'

_tos(2)

a,

t I

wr

Pour

voir

l'influence

du

choix

olta,

a,

a

priori.

or, .*urnrrre les moyennes a posteriori sous les

trois

diff6rentes lois a

priori.

Les r6sultats sont donn6s

par la

table suivante.

Tab. 2.1

-

Les moyennes a posteriori sous zrr,

zrz

et

a-s

_{_}

X

4510152050

'tf ₁ 1T2 7f3 .749 .950

.76r

1.485 1.480 1.562 2.228 2.706 2.094 2.971 2.806 2.633 3.713 3.559 3.250 +.+oo 4.353 3.980 8.169 8.660 8.867 11.882 13.24r L4.067

15.5ei-

37w4

L7.945

47.077

19.178

49.402 On remarque que

pour

_{x petit}

ou mod6r6

(x

_S

10),

la

robustesse est r6alis6e, i.e.

il

n'y

a

pas un grand _{changement entre}les moyennes a posteriori sous les

trois

lois a

priori,

et donc le choix d'une

loi

a

priori

entre les

trois n'a

pas d'influence.

Par

contre

por'

_d.,

grandes valeurs de

x,

le choix de la

loi

a

priori

est,trbs

important et

a influenc6les _{moyennes a}

pos-teriori,

il n'y

a pas de robustesse dans ce cas,

Il

est clair maintenant

qu'il

y

a

ies

situations or) le choix d'une

loi

a

priori

parmis d'autres d.ans une classe

peut

avoir _{une influence sur} les quantit6s _aposteriori

d'int6r6t.

Classes

de lois a

priori

Comment construire une elasse

f

de lois a

priori

de sorte qu'elle mod6lise

I'incertitude

sur la

loi

a

priori ? est

la

question _{fondamentale dans}

_la

_mise_en

_Guvre

_d,une_robustesse baydsienne

par

rapport

d,

Ia

loi

a

priori.

Il

existe une

lit6rature

vaste

qui

r6pond d, cette question, mais quelque

soit la

m,5thode, cette construction

devrait

v6rifie les objectifs sui-vants :

(27)

Robustesse

par rapport d,la

loi a pTiotCHAPITRE

2. LA

ROBUSTESSE

BAYESIENNE

l.

La classe

doit

contenir un nombre maximum des a

priori

raisonnables en

dvitant

les

a

priori

d6raisonnables

qui

pourraient conduire d

trop

manque de robustesse.

2.

Pour r6pondre que

f

ne

doit

pas exiger

I'information

a

priori qui

ne se d6termine pas

facilement dans Ia

pratique

.

3,

Le calcul de mesures de robustesse

doit

6tre aussi facile que possible.

classification

de

Berger (1990), nous consid6rons que

I'incertitude portant

sur

la

loi

a

priori

z.

peut

se repr6senter

par

une classe

f

de

lois a

priori,

b laquelle a' est

suppos6e

appartenir.

Ces classes peuvent 6tre d6termin6es selon des critbres pratiques ou subjectifs.

Nous allons passer en revue dans ce

qui suit

les types de classes de robustesse les plus couramment utilis6s dans

la

lit6rature.

Classes

de lois

conjugu6es

Ces classes sont bas6es sur les lois a

priori

conjugu6es trait6es dans le premier chapitre. Elles sont parmis les classes les plus faciles ir,

utiliser

dans

la

pratique, et

elles sont

typi-quement choisies pour des raisons pratiques parce qu'elle fournissent en g6n6ral des bornes explicites pour les quantit6s

d'int6r6t.

Par exemple, si

X

_-

N(Lt,r2)

tels eue : p1

<

p

a

[tz et

rl !r'

a

rl,

on

peut

consid6rer

la

classe :

l.:

_{N(p,,rz)

:

tq <

p

3 Ltz

et

,?

<

,'

<

ri}

pour _{quelques valeurs sp6cifi6es}

_{d" ltt,1t2,rl}

_etrl

L'avantage de ces classes est que les quantit6s a

posteriori

peuvent 6tre calcul6es $ous

forme ferm6e

(pour

les

lois

naturelles conjugu6es). ce

qui facilite Ia

minimisation

et

la maximisation des quantit6s d'int6r0t.

Ces classes

sont

connues aussi

par

les classes param6triques

et

elles sont donn6es en

g6nrSral

par

:

lp:

_{P

:

p(0,u.,),

c.,'e

f)}

Si

par

exernple,

notre

loi

a

priori

est une

g(a,

_tl)

on

peut

consid6rer comme classe de

lois a

priori

:

-

lp

:

_{9(a,0)

,

al7

:

p}

-

lp

:

_{8(a,0)

:

_h

I a3

pr,

lz

< g

<

_U'}

-

lp:

_{9(u,0)

:

h

9ul[] I

pt,

lz

<

ulp2

<

pz]

Les

critiques

d6jh, 6voqu6es

sur

les

lois

conjugu6es s'appliquent

bien

entendu dans ce

cadre

et

ce

d'autant

plus que

la

ciasse r6sultante ne contient que des lois de convenance, dont assez peu sont compatibles avec

I'information

a