• Aucun résultat trouvé

Aspects de la robustesse bayésienne

N/A
N/A
Protected

Academic year: 2021

Partager "Aspects de la robustesse bayésienne"

Copied!
49
0
0

Texte intégral

(1)
(2)

.Jt--r=d

y

Exclus du

PrOt.

MINISTERE DE L'ENSEIGNEMENT

SUPERIEUR

SCIENTIFIQUE

UNIVERSITE MOHAMED SEDDIK BEN

ET

DE

LA

RECHERCHE

YAHIA -

JIJEL

Facult6 des sciences exactes et informatique D6partement de rnath6matiqtes

M6moire pour I'obtention du

dipldme

MASTER

Sp6cialit6 : Math6matiques appliqu6es

Option

: Probabilit6s et statistique

Thbme

Pr6sent6 Par :

Samira Benhamada

Zah:ra

Boudadi

t'..,,r,<o}

,Sto-

.

obl16

Pr6sidente Encadreul Examinatrice;

^/

6>

Devant 1e

jury

d'examen comPos6 de :

Z.Djeridt

Maitre

Assistante

A

Dj.Ghouil

Maitre

Assistante

A

N.Sellami

Maitre

Assistante

A

U.Jijei U.Jijel

U.Jijel

Aspects de

la

Robustesse Bay6sienne

(3)

Remerciements

Nous tenons

tout

d'abord d, remerc,ier

notre

Dieu

qui, nous a donn6,

la

uolont6, la pat'ience et le courage d'd,tudr,er

et

d,e

terminer

ce mod,este

trauai,l.

Nous remerc'i,ons u'iuement tous les ensei,gnants qui, ont trtarti,ci,pd d, notre formati,on et parti'culi'd,rement notre encad,reur

Dj.Ghoui,I

d'auo'ir uoulu proposer et aEEurer

la

d,i,recti,on

de ce rn6.mo'ire,

pour

sa confiance et ses conse'ils jud,ici,eur et sa totale d,i,sponi,bi,lit6,

Nous adressons d.galement nos remerc'iements d,

"z.Djeridi,"

et

"N.Sellam'i" les membres

de

jury

qui,

ont

bi,en uoulu et accept6. de li,re et

jujer

notre trauai,l.

Enfi'n, nous adressons nos salutat'ions d, tous nos colld,gues de la promoti,on d,e probabi,li,t6,s

et stati,sti'que 2015-2016, a'insi, qu'd, toute personne agant contri,bude d,e prds ou de loi,n d"

la

r4.alisation de ce mdmo,ire.

(4)

Table

des

matibres

Introduction

g6n6rale

th6orie

bay6sienne

lntroduction

Principe de l'analyse bay6sienne

L.2.7

Loi

a posteriori

I.2.2

Lois a

priori

1.3

Estimation

bay6sienne ponctuelle

1.3.1

Introduction

A,

la

th6orie de

la

d6cision bay6sienne

L.3.2

Fonctions de perte

et

de risques

-tA

r,= Les m6thodes

MCMC

L.4.7

El6ments sur les chaines de Markov

1.4.2

Chaines de Markov et m6thodes de Monte Carlo

robustesse

baydsienne

Introduction

Quelques notions de base

2.2.1

Diff6r'entes approches

2.2.2

Robustesse par

rapport

i

la

loi

a

priori

2.2.3

Les mesures globales de Ia sensibilit6

2.2.4

Robustesse par

rapport

au modble

2.2.5

Robustesse par

rapport

d

la

fonction de perte

3

Exemple

d'application

3 3 3

1La

1.i

r.2 4 11 11 72 16 -to 77 20 20

2I

21 ,1 28 31 33 35

2La

2.r 2.2

(5)

Introduction

g6n6rale

Contrairement d, la statistique classique la statistique bay6sienne considbre le parambtre

du modble incertain, le statisticien bay6sien va donc chercher d, quantifier son incertitude en

mobilisant toutes les informations disponibles. C'est ce

qui

fait

toute la

diff6rence puisque cela revient d, conf6rer au parambtre le

statut

de variable al6atoire. Dbs lors.

il

lui

attribue

une

distribution

de

probabilit6 qui

d6crit Ie savoir actuel sur ce parambtre et qui quantifie

l'6tat

des connaissances

d'un

expert sur le problbme en main. Cette

distribution

de

proba-bilit6

est appel6e la

distribution

a

priori,

et

il

est pr6f6rable que le savoir de I'expert encod6

dans la

loi

a

priori

soit

ind6pendant de

l'6chantilon

en main.

Le fondement de la th6orie bay6sienne s'est bas6 sur le th6orbme d'inversion des proba-bilit6s connu sous le nom du th6orbme de Bayes (Bayes, 1763) qui rassemble

I'infbrmation

apport6e

par

la ioi

a

priori

avec celle apport6e

par

les donn6es dans une nouvelle

distri-bution

dite la distribution a

posteriori,

et qui

est

le

pendant de

la

vraisemblance dans I'approche classique, de

fait

que

toute

inf6rence au sens bay6sien est bas6e sur cette

distri-bution

a posteriori.

Un

de nos

objectifs

derribre ce m6moire est cle

guider le lecteur

b, se

familiariser

un peu dans Ia d6couverte de I'inf6rence bay6sienne.

Un

autre

objectif

trbs

important et

qui est

un objet

de recherche jusqu'), pr6sent chez tous les statisticiens est de construire des

estimateurs robustes.

Dans

la

mise en

€uvre

d'une analyse bay6sienne, le

statisticien

s'est int6ress6 comme une premibre 6tape h proposer un modble

qui

explique Ie comportement des observations, une

loi

a

priori

qui

g6nbre le paramBtre

d'int6r6t et

une

fonction

de perte

qui

est utilis6e pour 6valuer le risque.

Etant

donn6 ces

trois

6l6ments, le bay6sien cherche b employer des m6thodes

qui

sont

optimales dans

un

certain

sens.

La

robustesse bay6sienne consiste d

6valuer les changements de quantit6s

d'int6r6t par rapport

aux changements dans

la

dis-tribution

a

priori,

dans les modbles et clans les fonctions de perte.

Ce m6moire contient

trois

chapitres, le premier est

un

aperqu

sur

quelques m6thodes

de

la

construction

d'une

loi

a

priori et

de

la

d6marche bay6sienne dans la

Lise

en place d'une inf6rence

sur

un

parambtre 0. Dans

le

deuxibme chapitre, nous avons rassembl6 le bagage n6cessaire

pour

effectuer une 6tude cle

la

robustesse dans

un

sens bay6sien. Enfin,

(6)

TABLE

DES

MATIERES

TABLE

DES

MATIERES

le troixidme chapitre est une

application

des m6thodes abord6es dans les deux chapitres pr6c6dents, or) nous avons appliquer I'approche informelle

pour 6tudier

Ia robustesse des

estimateurs des parambtres

d'un

modble

AR(1)

aprbs avoir les calculer

par

les m6thodes MCMC.

(7)

Chapitre

1

La

th6orie

bay6sienne

1.

1

Introduction

La statistique bay6sienne est une th6orie concurrente h la statistique classique (fr6quentiste) en ce sens que chacune d'elles propose ,vis-d-vis,

d'un

m6me probldme

urr.

uppro.he

et une r6solution complbtement diff6rente, L'approche bay6sienne repr6sente

la dislribution

des observations

par

une

fonction

de densit6

f

(rl0)

or)

le

parambtre g est inconnu, mais une

variable al6atoire, et on cherche h inf6rer sur ce parambtre.

Dans ce premier chapitre, nous pr6senterons les notions

et

les

outils

sur lesquels se fonde une analyse baydsienne,

et

dont

nous aurons besoin

pour 6tablir

les prochains chapitres de ce m6moire. Dans

un

premier temps, nous allons parler de

la

loi

a posteriori et

la loi

a

priori

sur lesquelles l'approche bay6sienne est bas6e. Ensuite dans la section 3, nous allons

voir

comment estimer au sens bay6sien.

Enfin,

la

dernibre section pr6sente cles mdthodes de calcul bay6sien; les m6thodes de Monte

carlo

par

chaines de Markov.

I.2

Principe

de l,analyse

bay6sienne

En

mod6iisant des parambtres inconnus de

la

distribution

d'6chantillonnage

d, travers

une structure probabiliste, donc en probabilisant I'inconnu. L'analyse statistique

bay6sienne autorise

un

discours

quantitatif

sur

ces parambtres.

Elle

vise d,

exploiter le

plus

efficace-ment

possible

I'information

apport6e

par

x

sur

le

paramdtre

g, pour

ensuiie construire des proc6dures d'inf6rence.

Bien

que

x

ne

soit

qu'une r6alisation al6atoire d,une

loi

gou-vern6e

par

0,

elle apporte une actualisation

aux

informations

pr6alablement recueillies

par

I'exp6rimentateur'

Elle

permet

aussi

I'incorporation de

I'inlormation a priori et

de I'impr6cision

de cette information

dans

la

proc6dure

inf6rentielle,

d,

part

des argumenrs subiectifs

et

axiomatiques en faveur de I'approche bay6sienne,

qui

reste

le

seul

systbme permettant de conditionner sur les observations et

donc de

mettre

en

€uvre

le

pri'cipe

de

(8)

Loi

a posteriori

CHAPITRE

1.

LA

THEORIE

BAYESIENNE

D6finition

L.z.L. Le modble

statistique

bay6sien

Un modble statistique bay6sien est la double donn6e d'un modble param6trique

{lB(r),

g e

O)

et

une

loi

de

probabilit6

de densit6 n.,

dite loi

a

priori qui

est

la loi

marginale de la variable al6atoire d.

1,.2.L Loi

a

posteriori

C'est

la loi

conditionnelle de 0 sachant

r,

sa densit6 est not6e

r(0lr).

En vertu

de la formule de Bayes on

a

:

r(0lr)

:

f (rl0)r(0)

J

f

@10)r(0) d0

o

f

(*10) d6signant

la

loi

de I'observation ou la vraisemblance.

Cette

loi

a posteriori peut s'interpr6ter

comme une combinaison de

I'infomation a priori

disponible sur

I

avec celle apport6e par les observations.

Au

sens bay6sien

toute

inf6rence peut Otre conduite aprbs calcul de Ia

loi

a posteriori.

Il

est parfois possible

d'6viter

le calcul de l'int6grale

If

(rl0)n(0)

d0 dans le calcul de

loi

a

posteriori en raisonnant

proportionnellement.

o

Ddfinition

L,2.2.

Soit deux fonctions r6elles

f

et g d6finies sur le m0me espace

J.

On

dit

que

/

et g sont proportionnelles, ce

qui

on note

f

x

g,

s'il

existe une constante o telle que

f

(a)

:

ag(a),Yy

I

Rernarque

L.z.L,

1) Dans

un

conteste bay6sien on a

r(?in)

x

f (nl0)r(0)

les deux expressions

r(0lr)

et

f

@l?)r(d)

sont effectivement proportionnelles. La constante o

qui

apparait dans

la d6finition

pr6c6dente est 6gale

ici

iL

-lT@#@a,

d. noter que cette

quantit6 est bien une constante.

2)

On note

la loi

de

distribution par

[.],

("(P)

:

lgl,r(glt:)

:

[01"])

1..2.2

Lois a

priori

On

entend

par information a

priori

sur le

parambtre

d,

toute

information

disponible

sur

I

en

dehors

de

celle apport6e

par

les observations.

L'information a priori

sur g

est attanh6e

d'incertitude

(si ce

n'6tait

pas le cas. le parambtre g serait connu avec certitude

et

on

n'aurait

pas

i

I'estimer).

Il

est

naturel

de mod6liser

cette information a

priori

au travers d'une

loi

de

probabilit6

appel,6e

loi

a

priori,

not6e

r(0).

(9)

Lois a

priori

CHAPITRE

1.

LA

THEORIE

BAYESIENNE

Le choix de

la loi

a

priori

du

parambtre

d'un

modble est

l'6tape la plus importante

dans I'analyse bay6sienne.

Dans la pratique,

I'information

a

priori peut

6tre cod6e selon une des fagons suivantes :

1.

Prendre une

loi

a

priori

vague, c'est-d,-dire non informative.

2.

Choisir une

loi

a

priori

conjugu6e d,la vraisemblance (commoclit6 math6matique).

3.

D6terminer une

loi

a

priori

subjectivement.

Lois a

priori

non informatives

Les lois a

priori

non informatives repr6sentent une ignorance sur le problbme en main, mais ne

signifient

pas que

l'on

sache absolument

rien sur la distribution

statistique

du parambtre. En effet, on connait au moins son domaine de

variation,

c'est-d,-dire I'ensemble des

6tats de

la

nature,O,

et le

rdle

de chaque composante

du

parambtre

sur

les obser-vables (paramdtre de localisation, d'6chelle, etc). Ces lois doivent 6tre donc particulidrement

construites d,

partir

de la

distribution

de l'6chantillonnage, puisque c'est le seul moyen

dis-ponibie

pour

avoir des informations sur le parambtre 0.

A

cet 8gard, les lois a

priori

non informatives peuvent 6tre consid6r6es comme des lois de r6f6rences, auxquelles chacun

pour-rait

avoir recours quand

toute information

a

priori

sur g est absente.

En

r6sum6, quand on

dit

une

loi

a

priori

non

informative,

il

faut

comprendre que :

1'

Le savoir de

I'expert

sur le problbme en main ne

lui

permet pas de

lier

les paramdtres

'17

0r

I0z

r

... .L- 0n

+

ffu,...,0n]:

f[[ArJ

j=L

2'

Toutes les plages de valeurs de 97 sont, aux yeux de

I'expert,

6quiprobables,

c'est-A,-dire

qu'il

ne pariera pas davantage sur une valeur que sur une autre.

Dans ce

qui

suit,

nous d6crirons quelques t6chniques populaires dans

la

construction des lois a

priori

non informatives.

1.

Lois a

priori

invariantes

Le f.ait de formaliser I'absence

d'information

a

priori

par une propri6t6 d'invariance est

naturel au sens

oi

seuls les parambtres de

la distribution

de g changent lorsqu'on effectue une transformation de 0' Par exemple, les distributions de 0 et de

0I

gu, en r6alit6, ne sont pas les mOmes, mais dire qu'elles sont les m6mes. c'est-d-dire

r(0):n(0-0s)

Pour

tout

d6, exprime certainement une ignorance sur g.

On

dit

dans ce cas que

la loi

a priori

n

est

invariante

par

translation

,

et

r(0)

:

c

la

loi

uniforme

sur

o.

Cette

technique de construction des

lois non

informatives n,est que

partiellement satisfaisante,

cat

elle implique

la

r6f6rence b une

structure

d'invariance, qui peut €tre parfois choisie de plusieurs manibres, ne pas exister, ou 6tre sans

int6r0t

pour

le d6cideur.

(10)

Lois

a priori

CHAPITRE

1.

LA

THEORIE

BAYESIEAINE

2. Lois a

priori

de Jeffreys

La

sp6cification

de

la

loi

a priori

non informative

de

Jeffreys consiste d, assigner d,

un

modble d'6chantillonnage caract6ris6

par

sa vraisemblance

f

(r;10). Les

lois

a

priori

de

Jeffreys sont fond6es sur

I'information

de Fisher, donn6e par

(1.1)

D'ori

la lois de Jeffrevs est donn6e oar

r(0)

:

lr/2(0)

La

loi

de Jeffreys n'est pas invariante en g6n6ral au sens de I'invariance par une famille de

transformations, mais elle

doit

s'entendte comme une invariance

par rapport

au choix de

la

param6trisation, puisque

pour

une transformation bijective donn6e

h qui

transforme le

parambtre 0 en

h(0),

nous avons la tansfbrmation Jacobienne

r(0)

:

r

(h(o))

:

(h, (o))2

Dans

le

cas

oil

le

parambtre

0

est multidimensionnel,

la

matrice d'information

cte Fisher s'obtient par g6n6ralisation de(1.1). Pour d a les 6l6ments suivants :

Iij(e)

:

-

"rl#qbg

f

(rlg)1, (i,,

j

:

t,

..., k)

et la

loi

non

informative

de Jeffreys est alors d6finie par

n.(0) x[det(](0))lL/z

La t6chnique de Jeffreys

fournit

une des meilleures t6chniques pour construire une

loi

a

priori

non

informative, et

elle permet bien souvent de retrouver les estimateurs classiques

surtout

dans des cas unidimensionnels, mais de sa

part,

elle a

6t6 critiqu6e

par

certains

baydsiens corrme 6tant un

outil

sans justifi.cation subjective en terme

d'information

a

priori.

3. Lois a

priori

de rdf6rence

Une

loi

a

priori

de r6f6rence est

tout

simplement une

loi

a

priori

non

informative

(ob-jective)

construite d'une manibre particulibre. Mais d.'une certaine sorte, toutes les lois

a

priori

non informatives

sont

des

lois

de r6f6rence

du fait

que chaque

loi

a

priori

non in-formative

peut

6tre consid6r6e comme un

point

de r6f6rence auquel chacun

pourrait

avoir

recours quand

toute information

sur 0 est absente.

Cette approche est une

modification

de l'approche de Jeffreys

qui

a 6t6 propos6

par

Ber-nardo

(1979),

elle

repose

sur le

principe de faire

la

distinction

entre I'importance

cles

parambtres c'est-d,-dire entre les parambtres de nuisance

et

les paramdtres

d'int6r0t.

Nous allons donner bribvement le

principe

de

la

construction de ces lois en clemendant aux lec-teurs de se r6f6rer d, Berger et Bernardo (1989a, 1992b), Bernardo et

Smith

(1gg4) et Kass

(11)

Lois

a priori

CHAPITRE

1.

LA

THEORIE

BAYESIENNE

et Wasserman (1996). Consid6rons

tout

d'abord le cas d'un paramdtre d deux composantres,

0:

(0u02),

oi

grest le parambtre

d'intdr6t

(de plus importance)

et

02 est le parambtre de

nuisance, et

soit a

-

J@10).

La strat6gie

introduite par

Bernardo est Ia suivante :

pour

d1 fix6, on d6termine

tout

d'abord la

densit6 conditionnelle r(0210)comme

la

loi

de

Jeffreys associ6e

it f

(rl0),

puis on calcule n(d1)

qui

est

la loi

de Jeffreys associ6e A

la

loi marginale

La

loi

de r6f6rence de d est le

produit

des deux lois, c'est-h-dire :

n(02,01):

r(0210)r(0)

Cette manibre de faire peut se g6n6raliser si

d:

(0r,...,9n),

et si

I'on

a ordonn6 sans perte

de g6n6ralit6 les 0i par

int6r6t

croissant.

Il

est clair que ce raisonnement n'est pas purement

objectif

parce que donner plus d'importance d, un parambtre qu'd,

un

autre relbve une fbis encore

d'un

choix.

4. Lois a

priori

impropres

Une

loi

impropre (ou g6n6ralis6e) est une mesure

o-finie

sur I'espace des parambtres O, c'est-d,-dire une mesure z- telle que

*oo

Ces lois sont obtenues lorsqu'on dispose des critbres subjectifs ou th6oriques sur Ia

distribu-tion

a

priori

du parambtre,

qui

conduisent b une mesure

o-finie

sur O

plut6t

qu'h, une me-sure de probabilit6. Les lois a

priori

impropres sont utiles dans les moddles non-informatifs cependant, elles ne peuvent 6tre utilis6es que si

la

condition suivante est v6rifi6e :

En conclusion, I'usage de lois a

priori

impropres est

justifi6

si

la

loi

a posteriori est propre car elle ne d6pend pas de

la

constante

multiplicative

de

la

loi

a

priori.

Dans ce cas ces lois sont utiles

du

moins

tant

que

la loi

a posteriori existe car l'inf6rence bay6sienne se fonde sur la

loi

a posteriori

r(0lr).

Une

difficult6

pratique

dans

I'utilisation

des

lois

impropres

est

cle

v6rifier la

condition

d'int6grabilit6

f@ler):

I

tcw1,92)

n(g2lor) dgz I

I

r(0)d0

:

, o P t

m*(r):

lf@10)r(0)dg<n

I o I

I

t@10)n(0) d0

<

n

o

(12)

Lois

a

priori

CHAPITRE

1.

LA

THEOHIE

BAYESIENNE

Lois a

priori

informatives

1.

Lois a

priori

conjugu6es

Ce tvpe de lois a

priori

est

utilis6

quand

I'information

a

priori

disponible sur le modble est

trop

vague

ou peu faible.

Dans ce cas I'analyste regarde

la

forme

de

la

fonction

de

vraisemblance

et

choisit une

famille

de lois

qui

se marie bien avec elle. Par exemple, pour Ia vraisemblance

d'un

n-6chantillon

i.i.d

selon une

distribution

exponentielle de parambtre d'6chelle

p

>

0 qui

est donn6e

par

pn

exp(-nnp),

la

loi

a priori

conjugu6e est une loi Gamma

dont Ia forme

fonctionnelle

s'6crit

p"-1

exp(-bp)

et

appliquant le

th6orbme de

Bayes, Ia

distribution

a posteriori

suit

encore une

loi

Gamma :

pla,b,TL,I

-

g@

+

n,b

*

n

frt.

Rappelons

ici

qu'une famille .F de

distributions

de

probabilit6

sur d est

dite

conjugu6e (ou ferm6e par 6chantillonnage) par une vraisemblance

f (rlg)

si pour

toute

loi

a

priori

r

F,

la distribution

a posteriori

n'(.lr)

appartient 6galement b

f.

L'avantage des familles conjugu6es est avant

toute la simplicit6

des calculs.

Avant

I'essor du calcul num6rique, ces familles 6taient pratiquement les seules

qui

permettaient de faire

aboutir

des calculs.

L'int6r0t

principal

du

caractdre conjugu6 se manifeste quand

f

est

param6tr6e. Effectivement le passage de la

distlibution

a

priori

i

la clistribution a posteriori

n'est dans ce cas qu'une mise h,

jour

des parambtres correspondants, ce que nous pouvons

le constater dans l'exemple ci-dessus.

Et

par cons6quent, les

distributions

a posteriori sont toujours calcula.bles dans ce cas.

D6finition

L.2.3.

Famille exponentielle

Une telle famille regroupe Ies lois de probabilit6

qui

admettent une densit6 de la forme

f

@le)

:

h(r)

ta@):r(r)

-

't'(o), 0

e

@

7

est une statistique exhaustive. Une telle famille est

dite

r6gulibre si

?

est

un

ouvert

tel

que O

:

{el

f

n@t

"a(o)r(t)

dp@)

<

oo}.

En outre, on appelle param6trisation canonique,

l'6criture

:

et

famille naturelle I'expression

f

("10)

:

h(r)

"e'r@)

-

t!(o)

f

@|il

:

h(r)

"or(t)

Th6orbme L.z.L.

Farnille

enponentielle

-

Si,

r

-

f (rl0)

:

h(r)

"er@)-{t(o), alors la fami,lte d,e loi,s a

priori

{"^,r(il

x

h(r) e0p-^,!P),^,u}

est conjugu1e.

onnote

Q,t)e lTs.,, est une d,ensi,t6 d,e pro-babi,li,td, si, et seulement

si,.\

>

0

et

pl)' e

@.

La

loi' a

posterio,i

correspond,ante

estr(llxrr,

p+

"(z)).

(13)

Lois a

priori

CHAPITRE

1.

LA

THEORIE

BAYESIENNE

En effet,

n;,r@ln)

o(

h(dser@-t!(e)"e

p'-)'t!@)

o(

h(r;)ee(r(") + P)-(^ + r)il@)

:

7f)+t,1"+r1q(0).

(r

2)

Le tableau ci-dessous pr6sente quelques lois a

priori

conjugu6es

pour

quelques familles exponentielies usuelles.

Tab'

1'1-

lois a

priori

conjugu6es

pour

quelques familles exponentielles usuelles

f ("lo

7T(0)

r(0lr)

Normale

N(0,

o2) Normale

N(p,r')

N(p("'tt

*

r2r),

po2r2)

p:7lkt2

+r2)

Poisson P@) Gamma

9(",13)

9(a+r,13+r)

Gamma

9(u,0)

Gamma

9(u,0)

9(a+u,0+r)

Binomiale

B(n,0)

BOta Be(a,

p)

Be(a*:x,p+n-r)

Binomiale N6gative

Neg(m.,0)

BOta Be(cu, {})

Be(u*m,,p+r)

Normale

N(pt,1/0)

Gamma

9(u,0)

9(u*0.5,0+(tt-d,12)

2. Lois a

priori

d'entropie

rnaximale

si

on

dispose

de

certaines caract6ristiques de

la

loi

a priori

de

type

E"lgt(0)l

:

p*

(moments, quantiles,

etc...)

or)

pour

chaque

k:

r,...,,tL, gk est une

fonction

clonn6e.

on

peut

utiliser Ia

m6thode

d'entropie

maximale d6velopp6e

par

Jaynes (1gg0, 19g3) pour ddterminer une

loi

a

priori

sous ces contraintes.

Pour

comparer

le

caractbre

informatif,

il

est

n6cessaire

d'avoir

recours

b un

critdre

d'information' L'entropie

de Shannon permet de cl6finir ce niveau

d'informativit6.

Dans un cadre

fini

et

discret, cette entropie est d6finie comme

suit

;

Pour 0

{1, ...,

n}

et

r(0)

:7rr,...,rn

teI eue 7ri

)

0

et

T4:

t

Ent(n)

:

-Dnolog(?ri)

i

Sans contraintes sur

n

la distribution

d'entropie maximale est la

clistribution

uniforme sur

O'

Une entropie

petite

s'interprbte comrne une

loi

concentr6e

et informative. La

maximi-sation de I'entropie sous ces contraintes mbne d une

minimisation

cle

I'information

a

priori

apport6e par 7r sur d' Le principe d la base de cette m6thode est donc de chercher d calculer

(14)

Lois

a

priori

CHAPITRE

1.

LA

THEORIE

BAYESIEIVNE

Argrnar

Ertt(tr)

sous

la

contrainte

Elgk(0)l:

Fk. La solution de ce problbme est alors donn6e par

n

n*

o

ulr\k

s*@)

oir les )7, sont les

multiplicateurs

de Lagrange associ6s qui se d6terminent dans la pratique par un systbme d'6quations Dr,

partir

des contraintes.

L'extension

au

cas

continu est

diff6rente, ce

n'est

pas possible

de

d6finir

I'entropie comme dans Ie cas discret puisqu'on ne

peut

pas d6nombrer les 6tats en I'absence d'une mesute de r6f6rence. Ceci exige donc

le

choix d'une mesure de r6f6rence r-6

eui peut

6tre caract6ris6e comme

la distribution

complbtement non

informative,

Une fois fis est choisie, I'entropie de

n

est donn6e par

f

/

r(H\\

Ent(nlrs):

J"@)

t"*

(ffiJ

ou

0

qui

est aussi

la

distance de

Kulback

entre

n

et fi's.

Ld. encore,

I'objectif

est de maximiser

Ent(trlTs)

sous Ies contraintes

E"Ign@)]:

1L,p

etla

solution g6n6rale est connue :

7t

zr-(d)

x

,r!,

^u nu@) nr(o)

Un

inconv6nient

de cette

m6thode

est

que

Ia distribution

d'entropie

maximale d6pend

du

choix

de

Ia

mesure

de

r6f6rence 7rs. Lorsque une

structure de

groupe est disponible,

un

choix raisonnable de z's est

la

mesure de Haar invariante d

droite. En

plus parfois ies

contraintes ne sont pas suffisantes pour obtenir une

distribution

sur

L

qui est le cas quands les contraintes sont li6es aux quantiles,

oi

les fonctions 96(9) sont de

la

forme 11_*,or1 ou

1166,oo1.

Soit

0

un

parambtre r6el. Si

I'on

choisit

la

mesure de r6f6rence est

la

mesure d.e Lebesgue sur lR..

et si

E"[0]

-

pt, alors

la

th6orie donne

r(0)

x

e]0 qui

ne

peut

pas 6tre normalis6e

comme une

distribution

de

probabilit6.

Si de plus on

sait

que

uar(0)

:

o2,la loi

a

priori

d'entropie maximale dans ce cas est

r(0)

x

"\$*Azo2 c'est donc

la

loi

normale

N(0,o2).

(15)

Estimation

bay6sienne

ponctuelle

CHAPITRE

1.

LA

THEORIE

BAYESIET\I IE

Lois a

priori

subjectives

Pr6cisons

tout

d'abord

que cette d6marche n'est pas forc6ment facile dans

la

pratique. L'id6e est

d'utiliser

les donn6es ant6rieures. Par exemple dans un cadre param6trique, cela revient d, pr6senter des valeurs ponctuelles de 0 b,l'expert

et

pour chacune d'entre elles, de

lui

demander les chances

qu'il lui

accorde.

Exemple

X1 le nombre de pibce d6fectueuses dans un

lot

issu de Ia machine num6ro

t

: X1

-

B(n,pt)

Information

a

priori

sur p1 :

la proprtion

de pibce d6fectueuses.

Tab.7.2

-

Information

a

priori

sur les parambtres de pbce d6fectueuses

machine 1 2 .) 4

Pi

mean ^-N 9b7o crecl.rnt 0.3 [0.1,0.5 0.4 [0.2,0.6] u.b [0.3,0.71 0.2 [0.05,0.4] 4.2 [0.05,0.4]

Si p1

suit

une

loi

BOta.

on

ajuste

les parambtres

pour

que

la

moyenne

et

les quartiles coincident avec nos informations.

Tab. 1.3 - Moddle a

priori

de pidce correspondant

i

I'information du

tableau (1.2)

Time 1 2 3 A F

o

Dist

8(6,74)

B

R.vt 12)

B(r2,12)

B(3.5,14

B(3.5,14)

Ces

distributons

sont dites subjectives parce qu'elles sont propre d

I'expert.

Elles doivent 6tre interpr6t6es comme un

pari

de I'expert.

1.3

Estimation

bay6sienne

ponctuelle

1.3.1

rntroduction

i

la th6orie

de

la

d6cision bay6sienne

Un

problbme de d6cision en g6n6ral est fond6 sur les 6l6ments suivants :

-

Un

ensemble des actions (d6cisions)

D

-

Un

espace des parambtres O

-

Une

fonction

de

cofft

(de

perte)

l(0,6) qui

d6crit

la

perte

de prendre

la

d6cision d

lorsque le parambtre est 0.

-

Un

ensemble des observations.

(16)

Fonctions de

pefte et

de

risques

CHAPITRE

1.

LA

THEORIE

BAYESlElf

IE

L.3,2

Fonctions

de

perte

et

de risques

D6finition

1.3,1.

Soit d

D

une rdgle de d6cision.

Une fonction de perte(de

cofft)

est une fonction mesurable de

(O

x

2)

A, valeurs dans IR..

not6e l(d, d)

et

d6finie telle que 1. V

(d,p),

l(d,

d)

>

o

2.

V

0,=

5*

tel

que

l(d-(r),0)

:0

S'il

faut faire un choix entre deux rbgles de d6cision, ce choix est impossible sans critbre de

cofit, de sorte b,

d6finir

correctement

la notion

de meilleur estimateur.

D6finition

L.3.2. Le risque fr6quentiste

Pour une fonction de perte donn6e

l(0,6),1a

fonction de risque associ6e est

R(''o)

:

"'i',f

Jrl'u",n,

dp(*)

u,

C'est une

fonction

de

0 et

ne

d6finit

pas

un

ordre

total

sur 7)

et

ne permet donc pas de

comparer toutes d6cisions

et

estimateurs.

Il

n'existe donc pas de meilleur estimateur dans

un

sens absolu.

Ainsi,

I'approche fr6quentiste

restreint

I'espace

d'estimation

en pr6f6rant

la

classe des estimateurs sans

biais

dans laquelle

il

existe des estimateurs de risque uni-form6ment

minimal;

l'6cole bay6sienne ne perd pas en d6finissant

un

risque a posteriori. L'id6e est d'int6grer sur I'espace des parambtres pour

pallier

cette difficult6.

D6finition

1.3.3. Le risque a

posteriori

Une fois donn6es

la

loi

a

priori

zr(9) sur le parambtrc 0 et Ia fonction de perte

l(d,d),

Ie

risque a posteriori est defini

par

:

P(tr''tr)

:

T

":o';t'i:;"|11'o'*

"@

Ainsi, Ie problbme change selon les donn6es; ceci dff d, la non existence

d'un

ordre

total

sur

les estimateurs.

(17)

Fonctions de

perte et de

risques

CHAPITRE

1,

LA

THEORIE

BAYESIENNE

D6finition

L.3.4. Le risque int6gr6

Pour une

foction

de perte donn6e, le risque int6gr6 est d6fini

par

:

r(tr,6):

E(R(g,6)lr)

f

:

|

,@,d)tr(0)d0

"e

Une

fois

la

loi

a

posteriori sur

le

parambtre est disponible,

le

problbme de I'estimation bay6sienne ponctuelle

peut

6tre exprim6 comme un probldme de d6cision.

D6finition

1.3.5.

L'estimateur

bay6sien

Un estimateur bay6sien est Ia rbgle de d6cision

d"

qui minimise

r(n,6).

C'est-b-dire qui v6rifie

r(n,5"):

j$

r(2,

d)

<

oo

Pour obtenir la valeur de

I'infimum

du risque int6gr6

il

faut

donc en th6orie minimiser une int6grale double.

L'introduction

du

risque int6gr6 se

justifie

par le th6orbme suivant.

Th6orbme L.3.1. Mdthod,e de calcul

Si=

6

€D,

r'(tr,d)

<

*

etY

X

e X,

d"(X)

:

Argntin,

P(n,6lX)

alors 6n(X)

est

un

estimateur bay6,si,en.

D6rnonstration.

f

r(0,6)

:

I

R(b,0)

r(0)

d0 , uo

rf

:

I

I

t(t,0)

f (rl0)

dn

r(o)

d,o

JJ

0r

: [ [,0,,

f (rlo)-tr(o)

m^b)

d,n dg

J

J

rn"\fr)

0t

ff

:

J .l

,(u,0)

n(?lr)

m"(r)

d0

dr

n0

r( f

)

:

|

\

|

tQ,0)

n(?lr) d?l

m,(n)

dr

J (J )

r0

r

:

I

p(n,6ln)

m"(r)

dr

, 10 r.)

(18)

Fonctions de

perte et de

risques

CHAPITRE

1.

LA

THEORIE

BAYESIENNE

Et

minimiser

r(n,d)

pour toute

valeur de

r,

sera 6quivalent

b

minimiser

la

fonction

de

risque a

posteriori

,

p(tr,lln):

J

,(u,0)

n(llr)

d,0

e

La minimisation de cette dernibre expression peut se faire analytiquement comme elle peut s'approcher num6riquement (par des techniques de simulation) selon la complexit6 du cofit

I

et

de

la

loi

a

posteriori

r(0lr).

Parfois

il

est

impossible

de

calculer

r(0lr)

et

parfois

mOme si elle est connue,

I'integration

analytique

parait

impossible, comme le cas des s6ries

temporlles d, cause de

la

complexit6 de

la

distribution

de vraissemblane. Ce

qui

n6cessite

des approximations num6riques comme les m6thodes

MCMC

abord6es dans

la

prochaine section.

Pour des coitts classiques, les estimateurs de Bayes correspondant sont des caract6ristiques usuelie de Ia

distribution

a posteriori(moyenne, m6diane, fractiles, etc.)

La

perte

quadratique

Une fonction de perte quadratique est une fonction

I:

(o

x D)

-

JR.. donn6e par

t(9,6):

(0

-

6)2

Ainsi,

soit

r(6'*)

--

'f,]!',,1.:;,:i

,?

e

f ^

f

f

|

0'

r(0lr)

d0

-

zb

I

e

r(elfl

d0

+

62

|

r(0lr)

d,g

r

ooo

J

.l "'

:

E(021r)

-

26

tr(lln)

+

d,

La d6cision d

qui

minimise

/(d,

r)

est celle qui v6rifie

4

t6,r)

:

o

dd"'

ce

qui

donne,

-zE@lr)*2d:0

et donc,

6

:

E(?lr)

Donc

pour la

perte quadratique, I'estimateur de Bayes est

la

mo),'enne cle

la

loi

a pos-teriori.

(19)

Fonctions de

perte et

de risques

CHAPITRE

1.

LA

THEORIE

BAYESIEAIAIE

La

perte

absolute

De m6me, nous pouvons

v6rifier

ais6ment absolu

t(5,0):

est donn6

par la

m6diane a posteriori.

En remplacons

l(d,0)

dans I'expression de

p(tr,dlr),

nous obtenons

hd

Nous cherchons b minimiser

l@,*),

donc nous r6solvons

!rr',.r)

:

o d,d"

'

' ga implique que 60t

r7

I

r(?ln)d?:

I

r(lln)d0

tr,

,u

d est bien entendue

la

mediane de

la distribution

a posteriori.

L'estimateur

MAP

On

appelle

estimateur

MAP

(estimateur de

maximum

a

posteriori)

tout

estimateur

d"(z) qui

maximise

I'information

sur

g

repr6sent6e

par

son

loi

a

posteriori,

c'est-h-dire

tout

estimateur

d'(z)

tel

que

b(r)

e

Argmaxr(0lr). d"(z) doit

donc Otre le mode de la

distribution

a posteriori.

Le grand avantage de cet estimateur

et

qu'il

ne d6pend pas d.'une fonction de perte et est

utile

pour les approches th6oriques.

L'estimateur

MAP

est le pendant bay6sien de l'estimateur de maximum de vraissemblance, de ce

fait

ils

partagent les m6mes inconv6nients comme : Ia non

unicit6,

I'instabilit6

(dus aux calculs

d'optimisation)

et la d6pendance vis-d,-vis de la mesure de r6f6rence (dominant O), seulement I'estimateur

MAP

ne v6rifie pas la non invariance par reparam6trisation qui peut apparaitre

importante

intuitivement.

que

I'estimateur

de Bayes

utilisant un

cofit

ld-dl

f

f(6,r)

:

I

l0

-

6lr(0lr)d0

e

6oz

rf

:

/

(d-

-

0)r(0lr)d0

+

I

@

-

d)r(?ln)dg

II 15

(20)

Les m6thodes

MCMC

CHAPITRE

1.

LA

THEORIE

B.AYESIENNE

L.4

Les m6thodes

MCMC

Nous allons pr,6senter bribvement un aspect trbs

important

dans la statistique bay6sienne qui est un moyen in6vitable

pour

resoudre les problbmes des calculs

pour

divers modbles :

les algorithmes de

Monte

Carlo par chaines de

Markov (MCMC).

Ces algorithmes sont des techniques de simulation

qui

consistent d g6n6rer

un

6chantillon afin de

mettre

en place des chaines de

Marliov

avec des

distributions

ergodiques,

Deux algorithmes

MCMC

sont les pius importants congus

pour

cr6er des chaines de Mar-kov de

loi

stationnaire donn6e.

Le premier a 6t6 propos6

par Metropolis et

al

(1953)

et Hasting

(1970)

et

s'appelle

algo-rithme

de Metropolis-Hasting.

Le deuxibme est

l'algorithme

de Gibbs

introduit

par Geman (1984) et d6velopp6e plus

tard

par Tanner et Wang (1987) ensuite

par

Gelfand

et Smith

(1990).

Ces algorithmes rre peuvent pas s'appliquer sans ordinateur. Le langage de programmation

R

est le mieux plac6

et

est le plus performant pour les statisticiens.

Notre

objectif

est de comprendre Ie m6canisme de fonctionnement de ces m6thodes afin de

les maitriser

et

de

pouvoir

les appliquer dans le chapitre 3.

L.4.L

El6ments

sur

les chaines de

Markov

La propri6t6 des chaines de Markov que nous allons utiliser est que certaines d'entre elles

convergent vers une unique

et

invariante

distribution.

La

th6orie

des chaines de Markov est complexe et nous n'allons

ici

donner que les bases n6cessaires d, nos m6thodes,

D6finition

L.4.L.

Une chaines de Markov est une collection de variables al6atoires

(&)o.r

qui doit v6rifier Ia popri6t6 d'absence de m6moire :

P(Xi+ilXi:

ni,

Xj

:

ri,

i

<

i)

:

P(Xn*rlXt: n)

D6finition

L.4,2.

Chaine

irr6ductible

Une chaine de

Markov

est

dite irr6ductible si

tous les 6tats communiquent entre eux, c'est-d,-dire V0,0' e. O

il y

a une

probabilit6

non nulle que

partant

cle g on aboutisse h g en

un nombre

fini

d'6tapes.

En

terme de classe d'6quivalance. une chaine est irreductible

s'il

n'y

a qu'une seule cla,sse d'6quivalance.

D6finition

1.4.3.

Chaine recurrente

Une chaine de

Markov irr6ductible

est r6currente

si

I'esp6rance

du

nombre de visites qu'elle accorde b chaque

6tat

est

infini

:

V0,0'

,

E(0

--

A')

: D

n'(9,0')

:

6p

(21)

Chaines de

Markov

et

mdthodes de

MonteGWffiITRE

1.

LA

THEORIE

BAYESIENNE

D6finition

L.4.4.

Chaine ap6riodique

Une chaine de Markov est

dite

ap6riodique si elle est

irr6ductible

et tous les 6tats sont de p6riode 1.

On

appelle une p6riode

T

d'un 6tat

0

appartenant ir, une chaine discdte

et

on note d(0), Ie plus grand commun diviseur des valeurs

r

) l

telles que les probabilit6s de transitions

r'(0,0)

en

r

6tapes sont positives :

d(0):

PGCD{r

N*, r'(0,0)

>

0}

Lorsque

la

chaine de Markov v6rifie toutes ces propri6t6s elle sera

dite

chaine ergodique. Nous pouvons maintenant

introduire

le th6orbme fondamental de

I'utilisation

des chaines de Markov dans les m6thodes de Monte Carlo.

Th6orbme L.4.L.

Th€orime

ergodique

Soi,ent

g\),9(z),..,, 0Q)

T

ualeurs d,'une chatne d,e

Markou

ergodi,que d,e d,i,stributi,on

i,naari,ante (stati.onnai,re),

ettel

que

E"lg(0)l

<

oo. Auec une probabi,ti,td. d,gate d, 1,

tT

f

iD,g@at)

;

J^t(il"(elddo:

E"lg(o)l

I

(1.3)

oil,

r

est

la

di,stri,but'ion stati,onna,ire.

Les chaines de Markov produites par les algorithmes

MCMC

sont ergodiques de

distribution

stationnaire

r(0lr).

L.4.2

Chaines de

Markov

et

m6thodes de

Monte

Carlo

Les chaines de

Markov

(0t)1 produites

par

les algorithmes

MCMC

sont b6n6ficies, par construction de propri6t6s de

stabilit6

forte. A, savoir I'existence d'une

distribution

station-naire ou invariante,

soit

une

distribution

n

telle

que, si frn

-

T,

x)n+l.

-

rr.. Cette propri6t6 signifie dans la dynamique des chaines de Markov que lorsqu'on injecte un

point

de d6part

0 tir6

au

hasard selon

la

densit6

de probabilit6

r,

on

retrouve

g6n6r6

par le

noyau un

point

de sortie

0'

qui

suit

lui

mdme cette mdme

loi

de

probabilit6

zr. Ces chaines sont aussi

irr6ductibles. Gr6ce b, cette

stabilit6,

ces chaines sont r6currentes cle 1oi stationn aire

r(0lr)

c'est-dL-dire que le nombre moyen de visites dans un ensemble

arbitraire

A

de mesure posi-tive est

infini,

ou mOme Harris r6currentes,

c'est-i-dire

telle que Ia probabilit6

d'un

nombre

infini

de

visites

dans

A

est

1, ce

qui

assure que

la

chaine possdde les m6mes propri6t6s limites quelle que

soit la

valeur

initiale

B(o) (cette propri6t6 correspond d, l'6rgodicit6 d.e la

chaine)'

La

r6currence au sens de Harris est donc n6cessaire

pour garantir la

convergence

d,

partir

de

tout

point

de d6part.

(22)

Chaines de

Markov

et

m6thodes de

MonteAHffiITRE

1.

LA

THEORIE

BAYESIENNE

Par cons6quent, pour un nombre de simulation, k. suffisamment grancl, 1, g1t) r6sultant est distribu6 approximativement selon

la

\oir(lln),

quelle que

soit

Ia valeur

initiale

d(0),

Une fois

h

:

0(k) g6n6r6, une faqon naive de construire

un

6chantillon ind6pendant et identiquement

distribu6

suivant

r(?ln)

est

d'utiliser le

m6me

algorithme

avec une autre valeur

initiale 0f)

et une autre s6quence de

transition

cle Markov afin

d'obtenir

bet

ainsi de suite.

Donc,

MCMC

est une classe de m6thodes qui consiste b, simuler des tirages d6pendants d,

partir

de

notre

distribution d'int6r6t (la distribution a

posteriori),

et

les

utiliser

pour calculer les quantit6s

d'int6r€t

de

la

loi

a posteriori.

La partie suivante aborde 1es deux algorithmes

MCMC

les plus utilis6s par les bay6siens.

Algorithme

de Metropolis-Hastings

L'algorithme

de Metropolis-Hastings est

un

algorithme

d'acceptation/rejet.

L'id6e de

cet algorithme est de simuler selon une

autre

distribution

plus simple h simuler, appel6e

ia loi

de

proposition,

et

d'accepter

la

valeur simul6e avec une certaine

probabilit6

d,6tre effectivement

un tirage

selon

la loi

cible,

Tant

qu'une nouvelle valeur n'est pas acceptfe, I'algorithme retourne la dernibre valeur accept6e comme nouvelle valeur de Ia chaine.

ponr

une

distribution

a posteriori donnde

r(0lr)

on

d6finit

par recumence les valeurs de g(t+l) h

partir

d'une valeur d(i),

D'abord. on choisit

une valeur condidate

0*

tft6e al6atoirement d'une

distribution

de

proposition

q(O.P@) eventuellement dependante

de

g.

Ensuite. en

d6termine a(0*,0Q)) telle que :

a(0*,

g(t\

:min

(

1, "

r(!^,. r1:Y(0:,1?::), \

r(?ti)lr)q(0@le.)'

puis dans

la

pratique, on

tire

une variable al6atoire

u

-

Llps,1,

et

on

d6cide de

la

fagon suivante :

-

si

u S

ct(O*,eG))

:TG+r).:0*

avec une

propabilit6

a(g,e(t1.

-

si

u

>

o(0*,9(t)):

g?nt)

-.0$)

avec une

propabirit6r-a(0.',g(r)) et

qasignifie

que la chaine ne bouge pas de d(';)

Les d(i),

produient par cet

algorithme construient une chaine de

Markov

ergodique de loi

stationnairer(0lr),

donc on a

la

convergence vers I'esp6rance

(la

moyenne a posteriori).

(23)

ChA|NCS dE MATKOV EI M'thOdES dC

MONTEGHffiITRE

1.

LA

THEORIE

BAYESIENNE

Algorithme

de Gibbs

L'algorithme de Gibbs est central en statistique bay6sienne car

il

permet de r6duire un problbme complexe de

simulation,

typiquement,

la

simulation

selon

la

distribution jointe

a posteriori

des parambtres,

en

une

suite

d'6tapes simples

d

simuler.

pour

cette raison,

l'algorithme

de Gibbs est aussi connu sous le nom d'6chantillonneur de Gibbs (en anglais, Gibbs Sampler).

D'un point

de

vue historique, l'algorithme de Gibbs

tire

son

nom

d'un

physicien et math6maticien am6ricain

du

19" sidcle; Josiah

wiilard

Gibbs.

L'algorithme

de Gibbs

permet

de simuler les

distributions

marginales

a posteriori

de

toutes les grandeurs inconnues

du

modble A,

partir

des

distributions

conditionnelles a

pos-teriori

de toutes ces grandeurs.

Supposons d'abord que le vecteur d

ait

deux coordonn6s 0

:

(0r,92)

etsupposons aussi

que

l'on

connaisse les deux densit6s conditionnelles

191 l02l

et

1er1fir1.

ni'

aonnant les valeurs

initiales

llt)

"t

e[t),,irl,6tape

t,

et

b l,6tape

(t+t)

1) On g6nbre

pll.l]

*

simulant selon

ta-loi

lr,rlit[D]

2) On g6ndre

lf*t)

"n

simulant selon

la

loi

[0^0fi1)]

De fagon g6n6rale,

pour

0

:

(h,...,0n),

on suppose qu'b, l'6tape

t

res 0:t), i,

:fi

sont connus.

L'algorithme

it6ratif

de Gibbs d

l'6tape

(t+1)

est donn6

par

:

1) On g6nbre

,f1.1]

*

simutant selon la

toi

Jei,+1);A[q',

,Ofr]

2) On g6nbre

0!j*')

"n

simulant seton la

toi

iajr+tl l4yit) ,'0{) ,'

...,

r1f)1 i

k)

On g6nbre

Tf*t)

"n

simulant selon

la

loi

[rlf+r)p{r*t),

.,.,

gfjji)l

Rernarque

L.4.L.

Lorsqu'il

est

difficile

de simuler selon I'une des

distributions

conditionnelles

r;(0l0i,j

I

i)

on

peut

remplacer cette_6tape

par

une 6tape de Metropolis-Hastings dont la

distribution cible

est ri(0;10i,

i

+

i).L'introduction

d'une 6tape de Metropolis-Hastings ne modifie pas

la distribution

stationnaire de

la

chaine

et

est valide.

(24)

Chapitre

2

La

robustesse

bay6sienne

2.L

Introduction

Dans

la

mise en Guvre

d'une

analyse bay6sienne, le

statisticien

s'est int6ress6 comme une premibre 6tape d, proposer

un

modble

qui

explique le comportement des observations, une

loi

a

priori

qui

g6nbre Ie parambtre

d'int6r€t et

une

fonction

de perte

qui

est utilis6e pour 6valuer le risque.

Etant

donn6 ces

trois

6l6ments, le bay6sien cherche d, employer des

m6thodes

qui

sont optimales dans

un

certain sens.

Cependant dans la pratique,

il

est rare de pouvoir proposer une d6termination explicite du modble, de la

loi

a

priori

et de la fonction de perte m6me si on dispose de certaines infor-mations.

La

robustesse bay6sienne consiste h, 6valuer I'influence de cette ind6termination sur les quantit6s

d'int6rdt.

Une pl6thore de m6thodes

et d'outils ont

6t6 propos6s

pour faile

face

h

ce problbme comme les

travaux

de

Good

(1983), Berger

et

Berliner

(1986), Berger

et

Sellke (1987), Wasserman (1992) et

Abraham et

Daur6s (2000).

La

robustesse bay6sienne donc

peut

6tre 6tablie

par

rapport

au

modble propos6,

d

la

loi

a priori

ou

parfois

par rapport

A,

la

fonction

de

perte

quand

il

s'agit d'un

problbme de

ddcision.

Mais.

dans les

trois

cas elle consiste

b

construire

une

classe de modbles/lois a

priori/fonctions

de perte, et dtudier par la suite les changements 6ffectu6s sur les quantit6s a posteriori autours de ces classes,

Dans ce qui suit nous rassemblent quelques notions de base sur la robustesse bay6sienne.

(25)

Quelques notions de base

CHAPITRE

2.

LA

ROBUSTESSE

BAYESIENNE

2.2

Quelques

notions

de

base

2.2.L

Diff6rentes

approches

Il

existe

trois

principales approches de

la

robustesse bay6sienne.

La

premibre est

I'approche informelle,

dans laquelle

un

ensemble de

lois

a priori

est

consid6r6

et

les moyennes a

posteriori

correspondantes sont compar6es, Cette approche a

6t6 (et elle est) trbs populaire en raison de sa

simplicit6. En

revanche,

il

est parfois facile de perdre les

lois a

priori

compatibles avec les connaissances

a

priori

disponibles, ce qui mbnerait a des moyennes a posteriori trds diff6rentes.

La

deuxibme approche

est

appel6e

robustesse

globale (voir

Moreno, 2000,

pour

plus de d6tails).

Cette

approche fonctionne id6alement A, I'approche pr6c6dente, elle consiste d

consid6rer une classe de lois a

priori

compatibles avec les informations a

priori

disponibles, et 6valuer par la suite la diff6rence entre le sup et

I'inf

des moyennes a posteriori autours de

la classe. Cette approche est trbs populaire elle m6me, mais les calculs ne sont pas toujours faciles du

fait

qu'elle exige l'6valuation du sup

et

de

I'inf

des moyennes a posteriori.

La

troixibme approche est

dite robustesse locale.

EIle est d6crite

par

Gustafson (2000)

et

Sivaganesan (2000).

Elle

s'est int6r6ss6e au

taux

de changements dans I'inf6rence par

rapport

aux changements dans

la

loi

a

priori

utilisant

diff6rentes t6chniques. Les mesures

de sensibilit6 (robustesse) locale sont g6n6ralement plus faciles d, calculer que les mesures

globales. mais leur

interpr6tation

n'est pas toujours claire.

2.2.2

Robustesse

par

rapport

h

la

loi

a

priori

Nous allons commencer cette section par un exemple

qui

montre combien

il

est

impor-tant

d'introduire la notion

de

la

sensibilit6 au choix de Ia

loi

a

priori.

Supposons

qu'on

observe

une variable

al6atoire

X

qui suit

la loi

de

Poi,sson(fl), et supposons

qu'il

est connu

a

priori

que

0 a

une

distribution

continnue avec une mediane 6gale

d,2

et

un quantiie d'ordre

3

6gale

d 4. i.e.

p"(0

<

2)

:

0.5

et

p"(0

3 4):0.25.

Si ces informations sont les seules connaissances disponibles

sur le

parambtre g, les trois

distributions

suivantes peuvent 6tre consid6r6es comme des lois a

priori

de g :

(i)

rr

: 0

-

enponenti,elle(a) auec

0,:

log(2);

(ii)

zr2 :

los(0)

-

N(Ios(Z),(los(z)lz.zs)2)

;

et

(iii)

zr3 :

los(0)

-

Caucha(los(2),los(Z)).

et donc,

(i)

sous 11,

0lr

-

Gamrna(a

*

1,ff

+

1).

et la

moyenne

a posteriori

est

E"t(glr)

:

(a+r)l@+L)

(26)

Robustesse

par

rapport d,la

loi a pT\oTCHAPITRE

2.

LA

ROBUSTESSE BAYESIENNE

(ii)

sous 7r2, si on pose

7

:

log(0) et

r

:

log(2)lz.2s:

tog(2)10.675 on

obtient

:

E"'(llr)

:

E"'(enp(1)lr)

*oo

I

enTt(-et)erp(1@

+

I))erp(-O

-

tos(2))2

ler2))d,1

+oo

I

erp(-et)erp(1r)enp(-

(r

-

los(2))2

lQr2))dt

(iii)

sous

Trs, etposant

"r;;

:

log(0),on

obtient

:

E"'(0lr)

:

8""

(erp(1)lr)

*f

"*p1-",)enp(1@+

r))

f

r

+

ff##),],

0., : -€ L --tr-r J *oo

I

enp(-et)erp(1n)

.t

j

+

f

\

+kP\zl-'

tos(2)

a,

t I

wr

Pour

voir

l'influence

du

choix

olta,

a,

a

priori.

or, .*urnrrre les moyennes a posteriori sous les

trois

diff6rentes lois a

priori.

Les r6sultats sont donn6s

par la

table suivante.

Tab. 2.1

-

Les moyennes a posteriori sous zrr,

zrz

et

a-s

_

X

4510152050

'tf 1 1T2 7f3 .749 .950

.76r

1.485 1.480 1.562 2.228 2.706 2.094 2.971 2.806 2.633 3.713 3.559 3.250 +.+oo 4.353 3.980 8.169 8.660 8.867 11.882 13.24r L4.067

15.5ei-

37w4

L7.945

47.077

19.178

49.402 On remarque que

pour

x petit

ou mod6r6

(x

S

10),

la

robustesse est r6alis6e, i.e.

il

n'y

a

pas un grand changement entre les moyennes a posteriori sous les

trois

lois a

priori,

et donc le choix d'une

loi

a

priori

entre les

trois n'a

pas d'influence.

Par

contre

por'

d.,

grandes valeurs de

x,

le choix de la

loi

a

priori

est,trbs

important et

a influenc6les moyennes a

pos-teriori,

il n'y

a pas de robustesse dans ce cas,

Il

est clair maintenant

qu'il

y

a

ies

situations or) le choix d'une

loi

a

priori

parmis d'autres d.ans une classe

peut

avoir une influence sur les quantit6s a posteriori

d'int6r6t.

Classes

de lois a

priori

Comment construire une elasse

f

de lois a

priori

de sorte qu'elle mod6lise

I'incertitude

sur la

loi

a

priori ? est

la

question fondamentale dans

la

mise en

Guvre

d,une robustesse baydsienne

par

rapport

d,

Ia

loi

a

priori.

Il

existe une

lit6rature

vaste

qui

r6pond d, cette question, mais quelque

soit la

m,5thode, cette construction

devrait

v6rifie les objectifs sui-vants :

(27)

Robustesse

par rapport d,la

loi a pTiotCHAPITRE

2.

LA

ROBUSTESSE

BAYESIENNE

l.

La classe

doit

contenir un nombre maximum des a

priori

raisonnables en

dvitant

les

a

priori

d6raisonnables

qui

pourraient conduire d

trop

manque de robustesse.

2.

Pour r6pondre que

f

ne

doit

pas exiger

I'information

a

priori qui

ne se d6termine pas

facilement dans Ia

pratique

.

3,

Le calcul de mesures de robustesse

doit

6tre aussi facile que possible.

Suivant

la

classification

de

Berger (1990), nous consid6rons que

I'incertitude portant

sur

la

loi

a

priori

z.

peut

se repr6senter

par

une classe

f

de

lois a

priori,

b laquelle a' est

suppos6e

appartenir.

Ces classes peuvent 6tre d6termin6es selon des critbres pratiques ou subjectifs.

Nous allons passer en revue dans ce

qui suit

les types de classes de robustesse les plus couramment utilis6s dans

la

lit6rature.

Classes

de lois

conjugu6es

Ces classes sont bas6es sur les lois a

priori

conjugu6es trait6es dans le premier chapitre. Elles sont parmis les classes les plus faciles ir,

utiliser

dans

la

pratique, et

elles sont

typi-quement choisies pour des raisons pratiques parce qu'elle fournissent en g6n6ral des bornes explicites pour les quantit6s

d'int6r6t.

Par exemple, si

X

-

N(Lt,r2)

tels eue : p1

<

p

a

[tz et

rl !r'

a

rl,

on

peut

consid6rer

la

classe :

l.:

{N(p,,rz)

:

tq <

p

3

Ltz

et

,?

<

,'

<

ri}

pour quelques valeurs sp6cifi6es

d" ltt,1t2,rl

etrl

L'avantage de ces classes est que les quantit6s a

posteriori

peuvent 6tre calcul6es $ous

forme ferm6e

(pour

les

lois

naturelles conjugu6es). ce

qui facilite Ia

minimisation

et

la maximisation des quantit6s d'int6r0t.

Ces classes

sont

connues aussi

par

les classes param6triques

et

elles sont donn6es en

g6nrSral

par

:

lp:

{P

:

p(0,u.,),

c.,'e

f)}

Si

par

exernple,

notre

loi

a

priori

est une

g(a,

tl)

on

peut

consid6rer comme classe de

lois a

priori

:

-

lp

:

{9(a,0)

,

al7

:

p}

-

lp

:

{8(a,0)

:

h

I a3

pr,

lz

< g

<

U'}

-

lp:

{9(u,0)

:

h

9ul[] I

pt,

lz

<

ulp2

<

pz]

Les

critiques

d6jh, 6voqu6es

sur

les

lois

conjugu6es s'appliquent

bien

entendu dans ce

cadre

et

ce

d'autant

plus que

la

ciasse r6sultante ne contient que des lois de convenance, dont assez peu sont compatibles avec

I'information

a

priori.

Références

Documents relatifs

Figure 2 (see corresponding data in Table S4-6 in Supporting Information S4) shows concrete cover depths obtained to reach a 100-years service life using the carbonation model in

Dans cet article, nous avons proposé une analyse des outils de robustesse du stan- dard H.264 dans le cas où un flux vidéo conforme à ce standard subit des altérations typiques à

Bien entendu, en l’absence de modèles de masse (pour l’ATRU et l’alternateur à aimants permanents), certains résultats sont à relativiser mais nous retiendrons que nous

Pour exploiter au mieux notre connaissance a priori des sources excitatrices, la structure est divis´ee en diff´erentes zones dans lesquelles on suppose que les a priori locaux sur

Dans cette th`ese, nous nous int´eresserons ensuite et plus particuli`erement `a d´efinir une m´ethode automatique de g´en´eration et d’ex´ecution de s´equences de test,

Après la validation de la refonte du diagramme lors d’une des réunions hebdomadaire, nous avons spécifié plus précisément avec Valérie Calvo et Julien Bataillé les

F6 La définition claire du système siège du changement pour les décideurs et les acteurs est un élément déterminent pour stabiliser le déroulement du projet suivant ses objectifs.

Une classe locale définie dans une méthode d'instance a accès aux attributs et méthodes de la classe englobante, même s'ils sont privés.. Une classe locale ne sert