.Jt--r=d
y
Exclus du
PrOt.
MINISTERE DE L'ENSEIGNEMENT
SUPERIEURSCIENTIFIQUE
UNIVERSITE MOHAMED SEDDIK BEN
ET
DE
LA
RECHERCHEYAHIA -
JIJEL
Facult6 des sciences exactes et informatique D6partement de rnath6matiqtes
M6moire pour I'obtention du
dipldme
MASTER
Sp6cialit6 : Math6matiques appliqu6es
Option
: Probabilit6s et statistiqueThbme
Pr6sent6 Par :Samira Benhamada
Zah:ra
Boudadi
t'..,,r,<o}
,Sto-
.
obl16
Pr6sidente Encadreul Examinatrice;^/
6>
Devant 1e
jury
d'examen comPos6 de :Z.Djeridt
Maitre
AssistanteA
Dj.Ghouil
Maitre
AssistanteA
N.Sellami
Maitre
AssistanteA
U.Jijei U.Jijel
U.Jijel
Aspects de
la
Robustesse Bay6sienne
Remerciements
Nous tenons
tout
d'abord d, remerc,iernotre
Dieu
qui, nous a donn6,
la
uolont6, la pat'ience et le courage d'd,tudr,eret
d,eterminer
ce mod,estetrauai,l.
Nous remerc'i,ons u'iuement tous les ensei,gnants qui, ont trtarti,ci,pd d, notre formati,on et parti'culi'd,rement notre encad,reur
Dj.Ghoui,I
d'auo'ir uoulu proposer et aEEurerla
d,i,recti,onde ce rn6.mo'ire,
pour
sa confiance et ses conse'ils jud,ici,eur et sa totale d,i,sponi,bi,lit6,Nous adressons d.galement nos remerc'iements d,
"z.Djeridi,"
et
"N.Sellam'i" les membresde
jury
qui,ont
bi,en uoulu et accept6. de li,re etjujer
notre trauai,l.Enfi'n, nous adressons nos salutat'ions d, tous nos colld,gues de la promoti,on d,e probabi,li,t6,s
et stati,sti'que 2015-2016, a'insi, qu'd, toute personne agant contri,bude d,e prds ou de loi,n d"
la
r4.alisation de ce mdmo,ire.Table
des
matibres
Introduction
g6n6rale
th6orie
bay6sienne
lntroduction
Principe de l'analyse bay6sienne
L.2.7
Loi
a posterioriI.2.2
Lois apriori
1.3
Estimation
bay6sienne ponctuelle1.3.1
Introduction
A,la
th6orie dela
d6cision bay6sienneL.3.2
Fonctions de perteet
de risques-tA
r,= Les m6thodes
MCMC
L.4.7
El6ments sur les chaines de Markov1.4.2
Chaines de Markov et m6thodes de Monte Carlorobustesse
baydsienne
Introduction
Quelques notions de base
2.2.1
Diff6r'entes approches2.2.2
Robustesse parrapport
i
laloi
apriori
2.2.3
Les mesures globales de Ia sensibilit62.2.4
Robustesse parrapport
au modble2.2.5
Robustesse parrapport
dla
fonction de perte3
Exemple
d'application
3 3 31La
1.i
r.2 4 11 11 72 16 -to 77 20 202I
21 ,1 28 31 33 352La
2.r 2.2Introduction
g6n6rale
Contrairement d, la statistique classique la statistique bay6sienne considbre le parambtre
du modble incertain, le statisticien bay6sien va donc chercher d, quantifier son incertitude en
mobilisant toutes les informations disponibles. C'est ce
qui
fait
toute la
diff6rence puisque cela revient d, conf6rer au parambtre lestatut
de variable al6atoire. Dbs lors.il
lui
attribueune
distribution
deprobabilit6 qui
d6crit Ie savoir actuel sur ce parambtre et qui quantifiel'6tat
des connaissancesd'un
expert sur le problbme en main. Cettedistribution
deproba-bilit6
est appel6e ladistribution
apriori,
etil
est pr6f6rable que le savoir de I'expert encod6dans la
loi
apriori
soit
ind6pendant del'6chantilon
en main.Le fondement de la th6orie bay6sienne s'est bas6 sur le th6orbme d'inversion des proba-bilit6s connu sous le nom du th6orbme de Bayes (Bayes, 1763) qui rassemble
I'infbrmation
apport6e
par
la ioi
a
priori
avec celle apport6epar
les donn6es dans une nouvelledistri-bution
dite la distribution a
posteriori,
et qui
estle
pendant de
la
vraisemblance dans I'approche classique, defait
quetoute
inf6rence au sens bay6sien est bas6e sur cettedistri-bution
a posteriori.Un
de nosobjectifs
derribre ce m6moire est cleguider le lecteur
b, sefamiliariser
un peu dans Ia d6couverte de I'inf6rence bay6sienne.Un
autreobjectif
trbsimportant et
qui estun objet
de recherche jusqu'), pr6sent chez tous les statisticiens est de construire desestimateurs robustes.
Dans
la
mise en€uvre
d'une analyse bay6sienne, lestatisticien
s'est int6ress6 comme une premibre 6tape h proposer un modblequi
explique Ie comportement des observations, uneloi
apriori
qui
g6nbre le paramBtred'int6r6t et
unefonction
de pertequi
est utilis6e pour 6valuer le risque.Etant
donn6 cestrois
6l6ments, le bay6sien cherche b employer des m6thodesqui
sont
optimales dansun
certain
sens.La
robustesse bay6sienne consiste d6valuer les changements de quantit6s
d'int6r6t par rapport
aux changements dansla
dis-tribution
apriori,
dans les modbles et clans les fonctions de perte.Ce m6moire contient
trois
chapitres, le premier estun
aperqusur
quelques m6thodesde
la
constructiond'une
loi
a
priori et
dela
d6marche bay6sienne dans laLise
en place d'une inf6rencesur
un
parambtre 0. Dansle
deuxibme chapitre, nous avons rassembl6 le bagage n6cessairepour
effectuer une 6tude clela
robustesse dansun
sens bay6sien. Enfin,TABLE
DESMATIERES
TABLE
DESMATIERES
le troixidme chapitre est une
application
des m6thodes abord6es dans les deux chapitres pr6c6dents, or) nous avons appliquer I'approche informellepour 6tudier
Ia robustesse desestimateurs des parambtres
d'un
modbleAR(1)
aprbs avoir les calculerpar
les m6thodes MCMC.Chapitre
1
La
th6orie
bay6sienne
1.
1
Introduction
La statistique bay6sienne est une th6orie concurrente h la statistique classique (fr6quentiste) en ce sens que chacune d'elles propose ,vis-d-vis,
d'un
m6me probldmeurr.
uppro.heet une r6solution complbtement diff6rente, L'approche bay6sienne repr6sente
la dislribution
des observationspar
unefonction
de densit6f
(rl0)
or)le
parambtre g est inconnu, mais unevariable al6atoire, et on cherche h inf6rer sur ce parambtre.
Dans ce premier chapitre, nous pr6senterons les notions
et
lesoutils
sur lesquels se fonde une analyse baydsienne,et
dont
nous aurons besoinpour 6tablir
les prochains chapitres de ce m6moire. Dansun
premier temps, nous allons parler dela
loi
a posteriori etla loi
a
priori
sur lesquelles l'approche bay6sienne est bas6e. Ensuite dans la section 3, nous allonsvoir
comment estimer au sens bay6sien.Enfin,
la
dernibre section pr6sente cles mdthodes de calcul bay6sien; les m6thodes de Montecarlo
par
chaines de Markov.I.2
Principe
de l,analyse
bay6sienne
En
mod6iisant des parambtres inconnus dela
distribution
d'6chantillonnaged, travers
une structure probabiliste, donc en probabilisant I'inconnu. L'analyse statistique
bay6sienne autorise
un
discoursquantitatif
sur
ces parambtres.Elle
vise d,exploiter le
plusefficace-ment
possibleI'information
apport6epar
x
sur
le
paramdtreg, pour
ensuiie construire des proc6dures d'inf6rence.
Bien
quex
nesoit
qu'une r6alisation al6atoire d,uneloi
gou-vern6e
par
0,
elle apporte une actualisation
aux
informations
pr6alablement recueilliespar
I'exp6rimentateur'
Elle
permet
aussiI'incorporation de
I'inlormation a priori et
de I'impr6cisionde cette information
dansla
proc6dureinf6rentielle,
d,
part
des argumenrs subiectifset
axiomatiques en faveur de I'approche bay6sienne,qui
restele
seulsystbme permettant de conditionner sur les observations et
donc de
mettre
en€uvre
lepri'cipe
deLoi
a posterioriCHAPITRE
1.
LA
THEORIE
BAYESIENNED6finition
L.z.L. Le modble
statistique
bay6sien
Un modble statistique bay6sien est la double donn6e d'un modble param6trique
{lB(r),
g eO)
et
uneloi
deprobabilit6
de densit6 n.,dite loi
a
priori qui
estla loi
marginale de la variable al6atoire d.1,.2.L Loi
a
posteriori
C'est
la loi
conditionnelle de 0 sachantr,
sa densit6 est not6er(0lr).
En vertu
de la formule de Bayes ona
:r(0lr)
:
f (rl0)r(0)
J
f
@10)r(0) d0o
f
(*10) d6signantla
loi
de I'observation ou la vraisemblance.Cette
loi
a posteriori peut s'interpr6ter
comme une combinaison deI'infomation a priori
disponible sur
I
avec celle apport6e par les observations.Au
sens bay6sientoute
inf6rence peut Otre conduite aprbs calcul de Ialoi
a posteriori.Il
est parfois possibled'6viter
le calcul de l'int6graleIf
(rl0)n(0)
d0 dans le calcul deloi
aposteriori en raisonnant
proportionnellement.
oDdfinition
L,2.2.Soit deux fonctions r6elles
f
et g d6finies sur le m0me espaceJ.
Ondit
que/
et g sont proportionnelles, cequi
on notef
x
g,s'il
existe une constante o telle quef
(a):
ag(a),Yy€
I
Rernarque
L.z.L,
1) Dans
un
conteste bay6sien on ar(?in)
x
f (nl0)r(0)
les deux expressions
r(0lr)
etf
@l?)r(d)
sont effectivement proportionnelles. La constante oqui
apparait dansla d6finition
pr6c6dente est 6galeici
iL-lT@#@a,
d. noter que cettequantit6 est bien une constante.
2)
On notela loi
dedistribution par
[.],("(P)
:
lgl,r(glt:)
:
[01"])1..2.2
Lois a
priori
On
entendpar information a
priori
sur le
parambtred,
toute
information
disponiblesur
I
en
dehorsde
celle apport6epar
les observations.L'information a priori
sur g
est attanh6ed'incertitude
(si cen'6tait
pas le cas. le parambtre g serait connu avec certitudeet
onn'aurait
pasi
I'estimer).
Il
estnaturel
de mod6lisercette information a
priori
au travers d'uneloi
deprobabilit6
appel,6eloi
apriori,
not6er(0).
Lois a
priori
CHAPITRE
1.
LA
THEORIE
BAYESIENNE
Le choix de
la loi
a
priori
du
parambtred'un
modble estl'6tape la plus importante
dans I'analyse bay6sienne.Dans la pratique,
I'information
apriori peut
6tre cod6e selon une des fagons suivantes :1.
Prendre uneloi
apriori
vague, c'est-d,-dire non informative.2.
Choisir uneloi
apriori
conjugu6e d,la vraisemblance (commoclit6 math6matique).3.
D6terminer uneloi
apriori
subjectivement.Lois a
priori
non informatives
Les lois a
priori
non informatives repr6sentent une ignorance sur le problbme en main, mais nesignifient
pas quel'on
sache absolumentrien sur la distribution
statistique
du parambtre. En effet, on connait au moins son domaine devariation,
c'est-d,-dire I'ensemble des6tats de
la
nature,O,
et le
rdle
de chaque composantedu
parambtresur
les obser-vables (paramdtre de localisation, d'6chelle, etc). Ces lois doivent 6tre donc particulidrementconstruites d,
partir
de ladistribution
de l'6chantillonnage, puisque c'est le seul moyendis-ponibie
pour
avoir des informations sur le parambtre 0.A
cet 8gard, les lois apriori
non informatives peuvent 6tre consid6r6es comme des lois de r6f6rences, auxquelles chacunpour-rait
avoir recours quandtoute information
apriori
sur g est absente.En
r6sum6, quand ondit
uneloi
apriori
noninformative,
il
faut
comprendre que :1'
Le savoir deI'expert
sur le problbme en main nelui
permet pas delier
les paramdtres'17
0r
I0z
r
... .L- 0n+
ffu,...,0n]:
f[[ArJ
j=L
2'
Toutes les plages de valeurs de 97 sont, aux yeux deI'expert,
6quiprobables,c'est-A,-dire
qu'il
ne pariera pas davantage sur une valeur que sur une autre.Dans ce
qui
suit,
nous d6crirons quelques t6chniques populaires dansla
construction des lois apriori
non informatives.1.
Lois a
priori
invariantes
Le f.ait de formaliser I'absence
d'information
apriori
par une propri6t6 d'invariance estnaturel au sens
oi
seuls les parambtres dela distribution
de g changent lorsqu'on effectue une transformation de 0' Par exemple, les distributions de 0 et de0I
gu, en r6alit6, ne sont pas les mOmes, mais dire qu'elles sont les m6mes. c'est-d-direr(0):n(0-0s)
Pour
tout
d6, exprime certainement une ignorance sur g.On
dit
dans ce cas quela loi
a priori
n
estinvariante
par
translation,
et
r(0)
:
c
laloi
uniformesur
o.
Cette
technique de construction deslois non
informatives n,est quepartiellement satisfaisante,
cat
elle impliquela
r6f6rence b unestructure
d'invariance, qui peut €tre parfois choisie de plusieurs manibres, ne pas exister, ou 6tre sansint6r0t
pourle d6cideur.
Lois
a priori
CHAPITRE
1.
LA
THEORIE
BAYESIEAINE2. Lois a
priori
de Jeffreys
La
sp6cificationde
la
loi
a priori
non informative
de
Jeffreys consiste d, assigner d,un
modble d'6chantillonnage caract6ris6par
sa vraisemblancef
(r;10). Leslois
apriori
deJeffreys sont fond6es sur
I'information
de Fisher, donn6e par(1.1)
D'ori
la lois de Jeffrevs est donn6e oarr(0)
:
lr/2(0)
La
loi
de Jeffreys n'est pas invariante en g6n6ral au sens de I'invariance par une famille detransformations, mais elle
doit
s'entendte comme une invariancepar rapport
au choix dela
param6trisation, puisquepour
une transformation bijective donn6eh qui
transforme leparambtre 0 en
h(0),
nous avons la tansfbrmation Jacobienner(0)
:
r(h(o))
:
(h, (o))2Dans
le
casoil
le
parambtre0
est multidimensionnel,la
matrice d'information
cte Fisher s'obtient par g6n6ralisation de(1.1). Pour d a les 6l6ments suivants :Iij(e)
:
-
"rl#qbg
f
(rlg)1, (i,,j
:
t,
..., k)et la
loi
noninformative
de Jeffreys est alors d6finie parn.(0) x[det(](0))lL/z
La t6chnique de Jeffreys
fournit
une des meilleures t6chniques pour construire uneloi
apriori
noninformative, et
elle permet bien souvent de retrouver les estimateurs classiquessurtout
dans des cas unidimensionnels, mais de sapart,
elle a
6t6 critiqu6epar
certainsbaydsiens corrme 6tant un
outil
sans justifi.cation subjective en termed'information
apriori.
3. Lois a
priori
de rdf6rence
Une
loi
apriori
de r6f6rence esttout
simplement uneloi
apriori
noninformative
(ob-jective)
construite d'une manibre particulibre. Mais d.'une certaine sorte, toutes les loisa
priori
non informativessont
deslois
de r6f6rencedu fait
que chaqueloi
a
priori
non in-formativepeut
6tre consid6r6e comme unpoint
de r6f6rence auquel chacunpourrait
avoirrecours quand
toute information
sur 0 est absente.Cette approche est une
modification
de l'approche de Jeffreysqui
a 6t6 propos6par
Ber-nardo
(1979),elle
reposesur le
principe de faire
la
distinction
entre I'importance
clesparambtres c'est-d,-dire entre les parambtres de nuisance
et
les paramdtresd'int6r0t.
Nous allons donner bribvement leprincipe
dela
construction de ces lois en clemendant aux lec-teurs de se r6f6rer d, Berger et Bernardo (1989a, 1992b), Bernardo etSmith
(1gg4) et KassLois
a priori
CHAPITRE
1.
LA
THEORIE
BAYESIENNEet Wasserman (1996). Consid6rons
tout
d'abord le cas d'un paramdtre d deux composantres,0:
(0u02),oi
grest le parambtred'intdr6t
(de plus importance)et
02 est le parambtre denuisance, et
soit a
-
J@10).La strat6gie
introduite par
Bernardo est Ia suivante :pour
d1 fix6, on d6terminetout
d'abord la
densit6 conditionnelle r(0210)commela
loi
deJeffreys associ6e
it f
(rl0),
puis on calcule n(d1)qui
estla loi
de Jeffreys associ6e Ala
loi marginaleLa
loi
de r6f6rence de d est leproduit
des deux lois, c'est-h-dire :n(02,01):
r(0210)r(0)
Cette manibre de faire peut se g6n6raliser si
d:
(0r,...,9n),
et siI'on
a ordonn6 sans pertede g6n6ralit6 les 0i par
int6r6t
croissant.Il
est clair que ce raisonnement n'est pas purementobjectif
parce que donner plus d'importance d, un parambtre qu'd,un
autre relbve une fbis encored'un
choix.4. Lois a
priori
impropres
Une
loi
impropre (ou g6n6ralis6e) est une mesureo-finie
sur I'espace des parambtres O, c'est-d,-dire une mesure z- telle que*oo
Ces lois sont obtenues lorsqu'on dispose des critbres subjectifs ou th6oriques sur Ia
distribu-tion
apriori
du parambtre,qui
conduisent b une mesureo-finie
sur Oplut6t
qu'h, une me-sure de probabilit6. Les lois apriori
impropres sont utiles dans les moddles non-informatifs cependant, elles ne peuvent 6tre utilis6es que sila
condition suivante est v6rifi6e :En conclusion, I'usage de lois a
priori
impropres estjustifi6
sila
loi
a posteriori est propre car elle ne d6pend pas dela
constantemultiplicative
dela
loi
apriori.
Dans ce cas ces lois sont utilesdu
moinstant
quela loi
a posteriori existe car l'inf6rence bay6sienne se fonde sur laloi
a posteriorir(0lr).
Une
difficult6
pratique
dansI'utilisation
deslois
impropresest
clev6rifier la
conditiond'int6grabilit6
f@ler):
I
tcw1,92)
n(g2lor) dgz II
r(0)d0
:
, o P tm*(r):
lf@10)r(0)dg<n
I o II
t@10)n(0) d0<
n
oLois
a
priori
CHAPITRE
1.
LA
THEOHIE
BAYESIENNE
Lois a
priori
informatives
1.
Lois a
priori
conjugu6es
Ce tvpe de lois a
priori
estutilis6
quandI'information
apriori
disponible sur le modble esttrop
vagueou peu faible.
Dans ce cas I'analyste regardela
forme
dela
fonction
devraisemblance
et
choisit unefamille
de loisqui
se marie bien avec elle. Par exemple, pour Ia vraisemblanced'un
n-6chantilloni.i.d
selon unedistribution
exponentielle de parambtre d'6chellep
>
0 qui
est donn6epar
pn
exp(-nnp),
la
loi
a priori
conjugu6e est une loi Gammadont Ia forme
fonctionnelles'6crit
p"-1
exp(-bp)
et
appliquant le
th6orbme deBayes, Ia
distribution
a posteriorisuit
encore uneloi
Gamma :pla,b,TL,I
-
g@
+
n,b
*
n
frt.Rappelons
ici
qu'une famille .F dedistributions
deprobabilit6
sur d estdite
conjugu6e (ou ferm6e par 6chantillonnage) par une vraisemblancef (rlg)
si pourtoute
loi
apriori
r
€
F,
la distribution
a posteriorin'(.lr)
appartient 6galement bf.
L'avantage des familles conjugu6es est avant
toute la simplicit6
des calculs.Avant
I'essor du calcul num6rique, ces familles 6taient pratiquement les seulesqui
permettaient de faireaboutir
des calculs.L'int6r0t
principal
du
caractdre conjugu6 se manifeste quandf
estparam6tr6e. Effectivement le passage de la
distlibution
apriori
i
la clistribution a posteriorin'est dans ce cas qu'une mise h,
jour
des parambtres correspondants, ce que nous pouvonsle constater dans l'exemple ci-dessus.
Et
par cons6quent, lesdistributions
a posteriori sont toujours calcula.bles dans ce cas.D6finition
L.2.3.
Famille exponentielle
Une telle famille regroupe Ies lois de probabilit6
qui
admettent une densit6 de la formef
@le):
h(r)
ta@):r(r)-
't'(o), 0e
@7
est une statistique exhaustive. Une telle famille estdite
r6gulibre si?
estun
ouverttel
que O
:
{el
f
n@t"a(o)r(t)
dp@)<
oo}.
En outre, on appelle param6trisation canonique,
l'6criture
:et
famille naturelle I'expressionf
("10):
h(r)
"e'r@)
-
t!(o)f
@|il
:
h(r)
"or(t)
Th6orbme L.z.L.
Farnille
enponentielle
-
Si,r
-
f (rl0)
:
h(r)
"er@)-{t(o), alors la fami,lte d,e loi,s a
priori
{"^,r(il
x
h(r) e0p-^,!P),^,u}
est conjugu1e.onnote
Q,t)e lTs.,, est une d,ensi,t6 d,e pro-babi,li,td, si, et seulementsi,.\
>
0et
pl)' e
@.La
loi' aposterio,i
correspond,anteestr(llxrr,
p+
"(z)).
Lois a
priori
CHAPITRE
1.
LA
THEORIE
BAYESIENNE
En effet,
n;,r@ln)
o(
h(dser@-t!(e)"e
p'-)'t!@)o(
h(r;)ee(r(") + P)-(^ + r)il@):
7f)+t,1"+r1q(0).(r
2)Le tableau ci-dessous pr6sente quelques lois a
priori
conjugu6espour
quelques familles exponentielies usuelles.Tab'
1'1-
lois apriori
conjugu6espour
quelques familles exponentielles usuellesf ("lo
7T(0)r(0lr)
NormaleN(0,
o2) NormaleN(p,r')
N(p("'tt
*
r2r),
po2r2)p:7lkt2
+r2)
Poisson P@) Gamma9(",13)
9(a+r,13+r)
Gamma9(u,0)
Gamma9(u,0)
9(a+u,0+r)
BinomialeB(n,0)
BOta Be(a,p)
Be(a*:x,p+n-r)
Binomiale N6gativeNeg(m.,0)
BOta Be(cu, {})Be(u*m,,p+r)
NormaleN(pt,1/0)
Gamma9(u,0)
9(u*0.5,0+(tt-d,12)
2. Lois a
priori
d'entropie
rnaximale
si
on
disposede
certaines caract6ristiques dela
loi
a priori
de
type
E"lgt(0)l
:
p*(moments, quantiles,
etc...)
or)pour
chaquek:
r,...,,tL, gk est unefonction
clonn6e.on
peut
utiliser Ia
m6thoded'entropie
maximale d6velopp6epar
Jaynes (1gg0, 19g3) pour ddterminer uneloi
apriori
sous ces contraintes.Pour
comparerle
caractbreinformatif,
il
est
n6cessaired'avoir
recoursb un
critdred'information' L'entropie
de Shannon permet de cl6finir ce niveaud'informativit6.
Dans un cadrefini
et
discret, cette entropie est d6finie commesuit
;Pour 0
€
{1, ...,n}
et
r(0)
:7rr,...,rn
teI eue 7ri)
0et
T4:
t
Ent(n)
:
-Dnolog(?ri)
i
Sans contraintes sur
n
la distribution
d'entropie maximale est laclistribution
uniforme surO'
Une entropiepetite
s'interprbte comrne uneloi
concentr6eet informative. La
maximi-sation de I'entropie sous ces contraintes mbne d uneminimisation
cleI'information
apriori
apport6e par 7r sur d' Le principe d la base de cette m6thode est donc de chercher d calculerLois
a
priori
CHAPITRE
1.
LA
THEORIE
BAYESIEIVNEArgrnar
Ertt(tr)
sousla
contrainte
Elgk(0)l:
Fk. La solution de ce problbme est alors donn6e parn
n*
o
ulr\k
s*@)oir les )7, sont les
multiplicateurs
de Lagrange associ6s qui se d6terminent dans la pratique par un systbme d'6quations Dr,partir
des contraintes.L'extension
au
cascontinu est
diff6rente, cen'est
pas possiblede
d6finir
I'entropie comme dans Ie cas discret puisqu'on nepeut
pas d6nombrer les 6tats en I'absence d'une mesute de r6f6rence. Ceci exige doncle
choix d'une mesure de r6f6rence r-6eui peut
6tre caract6ris6e commela distribution
complbtement noninformative,
Une fois fis est choisie, I'entropie den
est donn6e parf
/
r(H\\
Ent(nlrs):
J"@)
t"*
(ffiJ
ou0
qui
est aussila
distance deKulback
entren
et fi's.Ld. encore,
I'objectif
est de maximiserEnt(trlTs)
sous Ies contraintesE"Ign@)]:
1L,petla
solution g6n6rale est connue :
7t
zr-(d)
x
,r!,
^u nu@) nr(o)Un
inconv6nientde cette
m6thodeest
queIa distribution
d'entropie
maximale d6penddu
choixde
Ia
mesurede
r6f6rence 7rs. Lorsque unestructure de
groupe est disponible,un
choix raisonnable de z's estla
mesure de Haar invariante ddroite. En
plus parfois iescontraintes ne sont pas suffisantes pour obtenir une
distribution
surL
qui est le cas quands les contraintes sont li6es aux quantiles,oi
les fonctions 96(9) sont dela
forme 11_*,or1 ou1166,oo1.
Soit
0un
parambtre r6el. SiI'on
choisitla
mesure de r6f6rence estla
mesure d.e Lebesgue sur lR..et si
E"[0]
-
pt, alorsla
th6orie donner(0)
x
e]0 qui
nepeut
pas 6tre normalis6ecomme une
distribution
deprobabilit6.
Si de plus onsait
queuar(0)
:
o2,la loi
apriori
d'entropie maximale dans ce cas est
r(0)
x
"\$*Azo2 c'est donc
la
loi
normaleN(0,o2).
Estimation
bay6sienneponctuelle
CHAPITRE
1.
LA
THEORIE
BAYESIET\I IELois a
priori
subjectives
Pr6cisons
tout
d'abord
que cette d6marche n'est pas forc6ment facile dansla
pratique. L'id6e estd'utiliser
les donn6es ant6rieures. Par exemple dans un cadre param6trique, cela revient d, pr6senter des valeurs ponctuelles de 0 b,l'expertet
pour chacune d'entre elles, delui
demander les chancesqu'il lui
accorde.Exemple
X1 le nombre de pibce d6fectueuses dans un
lot
issu de Ia machine num6rot
: X1-
B(n,pt)
Information
apriori
sur p1 :la proprtion
de pibce d6fectueuses.Tab.7.2
-Information
apriori
sur les parambtres de pbce d6fectueusesmachine 1 2 .) 4
Pi
mean ^-N 9b7o crecl.rnt 0.3 [0.1,0.5 0.4 [0.2,0.6] u.b [0.3,0.71 0.2 [0.05,0.4] 4.2 [0.05,0.4]Si p1
suit
une
loi
BOta.on
ajuste
les parambtrespour
quela
moyenneet
les quartiles coincident avec nos informations.Tab. 1.3 - Moddle a
priori
de pidce correspondanti
I'information du
tableau (1.2)Time 1 2 3 A F
o
Dist
8(6,74)
B
R.vt 12)B(r2,12)
B(3.5,14B(3.5,14)
Ces
distributons
sont dites subjectives parce qu'elles sont propre dI'expert.
Elles doivent 6tre interpr6t6es comme unpari
de I'expert.1.3
Estimation
bay6sienne
ponctuelle
1.3.1
rntroduction
i
la th6orie
de
la
d6cision bay6sienne
Un
problbme de d6cision en g6n6ral est fond6 sur les 6l6ments suivants :-
Un
ensemble des actions (d6cisions)D
-
Un
espace des parambtres O-
Unefonction
decofft
(deperte)
l(0,6) qui
d6crit
la
perte
de prendrela
d6cision dlorsque le parambtre est 0.
-
Un
ensemble des observations.Fonctions de
pefte et
de
risques
CHAPITRE
1.
LA
THEORIE
BAYESlElf
IEL.3,2
Fonctions
de
perte
et
de risques
D6finition
1.3,1.Soit d
€
D
une rdgle de d6cision.Une fonction de perte(de
cofft)
est une fonction mesurable de(O
x
2)
A, valeurs dans IR..not6e l(d, d)
et
d6finie telle que 1. V(d,p),
l(d,d)
>
o2.
V0,=
5*
tel
que
l(d-(r),0)
:0
S'il
faut faire un choix entre deux rbgles de d6cision, ce choix est impossible sans critbre decofit, de sorte b,
d6finir
correctementla notion
de meilleur estimateur.D6finition
L.3.2. Le risque fr6quentiste
Pour une fonction de perte donn6e
l(0,6),1a
fonction de risque associ6e estR(''o)
:
"'i',f
Jrl'u",n,
dp(*)
u,
C'est une
fonction
de0 et
ned6finit
pasun
ordretotal
sur 7)
et
ne permet donc pas decomparer toutes d6cisions
et
estimateurs.Il
n'existe donc pas de meilleur estimateur dansun
sens absolu.Ainsi,
I'approche fr6quentisterestreint
I'espaced'estimation
en pr6f6rantla
classe des estimateurs sansbiais
dans laquelleil
existe des estimateurs de risque uni-form6mentminimal;
l'6cole bay6sienne ne perd pas en d6finissantun
risque a posteriori. L'id6e est d'int6grer sur I'espace des parambtres pourpallier
cette difficult6.D6finition
1.3.3. Le risque a
posteriori
Une fois donn6es
la
loi
apriori
zr(9) sur le parambtrc 0 et Ia fonction de pertel(d,d),
Ierisque a posteriori est defini
par
:P(tr''tr)
:
T
":o';t'i:;"|11'o'*
"@
Ainsi, Ie problbme change selon les donn6es; ceci dff d, la non existence
d'un
ordretotal
surles estimateurs.
Fonctions de
perte et de
risquesCHAPITRE
1,
LA
THEORIE
BAYESIENNED6finition
L.3.4. Le risque int6gr6
Pour une
foction
de perte donn6e, le risque int6gr6 est d6finipar
:r(tr,6):
E(R(g,6)lr)
f
:
|
,@,d)tr(0)d0
"eUne
fois
la
loi
a
posteriori sur
le
parambtre est disponible,le
problbme de I'estimation bay6sienne ponctuellepeut
6tre exprim6 comme un probldme de d6cision.D6finition
1.3.5.
L'estimateur
bay6sien
Un estimateur bay6sien est Ia rbgle de d6cision
d"
qui minimiser(n,6).
C'est-b-dire qui v6rifier(n,5"):
j$
r(2,
d)<
ooPour obtenir la valeur de
I'infimum
du risque int6gr6il
faut
donc en th6orie minimiser une int6grale double.L'introduction
du
risque int6gr6 sejustifie
par le th6orbme suivant.Th6orbme L.3.1. Mdthod,e de calcul
Si=
6€D,
r'(tr,d)
<
*
etY
X
e X,
d"(X)
:
Argntin,P(n,6lX)
alors 6n(X)
estun
estimateur bay6,si,en.D6rnonstration.
f
r(0,6)
:
I
R(b,0)r(0)
d0 , uorf
:
I
I
t(t,0)
f (rl0)
dnr(o)
d,oJJ
0r
: [ [,0,,
f (rlo)-tr(o)
m^b)
d,n dgJ
J
rn"\fr)
0tff
:
J .l
,(u,0)
n(?lr)
m"(r)
d0dr
n0
r( f
):
|
\
|
tQ,0)
n(?lr) d?l
m,(n)
dr
J (J )r0
r
:
I
p(n,6ln)
m"(r)
dr
, 10 r.)Fonctions de
perte et de
risques
CHAPITRE
1.
LA
THEORIE
BAYESIENNEEt
minimiserr(n,d)
pour toute
valeur der,
sera 6quivalentb
minimiser
la
fonction
derisque a
posteriori
,
p(tr,lln):
J
,(u,0)n(llr)
d,0e
La minimisation de cette dernibre expression peut se faire analytiquement comme elle peut s'approcher num6riquement (par des techniques de simulation) selon la complexit6 du cofit
I
et
de
la
loi
a
posteriori
r(0lr).
Parfoisil
est
impossiblede
calculerr(0lr)
et
parfoismOme si elle est connue,
I'integration
analytiqueparait
impossible, comme le cas des s6riestemporlles d, cause de
la
complexit6 dela
distribution
de vraissemblane. Cequi
n6cessitedes approximations num6riques comme les m6thodes
MCMC
abord6es dansla
prochaine section.Pour des coitts classiques, les estimateurs de Bayes correspondant sont des caract6ristiques usuelie de Ia
distribution
a posteriori(moyenne, m6diane, fractiles, etc.)La
perte
quadratique
Une fonction de perte quadratique est une fonction
I:
(o
x D)
-
JR.. donn6e part(9,6):
(0-
6)2Ainsi,
soitr(6'*)
--
'f,]!',,1.:;,:i
,?
ef ^
f
f
|
0'
r(0lr)
d0
-
zbI
er(elfl
d0
+
62|
r(0lr)
d,gr
ooo
J
.l "'
:
E(021r)
-
26tr(lln)
+
d,La d6cision d
qui
minimise/(d,
r)
est celle qui v6rifie4
t6,r)
:
odd"'
cequi
donne,-zE@lr)*2d:0
et donc,6
:
E(?lr)
Donc
pour la
perte quadratique, I'estimateur de Bayes estla
mo),'enne clela
loi
a pos-teriori.Fonctions de
perte et
de risquesCHAPITRE
1.
LA
THEORIE
BAYESIEAIAIELa
perte
absolute
De m6me, nous pouvons
v6rifier
ais6ment absolut(5,0):
est donn6
par la
m6diane a posteriori.En remplacons
l(d,0)
dans I'expression dep(tr,dlr),
nous obtenonshd
Nous cherchons b minimiser
l@,*),
donc nous r6solvons!rr',.r)
:
o d,d"'
' ga implique que 60tr7
I
r(?ln)d?:
I
r(lln)d0
tr,
,ud est bien entendue
la
mediane dela distribution
a posteriori.L'estimateur
MAP
On
appelleestimateur
MAP
(estimateur demaximum
a
posteriori)
tout
estimateurd"(z) qui
maximiseI'information
sur
g
repr6sent6epar
sonloi
a
posteriori,
c'est-h-diretout
estimateurd'(z)
tel
queb(r)
e
Argmaxr(0lr). d"(z) doit
donc Otre le mode de ladistribution
a posteriori.Le grand avantage de cet estimateur
et
qu'il
ne d6pend pas d.'une fonction de perte et estutile
pour les approches th6oriques.L'estimateur
MAP
est le pendant bay6sien de l'estimateur de maximum de vraissemblance, de cefait
ils
partagent les m6mes inconv6nients comme : Ia nonunicit6,
I'instabilit6
(dus aux calculsd'optimisation)
et la d6pendance vis-d,-vis de la mesure de r6f6rence (dominant O), seulement I'estimateurMAP
ne v6rifie pas la non invariance par reparam6trisation qui peut apparaitreimportante
intuitivement.que
I'estimateur
de Bayesutilisant un
cofitld-dl
f
f(6,r)
:
I
l0-
6lr(0lr)d0
e6oz
rf
:
/
(d--
0)r(0lr)d0
+
I
@-
d)r(?ln)dg
II 15Les m6thodes
MCMC
CHAPITRE
1.
LA
THEORIE
B.AYESIENNEL.4
Les m6thodes
MCMC
Nous allons pr,6senter bribvement un aspect trbs
important
dans la statistique bay6sienne qui est un moyen in6vitablepour
resoudre les problbmes des calculspour
divers modbles :les algorithmes de
Monte
Carlo par chaines deMarkov (MCMC).
Ces algorithmes sont des techniques de simulation
qui
consistent d g6n6rerun
6chantillon afin demettre
en place des chaines deMarliov
avec desdistributions
ergodiques,Deux algorithmes
MCMC
sont les pius importants conguspour
cr6er des chaines de Mar-kov deloi
stationnaire donn6e.Le premier a 6t6 propos6
par Metropolis et
al
(1953)et Hasting
(1970)et
s'appellealgo-rithme
de Metropolis-Hasting.Le deuxibme est
l'algorithme
de Gibbsintroduit
par Geman (1984) et d6velopp6e plustard
par Tanner et Wang (1987) ensuite
par
Gelfandet Smith
(1990).Ces algorithmes rre peuvent pas s'appliquer sans ordinateur. Le langage de programmation
R
est le mieux plac6et
est le plus performant pour les statisticiens.Notre
objectif
est de comprendre Ie m6canisme de fonctionnement de ces m6thodes afin deles maitriser
et
depouvoir
les appliquer dans le chapitre 3.L.4.L
El6ments
sur
les chaines de
Markov
La propri6t6 des chaines de Markov que nous allons utiliser est que certaines d'entre elles
convergent vers une unique
et
invariantedistribution.
La
th6orie
des chaines de Markov est complexe et nous n'allonsici
donner que les bases n6cessaires d, nos m6thodes,D6finition
L.4.L.Une chaines de Markov est une collection de variables al6atoires
(&)o.r
qui doit v6rifier Ia popri6t6 d'absence de m6moire :P(Xi+ilXi:
ni,Xj
:
ri,
i
<
i)
:
P(Xn*rlXt: n)
D6finition
L.4,2.
Chaine
irr6ductible
Une chaine de
Markov
estdite irr6ductible si
tous les 6tats communiquent entre eux, c'est-d,-dire V0,0' e. Oil y
a uneprobabilit6
non nulle quepartant
cle g on aboutisse h g enun nombre
fini
d'6tapes.En
terme de classe d'6quivalance. une chaine est irreductibles'il
n'y
a qu'une seule cla,sse d'6quivalance.D6finition
1.4.3.
Chaine recurrente
Une chaine de
Markov irr6ductible
est r6currentesi
I'esp6rancedu
nombre de visites qu'elle accorde b chaque6tat
estinfini
:V0,0'
,
E(0
--
A'): D
n'(9,0')
:
6pChaines de
Markov
et
mdthodes deMonteGWffiITRE
1.
LA
THEORIE
BAYESIENNED6finition
L.4.4.
Chaine ap6riodique
Une chaine de Markov est
dite
ap6riodique si elle estirr6ductible
et tous les 6tats sont de p6riode 1.On
appelle une p6riodeT
d'un 6tat
0
appartenant ir, une chaine discdteet
on note d(0), Ie plus grand commun diviseur des valeursr
) l
telles que les probabilit6s de transitionsr'(0,0)
enr
6tapes sont positives :d(0):
PGCD{r
€
N*, r'(0,0)
>
0}
Lorsque
la
chaine de Markov v6rifie toutes ces propri6t6s elle seradite
chaine ergodique. Nous pouvons maintenantintroduire
le th6orbme fondamental deI'utilisation
des chaines de Markov dans les m6thodes de Monte Carlo.Th6orbme L.4.L.
Th€orime
ergodique
Soi,ent
g\),9(z),..,, 0Q)
T
ualeurs d,'une chatne d,eMarkou
ergodi,que d,e d,i,stributi,oni,naari,ante (stati.onnai,re),
ettel
queE"lg(0)l
<
oo. Auec une probabi,ti,td. d,gate d, 1,tT
f
iD,g@at)
;
J^t(il"(elddo:
E"lg(o)l
I
(1.3)
oil,
r
estla
di,stri,but'ion stati,onna,ire.Les chaines de Markov produites par les algorithmes
MCMC
sont ergodiques dedistribution
stationnaire
r(0lr).
L.4.2
Chaines de
Markov
et
m6thodes de
Monte
Carlo
Les chaines de
Markov
(0t)1 produitespar
les algorithmesMCMC
sont b6n6ficies, par construction de propri6t6s destabilit6
forte. A, savoir I'existence d'unedistribution
station-naire ou invariante,
soit
unedistribution
n
telle
que, si frn-
T,
x)n+l.-
rr.. Cette propri6t6 signifie dans la dynamique des chaines de Markov que lorsqu'on injecte unpoint
de d6part0 tir6
au
hasard selonla
densit6de probabilit6
r,
on
retrouve
g6n6r6par le
noyau unpoint
de sortie0'
quisuit
lui
mdme cette mdmeloi
deprobabilit6
zr. Ces chaines sont aussiirr6ductibles. Gr6ce b, cette
stabilit6,
ces chaines sont r6currentes cle 1oi stationn airer(0lr)
c'est-dL-dire que le nombre moyen de visites dans un ensemblearbitraire
A
de mesure posi-tive estinfini,
ou mOme Harris r6currentes,c'est-i-dire
telle que Ia probabilit6d'un
nombreinfini
devisites
dansA
est
1, cequi
assure quela
chaine possdde les m6mes propri6t6s limites quelle quesoit la
valeurinitiale
B(o) (cette propri6t6 correspond d, l'6rgodicit6 d.e lachaine)'
La
r6currence au sens de Harris est donc n6cessairepour garantir la
convergenced,
partir
detout
point
de d6part.Chaines de
Markov
et
m6thodes deMonteAHffiITRE
1.
LA
THEORIE
BAYESIENNE
Par cons6quent, pour un nombre de simulation, k. suffisamment grancl, 1, g1t) r6sultant est distribu6 approximativement selon
la
\oir(lln),
quelle quesoit
Ia valeurinitiale
d(0),Une fois
h
:
0(k) g6n6r6, une faqon naive de construireun
6chantillon ind6pendant et identiquementdistribu6
suivantr(?ln)
estd'utiliser le
m6mealgorithme
avec une autre valeurinitiale 0f)
et une autre s6quence detransition
cle Markov afind'obtenir
bet
ainsi de suite.Donc,
MCMC
est une classe de m6thodes qui consiste b, simuler des tirages d6pendants d,partir
denotre
distribution d'int6r6t (la distribution a
posteriori),
et
lesutiliser
pour calculer les quantit6sd'int6r€t
dela
loi
a posteriori.La partie suivante aborde 1es deux algorithmes
MCMC
les plus utilis6s par les bay6siens.Algorithme
de Metropolis-Hastings
L'algorithme
de Metropolis-Hastings estun
algorithmed'acceptation/rejet.
L'id6e decet algorithme est de simuler selon une
autre
distribution
plus simple h simuler, appel6eia loi
deproposition,
et
d'accepterla
valeur simul6e avec une certaineprobabilit6
d,6tre effectivementun tirage
selonla loi
cible,Tant
qu'une nouvelle valeur n'est pas acceptfe, I'algorithme retourne la dernibre valeur accept6e comme nouvelle valeur de Ia chaine.ponr
unedistribution
a posteriori donnder(0lr)
ond6finit
par recumence les valeurs de g(t+l) hpartir
d'une valeur d(i),D'abord. on choisit
une valeur condidate0*
tft6e al6atoirement d'unedistribution
deproposition
q(O.P@) eventuellement dependantede
g.
Ensuite. en
d6termine a(0*,0Q)) telle que :a(0*,
g(t\
:min
(1, "
r(!^,. r1:Y(0:,1?::), \r(?ti)lr)q(0@le.)'
puis dans
la
pratique, on
tire
une variable al6atoireu
-
Llps,1,et
on
d6cide dela
fagon suivante :-
siu S
ct(O*,eG)):TG+r).:0*
avec unepropabilit6
a(g,e(t1.
-
si
u
>
o(0*,9(t)):
g?nt)-.0$)
avec unepropabirit6r-a(0.',g(r)) et
qasignifie
que la chaine ne bouge pas de d(';)Les d(i),
produient par cet
algorithme construient une chaine deMarkov
ergodique de loistationnairer(0lr),
donc on ala
convergence vers I'esp6rance(la
moyenne a posteriori).ChA|NCS dE MATKOV EI M'thOdES dC
MONTEGHffiITRE
1.
LA
THEORIE
BAYESIENNE
Algorithme
de Gibbs
L'algorithme de Gibbs est central en statistique bay6sienne car
il
permet de r6duire un problbme complexe desimulation,
typiquement,la
simulation
selonla
distribution jointe
a posteriori
des parambtres,en
unesuite
d'6tapes simplesd
simuler.
pour
cette raison,l'algorithme
de Gibbs est aussi connu sous le nom d'6chantillonneur de Gibbs (en anglais, Gibbs Sampler).D'un point
devue historique, l'algorithme de Gibbs
tire
sonnom
d'un
physicien et math6maticien am6ricaindu
19" sidcle; Josiahwiilard
Gibbs.L'algorithme
de Gibbspermet
de simuler lesdistributions
marginalesa posteriori
detoutes les grandeurs inconnues
du
modble A,partir
desdistributions
conditionnelles apos-teriori
de toutes ces grandeurs.Supposons d'abord que le vecteur d
ait
deux coordonn6s 0:
(0r,92)
etsupposons aussique
l'on
connaisse les deux densit6s conditionnelles191 l02l
et
1er1fir1.ni'
aonnant les valeursinitiales
llt)
"t
e[t),,irl,6tapet,
et
b l,6tape(t+t)
1) On g6nbrepll.l]
*
simulant selonta-loi
lr,rlit[D]
2) On g6ndre
lf*t)
"n
simulant selonla
loi
[0^0fi1)]
De fagon g6n6rale,
pour
0:
(h,...,0n),
on suppose qu'b, l'6tapet
res 0:t), i,:fi
sont connus.L'algorithme
it6ratif
de Gibbs dl'6tape
(t+1)
est donn6par
:1) On g6nbre
,f1.1]
*
simutant selon latoi
Jei,+1);A[q',,Ofr]
2) On g6nbre0!j*')
"n
simulant seton latoi
iajr+tl l4yit) ,'0{) ,'...,
r1f)1 ik)
On g6nbreTf*t)
"n
simulant selonla
loi
[rlf+r)p{r*t),
.,.,
gfjji)l
Rernarque
L.4.L.
Lorsqu'il
estdifficile
de simuler selon I'une desdistributions
conditionnellesr;(0l0i,j
I
i)
onpeut
remplacer cette_6tapepar
une 6tape de Metropolis-Hastings dont ladistribution cible
est ri(0;10i,i
+
i).L'introduction
d'une 6tape de Metropolis-Hastings ne modifie pasla distribution
stationnaire dela
chaineet
est valide.Chapitre
2
La
robustesse
bay6sienne
2.L
Introduction
Dans
la
mise en Guvred'une
analyse bay6sienne, lestatisticien
s'est int6ress6 comme une premibre 6tape d, proposerun
modblequi
explique le comportement des observations, uneloi
apriori
qui
g6nbre Ie parambtred'int6r€t et
unefonction
de pertequi
est utilis6e pour 6valuer le risque.Etant
donn6 cestrois
6l6ments, le bay6sien cherche d, employer desm6thodes
qui
sont optimales dansun
certain sens.Cependant dans la pratique,
il
est rare de pouvoir proposer une d6termination explicite du modble, de laloi
apriori
et de la fonction de perte m6me si on dispose de certaines infor-mations.La
robustesse bay6sienne consiste h, 6valuer I'influence de cette ind6termination sur les quantit6sd'int6rdt.
Une pl6thore de m6thodes
et d'outils ont
6t6 propos6spour faile
faceh
ce problbme comme lestravaux
de
Good
(1983), Bergeret
Berliner
(1986), Bergeret
Sellke (1987), Wasserman (1992) etAbraham et
Daur6s (2000).La
robustesse bay6sienne doncpeut
6tre 6tabliepar
rapport
au
modble propos6,d
la
loia priori
ou
parfoispar rapport
A,la
fonction
deperte
quandil
s'agit d'un
problbme deddcision.
Mais.
dans lestrois
cas elle consisteb
construireune
classe de modbles/lois apriori/fonctions
de perte, et dtudier par la suite les changements 6ffectu6s sur les quantit6s a posteriori autours de ces classes,Dans ce qui suit nous rassemblent quelques notions de base sur la robustesse bay6sienne.
Quelques notions de base
CHAPITRE
2.
LA
ROBUSTESSEBAYESIENNE
2.2
Quelques
notions
de
base
2.2.L
Diff6rentes
approches
Il
existetrois
principales approches dela
robustesse bay6sienne.La
premibre estI'approche informelle,
dans laquelleun
ensemble delois
a priori
estconsid6r6
et
les moyennes aposteriori
correspondantes sont compar6es, Cette approche a6t6 (et elle est) trbs populaire en raison de sa
simplicit6. En
revanche,il
est parfois facile de perdre leslois a
priori
compatibles avec les connaissancesa
priori
disponibles, ce qui mbnerait a des moyennes a posteriori trds diff6rentes.La
deuxibme approcheest
appel6erobustesse
globale (voir
Moreno, 2000,pour
plus de d6tails).Cette
approche fonctionne id6alement A, I'approche pr6c6dente, elle consiste dconsid6rer une classe de lois a
priori
compatibles avec les informations apriori
disponibles, et 6valuer par la suite la diff6rence entre le sup etI'inf
des moyennes a posteriori autours dela classe. Cette approche est trbs populaire elle m6me, mais les calculs ne sont pas toujours faciles du
fait
qu'elle exige l'6valuation du supet
deI'inf
des moyennes a posteriori.La
troixibme approche estdite robustesse locale.
EIle est d6critepar
Gustafson (2000)et
Sivaganesan (2000).Elle
s'est int6r6ss6e autaux
de changements dans I'inf6rence parrapport
aux changements dansla
loi
apriori
utilisant
diff6rentes t6chniques. Les mesuresde sensibilit6 (robustesse) locale sont g6n6ralement plus faciles d, calculer que les mesures
globales. mais leur
interpr6tation
n'est pas toujours claire.2.2.2
Robustesse
par
rapport
h
la
loi
a
priori
Nous allons commencer cette section par un exemple
qui
montre combienil
estimpor-tant
d'introduire la notion
dela
sensibilit6 au choix de Ialoi
apriori.
Supposons
qu'on
observeune variable
al6atoireX
qui suit
la loi
de
Poi,sson(fl), et supposonsqu'il
est connua
priori
que0 a
unedistribution
continnue avec une mediane 6galed,2
et
un quantiie d'ordre
3
6galed 4. i.e.
p"(0
<
2)
:
0.5et
p"(0
3 4):0.25.
Si ces informations sont les seules connaissances disponiblessur le
parambtre g, les troisdistributions
suivantes peuvent 6tre consid6r6es comme des lois apriori
de g :(i)
rr
: 0-
enponenti,elle(a) auec0,:
log(2);
(ii)
zr2 :los(0)
-
N(Ios(Z),(los(z)lz.zs)2)
;
et(iii)
zr3 :los(0)
-
Caucha(los(2),los(Z)).
et donc,
(i)
sous 11,0lr
-
Gamrna(a*
1,ff
+
1).
et la
moyennea posteriori
estE"t(glr)
:
(a+r)l@+L)
Robustesse
par
rapport d,la
loi a pT\oTCHAPITRE2.
LA
ROBUSTESSE BAYESIENNE(ii)
sous 7r2, si on pose7
:
log(0) etr
:
log(2)lz.2s:
tog(2)10.675 onobtient
:E"'(llr)
:
E"'(enp(1)lr)
*oo
I
enTt(-et)erp(1@
+
I))erp(-O
-
tos(2))2ler2))d,1
+oo
I
erp(-et)erp(1r)enp(-
(r
-
los(2))2lQr2))dt
(iii)
sous
Trs, etposant"r;;
:
log(0),on
obtient
:E"'(0lr)
:
8""
(erp(1)lr)
*f
"*p1-",)enp(1@+
r))
fr
+
ff##),],
0., : -€ L --tr-r J *ooI
enp(-et)erp(1n)
.t
j
+
f\
+kP\zl-'
tos(2)a,
t I
wrPour
voir
l'influencedu
choixolta,
a,
apriori.
or, .*urnrrre les moyennes a posteriori sous lestrois
diff6rentes lois apriori.
Les r6sultats sont donn6spar la
table suivante.Tab. 2.1
-
Les moyennes a posteriori sous zrr,zrz
et
a-s
_
X
4510152050
'tf 1 1T2 7f3 .749 .950.76r
1.485 1.480 1.562 2.228 2.706 2.094 2.971 2.806 2.633 3.713 3.559 3.250 +.+oo 4.353 3.980 8.169 8.660 8.867 11.882 13.24r L4.06715.5ei-
37w4
L7.945
47.07719.178
49.402 On remarque quepour
x petit
ou mod6r6(x
S
10),la
robustesse est r6alis6e, i.e.il
n'y
apas un grand changement entre les moyennes a posteriori sous les
trois
lois apriori,
et donc le choix d'uneloi
apriori
entre lestrois n'a
pas d'influence.Par
contrepor'
d.,
grandes valeurs dex,
le choix de laloi
apriori
est,trbsimportant et
a influenc6les moyennes apos-teriori,
il n'y
a pas de robustesse dans ce cas,Il
est clair maintenantqu'il
y
aies
situations or) le choix d'uneloi
apriori
parmis d'autres d.ans une classepeut
avoir une influence sur les quantit6s a posteriorid'int6r6t.
Classes
de lois a
priori
Comment construire une elasse
f
de lois apriori
de sorte qu'elle mod6liseI'incertitude
sur la
loi
a
priori ? estla
question fondamentale dansla
mise enGuvre
d,une robustesse baydsiennepar
rapport
d,Ia
loi
a
priori.
Il
existe unelit6rature
vastequi
r6pond d, cette question, mais quelquesoit la
m,5thode, cette constructiondevrait
v6rifie les objectifs sui-vants :Robustesse
par rapport d,la
loi a pTiotCHAPITRE2.
LA
ROBUSTESSEBAYESIENNE
l.
La classedoit
contenir un nombre maximum des apriori
raisonnables endvitant
lesa
priori
d6raisonnablesqui
pourraient conduire dtrop
manque de robustesse.2.
Pour r6pondre quef
nedoit
pas exigerI'information
apriori qui
ne se d6termine pasfacilement dans Ia
pratique
.3,
Le calcul de mesures de robustessedoit
6tre aussi facile que possible.Suivant
la
classificationde
Berger (1990), nous consid6rons queI'incertitude portant
sur
la
loi
a
priori
z.peut
se repr6senterpar
une classef
delois a
priori,
b laquelle a' estsuppos6e
appartenir.
Ces classes peuvent 6tre d6termin6es selon des critbres pratiques ou subjectifs.Nous allons passer en revue dans ce
qui suit
les types de classes de robustesse les plus couramment utilis6s dansla
lit6rature.Classes
de lois
conjugu6es
Ces classes sont bas6es sur les lois a
priori
conjugu6es trait6es dans le premier chapitre. Elles sont parmis les classes les plus faciles ir,utiliser
dansla
pratique, et
elles sonttypi-quement choisies pour des raisons pratiques parce qu'elle fournissent en g6n6ral des bornes explicites pour les quantit6s
d'int6r6t.
Par exemple, siX
-
N(Lt,r2)
tels eue : p1<
p
a
[tz etrl !r'
a
rl,
onpeut
consid6rerla
classe :l.:
{N(p,,rz)
:
tq <
p
3
Ltz
et
,?
<
,'
<
ri}
pour quelques valeurs sp6cifi6es
d" ltt,1t2,rl
etrl
L'avantage de ces classes est que les quantit6s a
posteriori
peuvent 6tre calcul6es $ousforme ferm6e
(pour
leslois
naturelles conjugu6es). cequi facilite Ia
minimisation
et
la maximisation des quantit6s d'int6r0t.Ces classes
sont
connues aussipar
les classes param6triqueset
elles sont donn6es eng6nrSral
par
:lp:
{P
:
p(0,u.,),
c.,'ef)}
Si
par
exernple,notre
loi
apriori
est uneg(a,
tl)
onpeut
consid6rer comme classe delois a
priori
:-
lp
:
{9(a,0)
,
al7
:
p}
-
lp
:
{8(a,0)
:
h
I a3
pr,
lz< g
<
U'}
-
lp:
{9(u,0)
:
h
9ul[] I
pt,
lz<
ulp2
<
pz]Les
critiques
d6jh, 6voqu6essur
leslois
conjugu6es s'appliquentbien
entendu dans cecadre