HAL Id: tel-00910173
https://tel.archives-ouvertes.fr/tel-00910173
Submitted on 27 Nov 2013
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Particle approximation and the Laplace method for Bayesian filtering
Paul Bui Quang
To cite this version:
Paul Bui Quang. Particle approximation and the Laplace method for Bayesian filtering. General
Mathematics [math.GM]. Université Rennes 1, 2013. English. �NNT : 2013REN1S038�. �tel-00910173�
ANNÉE 2013
THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l'Université Européenne de Bretagne
pour le grade de
DOCTEUR DE L'UNIVERSITÉ DE RENNES 1 Mention : mathématiques et applications
Ecole doctorale MATISSE présentée par
Paul Bui Quang
préparée à
ONERA centre de Palaiseau INRIA Rennes BretagneAtlantique
Approximation particulaire et méthode de Laplace
pour le ltrage bayésien
Thèse soutenue à Rennes le 1 er juillet 2013
devant le jury composé de :
Nicolas Chopin
Professeur, ENSAE / rapporteur
Branko Risti¢
Senior research scientist, DSTO / rapporteur
James Ledoux
Professeur, INSA de Rennes / examinateur
Valérie Monbet
Professeur, Université de Rennes 1 / examinateur
Nadia Oudjane
Ingénieurchercheur, EDF R&D / examinateur
François Le Gland
Directeur de recherche, INRIA / directeur de thèse
Christian Musso
Maître de recherche, ONERA / co-directeur de thèse
Myriam Vimond
Maître de conférences, ENSAI / invitée
Meri à François Le Gland et à Christian Musso pour avoir dirigé ette thèse. Leurs
ompétenes, leur rigueur sientique, leur imagination, ont été indispensables à sa
réalisation. J'ai vivement appréié travailler ave eux et j'ai beauoup appris à leurs
tés pas uniquement sur le plan sientique.
Meri àBranko Risti¢etàNiolas Chopinpour avoiraepté d'êtrerapporteursde
la thèse. Leurs remarques, leurs suggestions et les éhanges que nous avons eus m'ont
permis d'améliorersigniativement lemémoire.
Meri àJames Ledoux, Valérie Monbet, NadiaOudjane etMyriamVimondd'avoir
partiipéau jury de lathèse.
Meri aux permanents et aux dotorants de l'Onera auprès de qui j'ai travaillé
pendant plus de trois ans dans une atmosphère agréableethaleureuse.
Meri à mes parents, à mon frère, à mes amis, et à Léa, pour leur présene, leur
attention et leur soutien.
"Theworld stands on absurdities, and without them perhaps nothing at all would
happen."
Fyodor Dostoyevsky, The Brothers Karamazov (1880)
Résumé étendu 11
Ehantillonnage pondéré 21
Cas basique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Cas d'une loinon normalisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Filtrage bayésien et approximation partiulaire 27 Modèles de Markov ahé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Filtragebayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Filtragepartiulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Filtragepartiulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Changement de loid'éhantillonnage . . . . . . . . . . . . . . . . . . . 38
Introdution 41 Notations & Aronyms 45 I Preliminaries 47 1 The Laplae method: general presentation 49 1.1 Priniple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2 The Laplae method . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.2.1 Dierential alulustools. . . . . . . . . . . . . . . . . . . . . . 50
1.2.2 Statement of the general Laplaemethod . . . . . . . . . . . . . 51
1.2.3 Proofs of theorems 1.2.1and 1.2.2 . . . . . . . . . . . . . . . . . 54
2 Issues in importane sampling for Bayesian estimation 67
2.1 Bayesian modelset-up . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.1.1 Asymptotis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.1.2 Assumptions forthe Laplaemethod . . . . . . . . . . . . . . . 68
2.2 Importanesamplingfor Bayesian estimation. . . . . . . . . . . . . . . 69
2.3 High information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.4 High dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
II The Laplae method in Bayesian statistis 75 3 The Laplae method in stati models with large observation sample size 77 3.1 Model set-up,Laplaeregularity . . . . . . . . . . . . . . . . . . . . . 77
3.2 Approximation of moments . . . . . . . . . . . . . . . . . . . . . . . . 82
3.3 Proof of theorem 3.2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4 The Laplae method in dynami models with small observation noise 99 4.1 Model set-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.2 Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2.1 Approximation of densities . . . . . . . . . . . . . . . . . . . . . 105
4.2.2 Approximation of moments . . . . . . . . . . . . . . . . . . . . 107
4.3 Consisteny of the approximations . . . . . . . . . . . . . . . . . . . . 107
4.4 Propagation of the approximationerror . . . . . . . . . . . . . . . . . . 111
5 The Laplae method and Kalman ltering in dynami models with small dynamis noise 123 5.1 Model set-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.2 The Kalman Laplaelter . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.3 The Laplae Gaussianlter . . . . . . . . . . . . . . . . . . . . . . . . 128
III Partile approximation and the Laplae method in lter- ing algorithms 131 6 Importane sampling and the Laplae method in stati models 133 6.1 Importanesamplingbased onthe Laplaemethod . . . . . . . . . . . 134
6.2 Example: triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7 Partile ltering and the Laplae method in dynami models 143 7.1 Model set-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.2 Standard partile lteringand regularized partileltering . . . . . . . 144
7.2.1 Standard partileltering . . . . . . . . . . . . . . . . . . . . . 144
7.2.2 Regularized partile ltering . . . . . . . . . . . . . . . . . . . . 146
7.3 Laplae partileltering . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.3.1 Laplae approximations of the posterior moments . . . . . . . . 148
7.3.2 Samplingpartiles aording tothe Laplae approximations . . 148
7.3.3 Computationalissues . . . . . . . . . . . . . . . . . . . . . . . . 149
7.3.4 Gaussian approximation of the preditor . . . . . . . . . . . . . 151
8 Simulation experiments 157 8.1 Performane evaluationin Bayesian ltering . . . . . . . . . . . . . . . 158
8.1.1 Simulation set-up . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.1.2 Auray. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.1.3 Robustness todivergene . . . . . . . . . . . . . . . . . . . . . . 160
8.2 Bearingsonly targettraking . . . . . . . . . . . . . . . . . . . . . . . 161
8.2.1 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.2.2 Simulation parameters . . . . . . . . . . . . . . . . . . . . . . . 163
8.2.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
8.3 Ballistitarget trakingduring atmospheri reentry . . . . . . . . . . . 165
8.3.1 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.3.2 Simulation parameters . . . . . . . . . . . . . . . . . . . . . . . 169
8.3.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.4 Neural deoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.4.1 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
8.4.2 Simulation parameters . . . . . . . . . . . . . . . . . . . . . . . 174
8.4.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Conlusion 179 A Dierentiation of the log-likelihood 183 A.1 Bearingsonly targettraking . . . . . . . . . . . . . . . . . . . . . . . 183
A.2 Ballistitarget trakingduring atmospheri reentry . . . . . . . . . . . 185
A.3 Neural deoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Bibliography 187
Leltragestatistiqueest un problèmed'estimationbayésiennedans des modèlesdyna-
miques, en utilisant des observations délivrées séquentiellement. La quantité aléatoire
àestimer est appelée état, ouétat ahé. Ladynamique de l'état obéità un proessus
de Markov. Les observations sont liées à l'état à haque instant par une fontion de
vraisemblane. Le problème du ltrage existe en temps ontinu et en temps disret.
Noustravaillons dans ettethèse exlusivement ave des modèlesà tempsdisrets, qui
sont majoritairementutilisés dans lesappliations quenous onsidérons.
Plus préisément, soit
k ∈ N
l'indietemporeldisret. L'état ahé àl'instantk
estnoté
X k
et leproessus markovien{ X k } k≥0
est appelé proessus d'état. L'observation délivréeà l'instantk
est notéeY k
et leproessus{ Y k } k≥0
est appeléproessus d'obser-vation. Le proessus joint
{ X k , Y k } k≥0
est appelé modèle de Markov ahé, oumodèleà espae d'état. Les modèles de Markov ahés sont utilisés pour modéliser des phé-
nomènes dynamiques aléatoires dans de domaines variés : aérospatial et défense [Hue
etal.(2002);Ristietal.(2004);Gustafsson(2010)℄,traitementdelaparole[Juangand
Rabiner(1991)℄, ingénierie bio-médiale [Brokwellet al. (2004);Eddy (1996)℄, éono-
métrie[Chopin andPelgrin(2004);RossiandGallo(2006)℄,pour neiter quequelques
exemples.
Le ltrage onsiste à aluler à haque instant la loi a posteriori, 'est-à-dire la loi
onditionnellede l'état ourant
X k
sahant toutes les observations passéesY 0 , . . . , Y k
,µ k (dx) = P [X k ∈ dx | Y 0 , . . . , Y k ],
également appelée ltre bayésien. Les algorithmes de ltrage (ou ltres) peuvent
être réursifs ou non, les premiers étant privilégiés ar généralement plus rapides. Un
ltre réursif traite les observations une par une (à l'instant
k
, le alul deµ k
nedépend quede
Y k
etdeµ k−1
)pluttquede ré-utiliseràhaque instantlesobservations passées.Al'inverse,lesméthodesdeltragequiutilisentplusieursobservationsàhaqueinstant, dites globales,demandent plus de aluls (on peut toutefois limiter lenombre
d'observations traitées en ne onsidérant que elles délivrées à ertains instants bien
hoisis [Musso (1993); Musso and Oudjane (2005)℄).
Lorsque lemodèleest linéaireetgaussien, lasuite des ltresbayésiens estune suite
de lois gaussiennes dont l'espérane et la matrie de ovariane peuvent être alulées
exatement par leltre de Kalman[Kalman(1960)℄,qui est donla méthode optimale
danse as. Lorsque lemodèle est non-linéaire en revanhe, iln'existe pas de méthode
permettantd'obtenirde manièregénéraleleltrebayésien exat.Desalgorithmesd'ap-
proximation basés sur le ltrage de Kalman, omme le ltre de Kalman étendu ou le
ltredeKalmannon-parfumé [Arulampalametal.(2002);JulierandUhlmann(2004)℄,
donnentuneapproximationgaussiennebiaiséedu ltrebayésien.Ilspeuventdonnerde
bons résultats mais leur performane est dégradée lorsque le modèle s'éloignetrop du
as idéal linéairegaussien.
Le ltrage partiulaire permet de aluler réursivement, de manière approhée, le
ltre bayésien dans des modèles non-linéaireset non-gaussiens. Les algorithmes de l-
trage partiulaire sont des méthodes de Monte Carlo séquentielles (sequential Monte
Carlo,SMC) baséessur leprinipede l'éhantillonnagepondéré. Ilsonsistentàappro-
her,àhaqueinstant,laloiaposteriori
µ k
paruneprobabilité,notéeµ N k
,quis'exprimeommeunesomme pondérée de
N
massesde Diraentrées en des pointsaléatoiresdel'espaed'état.Ces pointssontappeléspartiules.
µ N k
onverge,sous deshypothèsesfaibles,vers
µ k
lorsque lenombre de partiulesN
tend vers l'inni [Crisanand Douet(2002); Del Moral (2004)℄. Ainsi, le ltrage partiulaire permet d'approher le ltre
bayésien arbitrairementprès lorsquela puissanede alul disponible augmente, e qui
onstitue son intérêt prinipal.
L'inonvénient du ltragepartiulairerésidedans lefaitqu'après unertain temps,
onobserve souventque seulesquelques partiules ontun poids non nul,etque lepoids
de toutes les autres est numériquement évalué à zéro. Le ltrage est alors fortement
dégradé, ar seul un petit nombre de partiules partiipentà l'approximation de la loi
a posteriori. Ce phénomène est appelé dégénéresene des poids. Il est lassique-
ment géré en ré-éhantillonnantles partiules selon leur poids, de manièreà e que les
partiulesassoiées à un poids importantsoient dupliquées et queelles assoiées àun
poidsfaiblesoientsupprimées.Cettesolutionaété initialementproposée dans[Gordon
etal.(1993)℄.
Le phénomène de dégénéresene des poids est partiulièrementsévère lorsque que
lemodèleest très informatif,par exemplelorsque l'aléasur ladynamique markovienne
est faible ou lorsque les observations sont préises [Oudjane and Musso (2000)℄. Nous
onsidérons dans ette thèse une méthode déterministe de alul intégral, la méthode
deLaplae,très utiliséeen statistiquebayésienne etqui, auontraire,est d'autantplus
eae que le modèle est informatif. La méthode de Laplae est lassiquement utili-
sée pour approher des moments a posteriori dans des modèles statiques ('est-à-dire
lorsquel'étatahé n'estpas dynamique)[TierneyandKadane(1986)℄.Sousdes ondi-
tionsde régularité etd'identiabilitédu modèle,es approximationssont onvergentes
lorsque le nombre d'observations tend vers l'inni ou, de manière équivalente, lorsque
l'intensitédu bruitd'observationtendverszéro.Dansettethèse,nousproposonsd'as-
soier la méthode de Laplae aultrage partiulaire dans le but d'améliorer laqualité
dultrage,notammentdansleasparadoxalementdiileoùlemodèle est informatif.
Méthode de Laplae
Laméthode de Laplae est uneméthode d'approximationd'intégralesmultidimension-
nelles de laforme
Z
R d
b(x)e −λh(x) dx,
(1)où
λ
est un paramètre réel telqueλ ≫ 1
.h
est supposée admettreun minimum globalen
x ˆ
,être régulièredans un voisinage dex ˆ
,de sortequeh ′ (ˆ x) = 0
etdet[h ′′ (ˆ x)] > 0
, etvérier la ondition de oerivité suivante: pour tout
δ > 0
,inf { h(x) − h(ˆ x) : | x − x ˆ | > δ } > 0.
La méthode de Laplae onsiste à onsidérer l'intégrale (1) omme l'intégrale de
b
ontre une mesure gaussienne de petite variane d'ordre
1/λ
.Pour e faire,on replaeh(x)
dans l'intégrande par son développement de Taylorau seondordre autour dex ˆ
,h(x) ≈ h(ˆ x) + 1
2 (x − x) ˆ T h ′′ (ˆ x)(x − x). ˆ
L'intégrale(1)devient alors
Z
R d
b(x)e −λh(x) dx ≈ e −λh(ˆ x) Z
R d
b(x)e − λ 2 (x−ˆ x) T h ′′ (ˆ x)(x−ˆ x)dx .
Lorsque
λ
est grand, l'intégraledeb
ontre la densitégaussienne(2π) −d/2 det [λh ′′ (ˆ x)] 1/2 exp
− λ
2 (x − x) ˆ T h ′′ (ˆ x)(x − x) ˆ
est prohe de
b(ˆ x)
.Eneet, la normede lamatriede ovariane[λh ′′ (ˆ x)] −1
est petite,e qui impliqueque la densitéest onentrée autourde son maximum. On a alors
Z
R d
b(x)e − λ 2 (x−ˆ x) T h ′′ (ˆ x)(x−ˆ x)dx ≈ (2π) d/2 b(ˆ x) det [λh ′′ (ˆ x)] −1/2 ,
etonobtientdon l'approximationde Laplae
Z
E
b(x)e −λh(x) dx ≈ (2π) d/2 b(ˆ x)e −λh(ˆ x) det [λh ′′ (ˆ x)] −1/2 .
Dans les problèmes d'estimation bayésienne, les intégrales à aluler sont souvent
de laforme
Z
R d
b(x)e −λh λ (x) dx
(2)plutt que de la forme (1). Le minimum de
h λ
dépend alors deλ
, on le notex ˆ λ
.La méthode de Laplae est également appliable mais néessite que l'hypothèse de
oerivité sur la fontion
h λ
soit uniforme enλ
: pour toutδ > 0
et pour toutλ
susamment grand,
inf { h λ (x) − h λ (ˆ x λ ) : | x − x ˆ λ | > δ } ≥ c δ
où
c δ > 0
est indépendantdeλ
.Dans lesmodèles bayésiens, leparamètre
λ
est généralement:•
la taillede l'éhantillondes observations,•
l'inverse de la variane du bruit d'observation.La méthode de Laplae est présentée dans un ontexte général et appliable aux
problèmes d'estimationbayésienne auhapitre 1.
Ehantillonnage pondéré et problématiques assoiées
L'éhantillonnagepondéréonsiste àapproher des loisde la forme
µ ∝ gη,
(3)où
η
est une probabilitéetg
une fontion positive. Dansun ontexte bayésien,η
est laloiapriori,
g
la fontionde vraisemblaneetµ
laloia posteriori.Un éhantillondeN
partiules indépendantes
(ξ 1 , . . . , ξ N )
est simulé selonη
puis pondéré selong
. Onobtient l'approximationpartiulaire de
µ
,µ N =
N
X
i=1
w i δ ξ i
où
w i = P N g(ξ i )
j=1 g(ξ j )
etoùδ ξ i
est la mesurede Diraentrée enξ i
.Un indiateurde la qualitéde l'éhantillonnagepondéréest
I =
R g(x) 2 η(dx)
R g(x)η(dx) 2 .
(4)Cette quantité est liée à la divergene du
χ 2
entre la loi d'intérêtµ
et la loi d'éhan-tillonnage
η
,puisqueχ 2 (µ, η) = I − 1
.Elleintervientdanslavarianeasymptotiquedes poids d'importane et dans la dénition de la taille eetive de l'éhantillon (eetivesamplesize).En appliquantlaméthode de Laplaeaunumérateur etaudénominateur
de (4), dans un adre asymptotique et sous des hypothèses appropriées (orrespon-
dant essentiellement à l'identiabilité du modèle statistique assoié à (3)), on obtient
l'approximation
I ≈ det
− (log g) ′′ (ˆ x) 4π
1/2
1
q(ˆ x) ,
(5)où
q
est la densité deη
etx ˆ = argmax x∈E { g(x) }
(maximum de vraisemblane). On quantiel'informationapportée par lesobservations parlamatriesymétrique etposi-tive de taille
d × d − (log g) ′′ (ˆ x)
. L'approximation (5) permet don de voirque lorsque ette information augmente (au sens où le déterminant de− (log g) ′′ (ˆ x)
augmente), laperformane de l'éhantillonnagepondéré diminue (saonvergene est plus lente). Par
ailleurs,silevolumede l'ellipsoïdedans
R d
assoiéeàlamatrie− (log g) ′′ (ˆ x)
augmenteave la dimension, alors la qualité de l'éhantillonnage pondéré se dégrade lorsque la