• Aucun résultat trouvé

Particle approximation and the Laplace method for Bayesian filtering

N/A
N/A
Protected

Academic year: 2021

Partager "Particle approximation and the Laplace method for Bayesian filtering"

Copied!
197
0
0

Texte intégral

(1)

HAL Id: tel-00910173

https://tel.archives-ouvertes.fr/tel-00910173

Submitted on 27 Nov 2013

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Particle approximation and the Laplace method for Bayesian filtering

Paul Bui Quang

To cite this version:

Paul Bui Quang. Particle approximation and the Laplace method for Bayesian filtering. General

Mathematics [math.GM]. Université Rennes 1, 2013. English. �NNT : 2013REN1S038�. �tel-00910173�

(2)

ANNÉE 2013

THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l'Université Européenne de Bretagne

pour le grade de

DOCTEUR DE L'UNIVERSITÉ DE RENNES 1 Mention : mathématiques et applications

Ecole doctorale MATISSE présentée par

Paul Bui Quang

préparée à

ONERA centre de Palaiseau INRIA Rennes BretagneAtlantique

Approximation particulaire et méthode de Laplace

pour le ltrage bayésien

Thèse soutenue à Rennes le 1 er juillet 2013

devant le jury composé de :

Nicolas Chopin

Professeur, ENSAE / rapporteur

Branko Risti¢

Senior research scientist, DSTO / rapporteur

James Ledoux

Professeur, INSA de Rennes / examinateur

Valérie Monbet

Professeur, Université de Rennes 1 / examinateur

Nadia Oudjane

Ingénieurchercheur, EDF R&D / examinateur

François Le Gland

Directeur de recherche, INRIA / directeur de thèse

Christian Musso

Maître de recherche, ONERA / co-directeur de thèse

Myriam Vimond

Maître de conférences, ENSAI / invitée

(3)
(4)

Meri à François Le Gland et à Christian Musso pour avoir dirigé ette thèse. Leurs

ompétenes, leur rigueur sientique, leur imagination, ont été indispensables à sa

réalisation. J'ai vivement appréié travailler ave eux et j'ai beauoup appris à leurs

tés pas uniquement sur le plan sientique.

Meri àBranko Risti¢etàNiolas Chopinpour avoiraepté d'êtrerapporteursde

la thèse. Leurs remarques, leurs suggestions et les éhanges que nous avons eus m'ont

permis d'améliorersigniativement lemémoire.

Meri àJames Ledoux, Valérie Monbet, NadiaOudjane etMyriamVimondd'avoir

partiipéau jury de lathèse.

Meri aux permanents et aux dotorants de l'Onera auprès de qui j'ai travaillé

pendant plus de trois ans dans une atmosphère agréableethaleureuse.

Meri à mes parents, à mon frère, à mes amis, et à Léa, pour leur présene, leur

attention et leur soutien.

(5)
(6)

"Theworld stands on absurdities, and without them perhaps nothing at all would

happen."

Fyodor Dostoyevsky, The Brothers Karamazov (1880)

(7)
(8)

Résumé étendu 11

Ehantillonnage pondéré 21

Cas basique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Cas d'une loinon normalisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Filtrage bayésien et approximation partiulaire 27 Modèles de Markov ahé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Filtragebayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Filtragepartiulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Filtragepartiulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Changement de loid'éhantillonnage . . . . . . . . . . . . . . . . . . . 38

Introdution 41 Notations & Aronyms 45 I Preliminaries 47 1 The Laplae method: general presentation 49 1.1 Priniple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

1.2 The Laplae method . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

1.2.1 Dierential alulustools. . . . . . . . . . . . . . . . . . . . . . 50

1.2.2 Statement of the general Laplaemethod . . . . . . . . . . . . . 51

1.2.3 Proofs of theorems 1.2.1and 1.2.2 . . . . . . . . . . . . . . . . . 54

(9)

2 Issues in importane sampling for Bayesian estimation 67

2.1 Bayesian modelset-up . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2.1.1 Asymptotis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2.1.2 Assumptions forthe Laplaemethod . . . . . . . . . . . . . . . 68

2.2 Importanesamplingfor Bayesian estimation. . . . . . . . . . . . . . . 69

2.3 High information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

2.4 High dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

II The Laplae method in Bayesian statistis 75 3 The Laplae method in stati models with large observation sample size 77 3.1 Model set-up,Laplaeregularity . . . . . . . . . . . . . . . . . . . . . 77

3.2 Approximation of moments . . . . . . . . . . . . . . . . . . . . . . . . 82

3.3 Proof of theorem 3.2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4 The Laplae method in dynami models with small observation noise 99 4.1 Model set-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.2 Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4.2.1 Approximation of densities . . . . . . . . . . . . . . . . . . . . . 105

4.2.2 Approximation of moments . . . . . . . . . . . . . . . . . . . . 107

4.3 Consisteny of the approximations . . . . . . . . . . . . . . . . . . . . 107

4.4 Propagation of the approximationerror . . . . . . . . . . . . . . . . . . 111

5 The Laplae method and Kalman ltering in dynami models with small dynamis noise 123 5.1 Model set-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.2 The Kalman Laplaelter . . . . . . . . . . . . . . . . . . . . . . . . . 124

5.3 The Laplae Gaussianlter . . . . . . . . . . . . . . . . . . . . . . . . 128

III Partile approximation and the Laplae method in lter- ing algorithms 131 6 Importane sampling and the Laplae method in stati models 133 6.1 Importanesamplingbased onthe Laplaemethod . . . . . . . . . . . 134

(10)

6.2 Example: triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

7 Partile ltering and the Laplae method in dynami models 143 7.1 Model set-up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

7.2 Standard partile lteringand regularized partileltering . . . . . . . 144

7.2.1 Standard partileltering . . . . . . . . . . . . . . . . . . . . . 144

7.2.2 Regularized partile ltering . . . . . . . . . . . . . . . . . . . . 146

7.3 Laplae partileltering . . . . . . . . . . . . . . . . . . . . . . . . . . 146

7.3.1 Laplae approximations of the posterior moments . . . . . . . . 148

7.3.2 Samplingpartiles aording tothe Laplae approximations . . 148

7.3.3 Computationalissues . . . . . . . . . . . . . . . . . . . . . . . . 149

7.3.4 Gaussian approximation of the preditor . . . . . . . . . . . . . 151

8 Simulation experiments 157 8.1 Performane evaluationin Bayesian ltering . . . . . . . . . . . . . . . 158

8.1.1 Simulation set-up . . . . . . . . . . . . . . . . . . . . . . . . . . 158

8.1.2 Auray. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

8.1.3 Robustness todivergene . . . . . . . . . . . . . . . . . . . . . . 160

8.2 Bearingsonly targettraking . . . . . . . . . . . . . . . . . . . . . . . 161

8.2.1 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

8.2.2 Simulation parameters . . . . . . . . . . . . . . . . . . . . . . . 163

8.2.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

8.3 Ballistitarget trakingduring atmospheri reentry . . . . . . . . . . . 165

8.3.1 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

8.3.2 Simulation parameters . . . . . . . . . . . . . . . . . . . . . . . 169

8.3.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

8.4 Neural deoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

8.4.1 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

8.4.2 Simulation parameters . . . . . . . . . . . . . . . . . . . . . . . 174

8.4.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Conlusion 179 A Dierentiation of the log-likelihood 183 A.1 Bearingsonly targettraking . . . . . . . . . . . . . . . . . . . . . . . 183

A.2 Ballistitarget trakingduring atmospheri reentry . . . . . . . . . . . 185

(11)

A.3 Neural deoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

Bibliography 187

(12)

Leltragestatistiqueest un problèmed'estimationbayésiennedans des modèlesdyna-

miques, en utilisant des observations délivrées séquentiellement. La quantité aléatoire

àestimer est appelée état, ouétat ahé. Ladynamique de l'état obéità un proessus

de Markov. Les observations sont liées à l'état à haque instant par une fontion de

vraisemblane. Le problème du ltrage existe en temps ontinu et en temps disret.

Noustravaillons dans ettethèse exlusivement ave des modèlesà tempsdisrets, qui

sont majoritairementutilisés dans lesappliations quenous onsidérons.

Plus préisément, soit

k ∈ N

l'indietemporeldisret. L'état ahé àl'instant

k

est

noté

X k

et leproessus markovien

{ X k } k≥0

est appelé proessus d'état. L'observation délivréeà l'instant

k

est notée

Y k

et leproessus

{ Y k } k≥0

est appeléproessus d'obser-

vation. Le proessus joint

{ X k , Y k } k≥0

est appelé modèle de Markov ahé, oumodèle

à espae d'état. Les modèles de Markov ahés sont utilisés pour modéliser des phé-

nomènes dynamiques aléatoires dans de domaines variés : aérospatial et défense [Hue

etal.(2002);Ristietal.(2004);Gustafsson(2010)℄,traitementdelaparole[Juangand

Rabiner(1991)℄, ingénierie bio-médiale [Brokwellet al. (2004);Eddy (1996)℄, éono-

métrie[Chopin andPelgrin(2004);RossiandGallo(2006)℄,pour neiter quequelques

exemples.

Le ltrage onsiste à aluler à haque instant la loi a posteriori, 'est-à-dire la loi

onditionnellede l'état ourant

X k

sahant toutes les observations passées

Y 0 , . . . , Y k

,

µ k (dx) = P [X k ∈ dx | Y 0 , . . . , Y k ],

également appelée ltre bayésien. Les algorithmes de ltrage (ou ltres) peuvent

être réursifs ou non, les premiers étant privilégiés ar généralement plus rapides. Un

ltre réursif traite les observations une par une l'instant

k

, le alul de

µ k

ne

dépend quede

Y k

etde

µ k−1

)pluttquede ré-utiliseràhaque instantlesobservations passées.Al'inverse,lesméthodesdeltragequiutilisentplusieursobservationsàhaque

(13)

instant, dites globales,demandent plus de aluls (on peut toutefois limiter lenombre

d'observations traitées en ne onsidérant que elles délivrées à ertains instants bien

hoisis [Musso (1993); Musso and Oudjane (2005)℄).

Lorsque lemodèleest linéaireetgaussien, lasuite des ltresbayésiens estune suite

de lois gaussiennes dont l'espérane et la matrie de ovariane peuvent être alulées

exatement par leltre de Kalman[Kalman(1960)℄,qui est donla méthode optimale

danse as. Lorsque lemodèle est non-linéaire en revanhe, iln'existe pas de méthode

permettantd'obtenirde manièregénéraleleltrebayésien exat.Desalgorithmesd'ap-

proximation basés sur le ltrage de Kalman, omme le ltre de Kalman étendu ou le

ltredeKalmannon-parfumé [Arulampalametal.(2002);JulierandUhlmann(2004)℄,

donnentuneapproximationgaussiennebiaiséedu ltrebayésien.Ilspeuventdonnerde

bons résultats mais leur performane est dégradée lorsque le modèle s'éloignetrop du

as idéal linéairegaussien.

Le ltrage partiulaire permet de aluler réursivement, de manière approhée, le

ltre bayésien dans des modèles non-linéaireset non-gaussiens. Les algorithmes de l-

trage partiulaire sont des méthodes de Monte Carlo séquentielles (sequential Monte

Carlo,SMC) baséessur leprinipede l'éhantillonnagepondéré. Ilsonsistentàappro-

her,àhaqueinstant,laloiaposteriori

µ k

paruneprobabilité,notée

µ N k

,quis'exprime

ommeunesomme pondérée de

N

massesde Diraentrées en des pointsaléatoiresde

l'espaed'état.Ces pointssontappeléspartiules.

µ N k

onverge,sous deshypothèses

faibles,vers

µ k

lorsque lenombre de partiules

N

tend vers l'inni [Crisanand Douet

(2002); Del Moral (2004)℄. Ainsi, le ltrage partiulaire permet d'approher le ltre

bayésien arbitrairementprès lorsquela puissanede alul disponible augmente, e qui

onstitue son intérêt prinipal.

L'inonvénient du ltragepartiulairerésidedans lefaitqu'après unertain temps,

onobserve souventque seulesquelques partiules ontun poids non nul,etque lepoids

de toutes les autres est numériquement évalué à zéro. Le ltrage est alors fortement

dégradé, ar seul un petit nombre de partiules partiipentà l'approximation de la loi

a posteriori. Ce phénomène est appelé dégénéresene des poids. Il est lassique-

ment géré en ré-éhantillonnantles partiules selon leur poids, de manièreà e que les

partiulesassoiées à un poids importantsoient dupliquées et queelles assoiées àun

poidsfaiblesoientsupprimées.Cettesolutionaété initialementproposée dans[Gordon

etal.(1993)℄.

Le phénomène de dégénéresene des poids est partiulièrementsévère lorsque que

(14)

lemodèleest très informatif,par exemplelorsque l'aléasur ladynamique markovienne

est faible ou lorsque les observations sont préises [Oudjane and Musso (2000)℄. Nous

onsidérons dans ette thèse une méthode déterministe de alul intégral, la méthode

deLaplae,très utiliséeen statistiquebayésienne etqui, auontraire,est d'autantplus

eae que le modèle est informatif. La méthode de Laplae est lassiquement utili-

sée pour approher des moments a posteriori dans des modèles statiques ('est-à-dire

lorsquel'étatahé n'estpas dynamique)[TierneyandKadane(1986)℄.Sousdes ondi-

tionsde régularité etd'identiabilitédu modèle,es approximationssont onvergentes

lorsque le nombre d'observations tend vers l'inni ou, de manière équivalente, lorsque

l'intensitédu bruitd'observationtendverszéro.Dansettethèse,nousproposonsd'as-

soier la méthode de Laplae aultrage partiulaire dans le but d'améliorer laqualité

dultrage,notammentdansleasparadoxalementdiilelemodèle est informatif.

Méthode de Laplae

Laméthode de Laplae est uneméthode d'approximationd'intégralesmultidimension-

nelles de laforme

Z

R d

b(x)e −λh(x) dx,

(1)

λ

est un paramètre réel telque

λ ≫ 1

.

h

est supposée admettreun minimum global

en

x ˆ

,être régulièredans un voisinage de

x ˆ

,de sorteque

h (ˆ x) = 0

et

det[h ′′ (ˆ x)] > 0

, et

vérier la ondition de oerivité suivante: pour tout

δ > 0

,

inf { h(x) − h(ˆ x) : | x − x ˆ | > δ } > 0.

La méthode de Laplae onsiste à onsidérer l'intégrale (1) omme l'intégrale de

b

ontre une mesure gaussienne de petite variane d'ordre

1/λ

.Pour e faire,on replae

h(x)

dans l'intégrande par son développement de Taylorau seondordre autour de

x ˆ

,

h(x) ≈ h(ˆ x) + 1

2 (x − x) ˆ T h ′′ (ˆ x)(x − x). ˆ

L'intégrale(1)devient alors

Z

R d

b(x)e −λh(x) dx ≈ e −λh(ˆ x) Z

R d

b(x)e λ 2 (x−ˆ x) T h ′′ x)(x−ˆ x)dx .

(15)

Lorsque

λ

est grand, l'intégralede

b

ontre la densitégaussienne

(2π) −d/2 det [λh ′′ (ˆ x)] 1/2 exp

− λ

2 (x − x) ˆ T h ′′ (ˆ x)(x − x) ˆ

est prohe de

b(ˆ x)

.Eneet, la normede lamatriede ovariane

[λh ′′ (ˆ x)] −1

est petite,

e qui impliqueque la densitéest onentrée autourde son maximum. On a alors

Z

R d

b(x)e λ 2 (x−ˆ x) T h ′′ x)(x−ˆ x)dx ≈ (2π) d/2 b(ˆ x) det [λh ′′ (ˆ x)] −1/2 ,

etonobtientdon l'approximationde Laplae

Z

E

b(x)e −λh(x) dx ≈ (2π) d/2 b(ˆ x)e −λh(ˆ x) det [λh ′′ (ˆ x)] −1/2 .

Dans les problèmes d'estimation bayésienne, les intégrales à aluler sont souvent

de laforme

Z

R d

b(x)e −λh λ (x) dx

(2)

plutt que de la forme (1). Le minimum de

h λ

dépend alors de

λ

, on le note

x ˆ λ

.

La méthode de Laplae est également appliable mais néessite que l'hypothèse de

oerivité sur la fontion

h λ

soit uniforme en

λ

: pour tout

δ > 0

et pour tout

λ

susamment grand,

inf { h λ (x) − h λ (ˆ x λ ) : | x − x ˆ λ | > δ } ≥ c δ

c δ > 0

est indépendantde

λ

.

Dans lesmodèles bayésiens, leparamètre

λ

est généralement:

la taillede l'éhantillondes observations,

l'inverse de la variane du bruit d'observation.

La méthode de Laplae est présentée dans un ontexte général et appliable aux

problèmes d'estimationbayésienne auhapitre 1.

(16)

Ehantillonnage pondéré et problématiques assoiées

L'éhantillonnagepondéréonsiste àapproher des loisde la forme

µ ∝ gη,

(3)

η

est une probabilitéet

g

une fontion positive. Dansun ontexte bayésien,

η

est la

loiapriori,

g

la fontionde vraisemblaneet

µ

laloia posteriori.Un éhantillonde

N

partiules indépendantes

1 , . . . , ξ N )

est simulé selon

η

puis pondéré selon

g

. On

obtient l'approximationpartiulaire de

µ

,

µ N =

N

X

i=1

w i δ ξ i

w i = P N g(ξ i )

j=1 g(ξ j )

et

δ ξ i

est la mesurede Diraentrée en

ξ i

.

Un indiateurde la qualitéde l'éhantillonnagepondéréest

I =

R g(x) 2 η(dx)

R g(x)η(dx) 2 .

(4)

Cette quantité est liée à la divergene du

χ 2

entre la loi d'intérêt

µ

et la loi d'éhan-

tillonnage

η

,puisque

χ 2 (µ, η) = I − 1

.Elleintervientdanslavarianeasymptotiquedes poids d'importane et dans la dénition de la taille eetive de l'éhantillon (eetive

samplesize).En appliquantlaméthode de Laplaeaunumérateur etaudénominateur

de (4), dans un adre asymptotique et sous des hypothèses appropriées (orrespon-

dant essentiellement à l'identiabilité du modèle statistique assoié à (3)), on obtient

l'approximation

I ≈ det

− (log g) ′′ (ˆ x) 4π

1/2

1

q(ˆ x) ,

(5)

q

est la densité de

η

et

x ˆ = argmax x∈E { g(x) }

(maximum de vraisemblane). On quantiel'informationapportée par lesobservations parlamatriesymétrique etposi-

tive de taille

d × d − (log g) ′′ (ˆ x)

. L'approximation (5) permet don de voirque lorsque ette information augmente (au sens le déterminant de

− (log g) ′′ (ˆ x)

augmente), la

performane de l'éhantillonnagepondéré diminue (saonvergene est plus lente). Par

ailleurs,silevolumede l'ellipsoïdedans

R d

assoiéeàlamatrie

− (log g) ′′ (ˆ x)

augmente

ave la dimension, alors la qualité de l'éhantillonnage pondéré se dégrade lorsque la

Références

Documents relatifs

In the initial step, all lists are sorted (using quicksort, average O(n log n)) and one axis is used to create initial interactions: the range between lower and upper bound for

The comparison of the presented methodology to the classical subgrid-scale model methodology on a laminar-turbulent transition test case such as the Taylor–Green vortex have also led

The artificial data is a constructed P300 wave added to real background noise got from a human brain.. This solution has fist been tested to be sure that the set of data contains

ﻥﺍﺭــﻫﻭ ﺔــﻌﻤﺎﺠ ﺔـــﻴﻋﺎﻤﺘﺠﻻﺍ ﻡﻭـﻠﻌﻟﺍ ﺔﻴﻠﻜ ﺔﻴﺒﺭﺘﻟﺍ ﻡﻭﻠﻋﻭ ﺱﻔﻨﻟﺍ ﻡﻠﻋ ﻡﺴﻗ ﻱﻭﻨﺎﺜﻟﺍ ﻡﻴﻠﻌﺘﻟﺍ ﺓﺫﺘﺎﺴﺃ ﺕﺎﻔﺼﺍﻭﻤ ﺫﻴﻤﻼﺘﻟﺍ ﺭﻅﻨ ﺔﻬﺠﻭ ﻥﻤ

Since this distribution follows a Rice PD, two methods are proposed: It is possible to apply the relations on the moments of the Rice PD or to apply the likelihood method to

As the emphasis is on the noise model selection part, we have chosen not to complicate the problem at hand by selecting an intricate model for the system, thus we have chosen to

During the autumn 2015 I worked with another project group planning a pervasive  game  in  which  the  gaming  experience  blends  with  the  physical  world 

Unit´e de recherche INRIA Rennes, Irisa, Campus universitaire de Beaulieu, 35042 RENNES Cedex Unit´e de recherche INRIA Rhˆone-Alpes, 655, avenue de l’Europe, 38330 MONTBONNOT ST