R EVUE DE STATISTIQUE APPLIQUÉE
M. L AVIELLE
E. M OULINES
Quelques exemples de problèmes inverses en statistique et en traitement du signal
Revue de statistique appliquée, tome 45, n
o4 (1997), p. 5-38
<http://www.numdam.org/item?id=RSA_1997__45_4_5_0>
© Société française de statistique, 1997, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
QUELQUES EXEMPLES DE PROBLÈMES INVERSES
EN STATISTIQUE ET EN TRAITEMENT DU SIGNAL
M.
Lavielle*,
E. Moulines*** UFR de
Mathématiques
etInformatique,
Université Paris V and CNRS URA 743, Université Paris-Sud,lavielle@math-info.univ-paris5.fr
** Ecole Nationale
Supérieure
des Télécommunications, CNRS-URA 820, 46, rue Barrault, 75634 Paris CEDEX 13,moulines @ sig. enst.fr
RÉSUMÉ
Un
problème
inverse consiste à reconstruire une série de données non observées àpartir
d’une série de données observées.
Lorsque
le modèle considéré estparamétrique, l’algorithme
EM, ou uneapproximation stochastique
de EM (SAEM) peuvent êtreenvisagés
pour estimer lesparamètres
du modèle. On montre alors quel’algorithme
SAEM converge, sous deshypothèses
très
générales,
vers un maximum de la vraisemblance des observations. Une version recuit simulé de SAEM permet même d’éviter les maximas locaux. On peut ensuite reconstruire les données manquantes en maximisant la distribution aposteriori
des données non observées (estimateur MAP). Desapplications
en déconvolution sontprésentées.
Il arrive enfin que dans certainsproblèmes,
la reconstruction des données manquantes et l’estimation de certainsparamètres
soient effectuées simultanément. On définit alors une fonctionglobale
à minimiser.Des
applications
enclustering
et en détection de ruptures sontproposées. Quelques
résultatsasymptotiques
pour l’estimateur des instants de ruptures peuvent être obtenus.Mots-clés : Problème inverse,
algorithme
EM,approximation stochastique,
recuit simulé, déconvolution, détection de ruptures.ABSTRACT
An inverse
problem
consists inrecovering
a set of non-observed data from a set of observed data. When the model isparametric,
EMalgorithm,
or a stochasticapproximation
version of EM
(SAEM),
can beproposed
to estimate the parameters of the model. We show that SAEM converges towards a maximum of the observed likelihood. A simulatedannealing
version of SAEM avoids convergence towards a local maximum. The non observed data can
be recovered
by maximizing
theposterior
distribution (MAP estimate). Someapplications
indeconvolution are
presented.
In some contexts, the recovery of the non observed data and the estimation of the parameters of the model areperformed simultaneously by minimizing
an
objective
function. Someapplications
inclustering
andçhange-points
detection aregiven.
Some
asymptotical
results can be obtainedconceming
the estimation ofchange-points.
Keywords :
Inverseproblem,
EMalgorithm,
stochasticapproximation,
simulatedannealing,
deconvolution, detectionof change-points.
1. Introduction
Dans de très nombreuses
situations,
enstatistique,
en traitement dusignal,
ou entraitement de
l’image,
on cherche à reconstruire une série de données non observées àpartir
d’une série de données observées. Cetype
deproblème
est ce que l’onappelle
un
problème
inverse.Nous
noterons y
la série des observations et _z celle des données à reconstruire.Nous considérons
ici que
lephénomène physique qui
fait intervenir ces deux sériespeut
se modéliser en faisant intervenir certainsparamètres,
c’est-à-dire que le modèlemathématique sous-jacent
estparamétrique :
le
paramètre o prenant
ses valeurs dans un certain ouvert G de IRP.Les
problèmes qui
seposent
sont alors les suivants :1)
Choisir le modèle H Modélisation2)
Estimer 8Identification 3) Estimer z
ReconstructionNous n’aborderons pas ici le
problème
du choix dumodèle,
c’est-à-dire que seule l’estimation de o etde z
nous intéressera. Pour tenter de résoudre ce doubleproblème,
nousadopterons
uneapproche probabiliste :
on considère quey
et z sont la réalisation d’uncouple
de variables aléatoires(Y, Z)
définies sur un certain espace deprobabilité
et à valeurs dans un espacey
x Z. Deplus,
on supposequ’un
bruitaléatoire E est
présent;
le modèleprobabiliste
a alors la formegénérale :
Les
exemples
deproblèmes
inverses sont nombreux :2022 En
statistique,
lesproblèmes
demélange
depopulation (clustering)
ou de détectionde
points
aberrants(outliers)
ont étéparticulièrement
étudiés[4, 25, 27, 40].
On estconfronté là à un
problème
declassification
et Z est un processus de «label» :Zi indique
dequelle population provient
l’observationYi.
Lesproblèmes
de classification ontdépassé
le cadre del’analyse
dedonnées,
pour devenir unproblème majeur
entraitement de
l’image (Z
est souvent modélisé par unchamp
de Markov[3, 24]),
comme en
signal (Z
est alors une chaîne de Markov cachée[36]).
2022 En traitement du
signal,
Zpeut
modéliser lessignaux
émis et Y lessignaux
reçus,c modélise les erreurs de mesure, c’est alors un bruit additif.
Citons,
parexemple,
lesmodèles de convolution Y =
f
* Z + é, oùf
est un filtre de convolution[ 16, 18, 29, 30, 39],
ou les modèles deséparation
de sources Y = AZ + é, où A est une matrice demélange [9, 20, 26].
2022 En traitement du
signal
comme en traitement del’image,
lesproblèmes
desegmentation
sont aussi desproblèmes
inverses d’intérêt toutparticulier.
Leproblème
consiste à
segmenter
unsignal
ensegments homogènes (stationnaires) [ 1, 8, 15, 31,
35],
ou uneimage
en zoneshomogènes [38];
Z modélise un processus deruptures
en
signal
et un processus de bords enimage.
Plusieurs
approches peuvent
êtreenvisagées
pour résoudre cetype
deproblèmes.
Dans un cadre
purement bayésien,
parexemple,
leparamètre o
est considéré commeune variable aléatoire et le
couple (8, Z)
est muni d’une distribution apriori.
Oncherche alors à estimer la distribution a
posteriori
de((), Z),
c’est-à-dire condition- nellement aux observations. Pour estimer cette distribution aposteriori,
onpeut
avoirrecours à un
algorithme
de Monte-Carlo par chaînes de Markov(MCMC)
detype Hastings-Metropolis
ou échantilloneur de Gibbs[21, 23, 24, 37]. Signalons
toute-fois que les méthodes MCMC
présentent
souventl’inconvénient,
dans le cadre deproblèmes
degrandes dimensions,
de ne pas êtreaccompagnées
deprocédures
satis-faisantes de contrôle de leur convergence vers la loi stationnaire. Nous ne pouvons bien sûr pas
présenter
defaçon
exhaustive toutes les méthodes de résolution deproblème
inverse.
L’approche bayésienne
n’est donc pas traitéeici,
bienqu’elle puisse apporter
des informations très utiles dansbeaucoup d’applications.
Nous avons choisi de nous
placer
ici dans un contexte où lesparamètres
dumodèle et les données
manquantes
sont estimés«ponctuellement»,
comme fonctiondes observations. Un statisticien aimerait bien sûr que ces estimateurs
possèdent
de bonnes
propriétés statistiques.
C’estpourquoi,
parexemple,
lesparamètres
dumodèle sont estimés au sens du maximum de vraisemblance. Le
problème
que nousnous posons alors ici n’est pas l’étude des
propriétés
de cetestimateur,
maisplutôt
lemoyen de le calculer.
Il arrive bien souvent que certains
algorithmes
utilisés dans lapratique
donnentde très bons
résultats,
mais soient difficiles àjustifier
par la théorie. D’un autrecôté,
certains estimateursprésentant
de bonnespropriétés théoriques,
s’avèrent être inutilisables enpratique,
la taille des observations étanttrop petite,
parexemple,
pour
pouvoir
considérer quel’asymptotique
est atteinte. La démarcheadoptée
iciconsiste à essayer de mettre en oeuvre des méthodes
qui
donnent de bons résultatssur des simulations comme sur des données réelles. Une fois ces méthodes
jugées performantes,
ilpeut
alors être intéressant de lesjustifier grâce
à des résultatsthéoriques.
Nous considérerons essentiellement trois
types
de situations dans cet article. Lapartie
2 est consacrée à l’estimation desparamètres
par maximum de vraisemblance.Lorsque l’algorithme
EMproposé
par Demster et al.[ 14]
nepeut
être mis en oeuvre, des versionsstochastiques
de EM s’avèrent trèsperformantes, [11, 12, 32, 41].
Malheureusement,
peu de résultatsthéoriques
concernant cesalgorithmes
ont étéétablis à ce
jour.
Nous proposons ici une nouvelleapproximation stochastique
deEM pour
lesquels
des résultatsprécis
de convergence sont obtenus.L’asymptotique
ne
porte
pas ici sur la taille desobservations,
mais sur le nombre d’itérations. En utilisant des résultats sur lesalgorithmes stochastiques [ 17],
nous montrons sous deshypothèses
trèsgénérales
la convergencepresque-sûre
del’algorithme
SAEM versun maximum local de la vraisemblance. Une version recuit simulé de cet
algorithme
permet la convergence vers le maximum
global.
Lorsque
lesparamètres
du modèle sont fixés(soit
parcequ’ils
sont connus, soit parcequ’ils
ont étéestimés),
nous nous intéressons dans lapartie
3 à la reconstruction des donnéesmanquantes.
L’estimateur MAP(Maximum
aPosteriori)
maximisela distribution a
posteriori
des donnéesmanquantes.
C’est-à-dire en minimisantune fonction
qui
tientcompte
à la fois del’ajustement
aux observations et d’une information apriori
que l’on veut introduire. Dans cetype
de situation tout-à-faitclassique,
on se trouve face à unproblème
essentiel : comment déterminer lespoids
relatifs donnés à ces différents critères? Aucune
procédure automatique
ne s’avèreréellement satisfaisante et ces méthodes montrent là leurs limites : il faut souvent se contenter de
«régler»
cespoids
afin que la solution obtenuecorresponde
autype
de solution cherchée(remarquons
à cette occasion que leshyper-paramètres
du modèlesont aussi fixés arbitrairement dans les méthodes
bayésiennes).
Nous étudionsplus particulièrement
les modèles de déconvolution à titred’exemple.
Finalement,
la Section 4 traite des modèles où lesparamètres
et les donnéesmanquantes
sont estimés simultanément. Là encore, les estimateurs sont obtenus enminimisant une fonction
qui
tientcompte
de différents critères et nepossèdent
pastoujours
depropriétés statistiques particulières.
Dans unproblème
declustering,
parexemple,
iln’y
a aucune raison pour que laproportion
d’observations bien classéesaugmente
avec le nombre d’observations. Par contre, dans un cadre de détection deruptures
dans la moyenne d’un processusaléatoire,
nous montrons que l’estimateur des moindres carréspénalisés
converge vers la véritableconfiguration
deruptures lorsque
le nombre deruptures
est inconnu.2. Identification du modèle
Nous cherchons dans un
premier temps
à estimer leparamètre o
E Q. Notonsy
=(yl, ... , yn)
les valeurs observées(les
y2 étant éventuellementvectoriels)
et{jMV
l’estimateur du maximum de vraisemblance de (). Notons
g(y; ())
la vraisemblance des observations aupoint o; {jMV
est la valeur de 6 laplus
vraisemblable au vu desobservations,
c’est-à-dire :On notera
f(y, z; 0)
la vraisemblancecomplète
etk(z|y; 0)
la vraisemblance conditionnelle de z. Dans tous lesproblèmes
que nousétudions,
la maximisation deg(y; 0)
estcompliquée,
contrairement à celle def(y,z; 0).
L’algorithme EM, [14],
maximiseg(y; 0)
en maximisant itérativement lesespérances
conditionnelles delog f (y, Z; 03B8). Chaque
itération del’algorithme
EMest
décomposée
en deuxétapes :
àl’itération k
+1, l’étape
E consiste à évaluerl’espérance
delog f ( y, Z; 0)
conditionnellement à Y = y et avec la valeur courante03B8k :
- -
L’étape
M consiste à calculer03B8k+1
E 6qui
maximiseQ(03B8k, 0) -
Sous certaines
hypothèses,
on montre que la suite{g(y; Ok) 1
est croissante et que la suite10k 1
converge vers unpoint
()*qui
est unpoint
stationnaire de g, c’est- à-dire tel queD03B8g(y; 0*)
=0,
oùDog
est legradient
de g. Cepoint peut
être unmaximum
local,
unpoint-selle,
ou même unminimum,
suivant lepoint
initial choisi[42].
2.1.
L’algorithme
SAEMTrès souvent,
l’étape
E nepeut
pas être mise en oeuvre car la loi aposteriori
de Zest
compliquée (déconvolution, séparation
desources, ... )
et une versionstochastique
doit être utilisée. Ce
type
deprocédure
donne souvent de bons résultats dans laprati-
que.
Ainsi,
Wei et Tanner[41] proposent
un Monte-Carlo EM(MCEM)
danslequel
le calcul de
l’espérance
conditionnelle estapproché
par un Monte-Carlo. Celeux et Diebolt ontproposé l’algorithme
SEM dans un cadre demélanges, [ 11,12] .
Laviellea
également
utilisé SEM pour estimer defaçon paramétrique
etnon-paramétrique
ladensité de données non
observées, [32].
Younes aproposé
unalgorithme
stochasti-que d’estimation pour des
champs
de Gibbs[43].
Les résultatsthéoriques
concernantces
algorithmes
sont malheureusement assezlimités,
nes’appliquant
que sous des conditions difficiles àvérifier, [5, 12].
Dans
[33],
nous proposons de substituer àl’étape
E del’algorithme
EM uneapproximation stochastique
et uneétape
de simulation de Monte-Carlo. Comme nous allons levoir,
celapermet
d’obtenir des résultatsprécis
de convergence sous deshypothèses
trèsgénérales.
Nous supposerons dans la suite que la vraisemblance
complète
est detype exponentielle
courbe. Un peuplus précisément,
nous feronsl’hypothèse
suivante :(Hl)
L’ensemble 0 est un ouvert de IRP. Les donnéescomplètes (Y, Z)
ont unedensité de la forme :
où
S
est une fonction mesurable à valeurs dans un convexe fermé S CIR"2, 03C8 : ~ ~ IR et ~ : ~ ~ IRm,
sont des fonctions deux fois continuement différentiables en B.Remarquons
que sous(Hl), l’étape
E del’algorithme
EM consiste à calculerpuisque
le resteEy03B8k r(y,z)
n’est pas fonction de o.A l’itération k + 1 de
l’algorithme SAEM,
lesétapes
sont les suivantes :e Simulation : on
génère m (k)
réalisationsindépendantes zk(j) ( j
=1, " ’, m(k))
des données
manquantes
sous la loi aposteriori k(z|y; 03B8k).
e
Approximation Stochastique :
on réactualisel’approximation
de lastatistique
exhaustive :
où
S(y,zk(j))
E S est lastatistique
exhaustive du modèlecomplet
calculée aupoint (y,zk(j))
et où{rk}
est uneséquence positive
de pas décroissants tel queL rk = ~ et 03A3 03B32k
oo.. Maximisation : on calcule
03B8k+1
E equi
maximise la vraisemblancecomplète
aupointai :
Pour
comprendre
cetalgorithme,
il est intéressant d’écrire(7)
sous la forme d’unalgorithme
degradient stochastique [17,22].
Pourcela,
posonsOn
peut
alors montrer que :L’algorithme
cherche alors à résoudreh (s)
=0,
c’est-à-direVs log g (y; 8 (s) )
=0,
oùVs log g
est le vecteur des dérivéespartielles
delog g
parrapport à
s. Celasignifie
donc quel’ appoximation stochastique
de lastatistique
exhaustive du modèlecomplet
se fait suivant un schéma detype gradient stochastique
avecgain
matriciel.Si l’on étudie maintenant la convergence de la suite
03B8k,
on en déduit que :où
D203B8 log g
est la matrice des dérivées secondes delog g
et oùL’estimation de 8 se fait donc aussi suivant un shéma de
type gradient stochastique
avecgain
matriciel. Deplus
cegain
matriciel sedécompose
en unproduit
de deux matrices : la matrice inverse des dérivées secondes delog 9 (ce qui correspondrait
à unalgorithme
detype Newton-Raphson,
doncoptimal
en termesde vitesse de
convergence)
et la matriceR(03B8k), qui
est lerapport
des informations de Fisher entre le modèleincomplet
et le modèlecomplet. Donc, plus
cette matriceest
proche
del’identité,
etplus l’algorithme
estproche
d’unalgorithme
de Newton-Raphson.
En
fait,
des résultatsprécis
de convergence de la suite{ ()k} peuvent
être obtenussous les
hypothèses
suivantes :(H2)
b9 e eEy03B8~(y, Z) 1 ~
oo , f =1, 2.
Deplus,
onpeut
différencier deux fois sous lesigne
somme la relation(H3)
La suite{03B3k}
vérifie , Le nombre desimulations
m (k)
tend vers une constante : k-oclimm (k)
= m.o - 0
(H4) Dans S (intérieur
deS),
il existe unefonction 6
S ~0,
telle que :où, pour y fixé,
L : S x ~ ~ IR est(à
une constanteprès)
lalog-vraisemblance complète :
De
plus,
pour tout 5 ES, la matrice des dérivées secondes deL, D203B8L(s; (s)),
- 0
est définie
négative.
La fonction0(s)
est deux fois différentiable sur S et continue sur S.(H5)
Les variables aléatoiresZk(j), k ~ 0, 1 j m(k),
sontindépendantes
etdistribuées suivant la loi
k(z|y; 03B8k).
Notons que sous
(H1 )- (H4), l’étape
M del’algorithme
consiste à calculer l’estimateur du maximum de vraisemblance de 0 :()k+I
=(Sk+1).
En utilisant les résultats sur la convergence des
algorithmes stochastiques, [ 13, 17, 19, 33],
nous avons le théorème suivant :Théorème 2.1 Si les
hypothèses (Hl)-(H5)
sontvérifiées
et si la suite{Sk}
restedans un compact 1C de S avec
probabilité 1,
alors la suitet Ok 1
converge presque- sûrement vers unpoint
stationnaire de la vraisemblance g.Sous
quelques hypothèses supplémentaires,
on montre, en utilisant les résultats de[7],
quel’algorithme
nepeut
converger que vers les maxima(éventuellement
locaux)
de la vraisemblance :0 0
(H6)
Pour tout s E S, il existe unvoisinage
ouvert non videYV (s)
C S oùEs (S(y, Z))
est deux fois continument différentiable.-
(H7)
Pour tout 03B8appartenant
à uncompact
JC c6,
laplus petite
valeur propre de la matriceEoy (S(y, Z) - Ey03B8 S(y, Z)) (S(y, Z) - Ey03B8 S(y, Z))’
est minorée parune constante strictement
positive (ici,
M’ est latransposée
deM).
(H8)
Les solutions dans S del’équation D03B8g(y; 03B8(s))
= 0 sont despoints
isolés.Théorème 2.2 Si les
hypothèses (Hl) - (H8)
sontvérifiées
et si la suite{Sk}
restedans un compact lC de S avec
probabilité 1,
alors la suite1 Ok 1
converge presque- sûrement vers un maximum(éventuellement local)
de la vraisemblance(péna- lisée)
g.Stabilisation : Dans de nombreuses
applications,
la suite{Sk}
n’est pas bornéenaturellement,
onpeut
toutefois donnerquelques
critèresqui
assurent lapropriété
deS-compacité [13, 33].
Lemme 2.3 On suppose que les conditions
(HI)-(H5)
sontvérifiées.
On suppose deplus : (i) il
existeR0 ~ 0,
tel que, pour toutR ~ Ro,
l’ensembleSR
=t 8
E S :R ~ g (y ; (s))}
est compact,(ii)
limq(y, (Sk)) > Ro
avec probabilité
1. Alors,
la
{Sk}
estS-compacte
avecprobabilité
1.Bien souvent,
(i)
est vérifiée car la vraisemblanceincomplète g(y; (s))}
tend vers 0
lorsque ~s~
~ oo. Dans ce cas, vérifier(ii)
revient à montrer quelim ~Sk~
oo. Onpeut
alors avoir recours au lemme suivant :Lemme 2.4 On suppose
qu’il
existe une constanteA ~
0 telle que la condition~Sk-1~
> Aimplique Ey(Sk-1) (~Sk~)
~IlSk-111
avecprobabilité
1.Alors,
limllBk Il
~.2.2. Une version recuit simulé de
l’algorithme
SAEMLe théorème
précédent
nous assure quel’algorithme
converge vers un maximum de lavraisemblance,
mais pas nécessairement vers le maximumglobal
si cettevraisemblance n’est pas concave. Une version recuit simulé de
l’algorithme
SAEMpeut
alors êtreenvisagée.
Rappelons
quel’algorithme
de recuit simulé est uneprocédure
itératived’op-
timisation
[17, 24, 28].
La fonction àoptimiser peut
être définie sur un ensemble fini de trèsgrande dimension, auquel
cas, on est confronté à unproblème
combinatoire difficile. Simaintenant,
cette fonction est définie sur IRn etcomporte
ungrand
nom-bre de maxima
locaux,
le recuit simulépermet
aux itérations de sortir des bassins d’attaction des maxima locaux afin de converger vers le maximaglobal.
L’algorithme
de recuit simulé«classique»
consiste ici àrajouter
dans(7)
un bruitblanc dont la variance décroît lentement. En utilisant
(10),
cela revient à construirel’algorithme
suivant :où
{03BEk}
est une suite de vecteurs aléatoiresindépendants
et de loigaussienne
centréede covariance
identité, indépendante
de so[17, 22].
Onpeut
alors obtenir des résultats de convergence pour cetype d’algorithme
suivant les vitesses de décroissance des suites{03B3k}
et{ck}.
Malheureusement,
cettestratégie
ne convient pasici, puisque
la nouvelle valeur de lastatistique
sk+1n’appartient plus
nécessairement au convexe Slorsque
l’onrajoute
un bruitgaussien isotrope (cela peut
conduire à estimer des variancesnéga-
tives
...).
Considérons
l’exemple
du modèle deconvolution y
=f
* z + aéé, où 03B5 est unbruit blanc
gaussien
de variance1,
et supposons que l’on cherche à estimer le filtref
et la varianceu e 2.
Les différents maxima de la vraisemblancecorrespondent
auxdifférentes
phases
du filtref.
Enparticulier,
si Z estgaussien,
on nepeut espérer
estimer cette
phase :
la vraisemblance est invariante parchangement
dephase,
pour des filtresayant
même fonction de transfert. Par contre, si Z n’est pasgaussien,
onpeut espérer
retrouver laphase
par maximum de vraisemblance.L’algorithme
consiste à modifier artificiellement la variance du bruit en défi- nissant un nouveaumodèle y
=f * z
+(aé
+Tk)e,
où la suiteTk
décroît lentementvers 0. A
chaque itération,
on simule les donnéesmanquantes
avec une «fausse» loia
posteriori ;
cette loi estdispersée
au cours despremières itérations,
afin d’éviter les maxima locaux de la vraisemblance.Lorsque
T estproche
de0,
on retrouve la bonneloi et on converge vers le maximum de la vraisemblance des observations.
On propose en
Figure
1 les résultats d’une simulation. Dans cetexemple,
lesZi
sont des v.a.i.i.d.,
dont la loi est unmélange
de deuxgaussiennes centrées,
devariances différentes. La variance
o,, 2
est telle que lerapport
des variances dusignal
et du bruit vaut 10. Le filtre à estimer est de
longueur 21;
l’initialisation est unpic placé
en 5. Ondispose
de n = 1000 observations. Sans recuit(en posant Tk = 0), l’algorithme
converge vers le maximum leplus proche,
c’est-à-dire vers un filtre dont laphase dépend
dupoint initial,
alors que la version «recuit» donne ici une excellenteestimation, puisque
la bonnephase
est estimée.3. Reconstruction des données
manquantes
3.1. L’estimateur MAP
(Maximum
aPosteriori)
Lorsque
le modèle a été identifié(soit
parceque o
est connu, soit parcequ’ il
a étéestimé,
soit parcequ’il
a été fixé à une valeurarbitraire),
on est amené à reconstruire les donnéesmanquantes
z. Dans lesproblèmes
que nous considéronsici,
il n’estpas
possible
«d’inverser» H défini dans(1)
pour calculer directement z. En d’autres termes, ungrand
nombrede z
sont candidats comme solution : leproblème
est unproblème
malposé.
Plusieursapproches
sont alorsenvisageables,
suivant letype
FIGURE 1
Estimation
du filtre
de convolution avecl’algorithme
SAEM(a)
Filtreoriginal
et initialisation(pic
en5),
(b)
Estimation par SAEM sans recuit,(c)
Estimation par SAEM avec recuitd’application :
onpeut
chercher à estimer les distributionsmarginales
aposteriori
k(zi 1 y; 0)
pour tout i. Onpeut
aussi être conduit à obtenir une estimationponctuelle de z,
c’est-à-dire à choisir un zparticulier
dans Z. C’est cetype d’approche
que nousprivilègerons
ici. Leprincipe
pourreconstruire z
est alors le suivant :1)
on définit des critères de bonnereconstruction, 2)
onchoisit z E
Zqui
estoptimal
pour ces critères.Dans les méthodes
bayésiennes
dereconstruction,
les critères doivent :- être liés aux observations : on cherche une solution
qui ajuste
le mieuxpossible
les
observations,
- être liés à l’information a
priori
dont ondispose,
ou autype
de solution que l’on souhaite favoriser.La combinaison de ces différents critères nous amène tout naturellement à considérer la distribution a
posteriori
des variablesmanquantes. Ainsi,
choisir la valeurde z
laplus
vraisemblable au vu des observations et pour une valeur donnéede 03B8 nous amène à calculer l’estimateur du MAP
(Maximum
aPosteriori) :
où h est la vraisemblance conditionnelle de
y
etdépend
d’unparamètre 03B81,
tandis que7r est la distribution a
priori
de z etdépend d’un paramètre 03B82 (on
adécomposé
icile
paramètre 03B8
en o =(03B81, 03B82)
où03B81
est lié à h tandis que03B82
est lié à7r).
Notons que cette distribution aposteriori
nepermet
pas seulement dereconstruire z
en cherchantson
mode,
mais aussi d’évaluer laprobabilité
d’avoirn’importe quelle configuration
z en calculant
k(z|y; 0).
L’ensemble des modèles que nous étudions sont des modèles
exponentiels,
telsque les densités h et 7r
peuvent
s’écrire sous la forme :où
Ci (01)
etC2(03B82)
sont des constantes de normalisation etU 1
etU2
des fonctionsappelées énergies
ou contrastes.Donc, d’après (15)
et(16),
l’estimateur du MAP minimisel’énergie
totale U =U1
+U2 :
pour y et Bfixés,
Dans le calcul du
MAP, l’approche probabiliste
sert essentiellement à construireune «bonne» fonction
d’énergie
àminimiser,
c’est-à-direpermettant
d’obtenir une solution«optimale»
pour certains critères. D’un autrecoté,
les méthodes déterministes consistentgénéralement
à construiredirectement,
et «à lamain»,
une fonction à minimiserqui
tiennecompte
del’ajustement
aux observations et dutype
de solution que l’on souhaite obtenir.Ainsi,
même si ces deuxapproches
de reconstructionont souvent été
opposées,
elles sont tout à fait similaires. Dans lepremier
cas, unmodèle
probabiliste permet
de définir des distributions deprobabilité
apriori
eta
posteriori
pour se ramener ensuite à unproblème
déterministe de minimisationd’énergie lorsqu’il s’agit
de calculer le MAP. Dans le second cas, on construit une fonction à minimiserqui peut
éventuellements’interpréter
en termes de distributions deprobabilité.
La fonction à minimiser U est rarement convexe. On
peut
alors utiliser unalgorithme
de recuit simulé pour minimiser U. L’idée de cetalgorithme stochastique
consiste à définir une suite de lois a
posteriori {kn}n > 0
paroù
Tn ~
0. On remarque alors quekn ~ Uo
oùUo
est la distribution uniformesur l’ensemble des minima
globaux
deU(·y;03B8).
On suppose maintenant que l’on sait simulerkn,
pourTn
constant, en utilisant unedynamique
detype Metropolis (ou
échantilloneur deGibbs). L’algorithme
de recuit consiste alors à faire décroître lentement àchaque
itération deMetropolis (ou Gibbs)
latempérature Tn
vers 0. Onpeut alors,
dans certains cas, obtenir des résultatsthéoriques précis
de convergence, suivant le schéma detempérature
utilisé[10, 24].
Notons
qu’il
existeégalement
desalgorithmes
déterministes pour minimiser des fonctions non convexes, commel’algorithme GNC,
mais dont l’utilisation restespécifique
à telle où telleapplication
et pourlesquels
il n’existe pas de résultatsthéoriques généraux [6].
Signalons
pour finir que d’autres estimateursbayésiens
existent : l’ICM(Iterative
ConditionnalMode) peut s’interpréter
comme unalgorithme
de gra- dient : oncherche,
par maximisations successives des distributions conditionnellesk(zi |y, zj j ~ i; 0),
à converger vers un maxima local de la distribution aposteriori
k(z|y; 0).
Le MPM(Marginal
PosteriorMode)
maximise les distributionsmarginales
a
posteriori k(zi 1 y; 0).
3.2.
Exemple : la
déconvolution Dans le modèle de convolutionla série des
signaux émis z
est bien sûrinconnue;
on cherche à la reconstruire àpartir
de la série des
signaux
reçus y.f
est un filtre àréponse impulsionnelle
finie et 03B5 est un bruit blancgaussien
devariance
1. On a donc .L’estimateur MAP
de z
est donc obtenu en minimisant la fonctiond’énergie
U définie par:
où
U2(z; 02) dépend
de la distribution apriori
03C0 dessignaux
émis.Voyons quelques exemples :
Déconvolution de
signaux uniformément
distribués :Supposons
que lessignaux
émissont
indépendants
etprennent
leurs valeurs dans un ensemble E(cercle unitaire, alphabet fini, etc.)
avec une distribution uniforme. Si n est le nombre designaux émis,
l’ensemble desconfigurations possibles
est ici Z =E~n, U2
est une fonctionconstante
et z
est défini par :(Pour
ne pas alourdir lesnotations,
ladépendance de z
vis-à-vis de 03B8 etde y
est
implicite).
Si cette modélisation apriori
de z est raisonnable encommunication numérique,
ce n’estplus
le cas engéophysique,
enimagerie
médicale ou en contrôlenon-destructif,
où zreprésente
des coefficients de réflexion[30].
Ces coefficients de réflexion sont souvent modélisés par des variables Bemoulli-Gaussiennes.Déconvolution de
signaux
Bemoulli-Gaussiens[30] : Supposons
maintenant que la distribution desZi
est la combinaison d’une distribution 03B4 - Dirac en 0 et d’une distributiongaussienne
centrée :où
0
p 1. On montre que la fonction à minimiser définie dans(22)
devient :où no
(z)
est le nombre de termes nuls dans lasérie z
etK(p)
une fonction décroissantedep:
Les trois termes de cette fonction sont faciles à
interpréter :
on cherche àminimiser l’erreur
quadratique totale,
tout en contrôlant lesamplitudes
et le nombredes
signaux
non nuls.Un
exemple
estproposé
enFigure
2. Lessignaux originaux (Figure 2-b)
ontété convolués avec le filtre
(Figure 2-a)
et un bruit blancgaussien
a étérajouté
avecun
rapport Signal/Bruit
de lOdB(cela signifie
que la variance dusignal
est 10 foiscelle du
bruit).
Onpeut
constater au vu des résultats que l’estimateur MAP est ici trèsproche
de laconfiguration originale.
Ce
type
de méthodepeut
êtreenvisagée
avec des distributions apriori plus complexes.
Onpeut
ainsi considérer que lessignaux zi
sont corrélés. D’autrepart,
la déconvolution 1-Dpeut
être étendue à la déconvolution 2-D. Cela sejustifie
engéophysique,
parexemple.
Déconvolution 2-D de traces
sismiques [29] :
Les observations sont ici les tracessismiques qui
donnent uneimage
2-D du sous-sol. Enpremière approximation,
onpeut
modéliser les tracessismiques
comme la convolution d’une onde émisef
avecla série des coefficients de réflexion du sous-sol. Un bruit de mesure additif 6- est
présent.
La structure de couches du sous-sol et la continuité latérale des coefficients de réflexion nous conduisent à construire une distribution apriori
de Zplus complexe
que dans les
exemples précédents.
D’autrepart,
la distribution Bemoulli-Gaussienne n’estplus adaptée ici, puisqu’elle supposerait
des couchesparfaitement
uniformes(sans
aucune réflexion entre deuxinterfaces).
Nous allons en fait considérer deux
types
de réflecteurs : les réflecteursprincipaux, qui indiquent
leschangements
decouche,
et les réflecteurssecondaires,
qui indiquent
lespetites
réflexions à l’intérieur des couches. On introduit unchamp
FIGURE 2
Déconvolution de
signaux
Bernoulli-Gaussiens(a) :
lefiltre
de convolutionutilisé, (b) :
lessignaux originaux (1)
et estimés(o).
de Markov
Q
={qs}s~S
à valeurs dans{0, 1},
et où S CZ2,
pour modéliser ladisposition
des différentstypes
de réflecteurs :où 03B2 > 0.
Ici, Qs -
0(resp. Qs = 1)
si le réflecteur au site s est secondaire(resp.
principal).
Leproblème
est d’autantplus compliqué
que lesystème
devoisinages
n’est pas
homogène
dans cetexemple,
pour tenircompte
des variations depente
dans leslignes
deréflecteurs,
lesbifurcations,
lesfailles,
etc.Si
Qi = 0, Zi
est une variablegaussienne
de varianceu2
alors que siQ = 1, Zi
est une variablegaussienne
de varianceaî (avec aî
>03C320).
Toute cetteétape
demodélisation
permet
d’écrire la vraisemblance aposteriori
ducouple (Q, Z)
et decalculer la fonction U à minimiser en fonction des différents
paramètres :
Donc
où.
Chaque
terme de(29)
est directement relié à un critère de bonne reconstruction.Le
premier
terme contrôlel’ajustement
auxobservations,
le second le nombre de réflecteursprincipaux,
le troisième la continuité latérale des réflecteursprincipaux,
lesdeux derniers contrôlent les
amplitudes
des coefficients de réflexion. Les coefficientsÀi indiquent
lespoids
relatifs que l’on donne à ces critères.Dans cet
exemple,
comme dansbeaucoup
desituations,
l’ensemble des pa- ramètres nepeut
être estimé defaçon
satisfaisante. Eneffet,
il est difficile ici de calculer l’ estimateur de vraisemblance de03B8,
la forme de la vraisemblanceincomplète
étant
particulièrement compliquée.
Unalgorithme
detype
SAEMpeut
être mis enoeuvre pour estimer certains
paramètres
comme le filtref,
mais l’estimation de a,/?,
u 0 2
etar
est mauvaise(certaines hypothèses
assurant la convergence de SAEM ne sont pasvérifiées, présence
de très nombreux maximaslocaux, problèmes
d’identifia-bilité, etc.).
Deplus,
le choix de l’estimateur du maximum de vraisemblance n’est pas forcément le meilleur pour certains critères. Il arrive donc que certainsparamètres
nesoient pas
estimés,
mais fixés arbitrairement à des valeursqui
donnent une solutionacceptable
pour l’oeil duspécialiste.
Posons À =
(Ai, À2, 03BB3, A4, 03BB5).
Dans cetexemple, f
estestimé,
et donc fixé àsa valeur estimée. Tout cela nous conduit à
paramétrer
la fonctiond’énergie U,
nonplus
par03B8,
mais par( f , À).
On obtient alors unesolution (03BB) qui dépend
du Àchoisi,
c’est-à-dire des critères de reconstruction choisis.
Un
exemple
sur des données réelles estproposé
enFigure
3. On voit dans les résultats que siA3
= 0(ce qui correspond
à déconvoluerchaque
traceséparément),
aucune continuité latérale n’est
visible,
contrairement aux deux autres reconstructions oùA3 =
1. Notons que dans les troisexemples, l’ajustement
aux observations est trèsbon, puisque
la convolutionz(a) * f
donne des traces trèsproches
des tracesoriginales.
4. Estimation simultanée des
paramètres
et des donnéesmanquantes
Nous nousplaçons
maintenant dans la situation où lesparamètres
du modèle(ou
une
partie
desparamètres)
sont estimés en mêmetemps
que les donnéesmanquantes.
Comme dans
l’exemple
traitant de la déconvolution 2-D de tracessismiques,
nousallons
re-paramétrer
le modèle enconsidérant ~
~03A6qui
contient lesparamètres
du modèle à estimer et À E A
qui
contient lesparamètres fixes,
soit parcequ’ils
sont connus, soit parce
qu’ils
ont été estimés aupréalable,
soit encore parcequ’ils
sont fixés arbitrairement à des valeurs données. Nous allons construire une fonction U
FIGURE 3
Déconvolution 2-D de traces
sismiques :
(a) :
les 32 tracessismiques originales; (b) :
l’ondelette estimée.FIGURE 3
Déconvolution 2-D de traces
sismiques :
(c) :
3 reconstructions de la série deréflecteurs
obtenues avecdifférents paramètres
la convolution de ces trois séries estimées avec l’onde lette.
à minimiser à la fois en z et en
4J.
Cette fonctionU,
définie sur Z 03A6 xy
x A et à valeurs dansIR,
est telle que,i)
pour tout z et toutÀ,
l’estimateur(z)
est défini comme solution duproblème
deminimisation suivant :
ii)
pour toutÀ, l’estimateur (03BB)
est défini comme solution duproblème
de minimi-sation suivant :