Estimation en traitement du signal
Sommaire
1 Introduction - Probl´ematique Contexte de l’estimation Probl´ematique de l’estimation 2 Approche d´eterministe 3 Approche Bay´esienneProbl´
ematique
Objectif
Mettre en œuvre un syst`eme permettant d’acc´eder `a une information pertinente, par exemple vitesse et/ou position d’un objet en mouvement.
Questions
• Quel est le probl`eme ; qu’est-ce que je cherche ?
• Comment choisir le capteur pour r´esoudre le probl`eme ?
• Quel est le principe de fonctionnement du syst`eme ?
• De quelle fa¸con le capteur donne t-il les informations recherch´ees ?
Exemple : an´
emom´
etrie laser
y Laser Diode Beams divisor Photoreceptor z emitted beams. backscattered ligth. emission lens. reception lens. Probe volume. 2W x y x ILe signal re¸cu s’´ecrit
x(t) = A exp−2α2fd2t2 cos(2πfdt) + b(t).
Exemple : effet Doppler
On consid`ere une antenne ´emettant un signal s(t) = eiωct et r´etro-diffus´e par une cible en mouvement uniforme `a la vitesse radiale v. Le signal re¸cu s’´ecrit r(t) = As (t− 2τ(t)) = As t− 2d0− vt c = Aeiωcte−iωc2d0c ei 2ωcv c t
Apr`es d´emodulation, on obtient
x(t) = Aeiφei2π2vλt+ b(t)
M´
ethodologie
Mod`ele-Mesures-Estimation Signal {x(n)}N n=1 Mod`ele θ Estimateur ˆ θ = g {x(n)}N n=1 ˆθ est t-il un bon estimateur? Comment trouver ˆθ?
d´epend de ce que l’on sait sur le m o d
Contexte et objectif
Ce que l’on sait (croit savoir)
• Un capteur re¸coit des mesures x(1),· · · , x(N).
• Le signal contient une information via un vecteur param`etre θ, par
exemple x(n) = s(n; θ) + b(n) et on connaˆıt (ou pas) la loi de b =b(1) · · · b(N)T.
Ce que l’on veut (voudrait) savoir
• Comment trouver un estimateur ˆθ = g(x(1),· · · , x(N)) de θ ?
• Est-ce que ˆθ est un bon estimateur ?
Contraintes
Approches pour l’estimation
Approche d´eterministe
On suppose que θ est une quantit´e d´eterministeinconnue et on consid`ere
alors la loi pX(x; θ) du vecteur X =X(1) X(2) · · · X(N)T qui
est param´etr´ee par θ.
Approche Bay´esienne
On suppose que θ est une r´ealisation d’un vecteur al´eatoireΘ et on consid`ere alors la loi jointe pX,Θ(x, θ) = pX|Θ(x|θ) πΘ(θ), o`u πΘ(θ) d´esigne la loi a priori.
Sommaire
1 Introduction - Probl´ematique
2 Approche d´eterministe
Mod´elisation
Caract´erisation d’un estimateur Estimation optimale
Bornes de Cram´er-Rao Estimateur MVU
Estimateur du maximum de vraisemblance M´ethode des moments
Synth`ese des approches
Densit´
e de probabilit´
e et fonction de vraisemblance
• La loi p(x; θ) donne toute l’information sur le signal x. Par exemple,
si x(n) = θ + b(n) o`u b(n) sont i.i.d. b(n)∼ N 0, σ2, p (x; θ) = 1 (2πσ2)N/2exp ( − 1 2σ2 N X n=1 (x(n)− θ)2 ) . 10 12 14 16 18 20 22 24 26 28 30 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 x p(x; θ=20) FDP de x(1)=θ+b(1)
Vraisemblance et estimation
• Toute l’information sur x est contenue dans p(x; θ).
• p(x; θ) d´epend de θ ⇒ on peut inf´erer θ `a partir de x.
−100 0 10 20 30 40 50 60 0.05 0.1 0.15 0.2 0.25 0.3 0.35 x FDP de p(x(1);θ) θ=0 θ=20 θ=40
Caract´
erisation d’un estimateur
Crit`eres de qualit´e d’un estimateur ?
0 10 20 30 40 50 60 70 80 90 100 17 18 19 20 21 22 23
Comparaison de deux estimateurs
ˆ θ1=N1 PNn=1x(n) ˆ θ2= x(1) θ = 20, N = 20 x(n) = θ + b(n)
Caract´
erisation d’un estimateur
Biais
b(ˆθ) = E{ˆθ} − θ
Matrice de covariance
cov(ˆθ) = E{(ˆθ − E{ˆθ})(ˆθ − E{ˆθ})T}
Erreur quadratique moyenne
eqm(ˆθ) = E{(ˆθ − θ)(ˆθ − θ)T} = b(ˆθ)b(ˆθ)T + cov(ˆθ)
Loi
Exemple de caract´
erisation d’un estimateur
Exemple x(n) = θ + b(n) avec b∼ N (0, σ2I)
On suppose que les variables b(n) sont i.i.d. b(n)∼ N 0, σ2, i.e. b =b(1) · · · b(N)T ∼ N 0, σ2I. Soit ˆθ = 1 N PN n=1x(n). On a E{ˆθ} = E{1 N N X n=1 x(n)} = 1 N N X n=1 E{x(n)} = θ cov(ˆθ) = 1 N2E{ N X n,m=1 (x(n)− θ) (x(m) − θ)} = 1 N2E{ N X n,m=1 b(n)b(m)} = 1 N2E{ N X n=1 b(n)2} = σ 2 N.
Convergence d’un estimateur
Estimateur consistant
Soit ˆθN un estimateur de θ `a partir de N ´echantillons x(1),· · · , x(N). Alors ˆθN est un estimateur consistant (au sens large) si
lim N →∞Pr n ˆθ N − θ < δo= 1 ∀δ > 0 ∀θ.
Il est dit consistant en moyenne quadratique si lim
N →∞E{(ˆθN− θ)(ˆθN − θ)
“Meilleur” estimateur
Estimation optimale ?
• quel crit`ere dois-je adopter pour mesurer la performance d’un
estimateur ?
• en supposant que ce crit`ere existe, y a t-il des estimateurs qui produisent la performance optimale ?
• si oui, existe t-il une d´emarche syst´ematique (et laquelle) pour calculer cet estimateur optimal ?
Approches
1 soit on consid`ere que l’estimateur doit ˆetre non biais´e et on cherche
donc l’estimateur `a minimum de variance ;
2 soit on autorise un biais et on cherche alors `a minimiser l’erreur
Minimisation de l’erreur quadratique moyenne : exemple
Minimisation de l’eqm pour x(n) = θ + b(n)
• Onautorise un biais dont on esp`ere qu’il seracontre-balanc´e par une diminution de la variance.
• Par exemple, on cherche un estimateur du type ˆθ = aN1 PNn=1x(n) dont l’eqm eqm(ˆθ) = (a− 1)2θ2+a2σ2
N est la plus faible possible.
• La valeur optimale de a est alors aopt =θ2+ N−1σ2−1θ2 qui
d´epend deθ inconnu. On a, avec ce choix de a
b(ˆθ) =−θ2+ N−1σ2−1θN−1σ2 6= 0 cov(ˆθ) =θ2+ N−1σ2−2θ4N−1σ2< N−1σ2= cov(1 N N X n=1 x(n)) eqm(ˆθ) =θ2+ N−1σ2−1θ2N−1σ2< N−1σ2= eqm( 1 N N X n=1 x(n)).
Estimation non biais´
ee `
a variance minimale
Estimateur MVU
On consid`ere comme “r´ef´erence” l’estimateur non biais´e, `a minimum de variance :
E{ˆθM V U} = θ
Cθˆ− CM V U ≥ 0 ∀ˆθ, ∀θ o`u CM V U = cov(ˆθM V U) et Cθˆ = cov(ˆθ).
Si cet estimateur existe (et si on peut l’impl´ementer), il est consid´er´e comme l’estimateur optimal.
Estimation non biais´
ee `
a variance minimale
Questions
• Cet estimateur existe-t-il ? Si oui comment le trouver ?
• Existe-t-il une borne inf´erieure `a cov(ˆθ) ?
0 10 20 30 40 50 0 2 4 6 8 10 12 MVU existe θ var( θ) 0 10 20 30 40 50 0 2 4 6 8 10 12 Pas de MVU θ var( θ)
Borne minimale de la variance d’un estimateur non biais´
e
Bornes de Cram´er-Rao
La borne de Cram´er-Rao (BCR) donne l’expression de la covariance minimale que l’on peut atteindre en estimant (de mani`ere non biais´ee) le param`etre θ :
• si un estimateur atteint les bornes, et ce quel que soit θ, alors c’est l’estimateur MVU ;
• cette borne est une r´ef´erence `a laquelle on peut comparer tous les estimateurs ;
• la th´eorie permet de d´eterminer s’il existe un estimateur qui atteindra la borne.
Borne minimale de la variance d’un estimateur non biais´
e
Th´eor`eme (Borne de Cram´er-Rao)
Si p (x; θ) v´erifie la condition de r´egularit´e E{∂ ln p(x;θ)∂θ } = 0 alors, quel que soit l’estimateur non biais´e ˆθ de θ, sa matrice de covariance v´erifie Cˆθ− I
−1(θ) ≥ 0 o`u I (θ) =−E{∂ 2ln p (x; θ) ∂θ∂θT } = E{ ∂ ln p (x; θ) ∂θ ∂ ln p (x; θ) ∂θT }
est la matrice d’information de Fisher. De plus, on peut trouver un estimateur qui atteint la borne i.e. Cˆθ= I−1(θ) si et seulement si
∂ ln p (x; θ)
∂θ = I (θ) (f (x)− θ) .
Cet estimateur, qui est l’estimateur MVU, est donn´e par ˆθ = f (x) et sa matrice de covariance est alors I−1(θ) : il est dit efficace.
Borne de Cram´
er-Rao
D´emonstration
ˆ
θ ´etant un estimateur non biais´e, on a R ˆθp(x; θ)dx = θ. En diff´erentiant, on obtient Z ˆ θ∂p(x; θ) ∂θT dx = Z ˆ θ∂ ln p(x; θ) ∂θT p(x; θ)dx = I et ainsi E{(ˆθ − θ)∂ ln p(x; θ) ∂θT } = I.
Par cons´equent, la matrice de covariance deh(ˆθ− θ)T ∂ ln p(x;θ) ∂θT iT s’´ecrit cov( (ˆθ− θ) ∂ ln p(x; θ)/∂θ ) = Cθˆ I I I(θ) .
Borne de Cram´
er-Rao
D´emonstration
Cette matrice ´etant d´efinie positive, on a n´ecessairement Cˆθ− I−1(θ)≥ 0. D’autre part Z ∂ ln p(x; θ) ∂θ p(x; θ)dx = 0 ⇒ Z ∂2ln p(x; θ) ∂θ∂θT p(x; θ)dx + ∂ ln p(x; θ) ∂θ ∂ ln p(x; θ) ∂θT p(x; θ)dx = 0 ⇒ I(θ) = E{∂ ln p(x; θ) ∂θ ∂ ln p(x; θ) ∂θT } = −E{ ∂2ln p(x; θ) ∂θ∂θT }.
Borne de Cram´
er-Rao
D´emonstration Si de plus ∂ ln p (x; θ) ∂θ = I (θ) (f (x)− θ) alors, pour ˆθ = f (x), on a E{ˆθ − θ} = Z (f (x)− θ) p (x; θ) dx = I−1(θ) Z ∂ ln p (x; θ) ∂θ p(x; θ)dx = 0 cov(ˆθ) = E{I−1(θ)∂ ln p (x; θ) ∂θ ∂ ln p (x; θ) ∂θT I −1(θ)} = I−1(θ)E{∂ ln p (x; θ) ∂θ ∂ ln p (x; θ) ∂θT }I −1(θ) = I−1(θ).BCR : un exemple
Exemple x(n) = θ + b(n), b∼ N (0, σ2I) On a dans ce cas p (x; θ) = 1 (2πσ2)N/2exp ( −1 2σ2 N X n=1 (x(n)− θ)2 ) ln p (x; θ) =−N 2 ln 2πσ 2− 1 2σ2 N X n=1 (x(n)− θ)2. Il s’ensuit que ∂ ln p (x; θ) ∂θ = 1 σ2 N X n=1 (x(n)− θ) ∂2ln p (x; θ) ∂θ2 =− N σ2 =−I(θ).BCR : un exemple
Exemple x(n) = θ + b(n), b∼ N (0, σ2I)
La BCR est donc simplement
BCR(θ) = σ 2 N. De plus, ∂ ln p (x; θ) ∂θ = N σ2 " 1 N N X n=1 x(n)− θ # .
Ainsi il existe un estimateur efficace (donc forc´ement MVU), `a savoir ˆ θM V U = 1 N N X n=1 x(n).
BCR : cas signal plus bruit
Exemple x(n) = s(n;θ) + b(n), b∼ N (0, σ2I)
La loi s’´ecrit maintenant ln p (x; θ) =−N 2 ln 2πσ 2− 1 2σ2 N X n=1 [x(n)− s(n; θ)]2. Les d´eriv´ees deviennent alors
∂ ln p (x; θ) ∂θk = 1 σ2 N X n=1 [x(n)− s(n; θ)]∂s(n; θ)∂θ k = 1 σ2 ∂sT(θ) ∂θ [x− s(θ)] k . La matrice d’information de Fisher I(θ) s’´ecrit donc simplement
I(θ) = 1 σ4 ∂sT(θ) ∂θ E{[x − s(θ)] [x − s(θ)] T }∂s(θ) ∂θT = 1 ∂s T(θ)∂s(θ) .
BCR : cas signal plus bruit
Exemple x(n) = s(n;θ) + b(n), b∼ N (0, σ2I)
• Consid´erons maintenant l’existence d’un estimateur efficace. On doit
avoir la factorisation ∂ ln p (x; θ) ∂θ = 1 σ2 ∂sT(θ) ∂θ [x− s(θ)] = I (θ) [f (x)− θ] = 1 σ2 ∂sT(θ) ∂θ ∂s(θ) ∂θT [f (x)− θ] .
• Cette factorisation n’est possible que si s(θ) est une fonctionaffine
de θ, soit s(θ) = Hθ + c, auquel cas I(θ) = σ−2HTH et
ˆ
θ = (HTH)−1HT(x− c)
BCR : cas signal plus bruit
Synth`ese x∼ N (s(θ), σ2I) avec σ2 connu
• si s(θ) est une fonction non lin´eaire de θ, il n’existe pas d’estimateur efficace ;
• si s(θ) = Hθ, il existe un estimateur efficace ˆθ = (HTH)−1HTx.
Cas σ2 inconnu
Alors, la matrice de Fisher s’´ecrit
I θ, σ2= 1 σ2 " ∂s(θ)T ∂θ ∂s(θ) ∂θT 0 0 2σN2 # .
Il n’y a pas d’estimateur efficace du vecteurθ σ2T. Par contre, si
Mod`
ele lin´
eaire
x
∼ N (Hθ, C), C connue
• Le signal utile s’´ecrit comme une combinaison lin´eaire, `a coefficients inconnus, de signaux connus:
s(n; θ) = p X k=1
θkhk(n)⇔ s(θ) = Hθ
et les colonnes de H contiennent les signaux de la basesur laquelle on d´ecompose s(n; θ).
• Le bruit additif est Gaussien, color´e, de matrice de covariance C connue. • La vraisemblance s’´ecrit p(x; θ) = (2π)−N/2|C|−1/2exp −1 2(x− Hθ) T C−1(x− Hθ) ln p(x; θ) = const.−1 2(x− Hθ) T C−1(x− Hθ) .
Mod`
ele lin´
eaire
x
∼ N (Hθ, C), C connue
• Les d´eriv´ees de la log-vraisemblance s’´ecrivent ∂ ln p(x; θ) ∂θ = H TC−1(x− Hθ) ∂2ln p(x; θ) ∂θ∂θT =−H TC−1H =−I(θ) • On a donc la factorisation ∂ ln p(x; θ) ∂θ = I(θ) h HTC−1H−1HTC−1x− θi
• L’estimateur MVU efficace s’en d´eduit comme
ˆ
θM V U = HTC−1H−1HTC−1x et cet estimateur est une fonction lin´eaire de x.
Mod`
ele lin´
eaire
x
∼ N (Hθ, C), C connue
Remarques
• L’estimateur MVU est solution duprobl`eme des moindres carr´es
pond´er´es suivant : ˆ
θM V U = arg min
θ (x− Hθ)
T C−1(x− Hθ) .
• Dans le cas o`u x = Hθ + b o`u b est de moyenne nulle, de matrice de
covariance C (mais b n’est pas n´ecessairement Gaussien), ˆ
θBLU E = HTC−1H−1HTC−1x
est l’estimateurBLUE(best linear unbiased estimate), i.e.
BCR pour f (
θ)
Transformation de param`etres
• Si l’on veut estimer β = f (θ) alors
I−1(β) = ∂β
∂θTI
−1(θ)∂βT
∂θ .
• Si ˆθ est un estimateur efficace et si f (.) est lin´eaire, alors ˆβ = f (ˆθ) est efficace. Si f (.) n’est pas lin´eaire, alors ˆβ = f (ˆθ) n’est plus efficace. Par contre, en g´en´eral on a l’efficacit´e asympotique car
ˆ β = fˆθ' f (θ) + ∂β ∂θT(ˆθ− θ) et donc Cβˆ ' ∂β ∂θTI −1(θ)∂βT ∂θ = I −1(β) .
BCR pour signaux Gaussiens (formule de
Slepian-Bangs
)
Cas de signaux Gaussiens r´eels x∼ N (µ(θ), C(θ))[I (θ)]k,` =∂µ T(θ) ∂θk C−1(θ)∂µ (θ) ∂θ` +1 2Tr C−1(θ)∂C (θ) ∂θk C−1(θ)∂C (θ) ∂θ` .
Cas de signaux Gaussiens complexes x∼ CN (µ(θ), C(θ))
Pour des signaux complexes circulaires dont la loi est
p(x; θ) = π−N|C(θ)|−1expn− (x − µ(θ))HC−1(θ) (x − µ(θ))o la matrice d’information de Fisher devient
[I (θ)]k,`= 2Re ∂µ H(θ) ∂θk C −1(θ)∂µ (θ) ∂θ` + Tr C−1(θ)∂C (θ) ∂θk C −1(θ)∂C (θ) ∂θ` .
BCR : cas de l’exponentielle complexe bruit´
ee
Exponentielle complexe
• Soit le signal x(n) = Aei(nω0+φ)+ b(n), n = 0,· · · , N − 1, o`u b∼ CN 0, σ2I et A, φ et ω0 sont des param`etres d´eterministes
inconnus. Si θ =A ω0 φ σ2T on obtient I (θ) = 2 σ2 N 0 0 0 0 A2Q A2P 0 0 A2P N A2 0 0 0 2σN2 ; P = N −1X n=0 n, Q = N −1X n=0 n2
• On en d´eduit les bornes de Cram´er-Rao :
BCR(A) = σ 2 2N BCR(σ 2) = σ4 N BCR(φ) = σ 2(2N− 1) A2N (N + 1) BCR(ω0) = 6σ2 A2N (N2− 1).
MVU et statistique exhaustive
Question
Existe-t-il une fonction des donn´ees qui concentre `a elle seule toute l’information sur θ ? Par exemple, pour x(n) = θ + b(n),
ˆ
θM V U = N−1PNn=1x(n) et il suffit d’observer t =PNn=1x(n) pour obtenir l’estimateur MVU.
Statistique exhaustive
t est une statistique exhaustive pour l’estimation de θ si, une fois que l’on a observ´e t, rien de plus ne peut ˆetre inf´er´e sur θ `a partir des donn´ees :
Statistique exhaustive : exemple
Exemple x(n) = θ + b(n), b∼ N (0, σ2I) Puisque x∼ N θ 1, σ2I et t = xT1∼ N Nθ, Nσ2, on a p(x, t; θ) = 2πσ2−N/2exp − 1 2σ2 x Tx− 2tθ + Nθ2 δ(t− xT1) p(t; θ) = 2πN σ2−1/2exp −2σ12 t2 N − 2tθ + Nθ 2 . Par cons´equent la loi conditionnelle de x|t s’´ecritp(x|t) = 2πN σ 21/2 (2πσ2)N/2 exp −2σ12 xTx− t 2 N δ(t− xT1) et ne d´epend plus de θ.
MVU et statistique exhaustive
Statistique exhaustive
• t est une statistique exhaustive pour l’estimation de θ ssi p (x|t) ne d´epend plus de θ.
• L’estimateur MVU doit ˆetre une fonction d’une statistique exhaustive.
Recherche de l’estimateur MVU
• p (x; θ) = g (t, θ) h (x)⇔ t statistique exhaustive.
• t est compl`ete s’il n’existe qu’une seule fonction f telle que f (t) soit un estimateur non biais´e de θ : c’est justement l’estimateur MVU.
• Si ˘θ est un estimateur non biais´e de θ et si t est une statistique exhaustive alors ˆθ = E{˘θ|t} est un estimateur non biais´e de θ de variance inf´erieure ou ´egale `a celle de ˘θ. Si si t est compl`ete, il s’agit de l’estimateur MVU.
Statistique exhaustive du mod`
ele lin´
eaire
Mod`elex = Hθ + b avec b ∼ N (0, C)
On a p(x; θ) = (2π)−N/2|C|−1/2exp −1 2x TC−1x × exp θTHTC−1x−1 2θ THTC−1Hθ
et donc t = HTC−1x est une statistique exhaustive. En supposant qu’elle
est compl`ete, on cherche l’estimateur non biais´e de θ utilisant t. Or
Statistique exhaustive du mod`
ele non lin´
eaire
Mod`elex = s(θ) + b avec b ∼ N (0, C)
On a p(x; θ) = (2π)−N/2|C|−1/2exp −12xTC−1x × exp sT(θ)C−1x−1 2s T(θ)C−1s(θ)
et donc il n’existe pas de statistique exhaustive puisque
sT(θ)C−1x =PN
n=1s(n; θ)
C−1x(n) n’est pas observable car ne d´ependant pas des donn´ees x uniquement.
MVU : exemple
Ecart-type d’une loi uniforme
On consid`ere N donn´ees ind´ependantes x(n)∼ U ([−β, β]) et on cherche
`a estimer β. La loi de x s’´ecrit, avec u(.) la fonction ´echelon
p (x; β) = 1 (2β)N N −1Y n=0 [u (x(n) + β)− u (x(n) − β)] = ( 1 (2β)N −β < x(n) < β n = 0, · · · , N − 1 0 sinon = ( 1 (2β)N max|x(n)| < β 0 sinon
et donc t = max|x(n)| est une statistique exhaustive. En supposant
qu’elle est compl`ete on cherche un estimateur non biais´e de β `a partir de t. Pour cela, on cherche la loi de t.
MVU : exemple
Ecart-type d’une loi uniforme
Pr [t≤ ξ] = N −1Y n=0 Pr [|x(n)| ≤ ξ] = Pr [|x(n)| ≤ ξ]N = 0 ξ ≤ 0 ξ β N 0≤ ξ ≤ β 1 ξ ≥ β
ce qui implique que la FDP de t est
pt(ξ) = ∂Pr [t≤ ξ] ∂ξ = 0 ξ ≤ 0 N β ξ β N −1 0≤ ξ ≤ β 1 ξ ≥ β
MVU : exemple
Ecart-type d’une loi uniforme On a E{t} = Z β 0 N βξ ξ β N −1 d ξ = N N + 1β ⇒ ˆβ M V U = N + 1 N max|x(n)|.
Sa variance peut se calculer : cov( ˆβM V U) = N + 1 N 2 cov(t) = N + 1 N 2(Z β 0 N βξ 2 ξ β N −1 d ξ− N β N + 1 2) = β 2 N (N + 2).
MVU : exemple
Exemple x(n) = nθ + b(n) avec b ∼ N (0, θσ2I) • Dans ce cas on a p(x; θ) = 2πθσ2−N/2e2θσ2−1 PN n=1(x(n)−nθ)2 = 2πθσ2−N/2e −PNn=1 x2(n) 2θσ2 − θPNn=1 n2 2σ2 e PN n=1 nx(n) σ2 .• Par cons´equent t =PNn=1x2(n) est une statistique exhaustive pour l’estimation de θ.
• Cependant, E{t} = θ2PNn=1n2+ N θσ2 et il n’est donc pas ´evident de trouver un estimateur non biais´e de θ `a partir de t.
Estimateur du maximum de vraisemblance
D´efinition
L’estimateur ML consiste `a maximiser la fonction de vraisemblance : ˆ
θM L= arg max
θ p (x; θ) .
Propri´et´es
• Efficacit´e asymptotique: ˆθM L as∼ N θ, I−1(θ).
• Si un estimateur efficace existe, l’estimateur ML le produit : ∂ ln p (x; θ)
∂θ = I (θ) [f (x)− θ] ⇒ ˆθ
M L
= f (x).
• Si une statistique exhaustive existe, i.e., p (x; θ) = g (t, θ) h (x), alors ˆ
θM L est une fonction de t uniquement.
Estimateur ML : cas signal plus bruit
Exemple x∼ CN (s(θ), σ2I), σ2 inconnu
• La fonction log-vraisemblance s’´ecrit Λ(x; θ, σ2) =−N ln(πσ2)− 1
σ2 kx − s(θ)k
2.
• On maximise d’abord par rapport `a σ2 :
∂Λ(x; θ, σ2) ∂σ2 =− N σ2 + 1 σ4 kx − s(θ)k 2 ˆ σ2M L = N−1 x − s(ˆθM L) 2.
• L’estimateur ML de θ s’obtient comme
ˆ
θM L = arg min
θ kx − s(θ)k
2
Estimateur ML : cas signal non lin´
eaire plus bruit
Exemple x∼ CN (As(ω), σ2I)
• L’estimateur ML de θ =ω AT avec A∈ C s’´ecrit
ˆ
θM L = arg min
θ kx − As(ω)k
2 .
• On minimise d’abord par rapport `a A :
kx − As(ω)k2= xHx− AxHs(ω)− A∗sH(ω)x +|A|2sH(ω)s(ω) = sH(ω)s(ω) A − s H(ω)x sH(ω)s(ω) 2 + xHx− |s H(ω)x|2 sH(ω)s(ω)
et l’estimateur ML de A est alors ˆ
AM L = s
H(ˆωM L)x sH(ˆωM L)s(ˆωM L).
Estimateur ML : cas signal non lin´
eaire plus bruit
Exemple x∼ CN (As(ω), σ2I)
• L’estimateur ML de ω est donc obtenu comme
ˆ ωM L= arg max ω |sH(ω)x|2 sH(ω)s(ω) = arg max ω x HP s(ω)x; Ps(ω)= s(ω)sH(ω) sH(ω)s(ω) = arg max ω wH(ω)x2; w(ω) = p s(ω) sH(ω)s(ω)
• Il peut s’interpr´eter comme
1 la valeur de ω qui maximise la norme de la projection de x sur la
vari´et´e s(ω) ;
2 la valeur de ω qui maximise la puissance en sortie dufiltre adapt´e
Filtre adapt´
e (bruit blanc Gaussien)
x = As(ω) + b w(ω1) = √ s(ω1) sH(ω 1)s(ω1) wH(ω 1)x |.|2 w(ω2) = √ s(ω2) sH(ω2)s(ω2) wH(ω 2)x |.|2 w(ωL) = √ s(ωL) sH(ωL)s(ωL) wH(ω L)x |.|2 max ωˆEstimateur ML : cas signal non lin´
eaire plus bruit
Exemple x∼ CN (As(ω), σ2I)
• Le rapport signal sur bruit en entr´ee du filtre adapt´e s’´ecrit
RSBin= |A|
2sH(ω)s(ω)
E{bHb} =
|A|2sH(ω)s(ω)
N σ2 .
• Le signal en sortie de filtre adapt´e s’´ecrit AwH(ω)s(ω) + wH(ω)b, ce qui conduit `a un rapport signal sur bruit
RSBout= |Aw H(ω)s(ω)|2 E{|wH(ω)b|2} = |AwH(ω)s(ω)|2 σ2wH(ω)w(ω) = |A| 2sH(ω)s(ω) σ2 = N × RSBin.
Estimateur ML : cas signal non lin´
eaire plus bruit
Exemple x∼ CN (As(ω), σ2I)
• Cas d’un retard : si x(t) = As(t− τ) + b(t) et si la forme d’onde
s(t) a une ´energie constante
ˆ τM L = arg max τ X t x(t)s∗(t− τ) 2 .
• Exponentielle complexe : si x(n) = Aeinω+ b(n) alors
ˆ ωM L= arg max ω 1 N N −1X n=0 x(n)e−inω 2
qui n’est autre que le maximum du p´eriodogrammedu signal, i.e. le
ML et BCR pour une exponentielle complexe
−15 −10 −5 0 5 10 15 20 −70 −60 −50 −40 −30 −20 −10 0 10 RSB (dB) Erreur quadratique moyenneBCR, N=24 ML, N=24 BCR, N=48 ML, N=48
Estimateur ML et moindres carr´
es
Remarques• Sous hypoth`eseGaussienne x∼ N (s(θ), C) avec C connue,
l’estimateur ML revient `a r´esoudre unprobl`eme des moindres carr´es :
• moindres carr´es lin´eaires si s(θ) = Hθ : dans ce cas on a une solution analytique ;
• moindres carr´es non lin´eaires si s(θ) n’est pas lin´eaire en θ : dans ce cas, on a recours `a des m´ethodes it´eratives -utilisant gradient et ´eventuellement Hessien de p(x; θ)- pour trouver l’estimateur.
• Dans le cas o`u θ =θlin θnonlinT et o`u s(θ) est lin´eaire par rapport `a θlin et non lin´eaire par rapport `a θnonlin, on minimise explicitement p(x; θ) par rapport `a θlin. On reporte dans la fonction de
vraisemblance, et il reste un probl`eme non lin´eaire par rapport `a θnonlin.
• Les m´ethodes des moindres carr´es sont ´egalement souvent utilis´ees lorsque la loi n’est plus Gaussienne : dans ce cas, on privil´egie la facilit´e d’impl´ementation au d´etriment de l’optimalit´e.
Estimateur ML : synth`
ese
Synth`ese
• De part ses propri´et´es d’optimalit´e asymptotique et compte tenu de sa formulation (maximisation d’une fonction), l’estimateur du maximum de vraisemblance est tr`es souvent utilis´e.
• Les probl`emes auxquels il se heurte :
• difficult´e `a r´esoudre le probl`eme de maximisation, par exemple due `a la pr´esence de nombreux maxima locaux
• coˆut calculatoire parfois ´elev´e dˆu `a une maximisation compliqu´ee, par exemple p(x; θ) = 1 (2π)N/2|C(θ)|1/2exp −12[x− µ(θ)]TC−1(θ) [x− µ(θ)]
• estimation peu pr´ecise `a faible RSB ou faible N (mais dans ce cas peu d’estimateurs feront mieux que le ML)
M´
ethode des moments
Principe
Exploiter les propri´et´es des moments du signal (notamment la fonction de corr´elation) et leur relation avec θ : par exemple, si
θ = g(rxx(0),· · · , rxx(M− 1)) o`u rxx(m) = E{x∗(n)x(n + m)} est la fonction de corr´elation de x(n), on peut envisager l’estimateur
ˆ
θ = g(ˆrxx(0),· · · , ˆrxx(M− 1)) o`u ˆrxx(m) d´esigne une estim´ee de rxx(m).
Avantages et inconv´enients
, Estimateurs souvent simples `a mettre en œuvre et ne n´ecessitant pas
d’hypoth`eses sur la loi de x(n).
M´
ethode des moments : exemple
Exponentielle complexe
Soit le signal x(n) = Aei(nω0+φ)+ b(n), n = 0,· · · , N − 1, o`u b(n) est un bruit blanc complexe de moyenne nulle. On a alors
rxx(m) = E{x∗(n)x(n + m)} = A2eimω0+ σ2δ(m) et, par exemple,
ω0= angle [rxx(1)]
ce qui sugg`ere une estimation possible de ω0 comme
ˆ ω0 = angle [ˆrxx(1)] = angle " 1 N− 1 N −2X n=0 x∗(n)x(n + 1) # .
M´
ethode des moments : analyse de performances
Analyse statistiqueSoit ˆθ = f (ˆt) o`u ˆt est un vecteur contenant des estim´ees de certains moments du signal, par exemple ˆt =rˆxx(0) · · · ˆrxx(M − 1)T. En supposant que ˆt est un estimateur consistant de t, on peut ´ecrire un d´eveloppement de Taylor au voisinage de t :
ˆ θ = f (ˆt)' f(t) + ∂f ∂tT t (ˆt− t). On en d´eduit alors E{ˆθ} ' f(t) et cov(ˆθ)' ∂f ∂tT t E{(ˆt − t)(ˆt − t)T} ∂f ∂tT T t .
E{(ˆt − t)(ˆt − t)T} est souvent connu, du moins pour une grande classe de processus stationnaires.
M´
ethode des moments : analyse de performances
Analyse `a fort rapport signal sur bruit (RSB)
Dans le cas d’un signal d´eterministe noy´e dans un bruit blanc
x(n) = s(n; θ) + b(n), pour lequel θ = f (s(θ)), on fait souvent l’analyse `a fort RSBen consid´erant t = x. On a alors
ˆ θ = f (x) = f (s(θ) + b)' f(s(θ)) + ∂f ∂xT s(θ) b. La moyenne et la matrice de covariance asymptotique (i.e. `a fort RSB) s’en d´eduisent E{ˆθ} ' f(s(θ)) = θ cov(ˆθ)' ∂f ∂xT s(θ) E{bbT} ∂f ∂xT T s(θ) .
Comment chercher un estimateur ?
Evaluation ML possible ? Signal lineaire ? Non Oui Oui Oui Oui Oui Non Oui Non Oui Non Non Oui ? Non Non ? Estimateur efficace existe ? Covariance du bruit connue ? biaise possible ? Estimateur non Statistique complete disponible ? Utilisation des moments envisageable? Oui Non Calcul des BCRRECHERCHE ESTIMATEUR OPTIMAL
APPROCHE MOINDRES CARRES MVU MVU ML Moments BLUE LS
Sommaire
1 Introduction - Probl´ematique 2 Approche d´eterministe 3 Approche Bay´esienne Principe Estimateur MMSE Maximum a posteriori Borne Bay´esienne ExemplesApproche Bay´
esienne vs approche d´
eterministe
Signal {xn}Nn=1 Likelihood p(x|θ) max θ p(x|θ) Prior π(θ|¯θ) ˆmin θ=f (x) dθ, θˆ Bayesian FrequentistApproche Bay´
esienne
Principe
Consid´erer le vecteur param`etre θ `a estimer comme al´eatoire, avec une
loi a priori π (θ) : n´ecessite d’avoir une information a priori sur θ.
Caract´erisation
On consid`ere alors la loi jointe p (x, θ) = p (x|θ) π (θ).
Loi a posteriori La loi a posteriori p (θ|x) = p (x, θ) p (x) = p (x|θ) π (θ) R p (x, θ) dθ
Lois a priori conjugu´
ees
Lois conjugu´ees
Des lois sont dˆıtes conjugu´eessi elles appartiennent `a la mˆeme famille. Par exemple, si p x|µ, σ2∝ σ2−N/2exp − 1 2σ2(x− µs) T (x− µs) ∝ σ2−N/2exp ( −σ −2 2 " xTx−(s Tx)2 sTs + (s Ts) µ−s Tx sTs 2#)
alors la loi conjugu´ee pour µ est N ¯µ, σ2 µ
et celle pour σ2 est IG (a, b) :
π (µ)∝ exp − 1 2σ2 µ (µ− ¯µ)2 π σ2∝ σ2−(a+1)exp−bσ−2 .
Estimateur `
a erreur quadratique moyenne minimale
Estimateur MMSE
L’estimateur qui minimise l’erreur quadratique moyenne est donn´e par ˆ
θmmse= arg min
ˆ θ=f (x) Ex,θ{(ˆθ − θ)(ˆθ − θ)T} = Eθ|x{θ} = Z θp (θ|x) dθ.
D´
emonstration MMSE
On note tout d’abord que l’eqm s’´ecrit eqm(ˆθ) =
Z Z
(ˆθ− θ)(ˆθ − θ)Tp(θ|x) dθ
p(x) dx. L’int´egrale interne s’´ecrit
Z (ˆθ− θ)(ˆθ − θ)Tp(θ|x) dθ = ˆθˆθT − Eθ|x{θ}ˆθT − ˆθEθ|x{θ}T + Z θθTp (θ|x) dθ = (ˆθ− ˆθmmse)(ˆθ− ˆθmmse)T + Z (ˆθmmse− θ)(ˆθmmse− θ)Tp(θ|x) dθ ≥ Z (ˆθmmse− θ)(ˆθmmse− θ)Tp(θ|x) dθ ce qui d´emontre le r´esultat.
Propri´
et´
es de l’estimateur MMSE
Remarques
• L’estimateur MMSE correspond `a lamoyenne a posteriori de θ,
conditionnellement `a x: n´ecessit´e de calculer cette loi.
• L’estimateur MMSE est non biais´e car
Ex,θ{ˆθmmse− θ} = Ex{Eθ|x{ˆθmmse− θ}} = Ex{0} = 0.
• Sa matrice de covariance s’´ecrit
Ex,θ{(ˆθmmse− θ)(ˆθmmse− θ)T} = Ex{Cθ|x}
o`u Cθ|x= Eθ|x{(θ − Eθ|x{θ})(θ − Eθ|x{θ})T} est la matrice de covariance a posteriori de θ.
Estimateur du maximum a posteriori
Estimateur MAP
ˆ
θmap= arg max
θ p (θ|x) = arg maxθ Λ (θ|x) = arg max
θ [Λ (x|θ) + Λ (θ)] .
Lien avec l’estimateur ML
Si x∼ N (s(θ), C) et θ ∼ N ¯θ, Cθ, alors
ˆ
θmap= arg min
θ n
[x− s(θ)]T C−1[x− s(θ)] + θ − ¯θTC−1θ θ− ¯θTo
Borne minimale de la variance en estimation Bay´
esienne
Borne Bay´esienne
L’eqm est born´ee inf´erieurement par I−1B (θ) o`u IB(θ) = Ex,θ{− ∂2Λ (x, θ) ∂θ∂θT } = Eθ{Ex|θ{−∂ 2Λ (x|θ) ∂θ∂θT − ∂2Λ (θ) ∂θ∂θT }} = Eθ{Ex|θ{−∂ 2Λ (x|θ) ∂θ∂θT } − ∂2Λ (θ) ∂θ∂θT } = Eθ{I(θ)} + Eθ{−∂ 2Λ (θ) ∂θ∂θT }. Exemple x(n) = θ + b(n) avec b∼ N (0, σ2I) et θ ∼ N ¯θ, σ2 θ IB(θ) = N σ2 + 1 σ2 θ ≥ σN2 = I(θ).
Estimation Bay´
esienne : exemple
Exemple x(n) = θ + b(n) avec b∼ N (0, σ2I) et θ ∼ N ¯θ, σ2 θ On a alors p (x|θ) ∝ exp − 1 2σ2(x− θ1) T (x− θ1) π (θ)∝ exp − 1 2σθ2 θ− ¯θ 2 . La loi a posteriori s’´ecrit doncp (θ|x) ∝ exp −1 2 θ2 N σ2 + 1 σ2 θ − 2θ xT1 σ2 + ¯ θ σ2 θ .
Estimation Bay´
esienne : exemple
Exemple x(n) = θ + b(n) avec b∼ N (0, σ2I) et θ ∼ N ¯θ, σ2 θ Par cons´equent, θ|x ∼ Nµθ|x, σ2θ|x avec µθ|x= N σ2 + 1 σθ2 −1 xT1 σ2 + ¯ θ σ2θ ; σ2θ|x= N σ2 + 1 σθ2 −1 . L’estimateur MMSE s’´ecrit doncˆ θmmse= N σ2 + 1 σ2 θ −1 xT1 σ2 + ¯ θ σ2 θ = N σ 2 θ σ2+ N σ2 θ xT1 N + σ2 σ2+ N σ2 θ ¯ θ = αˆθml+ (1− α)¯θ.
Estimation Bay´
esienne : exemple
Exemple x(n) = θ + b(n) avec b∼ N (0, σ2I) et θ ∼ N ¯θ, σ2 θ −1 −0.5 0 0.5 1 1.5 2 2.5 3 0 0.5 1 1.5 2 2.5 3 3.5Probability Density Function of θ
N=20, RSB=0dB
π(θ) p(θ | x)
σ2
Estimation Bay´
esienne : exemple
Exemple x(n) = θ + b(n) avec b∼ N (0, σ2I) et θ ∼ N ¯θ, σ2 θ −8 −6 −4 −2 0 2 4 6 8 10 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2Probability Density Function of θ
N=20, RSB=0dB
π(θ) p(θ | x)
σ2
Estimation Bay´
esienne : exemple
Exemple x(n) = θ + b(n) avec b∼ N (0, σ2I) et θ ∼ N ¯θ, σ2 θ 0 1 2 3 4 5 6 7 8 9 10 −28 −26 −24 −22 −20 −18 −16 −14 −12 Comparaison MMSE−ML N=20, RSB=0dB BB MMSE ML Valeur de N σ2 θ/σ2Estimation Bay´
esienne : mod`
ele lin´
eaire
Mod`ele lin´eaire
Soit le mod`ele lin´eaire x = Hθ + b avec b∼ N (0, C) et θ ∼ N ¯θ, Cθ.
On a alors les lois suivantes p (x|θ) ∝ exp −12(x− Hθ)T C−1(x− Hθ) π (θ)∝ exp −1 2 θ− ¯θ T C−1θ θ− ¯θ . La loi a posteriori est dans ce cas
p (θ|x) ∝ exp
−12θT HTC−1H + C−1θ θ × expθT HTC−1x + C−1θ ¯θ .
Estimation Bay´
esienne : mod`
ele lin´
eaire
Mod`ele lin´eaire
θ|x est donc distribu´ee selon une loi normale, de moyenne et de matrice de covariance
µθ|x = HTC−1H + C−1θ −1 HTC−1x + C−1θ θ¯
Cθ|x = HTC−1H + C−1θ −1.
L’estimateur MMSE est donc ˆ
θmmse= HTC−1H + C−1θ −1 HTC−1x + C−1θ θ¯. Puisque Cθ|x ne d´epend pas de x, la matrice de covariance de ˆθ
mmse est Ex{Cθ|x} = Cθ|x.
Estimation Bay´
esienne : observations
• Dans de nombreux cas, la loi a posteriori p (θ|x) n’appartient pas n´ecessairement `a une famille connue et on n’a pas d’expression analytique deR θp (θ|x) dθ. Dans ce cas, une solution consiste `a utiliser des m´ethodes de simulation qui g´en`erent des variables
al´eatoires θn distribu´ees selon p (θ|x). On approxime alors l’int´egrale par ˆ θmmse' 1 Nr Nr X n=1 θn.
• L’approche Bay´esienne peut ˆetre utilis´ee pour l’estimation de
param`etres d´eterministes : dans ce cas, on choisit en g´en´eral des lois a priori π(θ) peu informatives.
• L’utilisation d’une information a priori permet “d’aider” l’estimation dans des cas difficiles tels que faible RSB ou faible N .
R´
ef´
erences
1 Steven M. Kay, Fundamentals of Statistical Signal Processing : Estimation
Theory, Prentice Hall, Englewood Cliffs, NJ, 1993
2 Louis L. Scharf, Statistical Signal Processing : Detection, Estimation and
Time Series Analysis, Addison Wesley, Reading, MA, 1991
3 Harry L. Van Trees, Detection, estimation and modulation theory, Part I,
John Wiley, 2004
4 Harry L. Van Trees, Kristine L. Bell Detection, estimation and modulation
theory, 2nd Edition, Part I, Detection, Estimation, and Filtering Theory, John Wiley, 2013
5 Christian Robert, The Bayesian Choice - From Decision-Theoretic
Foundations to Computational Implementation, Springer Verlag, 2007
6 Christian Robert, George Casella Monte-Carlo statistical methods, 2nd