Estimation en traitement du signal

(1)

Estimation en traitement du signal

(2)

Sommaire

1 Introduction - Problématique Contexte de l’estimation Problématique de l’estimation 2 Approche déterministe 3 Approche Bayésienne

(3)

Probl´

ematique

Objectif

Mettre en œuvre un système permettant d’accéder à une information pertinente, par exemple vitesse et/ou position d’un objet en mouvement.

Questions

• Quel est le probl`eme ; qu’est-ce que je cherche ?

• Comment choisir le capteur pour r´esoudre le probl`eme ?

• Quel est le principe de fonctionnement du syst`eme ?

• De quelle fa¸con le capteur donne t-il les informations recherch´ees ?

(4)

Exemple : an´

emom´

etrie laser

y Laser Diode Beams divisor Photoreceptor z emitted beams. backscattered ligth. emission lens. reception lens. Probe volume. 2W x y x I

Le signal re¸cu s’´ecrit

x(t) = A exp_−2α2f_d2t2 cos(2πfdt) + b(t).

(5)

Exemple : effet Doppler

On considère une antenne émettant un signal s(t) = eiωct _{et rétro-diffusé} par une cible en mouvement uniforme à la vitesse radiale v. Le signal re¸cu s’écrit r(t) = As (t_{− 2τ(t)) = As} t_{− 2}d0− vt c = Aeiωcte−iωc2d0c ei 2ωcv c t

Apr`es d´emodulation, on obtient

x(t) = Aeiφei2π2vλt+ b(t)

(6)

M´

ethodologie

Mod`ele-Mesures-Estimation Signal {x(n)}N n=1 Mod`ele θ Estimateur ˆ θ = g {x(n)}N n=1 ˆ

θ est t-il un bon estimateur? Comment trouver ˆθ?

d´epend de ce que l’on sait sur le m o d

(7)

Contexte et objectif

Ce que l’on sait (croit savoir)

• Un capteur re¸coit des mesures x(1),· · · , x(N).

• Le signal contient une information via un vecteur param`etre θ, par

exemple x(n) = s(n; θ) + b(n) et on connaˆıt (ou pas) la loi de b =b(1) _{· · · b(N)}T.

Ce que l’on veut (voudrait) savoir

• Comment trouver un estimateur ˆθ = g(x(1),_{· · · , x(N)) de θ ?}

• Est-ce que ˆθ est un bon estimateur ?

Contraintes

(8)

Approches pour l’estimation

Approche d´eterministe

On suppose que θ est une quantité déterministeinconnue et on considère

alors la loi pX(x; θ) du vecteur X =X(1) X(2) · · · X(N)T qui

est param´etr´ee par θ.

Approche Bay´esienne

On suppose que θ est une réalisation d’un vecteur aléatoireΘ et on considère alors la loi jointe pX,Θ(x, θ) = p_X|Θ(x_{|θ) πΘ}(θ), où πΘ(θ) désigne la loi a priori.

(9)

Sommaire

1 Introduction - Probl´ematique

2 Approche d´eterministe

Mod´elisation

Caract´erisation d’un estimateur Estimation optimale

Bornes de Cram´er-Rao Estimateur MVU

Estimateur du maximum de vraisemblance M´ethode des moments

Synth`ese des approches

(10)

Densit´

e de probabilit´

e et fonction de vraisemblance

• La loi p(x; θ) donne toute l’information sur le signal x. Par exemple,

si x(n) = θ + b(n) o`u b(n) sont i.i.d. b(n)∼ N 0, σ2_, p (x; θ) = 1 (2πσ2₎N/2exp ( − 1 2σ2 N X n=1 (x(n)− θ)2 ) . 10 12 14 16 18 20 22 24 26 28 30 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 x p(x; θ=20) FDP de x(1)=θ+b(1)

(11)

Vraisemblance et estimation

• Toute l’information sur x est contenue dans p(x; θ).

• p(x; θ) dépend de θ _⇒ on peut inférer θ à partir de x.

−100 0 10 20 30 40 50 60 0.05 0.1 0.15 0.2 0.25 0.3 0.35 x FDP de p(x(1);θ) θ=0 θ=20 θ=40

(12)

Caract´

erisation d’un estimateur

Crit`eres de qualit´e d’un estimateur ?

0 10 20 30 40 50 60 70 80 90 100 17 18 19 20 21 22 23

Comparaison de deux estimateurs

ˆ θ1=_N1 PNn=1x(n) ˆ θ2= x(1) θ = 20, N = 20 x(n) = θ + b(n)

(13)

Caract´

erisation d’un estimateur

Biais

b(ˆθ) = E_{{ˆθ} − θ}

Matrice de covariance

cov(ˆθ) = E_{{(ˆθ − E{ˆθ})(ˆθ − E{ˆθ})}T_}

Erreur quadratique moyenne

eqm(ˆθ) = E_{{(ˆθ − θ)(ˆθ − θ)}T_{} = b(ˆθ)b(ˆθ)}T + cov(ˆθ)

Loi

(14)

Exemple de caract´

erisation d’un estimateur

Exemple x(n) = θ + b(n) avec b∼ N (0, σ2_I)

On suppose que les variables b(n) sont i.i.d. b(n)∼ N 0, σ2, i.e. b =b(1) · · · b(N)T ∼ N 0, σ2_I_{. Soit ˆ}_{θ =} 1 N PN n=1x(n). On a E_{{ˆθ} = E{}1 N N X n=1 x(n)_{} =} 1 N N X n=1 E_{{x(n)} = θ} cov(ˆθ) = 1 N2E{ N X n,m=1 (x(n)_{− θ) (x(m) − θ)}} = 1 N2E{ N X n,m=1 b(n)b(m)_{} =} 1 N2E{ N X n=1 b(n)2_{} =} σ 2 N.

(15)

Convergence d’un estimateur

Estimateur consistant

Soit ˆθN un estimateur de θ `a partir de N ´echantillons x(1),· · · , x(N). Alors ˆθN est un estimateur consistant (au sens large) si

lim N →∞Pr n _ˆθ N − θ < δo= 1 _{∀δ > 0 ∀θ.}

Il est dit consistant en moyenne quadratique si lim

N →∞E{(ˆθN− θ)(ˆθN − θ)

(16)

“Meilleur” estimateur

Estimation optimale ?

• quel crit`ere dois-je adopter pour mesurer la performance d’un

estimateur ?

• en supposant que ce crit`ere existe, y a t-il des estimateurs qui produisent la performance optimale ?

• si oui, existe t-il une d´emarche syst´ematique (et laquelle) pour calculer cet estimateur optimal ?

Approches

1 soit on considère que l’estimateur doit être non biaisé et on cherche

donc l’estimateur `a minimum de variance ;

2 soit on autorise un biais et on cherche alors `a minimiser l’erreur

(17)

Minimisation de l’erreur quadratique moyenne : exemple

Minimisation de l’eqm pour x(n) = θ + b(n)

• Onautorise un biais dont on esp`ere qu’il seracontre-balanc´e par une diminution de la variance.

• Par exemple, on cherche un estimateur du type ˆθ = a_N1 PN_n=1x(n) dont l’eqm eqm(ˆθ) = (a_{− 1)}2θ2₊a2_σ2

N est la plus faible possible.

• La valeur optimale de a est alors aopt =θ2+ N−1σ2−1θ2 qui

d´epend deθ inconnu. On a, avec ce choix de a

b(ˆθ) =−θ2+ N−1σ2−1θN−1σ2 6= 0 cov(ˆθ) =θ2+ N−1σ2−2θ4N−1σ2< N−1σ2= cov(1 N N X n=1 x(n)) eqm(ˆθ) =θ2+ N−1σ2−1θ2N−1σ2< N−1σ2= eqm( 1 N N X n=1 x(n)).

(18)

Estimation non biais´

ee `

a variance minimale

Estimateur MVU

On considère comme “référence” l’estimateur non biaisé, à minimum de variance :

E{ˆθM V U} = θ

C_θˆ− CM V U ≥ 0 ∀ˆθ, ∀θ o`u CM V U = cov(ˆθM V U) et C_θˆ = cov(ˆθ).

Si cet estimateur existe (et si on peut l’implémenter), il est considéré comme l’estimateur optimal.

(19)

Estimation non biais´

ee `

a variance minimale

Questions

• Cet estimateur existe-t-il ? Si oui comment le trouver ?

• Existe-t-il une borne inf´erieure `a cov(ˆθ) ?

0 10 20 30 40 50 0 2 4 6 8 10 12 MVU existe θ var( θ) 0 10 20 30 40 50 0 2 4 6 8 10 12 Pas de MVU θ var( θ)

(20)

Borne minimale de la variance d’un estimateur non biais´

e

Bornes de Cram´er-Rao

La borne de Cramér-Rao (BCR) donne l’expression de la covariance minimale que l’on peut atteindre en estimant (de manière non biaisée) le paramètre θ :

• si un estimateur atteint les bornes, et ce quel que soit θ, alors c’est l’estimateur MVU ;

• cette borne est une référence à laquelle on peut comparer tous les estimateurs ;

• la th´eorie permet de d´eterminer s’il existe un estimateur qui atteindra la borne.

(21)

Borne minimale de la variance d’un estimateur non biais´

e

Théorème (Borne de Cramér-Rao)

Si p (x; θ) vérifie la condition de régularité E_{∂ ln p(x;θ)_∂θ _{} = 0 alors, quel que soit} l’estimateur non biaisé ˆθ de θ, sa matrice de covariance vérifie Cˆθ− I

−1_(θ) ≥ 0 o`u I (θ) =_−E{∂ 2_{ln p (x; θ)} ∂θ∂θT } = E{ ∂ ln p (x; θ) ∂θ ∂ ln p (x; θ) ∂θT }

est la matrice d’information de Fisher. De plus, on peut trouver un estimateur qui atteint la borne i.e. Cˆ_θ= I−1(θ) si et seulement si

∂ ln p (x; θ)

∂θ = I (θ) (f (x)− θ) .

Cet estimateur, qui est l’estimateur MVU, est donn´e par ˆθ = f (x) et sa matrice de covariance est alors I−1(θ) : il est dit efficace.

(22)

Borne de Cram´

er-Rao

D´emonstration

ˆ

θ étant un estimateur non biaisé, on a R ˆθp(x; θ)dx = θ. En différentiant, on obtient Z ˆ θ∂p(x; θ) ∂θT dx = Z ˆ θ∂ ln p(x; θ) ∂θT p(x; θ)dx = I et ainsi E_{{(ˆθ − θ)}∂ ln p(x; θ) ∂θT } = I.

Par cons´equent, la matrice de covariance deh(ˆθ_{− θ)}T ∂ ln p(x;θ) ∂θT iT s’´ecrit cov( (ˆθ− θ) ∂ ln p(x; θ)/∂θ ) = C_θˆ I I I(θ) .

(23)

Borne de Cram´

er-Rao

D´emonstration

Cette matrice étant définie positive, on a nécessairement Cˆ_θ− I−1(θ)≥ 0. D’autre part Z _{∂ ln p(x; θ)} ∂θ p(x; θ)dx = 0 ⇒ Z ∂2ln p(x; θ) ∂θ∂θT p(x; θ)dx + ∂ ln p(x; θ) ∂θ ∂ ln p(x; θ) ∂θT p(x; θ)dx = 0 ⇒ I(θ) = E{∂ ln p(x; θ) ∂θ ∂ ln p(x; θ) ∂θT } = −E{ ∂2ln p(x; θ) ∂θ∂θT }.

(24)

Borne de Cram´

er-Rao

D´emonstration Si de plus ∂ ln p (x; θ) ∂θ = I (θ) (f (x)− θ) alors, pour ˆθ = f (x), on a E_{{ˆθ − θ} =} Z (f (x)_{− θ) p (x; θ) dx} = I−1(θ) Z ∂ ln p (x; θ) ∂θ p(x; θ)dx = 0 cov(ˆθ) = E_{I−1(θ)∂ ln p (x; θ) ∂θ ∂ ln p (x; θ) ∂θT I −1_(θ)_} = I−1(θ)E_{∂ ln p (x; θ) ∂θ ∂ ln p (x; θ) ∂θT }I −1_(θ) = I−1(θ).

(25)

BCR : un exemple

Exemple x(n) = θ + b(n), b_{∼ N (0, σ}2_I) On a dans ce cas p (x; θ) = 1 (2πσ2₎N/2exp ( −1 2σ2 N X n=1 (x(n)_{− θ)}2 ) ln p (x; θ) =₋N 2 ln 2πσ 2₋ 1 2σ2 N X n=1 (x(n)_{− θ)}2. Il s’ensuit que ∂ ln p (x; θ) ∂θ = 1 σ2 N X n=1 (x(n)_{− θ)} ∂2ln p (x; θ) ∂θ2 =− N σ2 =−I(θ).

(26)

BCR : un exemple

Exemple x(n) = θ + b(n), b_{∼ N (0, σ}2_I)

La BCR est donc simplement

BCR(θ) = σ 2 N. De plus, ∂ ln p (x; θ) ∂θ = N σ2 " 1 N N X n=1 x(n)− θ # .

Ainsi il existe un estimateur efficace (donc forc´ement MVU), `a savoir ˆ θM V U = 1 N N X n=1 x(n).

(27)

BCR : cas signal plus bruit

Exemple x(n) = s(n;θ) + b(n), b∼ N (0, σ2_I)

La loi s’écrit maintenant ln p (x; θ) =−N 2 ln 2πσ 2₋ 1 2σ2 N X n=1 [x(n)− s(n; θ)]2. Les dérivées deviennent alors

∂ ln p (x; θ) ∂θk = 1 σ2 N X n=1 [x(n)− s(n; θ)]∂s(n; θ)_∂θ k = 1 σ2 ∂sT_(θ) ∂θ [x− s(θ)] k . La matrice d’information de Fisher I(θ) s’´ecrit donc simplement

I(θ) = 1 σ4 ∂sT(θ) ∂θ E{[x − s(θ)] [x − s(θ)] T }∂s(θ) ∂θT = 1 ∂s T_(θ)_∂s(θ) .

(28)

BCR : cas signal plus bruit

Exemple x(n) = s(n;θ) + b(n), b_{∼ N (0, σ}2_I)

• Consid´erons maintenant l’existence d’un estimateur efficace. On doit

avoir la factorisation ∂ ln p (x; θ) ∂θ = 1 σ2 ∂sT_(θ) ∂θ [x− s(θ)] = I (θ) [f (x)− θ] = 1 σ2 ∂sT(θ) ∂θ ∂s(θ) ∂θT [f (x)− θ] .

• Cette factorisation n’est possible que si s(θ) est une fonctionaffine

de θ, soit s(θ) = Hθ + c, auquel cas I(θ) = σ−2_HT_{H et}

ˆ

θ = (HTH)−1HT(x− c)

(29)

BCR : cas signal plus bruit

Synth`ese x_{∼ N (s(θ), σ}2_{I) avec σ}2 _connu

• si s(θ) est une fonction non lin´eaire de θ, il n’existe pas d’estimateur efficace ;

• si s(θ) = Hθ, il existe un estimateur efficace ˆθ = (HTH)−1HTx.

Cas σ2 inconnu

Alors, la matrice de Fisher s’´ecrit

I θ, σ2= 1 σ2 " ∂s(θ)T ∂θ ∂s(θ) ∂θT 0 0 _2σN2 # .

Il n’y a pas d’estimateur efficace du vecteurθ σ2T. Par contre, si

(30)

Mod`

ele lin´

eaire

x

∼ N (Hθ, C), C connue

• Le signal utile s’écrit comme une combinaison linéaire, à coefficients inconnus, de signaux connus:

s(n; θ) = p X k=1

θkhk(n)⇔ s(θ) = Hθ

et les colonnes de H contiennent les signaux de la basesur laquelle on d´ecompose s(n; θ).

• Le bruit additif est Gaussien, color´e, de matrice de covariance C connue. • La vraisemblance s’´ecrit p(x; θ) = (2π)−N/2|C|−1/2exp −1 2(x− Hθ) T C−1(x− Hθ) ln p(x; θ) = const.−1 2(x− Hθ) T C−1(x− Hθ) .

(31)

Mod`

ele lin´

eaire

x

∼ N (Hθ, C), C connue

• Les dérivées de la log-vraisemblance s’écrivent ∂ ln p(x; θ) ∂θ = H T_C−1_(x_{− Hθ)} ∂2_{ln p(x; θ)} ∂θ∂θT =−H T_C−1_{H =}_−I(θ) • On a donc la factorisation ∂ ln p(x; θ) ∂θ = I(θ) h HTC−1H−1HTC−1x_{− θ}i

• L’estimateur MVU efficace s’en d´eduit comme

ˆ

θM V U = HTC−1H−1HTC−1x et cet estimateur est une fonction lin´eaire de x.

(32)

Mod`

ele lin´

eaire

x

∼ N (Hθ, C), C connue

Remarques

• L’estimateur MVU est solution duprobl`eme des moindres carr´es

pond´er´es suivant : ˆ

θM V U = arg min

θ (x− Hθ)

T _C−1_(x_{− Hθ) .}

• Dans le cas o`u x = Hθ + b o`u b est de moyenne nulle, de matrice de

covariance C (mais b n’est pas n´ecessairement Gaussien), ˆ

θBLU E = HTC−1H−1HTC−1x

est l’estimateurBLUE(best linear unbiased estimate), i.e.

(33)

BCR pour f (

θ)

Transformation de param`etres

• Si l’on veut estimer β = f (θ) alors

I−1(β) = ∂β

∂θTI

−1_(θ)∂βT

∂θ .

• Si ˆθ est un estimateur efficace et si f (.) est linéaire, alors ˆβ = f (ˆθ) est efficace. Si f (.) n’est pas linéaire, alors ˆβ = f (ˆθ) n’est plus efficace. Par contre, en général on a l’efficacité asympotique car

ˆ β = fˆθ_{' f (θ) +} ∂β ∂θT(ˆθ− θ) et donc C_βˆ ' ∂β ∂θTI −1_(θ)∂βT ∂θ = I −1_{(β) .}

(34)

BCR pour signaux Gaussiens (formule de

Slepian-Bangs

)

Cas de signaux Gaussiens r´eels x∼ N (µ(θ), C(θ))

[I (θ)]_k,` =∂µ T_(θ) ∂θk C−1(θ)∂µ (θ) ∂θ` +1 2Tr C−1(θ)∂C (θ) ∂θk C−1(θ)∂C (θ) ∂θ` .

Cas de signaux Gaussiens complexes x_{∼ CN (µ(θ), C(θ))}

Pour des signaux complexes circulaires dont la loi est

p(x; θ) = π−N|C(θ)|−1expn− (x − µ(θ))HC−1(θ) (x − µ(θ))o la matrice d’information de Fisher devient

[I (θ)]_k,`= 2Re ∂µ H_(θ) ∂θk C −1_(θ)∂µ (θ) ∂θ` + Tr C−1_(θ)∂C (θ) ∂θk C −1_(θ)∂C (θ) ∂θ` .

(35)

BCR : cas de l’exponentielle complexe bruit´

ee

Exponentielle complexe

• Soit le signal x(n) = Aei(nω0+φ)_{+ b(n), n = 0,}_{· · · , N − 1, où} b∼ CN 0, σ2_I _{et A, φ et ω0} _{sont des paramètres déterministes}

inconnus. Si θ =A ω0 φ σ2T on obtient I (θ) = 2 σ2     N 0 0 0 0 A2Q A2P 0 0 A2_P _{N A}2 0 0 0 _2σN2     ; P = N −1_X n=0 n, Q = N −1_X n=0 n2

• On en d´eduit les bornes de Cram´er-Rao :

BCR(A) = σ 2 2N BCR(σ 2_{) =} σ4 N BCR(φ) = σ 2_(2N_{− 1)} A2_{N (N + 1)} BCR(ω0) = 6σ2 A2_{N (N}2_{− 1)}.

(36)

MVU et statistique exhaustive

Question

Existe-t-il une fonction des donn´ees qui concentre `a elle seule toute l’information sur θ ? Par exemple, pour x(n) = θ + b(n),

ˆ

θM V U = N−1PN_n=1x(n) et il suffit d’observer t =PN_n=1x(n) pour obtenir l’estimateur MVU.

Statistique exhaustive

t est une statistique exhaustive pour l’estimation de θ si, une fois que l’on a observé t, rien de plus ne peut être inféré sur θ à partir des données :

(37)

Statistique exhaustive : exemple

Exemple x(n) = θ + b(n), b∼ N (0, σ2_I) Puisque x∼ N θ 1, σ2_I _{et t = x}T₁_{∼ N Nθ, Nσ}2_{, on a} p(x, t; θ) = 2πσ2−N/2exp − 1 2σ2 x T_x_{− 2tθ + Nθ}2 δ(t− xT1) p(t; θ) = 2πN σ2−1/2exp −_2σ1₂ t2 N − 2tθ + Nθ 2 . Par cons´equent la loi conditionnelle de x|t s’´ecrit

p(x_{|t) =} 2πN σ 21/2 (2πσ2₎N/2 exp −_2σ1₂ xTx₋ t 2 N δ(t_{− x}T1) et ne d´epend plus de θ.

(38)

MVU et statistique exhaustive

Statistique exhaustive

• t est une statistique exhaustive pour l’estimation de θ ssi p (x_{|t) ne} d´epend plus de θ.

• L’estimateur MVU doit ˆetre une fonction d’une statistique exhaustive.

Recherche de l’estimateur MVU

• p (x; θ) = g (t, θ) h (x)_{⇔ t statistique exhaustive.}

• t est compl`ete s’il n’existe qu’une seule fonction f telle que f (t) soit un estimateur non biais´e de θ : c’est justement l’estimateur MVU.

• Si ˘θ est un estimateur non biaisé de θ et si t est une statistique exhaustive alors ˆθ = E_{{˘θ|t} est un estimateur non biaisé de θ de} variance inférieure ou égale à celle de ˘θ. Si si t est complète, il s’agit de l’estimateur MVU.

(39)

Statistique exhaustive du mod`

ele lin´

eaire

Mod`elex = Hθ + b avec b _{∼ N (0, C)}

On a p(x; θ) = (2π)−N/2|C|−1/2exp −1 2x T_C−1_x × exp θTHTC−1x−1 2θ T_HT_C−1_Hθ

et donc t = HTC−1x est une statistique exhaustive. En supposant qu’elle

est compl`ete, on cherche l’estimateur non biais´e de θ utilisant t. Or

(40)

Statistique exhaustive du mod`

ele non lin´

eaire

Mod`elex = s(θ) + b avec b ∼ N (0, C)

On a p(x; θ) = (2π)−N/2_|C|−1/2exp −1₂xTC−1x × exp sT(θ)C−1x₋1 2s T_(θ)C−1_s(θ)

et donc il n’existe pas de statistique exhaustive puisque

sT_(θ)C−1_{x =}PN

n=1s(n; θ)

C−1x(n) n’est pas observable car ne d´ependant pas des donn´ees x uniquement.

(41)

MVU : exemple

Ecart-type d’une loi uniforme

On considère N données indépendantes x(n)∼ U ([−β, β]) et on cherche

à estimer β. La loi de x s’écrit, avec u(.) la fonction échelon

p (x; β) = 1 (2β)N N −1_Y n=0 [u (x(n) + β)− u (x(n) − β)] = ( ₁ (2β)N −β < x(n) < β n = 0, · · · , N − 1 0 sinon = ( ₁ (2β)N max|x(n)| < β 0 sinon

et donc t = max|x(n)| est une statistique exhaustive. En supposant

qu’elle est complète on cherche un estimateur non biaisé de β à partir de t. Pour cela, on cherche la loi de t.

(42)

MVU : exemple

Ecart-type d’une loi uniforme

Pr [t_{≤ ξ] =} N −1_Y n=0 Pr [_{|x(n)| ≤ ξ] = Pr [|x(n)| ≤ ξ]}N =        0 ξ _{≤ 0} ξ β N 0≤ ξ ≤ β 1 ξ _{≥ β}

ce qui implique que la FDP de t est

pt(ξ) = ∂Pr [t_{≤ ξ]} ∂ξ =        0 ξ _{≤ 0} N β ξ β N −1 0≤ ξ ≤ β 1 ξ ≥ β

(43)

MVU : exemple

Ecart-type d’une loi uniforme On a E{t} = Z β 0 N βξ ξ β N −1 d ξ = N N + 1β ⇒ ˆβ M V U ₌ N + 1 N max|x(n)|.

Sa variance peut se calculer : cov( ˆβM V U) = N + 1 N 2 cov(t) = N + 1 N 2(Z β 0 N βξ 2 ξ β N −1 d ξ₋ N β N + 1 2) = β 2 N (N + 2).

(44)

MVU : exemple

Exemple x(n) = nθ + b(n) avec b _{∼ N (0, θσ}2_I) • Dans ce cas on a p(x; θ) = 2πθσ2−N/2e2θσ2−1 PN n=1(x(n)−nθ)2 = 2πθσ2−N/2e −PN_{n=1 x}2(n) 2θσ2 − θPN_{n=1 n}2 2σ2 e PN n=1 nx(n) σ2 .

• Par cons´equent t =PN_n=1x2(n) est une statistique exhaustive pour l’estimation de θ.

• Cependant, E{t} = θ2PNn=1n2+ N θσ2 et il n’est donc pas évident de trouver un estimateur non biaisé de θ à partir de t.

(45)

Estimateur du maximum de vraisemblance

D´efinition

L’estimateur ML consiste `a maximiser la fonction de vraisemblance : ˆ

θM L= arg max

θ p (x; θ) .

Propri´et´es

• Efficacit´e asymptotique: ˆθM L as_{∼ N θ, I}−1(θ).

• Si un estimateur efficace existe, l’estimateur ML le produit : ∂ ln p (x; θ)

∂θ = I (θ) [f (x)− θ] ⇒ ˆθ

M L

= f (x).

• Si une statistique exhaustive existe, i.e., p (x; θ) = g (t, θ) h (x), alors ˆ

θM L est une fonction de t uniquement.

(46)

Estimateur ML : cas signal plus bruit

Exemple x∼ CN (s(θ), σ2_{I), σ}2 _inconnu

• La fonction log-vraisemblance s’´ecrit Λ(x; θ, σ2) =_{−N ln(πσ}2)₋ 1

σ2 kx − s(θ)k

2_.

• On maximise d’abord par rapport `a σ2 :

∂Λ(x; θ, σ2) ∂σ2 =− N σ2 + 1 σ4 kx − s(θ)k 2 ˆ σ2M L = N−1 _{x − s(ˆθ}M L) 2.

• L’estimateur ML de θ s’obtient comme

ˆ

θM L = arg min

θ kx − s(θ)k

2

(47)

Estimateur ML : cas signal non lin´

eaire plus bruit

Exemple x∼ CN (As(ω), σ2_I)

• L’estimateur ML de θ =ω AT avec A∈ C s’´ecrit

ˆ

θM L = arg min

θ kx − As(ω)k

2 .

• On minimise d’abord par rapport `a A :

kx − As(ω)k2= xHx_{− Ax}Hs(ω)_{− A}∗sH(ω)x +_|A|2sH(ω)s(ω) = sH(ω)s(ω) A − s H_(ω)x sH_(ω)s(ω) 2 + xHx− |s H_(ω)x_|2 sH_(ω)s(ω)

et l’estimateur ML de A est alors ˆ

AM L = s

H_(ˆ_ωM L_)x sH_(ˆ_ωM L_)s(ˆ_ωM L₎.

(48)

Estimateur ML : cas signal non lin´

eaire plus bruit

Exemple x_{∼ CN (As(ω), σ}2_I)

• L’estimateur ML de ω est donc obtenu comme

ˆ ωM L= arg max ω |sH_(ω)x_|2 sH_(ω)s(ω) = arg max ω x H_P s(ω)x; Ps(ω)= s(ω)sH_(ω) sH_(ω)s(ω) = arg max ω wH_(ω)x2_; _{w(ω) =} _p s(ω) sH_(ω)s(ω)

• Il peut s’interpr´eter comme

1 la valeur de ω qui maximise la norme de la projection de x sur la

vari´et´e s(ω) ;

2 la valeur de ω qui maximise la puissance en sortie dufiltre adapt´e

(49)

Filtre adapt´

e (bruit blanc Gaussien)

x = As(ω) + b w(ω1) = √ s(ω1) sH_(ω 1)s(ω1) wH_(ω 1)x |.|2 w(ω2) = √ s(ω2) sH_(ω₂_)s(ω₂₎ wH_(ω 2)x |.|2 w(ωL) = √ s(ωL) sH_(ω_L_)s(ω_L₎ wH_(ω L)x |.|2 max ωˆ

(50)

Estimateur ML : cas signal non lin´

eaire plus bruit

• Le rapport signal sur bruit en entrée du filtre adapté s’écrit

RSBin= |A|

2_sH_(ω)s(ω)

E{bHb} =

|A|2_sH_(ω)s(ω)

N σ2 .

• Le signal en sortie de filtre adapté s’écrit AwH(ω)s(ω) + wH(ω)b, ce qui conduit à un rapport signal sur bruit

RSBout= |Aw H_(ω)s(ω)_|2 E{|wH_(ω)b_|2_} = |AwH_(ω)s(ω)_|2 σ2_wH_(ω)w(ω) = |A| 2_sH_(ω)s(ω) σ2 = N × RSBin.

(51)

Estimateur ML : cas signal non lin´

eaire plus bruit

• Cas d’un retard : si x(t) = As(t− τ) + b(t) et si la forme d’onde

s(t) a une ´energie constante

ˆ τM L = arg max τ X t x(t)s∗(t_{− τ)} 2 .

• Exponentielle complexe : si x(n) = Aeinω+ b(n) alors

ˆ ωM L= arg max ω 1 N N −1_X n=0 x(n)e−inω 2

qui n’est autre que le maximum du p´eriodogrammedu signal, i.e. le

(52)

ML et BCR pour une exponentielle complexe

−15 −10 −5 0 5 10 15 20 −70 −60 −50 −40 −30 −20 −10 0 10 RSB (dB) Erreur quadratique moyenne

BCR, N=24 ML, N=24 BCR, N=48 ML, N=48

(53)

Estimateur ML et moindres carr´

es

Remarques

• Sous hypoth`eseGaussienne x∼ N (s(θ), C) avec C connue,

l’estimateur ML revient à résoudre unproblème des moindres carrés :

• moindres carr´es lin´eaires si s(θ) = Hθ : dans ce cas on a une solution analytique ;

• moindres carrés non linéaires si s(θ) n’est pas linéaire en θ : dans ce cas, on a recours à des méthodes itératives -utilisant gradient et éventuellement Hessien de p(x; θ)- pour trouver l’estimateur.

• Dans le cas où θ =θlin θnonlinT et où s(θ) est linéaire par rapport à θlin et non linéaire par rapport à θnonlin, on minimise explicitement p(x; θ) par rapport à θlin. On reporte dans la fonction de

vraisemblance, et il reste un problème non linéaire par rapport à θnonlin.

• Les méthodes des moindres carrés sont également souvent utilisées lorsque la loi n’est plus Gaussienne : dans ce cas, on privilégie la facilité d’implémentation au détriment de l’optimalité.

(54)

Estimateur ML : synth`

ese

Synth`ese

• De part ses propriétés d’optimalité asymptotique et compte tenu de sa formulation (maximisation d’une fonction), l’estimateur du maximum de vraisemblance est très souvent utilisé.

• Les probl`emes auxquels il se heurte :

• difficulté à résoudre le problème de maximisation, par exemple due à la présence de nombreux maxima locaux

• coût calculatoire parfois élevé dû à une maximisation compliquée, par exemple p(x; θ) = 1 (2π)N/2_|C(θ)|1/2exp −1₂[x_{− µ(θ)]}TC−1(θ) [x_{− µ(θ)]}

• estimation peu pr´ecise `a faible RSB ou faible N (mais dans ce cas peu d’estimateurs feront mieux que le ML)

(55)

M´

ethode des moments

Principe

Exploiter les propriétés des moments du signal (notamment la fonction de corrélation) et leur relation avec θ : par exemple, si

θ = g(rxx(0),· · · , rxx(M− 1)) o`u rxx(m) = E{x∗(n)x(n + m)} est la fonction de corr´elation de x(n), on peut envisager l’estimateur

ˆ

θ = g(ˆrxx(0),· · · , ˆrxx(M− 1)) où ˆrxx(m) désigne une estimée de rxx(m).

Avantages et inconv´enients

, Estimateurs souvent simples `a mettre en œuvre et ne n´ecessitant pas

d’hypoth`eses sur la loi de x(n).

(56)

M´

ethode des moments : exemple

Exponentielle complexe

Soit le signal x(n) = Aei(nω0+φ)+ b(n), n = 0,· · · , N − 1, o`u b(n) est un bruit blanc complexe de moyenne nulle. On a alors

rxx(m) = E{x∗(n)x(n + m)} = A2eimω0+ σ2δ(m) et, par exemple,

ω0= angle [rxx(1)]

ce qui sugg`ere une estimation possible de ω0 comme

ˆ ω0 = angle [ˆrxx(1)] = angle " 1 N− 1 N −2_X n=0 x∗(n)x(n + 1) # .

(57)

M´

ethode des moments : analyse de performances

Analyse statistique

Soit ˆθ = f (ˆt) où ˆt est un vecteur contenant des estimées de certains moments du signal, par exemple ˆt =rˆxx(0) · · · ˆrxx(M − 1)T. En supposant que ˆt est un estimateur consistant de t, on peut écrire un développement de Taylor au voisinage de t :

ˆ θ = f (ˆt)' f(t) + ∂f ∂tT t (ˆt− t). On en d´eduit alors E{ˆθ} ' f(t) et cov(ˆθ)' ∂f ∂tT t E{(ˆt − t)(ˆt − t)T} ∂f ∂tT T t .

E{(ˆt − t)(ˆt − t)T_{} est souvent connu, du moins pour une grande classe de} processus stationnaires.

(58)

M´

ethode des moments : analyse de performances

Analyse `a fort rapport signal sur bruit (RSB)

Dans le cas d’un signal d´eterministe noy´e dans un bruit blanc

x(n) = s(n; θ) + b(n), pour lequel θ = f (s(θ)), on fait souvent l’analyse `a fort RSBen consid´erant t = x. On a alors

ˆ θ = f (x) = f (s(θ) + b)' f(s(θ)) + ∂f ∂xT s(θ) b. La moyenne et la matrice de covariance asymptotique (i.e. `a fort RSB) s’en d´eduisent E_{{ˆθ} ' f(s(θ)) = θ} cov(ˆθ)' ∂f ∂xT s(θ) E{bbT} ∂f ∂xT T s(θ) .

(59)

Comment chercher un estimateur ?

Evaluation ML possible ? Signal lineaire ? Non Oui Oui Oui Oui Oui Non Oui Non Oui Non Non Oui ? Non Non ? Estimateur efficace existe ? Covariance du bruit connue ? biaise possible ? Estimateur non Statistique complete disponible ? Utilisation des moments envisageable? Oui Non Calcul des BCR

RECHERCHE ESTIMATEUR OPTIMAL

APPROCHE MOINDRES CARRES MVU MVU ML Moments BLUE LS

(60)

Sommaire

1 Introduction - Problématique 2 Approche déterministe 3 Approche Bayésienne Principe Estimateur MMSE Maximum a posteriori Borne Bayésienne Exemples

(61)

Approche Bay´

esienne vs approche d´

eterministe

Signal {xn}Nn=1 Likelihood p(x_|θ) max θ p(x|θ) Prior π(θ_|¯θ) _ˆmin θ=f (x) dθ, θˆ _Bayesian Frequentist

(62)

Approche Bay´

esienne

Principe

Considérer le vecteur paramètre θ à estimer comme aléatoire, avec une

loi a priori π (θ) : n´ecessite d’avoir une information a priori sur θ.

Caract´erisation

On consid`ere alors la loi jointe p (x, θ) = p (x|θ) π (θ).

Loi a posteriori La loi a posteriori p (θ_{|x) =} p (x, θ) p (x) = p (x|θ) π (θ) R p (x, θ) dθ

(63)

Lois a priori conjugu´

ees

Lois conjugu´ees

Des lois sont dˆıtes conjuguéessi elles appartiennent à la même famille. Par exemple, si p x|µ, σ2∝ σ2−N/2exp − 1 2σ2(x− µs) T _(x_{− µs)} ∝ σ2−N/2exp ( −σ −2 2 " xTx₋(s T_x)2 sT_s + (s T_s) µ₋s T_x sT_s 2#)

alors la loi conjugu´ee pour µ est N ¯µ, σ2 µ

et celle pour σ2 _est _{IG (a, b) :}

π (µ)_{∝ exp} − 1 2σ2 µ (µ_{− ¯µ)}2 π σ2∝ σ2−(a+1)exp−bσ−2 .

(64)

Estimateur `

a erreur quadratique moyenne minimale

Estimateur MMSE

L’estimateur qui minimise l’erreur quadratique moyenne est donn´e par ˆ

θmmse= arg min

ˆ θ=f (x) Ex,θ{(ˆθ − θ)(ˆθ − θ)T} = E_{θ|x{θ} =} Z θp (θ_{|x) dθ.}

(65)

D´

emonstration MMSE

On note tout d’abord que l’eqm s’´ecrit eqm(ˆθ) =

Z Z

(ˆθ_{− θ)(ˆθ − θ)}Tp(θ_{|x) dθ}

p(x) dx. L’int´egrale interne s’´ecrit

Z (ˆθ_{− θ)(ˆθ − θ)}Tp(θ_{|x) dθ} = ˆθˆθT − Eθ|x{θ}ˆθT − ˆθEθ|x{θ}T + Z θθTp (θ|x) dθ = (ˆθ_{− ˆθ}mmse)(ˆθ_{− ˆθ}mmse)T + Z (ˆθmmse_{− θ)(ˆθ}mmse_{− θ)}Tp(θ_{|x) dθ} ≥ Z (ˆθmmse_{− θ)(ˆθ}mmse_{− θ)}Tp(θ_{|x) dθ} ce qui d´emontre le r´esultat.

(66)

Propri´

et´

es de l’estimateur MMSE

Remarques

• L’estimateur MMSE correspond `a lamoyenne a posteriori de θ,

conditionnellement à x: nécessité de calculer cette loi.

• L’estimateur MMSE est non biais´e car

E_x,θ{ˆθmmse_{− θ} = Ex}_{Eθ|x{ˆθmmse_{− θ}} = Ex{0} = 0.}

• Sa matrice de covariance s’´ecrit

Ex,θ{(ˆθmmse− θ)(ˆθmmse− θ)T} = Ex{Cθ|x}

o`u Cθ|x= Eθ|x{(θ − Eθ|x{θ})(θ − Eθ|x{θ})T} est la matrice de covariance a posteriori de θ.

(67)

Estimateur du maximum a posteriori

Estimateur MAP

ˆ

θmap= arg max

θ p (θ|x) = arg maxθ Λ (θ|x) = arg max

θ [Λ (x|θ) + Λ (θ)] .

Lien avec l’estimateur ML

Si x∼ N (s(θ), C) et θ ∼ N ¯θ, Cθ, alors

ˆ

θmap= arg min

θ n

[x_{− s(θ)]}T C−1[x_{− s(θ)] + θ − ¯θ}TC−1_θ θ_{− ¯θ}To

(68)

Borne minimale de la variance en estimation Bay´

esienne

Borne Bay´esienne

L’eqm est bornée inférieurement par I−1_B (θ) où IB(θ) = Ex,θ{− ∂2Λ (x, θ) ∂θ∂θT } = E_θ{Ex|θ{−∂ 2_{Λ (x}_|θ) ∂θ∂θT − ∂2_{Λ (θ)} ∂θ∂θT }} = E_θ{Ex|θ{−∂ 2_{Λ (x}_|θ) ∂θ∂θT } − ∂2Λ (θ) ∂θ∂θT } = Eθ{I(θ)} + Eθ{−∂ 2_{Λ (θ)} ∂θ∂θT }. Exemple x(n) = θ + b(n) avec b_{∼ N (0, σ}2_{I) et θ} _{∼ N ¯θ, σ}2 θ IB(θ) = N σ2 + 1 σ2 θ ≥ _σN₂ = I(θ).

(69)

Estimation Bay´

esienne : exemple

Exemple x(n) = θ + b(n) avec b∼ N (0, σ2_{I) et θ} _{∼ N ¯θ, σ}2 θ On a alors p (x|θ) ∝ exp − 1 2σ2(x− θ1) T _(x_{− θ1)} π (θ)_{∝ exp} − 1 2σ_θ2 θ− ¯θ 2 . La loi a posteriori s’´ecrit donc

p (θ|x) ∝ exp −1 2 θ2 N σ2 + 1 σ2 θ − 2θ xT₁ σ2 + ¯ θ σ2 θ .

(70)

Estimation Bay´

esienne : exemple

Exemple x(n) = θ + b(n) avec b∼ N (0, σ2_{I) et θ} _{∼ N ¯θ, σ}2 θ Par cons´equent, θ|x ∼ Nµθ|x, σ2_θ|x avec µ_θ|x= N σ2 + 1 σ_θ2 −1 xT1 σ2 + ¯ θ σ2_θ ; σ2_θ|x= N σ2 + 1 σ_θ2 −1 . L’estimateur MMSE s’´ecrit donc

ˆ θmmse= N σ2 + 1 σ2 θ −1 xT1 σ2 + ¯ θ σ2 θ = N σ 2 θ σ2_{+ N σ}2 θ xT1 N + σ2 σ2_{+ N σ}2 θ ¯ θ = αˆθml+ (1_{− α)¯θ.}

(71)

Estimation Bay´

esienne : exemple

Exemple x(n) = θ + b(n) avec b_{∼ N (0, σ}2_{I) et θ} _{∼ N ¯θ, σ}2 θ −1 −0.5 0 0.5 1 1.5 2 2.5 3 0 0.5 1 1.5 2 2.5 3 3.5

Probability Density Function of θ

N=20, RSB=0dB

π(θ) p(θ | x)

σ2

(72)

Estimation Bay´

esienne : exemple

Exemple x(n) = θ + b(n) avec b_{∼ N (0, σ}2_{I) et θ} _{∼ N ¯θ, σ}2 θ −8 −6 −4 −2 0 2 4 6 8 10 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

Probability Density Function of θ

N=20, RSB=0dB

π(θ) p(θ | x)

σ2

(73)

Estimation Bay´

esienne : exemple

Exemple x(n) = θ + b(n) avec b_{∼ N (0, σ}2_{I) et θ} _{∼ N ¯θ, σ}2 θ 0 1 2 3 4 5 6 7 8 9 10 −28 −26 −24 −22 −20 −18 −16 −14 −12 Comparaison MMSE−ML N=20, RSB=0dB BB MMSE ML Valeur de N σ2 θ/σ2

(74)

Estimation Bay´

esienne : mod`

ele lin´

eaire

Mod`ele lin´eaire

Soit le mod`ele lin´eaire x = Hθ + b avec b∼ N (0, C) et θ ∼ N ¯θ, Cθ.

On a alors les lois suivantes p (x_{|θ) ∝ exp} −1₂(x_{− Hθ)}T C−1(x_{− Hθ)} π (θ)∝ exp −1 2 θ− ¯θ T C−1_θ θ− ¯θ . La loi a posteriori est dans ce cas

p (θ_{|x) ∝ exp}

−1₂θT HTC−1H + C−1_θ θ × expθT HTC−1x + C−1_θ ¯θ .

(75)

Estimation Bay´

esienne : mod`

ele lin´

eaire

Mod`ele lin´eaire

θ_{|x est donc distribu´ee selon une loi normale, de moyenne et de matrice} de covariance

µ_θ|x = HTC−1H + C−1_θ −1 HTC−1x + C−1_θ θ¯

C_θ|x = HTC−1H + C−1_θ −1.

L’estimateur MMSE est donc ˆ

θmmse= HTC−1H + C−1_θ −1 HTC−1x + C−1_θ θ¯. Puisque Cθ|x ne d´epend pas de x, la matrice de covariance de ˆθ

mmse est Ex{Cθ|x} = Cθ|x.

(76)

Estimation Bay´

esienne : observations

• Dans de nombreux cas, la loi a posteriori p (θ|x) n’appartient pas nécessairement à une famille connue et on n’a pas d’expression analytique deR θp (θ|x) dθ. Dans ce cas, une solution consiste à utiliser des méthodes de simulation qui génèrent des variables

aléatoires θn distribuées selon p (θ|x). On approxime alors l’intégrale par ˆ θmmse' 1 Nr Nr X n=1 θn.

• L’approche Bayésienne peut être utilisée pour l’estimation de

paramètres déterministes : dans ce cas, on choisit en général des lois a priori π(θ) peu informatives.

• L’utilisation d’une information a priori permet “d’aider” l’estimation dans des cas difficiles tels que faible RSB ou faible N .

(77)

R´

ef´

erences

1 Steven M. Kay, Fundamentals of Statistical Signal Processing : Estimation

Theory, Prentice Hall, Englewood Cliffs, NJ, 1993

2 Louis L. Scharf, Statistical Signal Processing : Detection, Estimation and

Time Series Analysis, Addison Wesley, Reading, MA, 1991

3 Harry L. Van Trees, Detection, estimation and modulation theory, Part I,

John Wiley, 2004

4 Harry L. Van Trees, Kristine L. Bell Detection, estimation and modulation

theory, 2nd Edition, Part I, Detection, Estimation, and Filtering Theory, John Wiley, 2013

5 Christian Robert, The Bayesian Choice - From Decision-Theoretic

Foundations to Computational Implementation, Springer Verlag, 2007

6 Christian Robert, George Casella Monte-Carlo statistical methods, 2nd