Apr`es avoir rappel´e quelques ´el´ements de la th´eorie des matrices d´efinies positives, nous d´ecrivons la matrice de Fisher, ainsi que la borne de Cramer-Rao, qui est un minorant sur la covariance d’un estimateur.
5.1.1. Rappels sur les matrices d´efinies positives
Rappelons pour commencer quelques r´esultats importants de la th´eorie des matrices d´efinies positives qui nous serviront dans la suite de l’expos´e. Le lecteur int´eress´e pourra approfondir le sujet par la lecture de Bhatia (2007).
D´efinition 5.1
La matrice A∈RM×M estd´efinie positive si et seulement si
pour touty∈RM,ytAy>0,
auquel cas on noteA >0.
D´efinition 5.2
La matrice A∈RM×M estd´efinie non n´egative si et seulement si
pour touty∈RM,ytAy≥0,
auquel cas on noteA≥0.
Ces d´efinitions s’adaptent sans peine aux cas d´efini n´egatif et d´efini non positif. Les d´efinitions pr´ec´edentes permettent de d´efinir des relations d’ordre entre matrices, que nous utiliserons dans la suite de ce chapitre :
D´efinition 5.3
La matrice A∈RM×M estsup´erieure `a la matriceB ∈RM×M si et seulement si
A−B ≥0,
auquel cas on noteA≥B.
Les d´efinitions pour les cas strictement sup´erieur, inf´erieur et strictement inf´erieur suivent
mutatis mutandis.
Les sous-matrices d’une matrice d´efinie positive entretiennent des relations d’ordre avec les sous-matrices de son inverse. C’est ce que montrent les lemmes1 5.1 et 5.2.
Lemme 5.1
Soit F =F11 F21t
F21 F22
≥0, o`u lesFijsont des sous-matrices de F.
AlorsF11≥F21t F22+F21, o`u+ d´esigne l’inverse g´en´eralis´e.
Lemme 5.2 Soit F =F11 F21t F21 F22 ≥0, et F−1 =F˜11F˜t 21 ˜ F21F˜22
son inverse, o`u lesFij (resp.F˜ij) sont des
sous-matrices de F (resp. F−1). Alors F11−1≤F˜11.
Le lemme 5.3 montre, lui, la relation existant entre les esp´erances des matrices form´ees `a partir des produits ext´erieurs2 de deux vecteurs al´eatoires donn´es
Lemme 5.3 (Lavergne, 2008)
(∀x(g)∈Rp×1)(∀z(g)∈Rq×1) :
E{x xt} ≥E{x zt}E{z zt}+E{z xt}.
Preuve.La preuve est une cons´equence du lemme 5.1 et du fait que, pourwdef= (xz) ∈ R(p+q)×1, la matrice d’´el´ements E{w wt} est sym´etrique d´efinie non n´egative.
5.1.2. Fonction score et matrice d’information de Fisher
La matrice d’information de Fisher permet de quantifier l’information, que renferme la vraisemblance L[g| Θ]= logdef Pr[g| Θ], disponible pour estimer les param`etresΘ. Elle est bas´ee sur lafonction score
∆(g,Θ)def=∇~ΘlogPr[g| Θ] =∇~ΘL[g| Θ]∈Rp×1, (5.3) dont on peut montrer que l’esp´erance est nulle :
1. Sauf indication contraire, les preuves des lemmes et propositions de ce chapitre sont donn´ees en annexe A.
2. Si le produit scalaire de deux vecteurs est donn´e parxtydef= P
ixiyi, le produit ext´erieur est donn´e parxytdef={x y } .
Lemme 5.4 (Barrett et Myers, 2004, p. 895)
E{∆(g,Θ)}= 0.
Comme nous l’avons vu au chapitre 2, la r´eponse impulsionnelle d’un estimateur est donn´ee par la matrice jacobienne de son esp´erance. La fonction score de la vraisemblance est en relation ´etroite avec la r´eponse impulsionnelle de l’algorithme de reconstruction :
Lemme 5.5
Soient ג(Θ) def= ∇~ΘEn
b
Θo la matrice jacobienne de l’esp´erance de l’estimateur Θb, et
b(g,Θb)def=Θb(g)−EnΘbo. Si le domaine des donn´ees g ne d´epend pas des param`etres
Θ, alors
ג(Θ) =En∆(g,Θ)b(g,Θb)to. (5.4)
Nous pouvons `a pr´esent d´efinir la matrice d’information de Fisher (Barrett et Myers, 2004, p. 895) :
D´efinition 5.4
La matrice d’information de Fisher est donn´ee par
F(Θ)=defE{∆(g,Θ) ∆(g,Θ)t},
La matrice d’information de Fisher a donc pour ´el´ements (F(Θ))ik=E ∂L[g| Θ] ∂Θi ∂L[g| Θ] ∂Θk , (5.5)
et peut encore s’´ecrire
(F(Θ))ik =−E ( ∂2L[g| Θ] ∂Θi∂Θk ) . (5.6)
La matrice d’information de Fisher est donc proportionnelle `a l’oppos´e de la courbure de la log-vraisemblance. L’intuition sous-jacente au concept d’information est qu’au plus la log-vraisemblance est courb´ee autour d’un param`etre donn´e, au plus l’information `a propos de ce param`etre est importante. De fait, au plus la log-vraisemblance est courb´ee, au plus l’estimation du param`etre sera ais´ee car peu sensible au bruit. En cons´equence, dans ce cas, la variance de l’estimateur maximisant la vraisemblance sera faible et la certitude `a propos du param`etre estim´e sera grande. La forme de la matrice de Fisher justifie la proposition suivante :
Proposition 5.1
La matrice de Fisher est sym´etrique d´efinie non n´egative.
Dans le cas d’un probl`eme d’acquisition statique (Θ=f) dont les donn´ees rel`event d’une loi de Poisson, la log-vraisemblance s’´ecrit (voir (2.40)) :
L[g| f] =
NJ X
j=1
gjloggj−gj −loggj!, (5.7)
de sorte que les ´el´ements de la matrice de Fisher s’´ecrivent (F(f))ik= NJ X j=1 ∂gj ∂fi 1 gj ∂gj ∂fk. (5.8)
Comme au chapitre 2, gj repr´esente le nombre total d’´ev´enements enregistr´es dans la ligne de r´eponsej. Il est donc proportionnel au temps d’acquisition ou, si l’on n´eglige la d´ecroissance radioactive, au nombre d’´ev´enements. Lors d’une reconstruction sur des voxels,
fk est la densit´e de traceur dans le voxelk, ind´ependante du temps d’acquisition. Au vu de (5.8), la matrice de Fisher est donc proportionnelle au nombre d’´ev´enements.
5.1.3. Borne de Cramer-Rao
Pour simplifier les ´ecritures, nous abr`egerons dans la suite du chapitre les expressions suivantes : ג not
= ג(Θ) def= ∇~ΘEnΘbo, ג.,i
not
= ∇~ΘEnΘbio, ∆ not= ∆(g,Θ) def= ∇~ΘL[g| Θ], b not= b(g,Θb) def= Θb(g)−EnΘbo et F not= F(Θ). Nous d´efinissons par ailleurs une classe particuli`ere d’estimateurs :
D´efinition 5.5
Un ג-estimateurde Θest un estimateur deΘqui poss`ede une r´eponse impulsionnelle ג. `
A partir de la matrice de Fisher, on peut trouver un minorant sur la variance d’un ג -estimateur du param`etreΘi :
גt
.,iF(Θ)+ג.,i≤VarnΘcio. (5.9) Pour un estimateur non biais´e, ג.,i = ∇~ΘΘi = ei, o`u ei est un vecteur unit´e dans la directioni. Dans ce cas, (5.9) devient
F(Θ)+
ii≤VarnΘbio, (5.10)
c’est-`a-dire que la variance de tout estimateur sans biais du param`etre Θi est sup´erieure aui-`eme ´el´ement de la diagonale de l’inverse g´en´eralis´e deF.
Les ´equations (5.9) et (5.10) sont des cas particuliers d’une relation plus g´en´erale sur la covariance des estimateurs biais´es, que nous abordons `a pr´esent.
La proposition suivante fournit un minorant sur la covariance d’un estimateur. Proposition 5.2
au sens des matrices d´efinies positives.
Preuve.En utilisant le lemme 5.3 avecx=b∈Rp×1 etz= ∆∈Rp×1, ainsi que le lemme 5.5, on trouve : VarnΘbodef=E{b bt} lem. 5.3 ≥ E{b∆t}E{∆ ∆t}+E{∆bt} lem. 5.5 = גtE{∆ ∆t}+ג d´ef. 5.4 = גtF+ג,
o`u les relations«= »et« ≥»doivent ˆetre entendues comme s’appliquant aux membres qui les entourent.
Nous pouvons `a pr´esent d´efinir la matrice de Cramer-Rao D´efinition 5.6
La matrice de Cramer-Raopour l’estimation du vecteurΘ, pour toutג-estimateur de
Θest donn´ee par
χ(Θ)def=גtF+ג. (5.11)
Combinant la proposition 5.2 et la d´efinition 5.6, la proposition suivante est ´evidente : Proposition 5.3
Pour tout ג-estimateur de Θ, la matrice de covariance deΘb est sup´erieure `a la matrice
de Cramer-Rao
χ(Θ)≤VarnΘbo. (5.12)
SiF n’est pas inversible, la proposition 5.2 reste valable grˆace `a l’utilisation du pseudo-inverse. Cependant, dans ce cas, il faut queג appartienne `a l’espace des vecteurs propres deF ayant une valeur propre non nulle (Stoica et Marzetta, 2001).
Pour un estimateur non biais´e, la r´eponse impulsionnelle locale de l’algorithme ג est la matrice unit´e. Dans ce cas, la borne de Cramer-Rao pour un estimateur non biais´e, encore appel´ee borne de Cramer-Rao non biais´ee, est donn´ee par
b
χnb =F+. (5.13)
5.1.4. Borne de Cramer-Rao Uniforme
La proposition 5.3 d´ecrit un minorant sur la covariance de tout estimateur d’un vecteur de param`etresΘposs´edant une r´eponse impulsionnelleג (ג-estimateur). Une approche plus g´en´erale consiste `a trouver un minorant sur tous les estimateurs dontג est proche d’unג0
fix´e, au sens
(ג−ג0)tC(ג−ג0)≤δ2, (5.14)
pour une m´etrique donn´ee par une matriceC et une valeur deδ donn´ee. Ceci est utile car une l´eg`ere variation deג – c’est-`a-dire une l´eg`ere variation de de la r´eponse impulsionnelle de l’algorithme – peut mener `a une grande variation de la borne de Cramer-Rao. Il est alors utile de savoir, pour un ensemble de r´eponses impulsionnelles proches, quelle est la plus petite variance qui peut ˆetre atteinte sur l’estimation des param`etres. C’est l’approche de laborne de Cramer-Rao uniforme de Hero et coll. (1996).
5.1.5. Borne de Cramer-Rao en reconstruction TEP
La borne de Cramer-Rao est un minorant de la variance de tout estimateur poss´edant une r´eponse impulsionnelle donn´ee. On peut montrer que si un estimateur atteint la borne de Cramer-Rao, alors il s’agit de l’estimateur de maximum de vraisemblance. On peut ´egalement montrer que l’estimateur du maximum de vraisemblance atteint toujours la borne de Cramer-Rao asymptotiquement, c’est-`a-dire pour un nombre d’´ev´enements infini (Jolivaldt, 2011).
Dans certains cas, l’estimateur de maximum de vraisemblance atteint la borne de Cramer-Rao pour un nombre fini d’´ev´enements. C’est le cas des distributions exponentielles, parmi lesquelles figurent la distribution gaussienne et la distribution de Poisson. En pratique, la distribution de Poisson (2.38), Pr∗poiss[g|f] = NJ Y j=1 PNI i=1Hejifi gj e−PNIi=1Hejifi gj! , (2.38↑)
n’est une distribution exponentielle que si la matrice syst`emeHe poss`ede une forme pr´ecise3, ce qui ne se produit pas en pratique (Aharoni et Lee, 2001). Dans le cas d’un probl`eme de reconstruction TEP, la borne de Cramer-Rao n’est donc atteinte que pour un nombre infini d’´ev´enements.
Pour des nombres finis d’´ev´enements, pour lesquels la borne de Cramer-Rao n’est pas atteinte, la question se pose de savoir dans quelle mesure la variance de l’algorithme de maximum de vraisemblance est proche de la borne de Cramer-Rao. Cette question est ´egalement importante pour n’importe quel algorithme, car elle pourrait mener au d´eveloppement d’algorithmes plus performants.