Des bornes minimales sur la variance - Optimiser l’utilisation des donn´ees en reconstruction T

Après avoir rappelé quelques éléments de la théorie des matrices définies positives, nous décrivons la matrice de Fisher, ainsi que la borne de Cramer-Rao, qui est un minorant sur la covariance d’un estimateur.

5.1.1. Rappels sur les matrices d´efinies positives

Rappelons pour commencer quelques résultats importants de la théorie des matrices définies positives qui nous serviront dans la suite de l’exposé. Le lecteur intéressé pourra approfondir le sujet par la lecture de Bhatia (2007).

D´efinition 5.1

La matrice A∈R^M^×^M estd´efinie positive si et seulement si

pour touty∈R^M,y^tAy>0,

auquel cas on noteA >0.

D´efinition 5.2

La matrice A∈R^M^×^M estd´efinie non n´egative si et seulement si

pour touty∈R^M,y^tAy≥0,

auquel cas on noteA≥0.

Ces définitions s’adaptent sans peine aux cas défini négatif et défini non positif. Les définitions précédentes permettent de définir des relations d’ordre entre matrices, que nous utiliserons dans la suite de ce chapitre :

D´efinition 5.3

La matrice A∈R^M^×^M estsup´erieure `a la matriceB ∈R^M^×^M si et seulement si

A−B ≥0,

auquel cas on noteA≥B.

Les définitions pour les cas strictement supérieur, inférieur et strictement inférieur suivent

mutatis mutandis.

Les sous-matrices d’une matrice d´efinie positive entretiennent des relations d’ordre avec les sous-matrices de son inverse. C’est ce que montrent les lemmes¹ 5.1 et 5.2.

Lemme 5.1

Soit F =^F11 F₂₁^t

F21 F22

≥0, o`u lesF_ijsont des sous-matrices de F.

AlorsF₁₁≥F₂₁^t F₂₂⁺F₂₁, où+ désigne l’inverse généralisé.

Lemme 5.2 Soit F =^F11 F₂₁^t F21 F22 ≥0, et F⁻1 =^F^˜11_F˜t 21 ˜ F21_F˜₂₂

son inverse, o`u lesF_ij (resp.F^˜_ij) sont des

sous-matrices de F (resp. F⁻¹). Alors F₁₁⁻¹≤F^˜11.

Le lemme 5.3 montre, lui, la relation existant entre les espérances des matrices formées à partir des produits extérieurs² de deux vecteurs aléatoires donnés

Lemme 5.3 (Lavergne, 2008)

(∀x(g)∈R^p^×¹)(∀z(g)∈R^q^×¹) :

E{x x^t} ≥E{x z^t}E{z z^t}⁺E{z x^t}.

Preuve.La preuve est une conséquence du lemme 5.1 et du fait que, pourw^def= (^x_z) ∈ R⁽^p⁺^q⁾^×¹, la matrice d’éléments E{w w^t} est symétrique définie non négative.

5.1.2. Fonction score et matrice d’information de Fisher

La matrice d’information de Fisher permet de quantifier l’information, que renferme la vraisemblance L[g| Θ]= log^def Pr[g| Θ], disponible pour estimer les param`etresΘ. Elle est bas´ee sur lafonction score

∆(g,Θ)^def=_∇~_Θ_logPr[g| Θ] =_∇~_Θ_L_[_g_| _Θ_]_∈R^p^×¹, (5.3) dont on peut montrer que l’esp´erance est nulle :

1. Sauf indication contraire, les preuves des lemmes et propositions de ce chapitre sont donn´ees en annexe A.

2. Si le produit scalaire de deux vecteurs est donn´e parx^ty^def= P

ixiyi, le produit ext´erieur est donn´e parxy^t^def={x y } .

Lemme 5.4 (Barrett et Myers, 2004, p. 895)

E{∆(g,Θ)}= 0.

Comme nous l’avons vu au chapitre 2, la réponse impulsionnelle d’un estimateur est donnée par la matrice jacobienne de son espérance. La fonction score de la vraisemblance est en relation étroite avec la réponse impulsionnelle de l’algorithme de reconstruction :

Lemme 5.5

Soient ג(Θ) ^def= _∇~_ΘEn

Θ^o la matrice jacobienne de l’esp´erance de l’estimateur Θb, et

b(g,Θb)^def=Θb(g)−EⁿΘbô. Si le domaine des données g ne dépend pas des paramètres

Θ, alors

ג(Θ) =Eⁿ∆(g,Θ)b(g,Θb)^t^o. (5.4)

Nous pouvons à présent définir la matrice d’information de Fisher (Barrett et Myers, 2004, p. 895) :

D´efinition 5.4

La matrice d’information de Fisher est donn´ee par

F(Θ)=^defE{∆(g,Θ) ∆(g,Θ)^t},

La matrice d’information de Fisher a donc pour ´el´ements (F(Θ))_ik=E ∂L[g| Θ] ∂Θ_i ∂L[g| Θ] ∂Θ_k , (5.5)

et peut encore s’´ecrire

(F(Θ))_ik =−E ( ∂²L[g| Θ] ∂Θ_i∂Θ_k ) . (5.6)

La matrice d’information de Fisher est donc proportionnelle à l’opposé de la courbure de la log-vraisemblance. L’intuition sous-jacente au concept d’information est qu’au plus la log-vraisemblance est courbée autour d’un paramètre donné, au plus l’information à propos de ce paramètre est importante. De fait, au plus la log-vraisemblance est courbée, au plus l’estimation du paramètre sera aisée car peu sensible au bruit. En conséquence, dans ce cas, la variance de l’estimateur maximisant la vraisemblance sera faible et la certitude à propos du paramètre estimé sera grande. La forme de la matrice de Fisher justifie la proposition suivante :

Proposition 5.1

La matrice de Fisher est symétrique définie non négative.

Dans le cas d’un problème d’acquisition statique (Θ=f) dont les données relèvent d’une loi de Poisson, la log-vraisemblance s’écrit (voir (2.40)) :

L[g| f] =

NJ X

j=1

gjloggj−gj −loggj!, (5.7)

de sorte que les éléments de la matrice de Fisher s’écrivent (F(f))_ik= NJ X j=1 ∂gj ∂fi 1 gj ∂gj ∂f_k^. (5.8)

Comme au chapitre 2, g_j représente le nombre total d’événements enregistrés dans la ligne de réponsej. Il est donc proportionnel au temps d’acquisition ou, si l’on néglige la décroissance radioactive, au nombre d’événements. Lors d’une reconstruction sur des voxels,

f_k est la densité de traceur dans le voxelk, indépendante du temps d’acquisition. Au vu de (5.8), la matrice de Fisher est donc proportionnelle au nombre d’événements.

5.1.3. Borne de Cramer-Rao

Pour simplifier les ´ecritures, nous abr`egerons dans la suite du chapitre les expressions suivantes : ג not

= ג(Θ) ^def= _∇~_ΘEⁿΘb^o, ג.,i

not

= _∇~_ΘEⁿΘb_iô, ∆ ^not= ∆(g,Θ) ^def= _∇~_Θ_L_[_g_| _Θ], b ^not= b(g,Θb) ^def= Θb(g)−EⁿΘbô et F ^not= F(Θ). Nous définissons par ailleurs une classe particulière d’estimateurs :

D´efinition 5.5

Un ג-estimateurde Θest un estimateur deΘqui poss`ede une r´eponse impulsionnelle ג. `

A partir de la matrice de Fisher, on peut trouver un minorant sur la variance d’un ג -estimateur du param`etreΘ_i :

גt

.,iF(Θ)⁺ג.,i≤VarⁿΘc_iô. (5.9) Pour un estimateur non biaisé, ג.,i = _∇~_Θ_Θ_i ₌ _e_i, où e_i est un vecteur unité dans la directioni. Dans ce cas, (5.9) devient

F(Θ)⁺

ii≤VarⁿΘb_i^o, (5.10)

c’est-à-dire que la variance de tout estimateur sans biais du paramètre Θ_i est supérieure aui-ème élément de la diagonale de l’inverse généralisé deF.

Les équations (5.9) et (5.10) sont des cas particuliers d’une relation plus générale sur la covariance des estimateurs biaisés, que nous abordons à présent.

La proposition suivante fournit un minorant sur la covariance d’un estimateur. Proposition 5.2

au sens des matrices d´efinies positives.

Preuve.En utilisant le lemme 5.3 avecx=b∈Rp×1 etz= ∆∈Rp×1, ainsi que le lemme 5.5, on trouve : VarⁿΘb^o^def=E{b b^t} lem. 5.3 ≥ E{b∆^t}E{∆ ∆^t}⁺E{∆b^t} lem. 5.5 = גtE{∆ ∆^t}⁺ג d´ef. 5.4 = גtF⁺ג,

o`u les relations«= »et« ≥»doivent ˆetre entendues comme s’appliquant aux membres qui les entourent.

Nous pouvons à présent définir la matrice de Cramer-Rao Définition 5.6

La matrice de Cramer-Raopour l’estimation du vecteurΘ, pour toutג-estimateur de

Θest donn´ee par

χ(Θ)^def=גtF⁺ג. (5.11)

Combinant la proposition 5.2 et la d´efinition 5.6, la proposition suivante est ´evidente : Proposition 5.3

Pour tout ג-estimateur de Θ, la matrice de covariance deΘb est sup´erieure `a la matrice

de Cramer-Rao

χ(Θ)≤VarⁿΘb^o. (5.12)

SiF n’est pas inversible, la proposition 5.2 reste valable grâce à l’utilisation du pseudo-inverse. Cependant, dans ce cas, il faut queג appartienne à l’espace des vecteurs propres deF ayant une valeur propre non nulle (Stoica et Marzetta, 2001).

Pour un estimateur non biaisé, la réponse impulsionnelle locale de l’algorithme ג est la matrice unité. Dans ce cas, la borne de Cramer-Rao pour un estimateur non biaisé, encore appelée borne de Cramer-Rao non biaisée, est donnée par

χ_nb =F⁺. (5.13)

5.1.4. Borne de Cramer-Rao Uniforme

La proposition 5.3 décrit un minorant sur la covariance de tout estimateur d’un vecteur de paramètresΘpossédant une réponse impulsionnelleג (ג-estimateur). Une approche plus générale consiste à trouver un minorant sur tous les estimateurs dontג est proche d’unג0

fix´e, au sens

(ג−ג0)^tC(ג−ג0)≤δ², (5.14)

pour une métrique donnée par une matriceC et une valeur deδ donnée. Ceci est utile car une légère variation deג – c’est-à-dire une légère variation de de la réponse impulsionnelle de l’algorithme – peut mener à une grande variation de la borne de Cramer-Rao. Il est alors utile de savoir, pour un ensemble de réponses impulsionnelles proches, quelle est la plus petite variance qui peut être atteinte sur l’estimation des paramètres. C’est l’approche de laborne de Cramer-Rao uniforme de Hero et coll. (1996).

5.1.5. Borne de Cramer-Rao en reconstruction TEP

La borne de Cramer-Rao est un minorant de la variance de tout estimateur possédant une réponse impulsionnelle donnée. On peut montrer que si un estimateur atteint la borne de Cramer-Rao, alors il s’agit de l’estimateur de maximum de vraisemblance. On peut également montrer que l’estimateur du maximum de vraisemblance atteint toujours la borne de Cramer-Rao asymptotiquement, c’est-à-dire pour un nombre d’événements infini (Jolivaldt, 2011).

Dans certains cas, l’estimateur de maximum de vraisemblance atteint la borne de Cramer-Rao pour un nombre fini d’´ev´enements. C’est le cas des distributions exponentielles, parmi lesquelles figurent la distribution gaussienne et la distribution de Poisson. En pratique, la distribution de Poisson (2.38), Pr^∗_poiss[g|f] = NJ Y j=1 PNI i=1He_jifi gj e⁻^P^NIi=1Hejifi g_j! , (2.38↑)

n’est une distribution exponentielle que si la matrice systèmeHe possède une forme précise³, ce qui ne se produit pas en pratique (Aharoni et Lee, 2001). Dans le cas d’un problème de reconstruction TEP, la borne de Cramer-Rao n’est donc atteinte que pour un nombre infini d’événements.

Pour des nombres finis d’événements, pour lesquels la borne de Cramer-Rao n’est pas atteinte, la question se pose de savoir dans quelle mesure la variance de l’algorithme de maximum de vraisemblance est proche de la borne de Cramer-Rao. Cette question est également importante pour n’importe quel algorithme, car elle pourrait mener au développement d’algorithmes plus performants.

Dans le document Optimiser l’utilisation des données en reconstruction TEP : modélisation de résolution dans l’espace image et contribution à l’évaluation de la correction de mouvement. (Page 141-146)