• Aucun résultat trouvé

Théorie de la décision, analyse ROC et dérivées

B. Synthèse des travaux de recherche

B.7 Annexes

B.7.2 Théorie de la décision, analyse ROC et dérivées

L’évaluation de la ‘qualité’ en imagerie médicale est un problème complexe et encore sujet à de multiples interprétations subjectives. Jusqu’au début des années 80, les études portent principalement sur les caractéristiques physiques de l’image, telles que la fonction de modulation de transfert (MTF) ou le spectre de puissance du bruit (NPS). Pourtant, dès la fin des années 60, certaines équipes soulignent l’importance de considérer l’influence de l’observateur humain [Rossmann, 1966 , Biberman, 1973]. Cette prise de conscience est une étape fondamentale qui se formalise vingt ans plus tard par l’adaptation des principes psychophysiques établis dans le domaine de la détection du signal [Wagner and Brown, 1985].

Les études psychophysiques consistent à évaluer les performances d’un observateur dans une tâche de détection. Contrairement aux critères dérivés uniquement des caractéristiques physiques de l’image, cette méthodologie intègre l’influence de l’observateur dans le processus de décision. Ainsi, il est possible d’obtenir un critère objectif de détectabilité à partir de la méthodologie par l’intermédiaire d’études psychophysiques appelées études ROC, de l’anglais ‘Receiver Operating Characteristics curves’ ou dérivées (LROC, FROC, AFROC) basées sur des modèles dérivés de la théorie de la décision.

B.7.2.1 Théorie de la décision statistique et métriques associées

La théorie de la décision tente de déterminer, à partir de données psychologiques, économiques, sociologiques, etc., le comportement optimal d’un agent face à une situation de choix à l'aide, notamment, de modèles mathématiques [Van Trees, 1968]. Cette théorie est à la base de l’analyse conceptuelle de la détection du signal, et permet de prédire ou d’optimiser l’attitude d’un individu ou d’un système programmé, appelé observateur, ou décisionnaire, et chargé de classer un ensemble d’éléments (ex : images cliniques) dans un ensemble de catégories (ex : « présence d’anomalies », « absence d’anomalies ») [Green and Swets, 1966].

La théorie de la décision statistique propose un modèle hiérarchique de la prise de décision. Le premier niveau de ce modèle consiste à extraire un paramètre des données, appelé variable de

décision à partir de l’image

x

i

X =

p. Ce processus est modélisé par la fonction f

:

p i

f

i

x

( B.7-7 )

Cette variable

i

f x

i caractérise la probabilité subjective de l’existence d’un signal. La seconde étape du mécanisme de prise de décision consiste à comparer la valeur de i déterminée par l’observateur à une valeur seuil s, appelée critère ou seuil de décision, par l’intermédiaire d’un test statistique binaire. Le cas étudié est alors considéré comme positif si i est supérieur à s.

La valeur du seuil s dépend, entre autres, des conditions expérimentales et des caractéristiques de

l’observateur. Le modèle de décision suppose que l’ensemble des valeurs de i évaluées sur des cas positifs suit une distribution de probabilité

(f x

i



i

y

i

l

1

)

de valeur moyenne

1et d’écart type

1. De même, les valeurs de i évaluées sur des cas négatifs se répartissent selon une distribution de probabilité

(f x

i



i

y

i

l

0

)

de valeur moyenne

0 et d’écart type 0. On admet également que les valeurs de i sont en moyenne plus élevées pour les cas positifs, c’est-à-dire

1



0.

(a) (b)

Figure B.7-1 : Distribution de probabilité de la variable de décision dans le cas positif et négatif (a) sans recouvrement et (b) avec recouvrement

La Figure B.7-1 représente deux configurations possibles des distributions positives et négatives. Nous prenons pour cette illustration le cas particulier de distributions gaussiennes mais le modèle général ne fait pas d’hypothèse sur la forme de ces distributions. L’axe horizontal est appelé axe de décision. La Figure B.7-1 (a) illustre le cas idéal de deux distributions qui ne se superposent pas. La ligne verticale séparant les deux distributions représente une valeur possible s du critère de décision. Cette valeur est optimale pour cet exemple car elle permet d’obtenir une séparation parfaite. En réalité, la répartition des deux profils de la variable de décision présente souvent une zone de recouvrement, illustrée par la Figure B.7-1 (b). Ce recouvrement permet de modéliser l’erreur de décision. Dans cet exemple, toute valeur  supérieure à s et appartenant à la distribution des cas négatifs sera classée

par erreur dans la catégorie des cas positifs.

Ce modèle de mécanisme de décision permet mesurer la capacité de l’observateur à différencier les deux états (positifs et négatifs) en évaluant le degré de séparation des deux distributions. Celui-ci est mesuré par l’indice de détectabilité d

1 0 2 2 1 1 0 0

d

P P

 

 

( B.7-8 )

P

i est la probabilité a priori de la classe li avec

1 0

1

i i

P

En pratique, on fixe généralement

P

i

1 2

soit

1 0 2 2 1 0

2

d  

 

( B.7-9 )

On définit également le rapport signal-sur-bruit (SNR) comme

 

2 2 2 1 0 1 0 1 0 2 2 1 1 0 0

SNR P P d P P

P P

 

 

 

( B.7-10 )

Dans la suite, nous nous intéressons aux applications de la théorie de la décision dans le contexte de la détection d’un signal pathologique en imagerie médicale. Nous qualifions de cas positif toute image contenant un signal avéré anormal. A l’inverse, les images non pathologiques sont dénommées cas

négatifs.

s

s

Figure B.7-2 : Distribution de probabilité et représentation du critère de décision

La ligne verticale repérant la valeur du niveau de confiance s sur la Figure B.7-2 définit 4 types de diagnostics possibles.

 Un vrai positif (VP) est un cas positif correctement détecté. Il appartient au sous-ensemble

 

1

, 

VP 

i

f x

i

y

i

l  

i

s .

 Un vrai négatif (VN) correspond à un cas négatif dont la variable de décision est inférieure au seuil, c’est-à-dire qu’il appartient à

 

0

, 

VN 

i

f x

i

y

i

l  

i

s .

Ces deux types de diagnostic sont des réponses correctes. On définit également deux types de réponses incorrectes :

 Un faux négatif (FN) est un cas positif classé comme négatif, soit

 

1

, 

FN 

i

f x

i

y

i

l  

i

s

 Un faux positif (FP), correspond à un cas négatif diagnostiqué comme positif, soit

 

0

, 

FP 

i

f x

i

y

i

l  

i

s .

On définit également la sensibilité du système comme la fraction d’examens positifs correctement identifiés:

 

 

1 1

( )

( )

s i i i i

f y l d

sensibilité

f y l d

 

 



 

 

x

x

( B.7-11 )

De même la spécificité est définie par la fraction de vrais négatifs (VN) correctement labelisés:

 

 

0 0

( )

( )

s i i i i

f y l d

spécificité

f y l d

 

 

 

 

 

x

x

( B.7-12 )

s

VP 1- FP

B.7.2.1 Analyse ROC

(i) Principe

L’analyse ROC (de l’anglais, Receiver Operating Characteristic) repose sur le modèle de la décision que nous venons d’énoncer. Les références méthodologiques majeures dans ce domaine sont [Green and Swets, 1966, Egan, 1975, Swets and Pickett, 1982, Metz, 1986].

Comme nous venons de le définir, la sensibilité et la spécificité mesurent l’efficacité du système d’imagerie pour les deux types de cas. Cependant, leur valeur est entièrement contrôlée par le seuil de décision adopté s. On peut donc difficilement comparer deux systèmes sur la base d’un seul couple de mesure de (sensibilité, spécificité) par système. La différence estimée dans ce cas ne traduirait pas forcément les différences de performances intrinsèques des systèmes mais celles des critères de décision utilisés.

L’approche de l’analyse ROC consiste à caractériser le système en évaluant ce couple de paramètre pour différentes valeurs du seuil de décision. La courbe ROC représente les variations de la fraction de vrais positifs en fonction de la fraction de faux positifs. Chaque point de mesure correspond à une valeur différente du critère de décision.

Figure B.7-3 : Principe de construction d’une courbe ROC

La surface délimitée par les axes de ce graphique est appelée carré unité. Les points situés dans le quart supérieur droit du carré unité correspondent à des valeurs faibles du seuil de décision ; cette zone de fonctionnement du système est caractérisée par une sensibilité forte et une spécificité faible. Le seuil de décision est de plus en plus strict lorsque l’on se déplace sur la courbe en se rapprochant de l’origine, comme l’indique la Figure B.7-3.

La comparaison des courbes ROC de deux systèmes d’imagerie permet d’éliminer l’influence du critère de décision et constitue ainsi une méthode objective d’évaluation des performances de détection.

Dans l’hypothèse d’un modèle de distribution binormale des cas positifs et négatifs (i.e. approximé par des gaussiennes, comme sur l’exemple de la Figure B.7-2), on montre que l’aire Azest égale à l’index de détectabilité d, défini au paragraphe précédent,

1 0 2 2 1 0

2

z

A d  

 

 

( B.7-13 )

(ii) Mesure expérimentale

La fonction f modélisant le processus de décision n’est pas mesurable directement pour un observateur humain. Le paradigme expérimental proposé par l’analyse ROC permet cependant d’échantillonner des couples de points (sensibilité, spécifité) de la courbe ROC correspondant à différentes valeurs du seuil de décision. Cette méthode repose sur une base de données contenant des échantillons de cas des deux classes (sain/négatif et pathologique/positif). Les cas positifs contiennent une seule anomalie par image de forme et localisation fixée. L’approche expérimentale classique [Metz, 1986] consiste à faire lire la série de données à un observateur en lui demandant de quantifier son degré de confiance sur la présence de l’anomalie dans l’image au moyen d’une échelle numérique et/ou qualitative du critère de décision, la plus répandue étant l’échelle discrète à 5 niveaux de Lickert :

- 1 : l’image est certainement ou presque certainement négative, - 2 : l’image est probablement négative,

- 3 : l’image contient peut-être un signal, - 4 : l’image est probablement positive,

- 5 : l’image est certainement ou presque certainement positive.

Cette méthode conduit ainsi à segmenter l’axe du critère de décision et à échantillonner les points de la courbe ROC correspondant ainsi aux couples (FVP FFP, de fractions de vrais positifs et de faux positifs correspondant à un niveau de confiance supérieur ou égal à i.

(iii) Ajustement des courbes ROC et analyse statistique

L’ajustement des courbes ROC à partir de mesures expérimentales a fait l’objet de nombreuses publications. L’objectif est d’estimer l’aire sous la courbe ainsi que l’ intervalle de confiance associé à cette mesure tenant compte de différents facteurs dont la taille et la variabilité de l’échantillonnage de cas, la variabilité inter- et intra observateur etc. Ces intervalles de confiance permettent de comparer, par un test statistique, si la différence d’aire entre deux courbes (et donc de performance diagnostique) mesurées pour les deux protocoles que l’on souhaite comparer, est significative. Nous renvoyons à l’ouvrage de référence de Swets and Pickett [Swets and Pickett, 1982] pour le détail des fondements statistiques de ces mesures et des modèles d’estimation des différents termes de variabilité.

Il existe deux grands types de méthodes d’ajustement des courbes ROC. La première correspond aux méthodes paramétriques qui reposent sur l’hypothèse de distribution normale des deux distributions [Pesce and Metz, 2007]. Le second type comprend l’ensemble des méthodes non paramétriques basées sur l’estimation de différentes variables statistiques telles que le test de Wilcoxon [Gallas and Pesce, 2009].

Plusieurs facteurs contribuent à augmenter la variance des points de mesure de la courbe ROC. Le premier est lié au niveau de complexité de l’échantillonnage des cas. Il peut s’avérer en effet qu’une série de données contiennent plus de cas « difficiles », c’est-à-dire par exemple, des lésions situées dans des régions très inhabituelles ou très faiblement contrastées. Il est alors probable que l’on mesure des performances de détection inférieures à celles que l’on obtiendrait avec une série de cas plus faciles. Les deux autres termes de variance sont liés aux variabilités intra- et inter- individuelles. La composante intra-individuelle peut être estimée en mesurant les performances d’un observateur à qui l’on demande d’interpréter plusieurs fois la même série d’images. La composante inter-individuelle est facilement accessible à partir des performances de différents observateurs mesurées pour le même échantillonnage de cas.

La méthode la plus générale de comparaison de deux courbes ROC consiste à calculer le paramètre statistique z égal au rapport de la différence des aires Az sur l’erreur standard de la différence des aires, soit

1 2

2 1 2 z z z z

A A

z

A A

( B.7-14 )

On peut alors évaluer l’existence d’une différence significative en testant l’hypothèse nulle selon laquelle z appartient à une distribution normale centrée. Une valeur de probabilité faible permet de démontrer l’existence d’une différence significative entre les courbes.

Swets et Pickett [Swets 1982] montrent que l’erreur standard sur la différence des aires peut être estimée par la relation :

 

   

2

1 2

2

2 inter obs intra obs 2

intra obs intra obs inter obs intra obs intra obs

2 1 1

z z c c

A A

r r

l

 

 

   

 

 

( B.7-15 ) où

l est le nombre de lecteurs,

2 intra obs

c

est la variance que l’on mesurerait en faisant lire à un observateur plusieurs séries de cas différents,

2

inter obs intra obs

est la variance que l’on mesurerait en faisant lire à plusieurs observateurs une même série de cas.

intra obs

c

r

et

r

inter obs intra obs sont des termes de corrélation. Le terme

r

cintra obs est non nul si on utilise les mêmes cas dans les deux modalités. On peut alors l’estimer en partitionnant la base d’échantillons et en mesurant le coefficient de corrélation entre les aires Az obtenues par les différents observateurs sur chaque partition de cas. Le terme

r

inter obs intra obs est non nul si on utilise le même groupe de lecteurs pour lire les cas des deux modalités. On peut estimer sa valeur en calculant le coefficient de corrélation entre les aires Az obtenues par chaque lecteur dans les deux modalités comparées. L’expression ( B.7-15) souligne que l’on peut améliorer la puissance du test statistique en augmentant le nombre de lecteurs (l), et en introduisant des corrélations entre les cas (

r

cintra obs ) et les lecteurs (

r

inter obs intra obs ), de même qu’en augmentant le nombre de cas (diminution du terme 2

intra obs

c

).

(iv) Logiciels d’analyse

Plusieurs logiciels permettent de réaliser l’ajustement des courbes ROC à partir de modèles paramétriques ou non paramétriques et de comparer les performances diagnostiques de protocoles à partir d’analyse psychophysiques associant plusieurs lecteurs et plusieurs bases de cas (MRMC en anglais pour ‘multiple readers multiple cases’). Nous citerons les logiciels les plus connus :

 ROC-kit développé par l’Université de Chicago : http://metz -roc.uchicago.edu/MetzROC/

 OR-DBM MRMC, développé par Kevin Berbaum de l’Université de l’Iowa : http://perception.radiology.uiowa.edu/

 OBUMRM, développé par Nancy A. Obuchowski, Ph.D., The Cleveland Clinic Foundation: http://www.lerner.ccf.org/qhs/software/obumrm.php

B.7.2.2 Dérivées de l’analyse ROC

La méthodologie ROC, telle que nous l’avons décrite au paragraphe précédent, est adaptée à des problématiques simples et peu représentatives des conditions cliniques (une seule anomalie par image, absence de tâche de localisation). En pratique, le médecin recherche la présence d’une ou plusieurs anomalies de taille et de contraste variables et situées dans différentes régions de l’image. La tâche de perception est donc plus complexe que celle des études ROC classiques. En particulier, le risque de commettre un faux positif ou négatif est aggravé par la présence d’ambiguïtés relatives au bruit physiologique et au processus de formation de l’image. De nouvelles méthodes, dérivées de l’analyse ROC, ont été proposées dans le but de se rapprocher des conditions réalistes d’interprétation des images. Une revue récente de cette thématique est présentée dans [Metz, 2006, He and Frey, 2009]. Nous présentons ci-dessous une synthèse des méthodes disponibles et renvoyons à la Figure B.7-4 qui présente la forme des différents types de courbes.

Figure B.7-4. Illustration des principales analyses dérivées de l’analyse ROC pour des tâches de détection et localisation. Extrait de [Metz, 2006]

Les courbes LROC (Localization Response Operating Characteristics) ( (a)) mesurent les

performances du système diagnostique à détecter et localiser les anomalies réelles de l’image. Contrairement à la méthodologie ROC, chaque image positive contient une seule anomalie localisée aléatoirement dans l’image. L’observateur doit indiquer la position la plus suspecte, si il pense que l’image est positive ainsi qu’un niveau de confiance. Celle-ci est comptée comme un événement VP si la distance entre la position suspectée et la position réelle ne dépasse pas une limite de tolérance fixée préalablement. La courbe LROC représente les variations des vrais positifs correctement localisés en fonction des faux positifs mesurés sur une série d’ images négatives, i.e. ne contenant pas d’anomalies, pour différentes valeurs du critère de décision s.

c) a)

Cette méthodologie a un connu un succès limité avant l’introduction par Swensson, à la fin des années 90, du formalisme statistique permettant d’ajuster les paramètres de la courbe LROC et d’en extraire des métriques telle que l’aire sous la courbe ALROC [Swensson, 1996]. Elle reste cependant éloignée du paradigme clinique (seule l’anomalie la plus suspecte est reportée).

L’analyse FROC (Free Response Operating Characteristics) ( (b)) propose un protocole de mesure

plus proche de la réalité clinique puisque les cas positifs contiennent plusieurs anomalies localisées aléatoirement dans l’image. L’observateur n’est pas informé du nombre de cibles à détecter par image. Il doit localiser et évaluer toutes les anomalies présentes dans l’image sans limite de nombre et en indiquant un niveau de confiance pour chacune. La courbe FROC reporte alors la fraction de vrais positifs (identifiés, comme pour l’analyse LROC, par rapport à une distance entre la position reportée et la position exacte de l’anomalie) en fonction du nombre moyen de fausses détections par image, pour différentes valeurs du critère de décision s.

Les courbes FROC ne peuvent pas être ajustées par une méthode statistique simple car l’axe des abscisses n’est pas borné. On préfère alors se rapporter à une variante de ces courbes, appelées

courbes AFROC pour ‘Alternate Free Response Operating Characteristics’ ( (c)) qui représentent le taux de vrais positifs pour un seuil s en fonction de la fraction d’images analysées dans par lesquelles l’observateur a reporté au moins un faux positif avec un niveau de confiance supérieur ou égal à s. Cette méthode permet de retrouver dans un espace borné. Les travaux de Swensson [Swensson, 1996] et Chakraborty [Chakraborty and Winter, 1990] ont permis de définir un modèle paramétrique général permettant d’extraire des mesures quantitatives telles que l’aire sous la courbe AFROC,

AAFROC.

Différents logiciels permettent de modéliser les études LROC et AFROC, dont le plus connu est le logiciel JAFROC développé par Dev Chakraborty de l’Université de Pittsburgh :