• Aucun résultat trouvé

Cours 3: Marqueur diagnostique

N/A
N/A
Protected

Academic year: 2022

Partager "Cours 3: Marqueur diagnostique"

Copied!
12
0
0

Texte intégral

(1)

UE11 Biomédecine quantitative Dr Jérôme Lambert

15/03/2019 13h30 à 15h30 Ronéotypeur: Giulia Stefan Ronéoficheur: Dina Taha

Cours 3: Marqueur diagnostique

Le cours n’a pas changé par rapport à l’année dernière. Il y a beaucoup de rappels de PACES et d’épidémiologie de P2. Selon le prof, pour le CC il ne faut pas connaitre les formules par coeur mais comprendre le cours. Ce cours nous servira apparement de base pour les cours d’analyse d’article en D2.

(2)

SOMMAIRE

I. Reproductibilité 1. Concordance 2. Statistique Kappa

3. Coefficient de corrélation intra-classe 4. Diagramme de Bland et Altman II. Précision diagnostique

1. Taux de bien classés 2. Sensibilité et spécificité 3. Valeurs prédictives

4. Rapport de vraisemblance 5. Marqueurs continus

a. Seuil

b. Courbe ROC et AUC

c. Spectrum effect

III.Impact thérapeutique

IV. Analyse d’article

(3)

Les tests diagnostiques datent de l’Egypte antique, les Egyptiens faisaient uriner les femmes supposées enceintes sur des sacs contenant des graines. Si les graines germaient,cela signifiait que la femme était enceinte;

sinon elle ne l’était pas. De plus, si c’était l’orge qui germait c’était un garçon et si c’était le blé c’etait une fille.

Bien sur ce n’est pas une science exacte mais il y a un fond de vérité: l’hormone beta-HCG retrouvée dans les urines des femmes enceintes aide à la croissance du foetus mais aussi des plantes.

Quand on s’intéresse aux marqueurs diagnostiques, la première chose à se demander est: que veut-on mesurer? Il y a plusieurs propriétés qui évaluent un marqueur:

- La reproductibilité (Est-ce qu’on peut reproduire le test plusieurs fois?) - La précision diagnostique (Est-on sur que le test donne le bon résultat?) - L’impact diagnostique (Est ce que le diagnostique est différent avec le test?) - L’impact thérapeutique (Y-a-t-il un changement dans la prise en charge?)

Il y a différents types d’études qui permettent de répondre à ces questions: étude transversale, cohorte, cas-témoin et essai contrôlé randomisé.

I. Reproductibilité La reproductibilité peut être

- intra-observateur: Un lecteur lisant la même radio à 2 moments différents a-t-il la même interprétation?

- inter-observateur: Plusieurs lecteurs lisant la même radio ont-ils la même interprétation?

Il faut retenir que même si un examen est reproductible cela ne préjuge pas de l’exactitude du diagnostique qu’il va apporter.

Il y a plusieurs mesures de la reproductibilité:

- la concordance (diagnostique qualitatif)

- le coefficient (ou statistique) Kappa (diagnostique qualitatif) - le coefficient de corrélation intra-classe (diagnostique quantitatif) - le graphique de Bland et Altman (diagnostique quantitatif)

1. Concordance

100 images sont classées de façon indépendante par 2 radiologues en ce qui concerne la présence (+) ou l’absence (-) d’un signe. On s’intéresse à une variable binaire et on teste la reproductibilité inter-observateur.

On peut se poser plusieurs questions:

- Y-a-t-il une relation entre la réponse faite par le radiologue A et celle faite par le radiologue B? S’il n’y a aucun lien l’examen est inutile.

- Les deux radiologues détectent-ils la même proportion de signes?

- Comment juger de la concordance entre les deux radiologues?

Concordance: Si le radiologue A trouve un signe le radiologue B va aussi trouver un signe et inversement si le ra- diologue A ne trouve pas de signe le radiologue B non plus. C’est le lien entre 2 variables qualitatives.

Pour mesurer la concordance, on peut faire un test du Chi2. On trouve le même résultat pour l’exemple 1 et 2.

X₂= 92,16 avec p<2.10^16 donc le résultat est très significatif. Il y a un lien très fort. Cependant ce test ne fait au- cune différence entre les deux situations alors que les valeurs sont discordantes.

Exemple 2 Po= 2%

Exemple 4 Po=80%

Exemple 1 Po= 98%

Exemple 3 Po= 80%

(4)

On peut également faire un test de Mac Nemar pour les données appariées car ce sont les mêmes radios qui sont étudiées par les radiologues.

X₂=0 et p=1 Encore une fois, le test ne fait pas de différence entre les 4 exemples.

Ces 2 tests sont insuffisants pour quantifier la concordance des diagnostiques.

On peut aussi utiliser la proportion d’agrément Po (nombre de fois où les radiologues voient tous les deux un signe et nombre de fois où les radiologues ne voient pas de signes) Le problème c’est qu’on ne fait pas toujours pas de distinction entre l’exemple 3 et 4. De plus, on ne tient pas compte de la proportion d’agrément due au hasard.

(les radiologues A et B pourraient être d’accord par hasard) 2. Statistique Kappa

La mesure correcte de concordance qu’on va utiliser est la statistique Kappa.

C’est la proportion d’agrément corrigée du hasard rapporté au maximum observable:

Si 1: accord parfait Si 0: hasard

Si -1: désaccord parfait

Exemple 1:

Po= (49+49)/100= 98/100

Pe= (50/100)*(50/100)+ (50/100*50/100)= 25/100 + 25/100 = 0,5

K= (0,98-0,5)/ (1- 0,5)= 0,96

C’est une bonne valeur de Kappa, le test est performant.

Pour calculer Po: on fait la somme de la diagonale du tableau rapportée à l’effectif total. C’est la diagonale de concordance.

Pour calculer Pe: on fait la somme des produits des marges du test positif de A et B et celles du test négatif A et B rapportée à l’effectif total

Pe= (marge A+/effectif)*(marge B+/effectif) + (margeA-/effectif)*(margeB-/effectif) Pe= (A/ T)*(C/T) + (B/T)*(D/T)

(J’espère que c’est plus clair avec ce petit tableau pour le calcul des marges!) Radiologue +

A

Radiologue -

A Radiologue +

B

a b a+b=C

Radiologue - B

c d c+d=D

a+c=A b+d=B Effectif total= T

(5)

Classement de la force de concordance:

Pour résumer et aller plus loin, le coefficient kappa :

- est une statistique corrigée de l’effet du au hasard (nécessaire pour une mesure d’agrément).

- Applicable indépendamment du nombre de niveaux de l’échelle. C’est-à-dire qu’on peut faire un diagnostic en 4 catégories (ex: pas de tumeur / petite tumeur/ grosse tumeur/ tumeur métastatique) et non pas seulement avec 2 catégories (comme dans l’exemple avec présence ou absence de signe)

- Possibilité de prise en compte du degré de désaccord ( Kappa pondéré). En reprenant l’exemple de la tumeur, on peut prendre en compte l’écart des réponses: si le radiologue A répond « pas de tumeur » et le radiologue B répond « tumeur métastatique » ils sont totalement en désaccord. Si A répond « grosse tumeur » et B répond

« tumeur métastatique », ils ne sont pas d’accord mais sont quand même plus proche. On peut donc prendre en compte ce degré de désaccord. (donner plus de poids au désaccord important qu’au désaccord moins important) - Extension du Kappa a des situations plus compliquées où le nombre de cotateurs est supérieur à 2 (3 radio-

logues au lieu de 2)

- Extension au cas où les cotateurs ne sont pas les mêmes d’un sujet à l’autre - Extension au cas où le nombre de cotateurs varie d’un sujet à l’autre Paradoxe du Kappa:

La statistique Kappa dépend:

- des marginales: Si les marginales sont différentes, l’agrément du hasard (Pe) sera différent. Plus les marginales sont proches plus le coefficient Kappa sera grand.

- de la prévalence de la maladie: Il est plus facile d’être en accord si 80% des patients sont positifs plutôt que si seulement 20% des patients le sont.

3. Coefficient de corrélation intra-classe

Si on a des données continues, on ne peut plus faire de tableaux à 4 cases et on va faire différents tests pour mesurer la concordance.

Dans ce tableau, il y a 2 mesures i et j mesurées pour n individus.

Si la mesure i donne une valeur, est-ce que la mesure j donnera la même?

Pour répondre à cette question, on peut faire un test t (apparié). On calcule une concordance moyenne mais on n’aura pas d’informations sur la concordance indivi- duelle (valeur par valeur).

On peut également calculer un coefficient de corrélation (à quel point la valeur de j augmente si la valeur de i augmente). Si les valeurs sont bien corrélées, elles vont se retrouvées sur une droite sinon on aura un nuage de points. Le coefficient de corréla- tion est inadapté car il n’est pas reproductible (biais systématique).Exemple des me- sures de la saturation avec deux saturomètres différents, la valeur ne sera jamais exactement identique d’une mesure à l’autre.

Statistique Kappa Force de l’agrément

environ 0 du au hasard

0.2 - 0.4 faible

0.4 - 0.6 modéré

0.6 - 0.8 bien

0.8 - 0.99 quasiment parfait

1 parfait

(6)

On va plutôt utiliser le coefficient de corrélation intra-classe. S’il y avait une vraie concordance (vraie reproduc- tibilité), la droite serait sur la diagonale (avec une ordonnée à l’origine égale à 0). Le coefficient de corrélation in- tra-classe mesure donc à quel point on est loin ou proche de la diagonale.

- La corrélation intra-classe varie entre 0 et 1.

- Plus la variabilité intra-sujet est faible par rapport à la variabilité entre sujets, plus la corrélation inter-classe est élevée.

- Le test à zéro est sans le moindre intérêt. On ne cherche pas à savoir si le test est meilleur que le hasard mais plutôt à quel point il est meilleur.

- Son estimation avec un intervalle de confiance peut-être obtenue par analyse de variance ou maximum de vrai- semblance.

- Elle est applicable à plus de deux mesures.

4. Graphique de Bland et Altman

Le diagramme de Bland et Altman représente en abscisse la moyenne des mesures et en ordonnée la différence des mesures entre les deux appareils A et B.

On trace la moyenne de ses différences et un intervalle de fluctuation à 95%.

Dans l’exemple des saturomètres, on voit tout de suite que ce n’est pas reproductible parce que la moyenne de la différence n’est pas à 0 mais à 5 avec un appareil qui mesure +5% de plus que l’autre.

II. Précision diagnostique

La précision diagnostique (fiabilité d’un test) est mesurée par:

- le taux de bien classés - la sensibilité et spécificité

- la valeur prédictive positive et négative - le rapport de vraisemblance positif et négatif - la courbe ROC et AUC

Classiquement pour évaluer la précision diagnostique d’un nouvel examen, il faut comparer l’examen de référence (Gold Standard) au nouveau test diagnostique:

1. Taux de bien classé

Le taux de bien classé est la somme des valeurs bien classées dans le tableau par rapport au nombre de valeurs to- tales.

Tx= VP+ VN/ (VP+FN+VN+FP) Tx= Se * prev + Sp * (1-prev)

Malade Sain

Test + Vrai Positif (VP) Faux Positif (FP) Test - Faux Négatif (FN) Vrai Négatif (VN)

(7)

C’est une moyenne des sensibilités et des spécificités pondérée par la prévalence. En pratique on ne l’utilise pas car on veut distinguer la sensibilité et la spécificité.

2. Sensibilité et spécificité

Ce sont des propriétés « intrinsèques » d’un test diagnostique.

Elles sont indépendantes de la population d’étude (pas tout à fait vrai, notion revue après avec le spectrum ef- fect) et de la prévalence de la maladie.

La Sensibilité est la capacité du test à identifier correctement les individus malades:

Sensibilité= p(T+/M) = VP / (VP+FN)

La Spécificité est la capacité du test à identifier correctement les individus sains:

Spécificité= p(T-/S) = VN / (VN+FP)

3. Valeurs prédictives

La Valeur Prédictive Positive est la probabilité qu’un individu diagnostiqué malade le soit réellement:

VPP= p(M/T+) = VP / (VP+FP)

La Valeur Prédictive Négative est la probabilité qu’un individu diagnostiqué sain le soit réellement:

VPN= p(S/T-) = VN / (VN+FN)

La VPP et VPN correspondent à ce qu’apporte le test en pratique clinique, ce que le médecin veut savoir alors que la sensibilité et spécificité permettent de choisir quel test utilisé selon les situations. L’inconvénient de la VPP et VPN c’est qu’elles dépendent de la prévalence de la maladie.

Démonstration du lien avec la prévalence :

Se= A / (A+C) Sp= D / (B+D) VPP= A / (A+B) VPN= D / (C+D)

Si on a une prévalence 2 fois plus élevée:

Se= 2A/ (2A+2C)= A / (A+C) Sp= D/ (B+D)

Se et Sp sont indépendantes de la prévalence VPP= 2A / (2A+B)

VPN= D / (2C+ D)

Si la prévalence change, VPP et VPN sont modifiées On peut réécrire ce lien entre prévalence et VPP/VPN en utilisant la Formule de Bayes:

p( A/B)= p(B/A) * p(A) / p(B)

(8)

avec p(M/T+)= p(T+/M) * p(M) / p(T+) et p (S/T-)= p(T-/S) * p(S)/ p(T-)

Si la prévalence augmente alors VPP augmente et VPN diminue.

Si la prévalence diminue alors VPP diminue et VPN augmente.

4. Rapport de vraisemblance « likelihood ratio »

Le rapport de vraisemblance (RV) compare la probabilité du résultat d’un test chez les malades et chez les non malades.

- Un test positif est obtenu RV+ fois plus souvent chez les sujets malades que chez les sujets sains:

RV+ = p(T+/M) / p(T+/S)= Se / (1- Sp)

- Un test négatif est obtenu RV- fois plus souvent chez les sujets sains que chez les sujets malades:

RV- = p(T-/M) / p(T-/S)= (1-Se) / Sp

Il permet le passage de la probabilité pré-test à la probabilité post-test (Nomogramme).

Raisonnement bayésien:

Probabilité pré-test: connaissances a priori du diagnos- tique ( interrogatoire, arguments cliniques, épidémiolo- giques..) + Résultat du marqueur diagnostique —>

Probabilité post-test

Exemple: Quel est la probabilité d’avoir un patient avec un infarctus? La probabilité pré-test sera différente si le patient qui présente une dyspnée et des douleurs thoraciques est un homme de 60ans, obèse avec une HTA et une consommation tabagique que si c’est une femme enceinte jeune qui a fait 8h de voiture. On va effectuer un test diagnostique de l’infarctus ( Dosage d’enzymes, ECG…), il revient positif ou négatif. A quel point le résultat du test va modifier la probabilité de ce que vous pensez du diagnostic?

Si Ppré-test=70% et RV= 10 alors Ppost-test= 95%

Plus le test est performant, plus le rapport de vraisem- blance positif est élevée et plus il augmente la probabilité d’être malade.

Si le rapport de vraisemblance positif est de 1, les probabilités pré-test et post-test sont les mêmes.

(9)

5. Marqueurs continus

a. Seuil

Très souvent les tests sont continus y compris des tests que l’on pense binaire ( test de grossesse, tension artérielle, PSA). On choisit un seuil (c) qui permet de passer d’une variable quantitative à une variable qualitative, donc d’un test continu à un test binaire.

Si X > c —> T+

Si X < c —> T- On a alors deux cas:

- La situation idéale dans laquelle il y a un seuil bien défini qui permet de classer les patients en malade ou pas, les courbes sont bien séparées par le seuil, il n’y a pas d’ambiguïté. Tous les malades sont diagnostiqués comme malade et tous les non malades comme sains. La sensibilité et spécificité d’un tel test serait alors de 100%.

- La situation réelle dans laquelle il y a un recouvrement partiel des valeurs normales et pathologiques.

Quelque soit le seuil qu’on choisit, le test va parfois se tromper. Il va alors y avoir des Faux Négatifs (malade en-dessous du seuil) et des Faux Positifs (sain au-dessus du seuil). De plus à chaque seuil correspondent une sensibilité et une spécificité.

Situation idéale Situation réelle

Plus on prend un seuil élevé, plus on va facilement diagnostiqué les malades, plus la sensibilité sera élevé et plus la spécificité sera diminué. Quelque soit le test, quand on change le seuil la

spécificité et sensibilité évolue en sens inverse.

b. Courbe ROC et AUC

En pratique, pour définir le meilleur seuil, on va utiliser les courbes ROC. C’est une représentation de Se en ordonnée en fonction de 1-Sp en abscisse. Ainsi on retrouve la sensibilité et spécificité de chaque seuil du test étudié. Chaque point de la courbe représente un seuil. Cette courbe permet d’avoir une vision globale des performances diagnostiques du test indépendamment d’un choix de seuil.

(10)

L’aire sous la courbe AUC est une façon de mesurer la capacité de discrimination globale.

On a alors

0<AUC<1

L’aire sous la courbe s’interprète également comme une probabilité conditionnelle: si on tire au sort un patient malade et un patient non malade, quelle est la probabilité que votre marqueur continu les ordonne?

C’est un équivalent de la statistique de rang de comparaison des valeurs de X entre cas et témoins (test de Wil- coxon vu en PACES). Il existe également des tests de comparaison des AUC.

Exemple: Situation réelle dans laquelle il y a un recoupement entre la courbe malade et la courbe non malade Discrimination parfaite: Situation idéale qui n’existe jamais tous les malades ont des valeurs plus élevées que les non malades

Discrimination nulle: Situation dans laquelle les courbes se superposent donc le marqueur n’a aucun intérêt

Comment choisir un seuil?

- On choisit « naïvement » le meilleur point pour maximiser la sensibilité et la spécificité du test. On choisira alors le point le plus « convexe » de la courbe ROC. On ne privilégie ni la sensibilité ni la spécificité.

- Ou alors on tient compte du contexte et on choisit le seuil en fonction de l’objectif du marqueur diagnostique:

pour le dépistage on préférera Se> Sp (on veut détecter tous les malades même si cela signifie qu’il y aura des Faux Positifs) et pour la confirmation d’un diagnostic on préférera Sp> Se (on veut éliminer tous les patients sains pour donner un diagnostic sur aux malades et ne pas par exemple annoncer un cancer à un patient sain et commencer une chimiothérapie pour rien)

c. Spectrum effect (effet de spectre)

Se et Sp sont des propriétés « intrinsèques » du test. Mais en fait elles sont liées à la composition de la popula- tion.

Exemple des tests non-invasifs de fibrose hépatique:

Le Gold Standard pour le diagnostique de la fibrose est la ponction-biopsie hépatique. Le degré de fibrose est alors classifié en 5 stades de F0 (pas de fibrose) à F4 (cirrhose). Ces stades sont souvent regroupé en fibrose significative (≥F2) et pas de fibrose significative (<F2). On transforme le test en test binaire.

On cherche donc des tests non-invasifs pour remplacer la biopsie qui entraine des douleurs, un suivi compliqué, de plus il peut y avoir un saignement hors il y a des troubles de la coagulation etc..

On a alors proposé des dosages de protéines qui permettent de calculer un score (plus le score est élevé plus il y a de fibrose) et des mesures d’élastométrie (onde projetée par le foie, plus le foie est dur plus l’onde revient vite).

Plus on prend de gens malades, plus il sera facile de les diagnostiquer. L’AUC de F4 est supérieur à l’AUC de F0F1.

Par contre, pour faire la différence entre un patient qui a une fibrose F2 et un patient qui a une fibrose F3, c’est beaucoup plus difficile.

(11)

L’effet de spectre est donc le fait que les propriétés intrinsèques (Se, Sp, ROC et AUC) vont varier en fonction de la composition de la population d’étude. Pour les tests non-invasifs, il va dépendre de la prévalence des stades dans la population:

- test meilleur si l’échantillon est composé de beaucoup de cas extrêmes (F0 et F4) - test moins bon s’il y a beaucoup de stades adjacents (F1 et F2)

Pour résumer, le spectrum effect se généralise à différentes caractéristiques des patients. Les propriétés de discri- mination seront meilleurs si évaluées dans un échantillon qui contient des cas « très malades » ( augmente la Sen- sibilité) et des témoins très normaux (augmente la Spécificité).

Donc pour avoir un test diagnostique non biaisé, il faut prendre un échantillon de la population composé de tout le spectre de la maladie.

III. Impact thérapeutique

La prise en compte du bio marqueur dans la stratégie diagnostique/ thérapeutique va-t-elle modifier le devenir du patient?

Quand on fait des études de comparaison, il y a toujours un examen de référence. Ainsi le marqueur diagnostique qu’on étudie sera au maximum équivalent à cet examen. Mais au début, on fait ces études sous l’hypothèse que le Gold Standard ne se trompe jamais. Si on veut prouver que notre test est meilleur que le GS (par exemple si le GS dit que le test se trompe mais qu’on pense que le test a raison) alors on ne peut pas calculer la Se, Sp, Courbe ROC et l’AUC. Les autres solutions sont de mélanger plusieurs tests pour créer un nouveau Gold Standard plus perfor- mant. Ou alors on peut faire des essais randomisés avec et sans le biomarqueur à l’étude pour déterminer l’impact sur la prise en charge des patients.

IV. Analyse d’article - Gold Standard?

Le Gold Standard est la biopsie hépatique.

- Examen diagnostique?

Les examens diagnostiques à l’essai sont le rapport ASAT/ALAT, le CDS ( Cirrhosis Discriminant Score), le rap- port Age/ Plaquettes, le taux de plaquettes etc..

- Mesure de ?

• La reproductibilité du Gold Standard c’est-à-dire à quel point la classification des stades de fibrose par la biopsie est-elle reproductible? Il y a eu un calcul du Kappa pour un score binaire (<F2 ou ≥F2)

• La corrélation du GS (peu pertinent pour l’intérêt diagnostique)

• La précision diagnostique des Tests Non Invasifs (Se, Sp, VPP, VPN, Courbe ROC et AUC). Il y a eu une comparaison des AUC entre les différents tests non invasifs et avec l’examen de référence.

- Lien Se/Sp et VPP/ VPN?

Dans l’article, on ne tient pas compte de la prévalence de la maladie. Est-ce qu’on a choisi des patients au hasard, ou a-t-on choisi des patients avec une cirrhose?

(12)

Références

Documents relatifs

Étant donné la faible proportion des angines bac- tériennes, principalement liées au streptocoque du groupe A (SGA), la prescription excessive d ’ antibiotiques et l ’ émer- gence

Clinical Imaging (2011) 35 : 127-132 E Yoo, MJ Kim, KW Kim, JJ Chung, SH Kim, JY Choi, A case of Mesenteric Cystic Lymphangioma : Fat Saturation and Chemical Shift MRI, Journal

Parfois, même guidés par échographie, il arrive que le r e m avant injection soit difficile en cas de tumeur de petite taille, de siège intrriparcnchymateux et

-la forme kystique avec deux sous types ; la dystrophie kystique de la paroi duodénale dans laquelle les kystes sont dans la paroi et les kystes paraduoénaux dans laquelle

L’évaluation soigneuse du risque pour chaque patient et le ciblage de l’essai Xpert MTB/RIF permettent d’améliorer grandement la valeur prédictive de ce test ; une approche

• Représentation graphique des caractéristiques intrinsèques d’un test de réponse quantitative pour différents seuils. –  Aide au choix

• Le dosage qualitatif des d-dimères était positif chez 14 patients avec une thrombose veineuse profonde et chez 85 patients sans thrombose veineuse profonde.... Calculez

 Removes or fuses arthritis areas (degenerated scaphoid and capitolunate