Question 1 : Il s agit d une étude: A. thérapeutique de phase 3 B. diagnostique de phase 2 C. pronostique D. prospective E.

(1)

Article 1

Identification par tomographie par émission de positons/

tomodensitométrie du cancer du rein à cellules claires : résultats de l’essai REDECT

Question 1 :

Il s’agit d’une étude:

A. thérapeutique de phase 3 B. diagnostique de phase 2 C. pronostique

D. prospective E. multicentrique

Réponse : D, E

A. thérapeutique de phase 3 B. diagnostique de phase 2 C. pronostique

D. prospective E. multicentrique

Correction détaillée :

L’étude n’évalue pas une thérapeutique (médicament, intervention, …) ce n’est donc pas un essai thérapeutique. Les phases des essais diagnostiques correspondent aux phases de Sackett.

La phase 3 est définie par une étude évaluant les propriétés diagnostiques du test dans la population à laquelle on souhaiterait que le test s’applique. Enfin on oppose classiquement les tests diagnostiques qui sont liés à la présence ou l’absence de la maladie aux tests pronostiques liés au devenir des patients malades.

Commentaires :

Une question simple et très classique pour commencer. La détermination exacte du type d’étude est indispensable pour pouvoir la lire avec un œil critique !

Question 2 :

Si cette étude avait été réalisée en France, à quelle(s) obligation(s) légale(s) aurait-elle dû se plier ?

A. signature d’un consentement éclairé

B. approbation d’un comité de protection des personnes C. déclaration à la CNIL de la base de données

D. inscription de l’essai sur une base internet de type « clinicaltrial.gov » E. compensation financière pour le patient car pas de bénéfice individuel direct

Réponse : A, B, C

A. signature d’un consentement éclairé

B. approbation d’un comité de protection des personnes C. déclaration à la CNIL de la base de données

(2)

D. inscription de l’essai sur une base internet de type « clinicaltrial.gov » E. compensation financière pour le patient car pas de bénéfice individuel direct

Il s’agit d’une étude interventionnelle avec un examen invasif. Comme une étude thérapeutique, celle-ci doit donc respecter les mêmes critères éthiques : signature d’un consentement éclairé et CPP. L’inscription à la CNIL est par ailleurs obligatoire pour toute constitution d’une base de données informatique sur les patients dans une étude ou non.

En revanche, l’inscription sur une base de données d’étude n’est obligatoire que si on envisage la publication d’une l’étude notamment thérapeutique (dans un journal correct) et pas une obligation légale. Il n’y a pas de compensation financière pour le patient dans la plupart des essais que vous verrez car on considère que le nouveau traitement / thérapeutique apporte (au moins potentiellement) un bénéfice individuel direct au malade. Dans ce contexte, la compensation financière est même interdite.

Commentaires :

Ne pas oublier de réviser le caractère médico-légal car il y a peu de principe réglementaire à connaitre ce qui en fait une question potentiellement facile

Question 3 :

L’étude a été réalisée car :

A. aucune étude n’a encore évalué le marqueur en pré-chirurgie

B. les biopsies chirurgicales sont fréquemment réalisées mais trop morbides

C. les masses corticales au TDM peuvent correspondre aussi bien à une lésion bénigne que maligne

D. exclure le diagnostic de cancer rénal à cellules claires pourrait permettre de pratiquer moins de néphrectomie radicale

E. la nouvelle imagerie est principalement intéressante pour les grosses masses rénales >

4cm

Réponse : C, D

A. aucune étude n’a encore évalué le marqueur en pré-chirurgie

B. les biopsies chirurgicales sont fréquemment réalisées mais trop morbides

C. les masses corticales au TDM peuvent correspondre aussi bien à une lésion bénigne que maligne

D. exclure le diagnostic de cancer rénal à cellules claires pourrait permettre de pratiquer moins de néphrectomie radicale

E. la nouvelle imagerie est principalement intéressante pour les grosses masses rénales >

4cm

La lecture de l’introduction nous montre qu’une étude pilote a déjà été faite ce n’est donc pas la première étude. D’autre part il est bien précisé que la biopsie n’est que rarement faite. De

(3)

même le test n’est pas non plus particulièrement intéressant pour les grosses masses rénales car celle-ci relèvent plus fréquemment de la chirurgie de toute façon. Finalement les premières ligne de l’introduction rappellent bien que ces masses peuvent correspondre à un spectre de gravités très varié et que c’est par précaution que l’on propose trop de néphrectomie radicale.

Commentaires :

Une simple question de lecture de l’introduction de l’article, pas de piège.

Question 4 :

Les patients inclus dans cette étude :

A. comportaient un groupe témoin sans lésion rénale B. avaient une lésion rénale corticale de moins de 4 cm C. avaient une intervention chirurgicale prévue sur la masse D. provenaient de 14 centres aux États-Unis

E. n’avaient pas d’insuffisance rénale en pré-opératoire

Réponse : C, D

A. comportaient un groupe témoin sans lésion rénale B. avaient une lésion rénale corticale de moins de 4 cm C. avaient une intervention chirurgicale prévue sur la masse D. provenaient de 14 centres aux États-Unis

E. n’avaient pas d’insuffisance rénale en pré-opératoire

Cette étude a effectivement inclus sur 14 centres aux Etats-Unis des patients chez qui une lésion corticale du rein avait fait prévoir une intervention chirurgicale. Le groupe témoin de cette étude est un groupe avec une lésion bénigne et non l’absence de lésion. Le critère de taille qui avait été évoqué dans l’introduction n’est pas explicitement utilisé et la lecture du texte et du tableau 1 montre que de nombreux patients avaient une tumeur de plus de 4cm.

Aucun critère n’est spécifié pour l’insuffisance rénale ni pour aucun autre critère de sécurité (femme enceinte etc…) ce qui est étonnant car certains examens pourraient être contre- indiqués dans ces situations (notamment insuffisance rénale terminale).

Commentaires :

Les critères d’inclusion dans une étude diagnostique sont aussi fondamentaux que dans une étude thérapeutique car ce n’est qu’à cette seule population que s’appliquera les résultats de l’article. L’analyse précise de ceux-ci est fondamentale. On peut noter ici que ces critères sont définis de façon très vague par le seul fait d’avoir une résection chirurgicale prévue…

Question 5 :

La totalité des imageries a été interprétée dans un seul centre par 3 lecteurs formés spécialement :

A. ce qui diminue les biais de sélection B. ce qui diminue les biais de classement

(4)

C. ce qui améliore la reproductibilité

D. ce qui permet d’évaluer la variabilité inter-observateur

E. ce qui nécessite d’utiliser des méthodes statistiques particulières

Réponse : B, D

A. ce qui diminue les biais de sélection B. ce qui diminue les biais de classement C. ce qui améliore la reproductibilité

D. ce qui permet d’évaluer la variabilité inter-observateur

E. la centralisation impose d’utiliser des méthodes statistiques particulières

Le biais de sélection qui est défini par le fait que la population incluse dans l’étude est différente de la population cible ne peut pas être impacté par les examens/traitement réalisés en cours d’étude (et donc après l’inclusion). En revanche les biais de classement qui correspondraient ici à une imprécision sur le caractère cancéreux ou pas du prélèvement ou sur une erreur d’interprétation de l’imagerie peut l’être. La relecture centralisée qui est une procédure classique pour les examens d’interprétation difficile peut diminuer ce biais en ayant accès à des praticiens plus expérimentés et en limitant la variabilité inter-centre (inévitable dans les essais multicentriques). En revanche la relecture par des praticiens trop expérimentés (trop bon) peut limiter la reproductibilité / la validité externe car on n’est pas certains que les praticiens standards des autres centres seront capables d’avoir le même niveau d’excellence et donc la même performance diagnostique. La lecture par plusieurs interprétateurs du même centre de toutes les imageries permet en sus d’évaluer la reproductibilité inter observateur.

Aucune méthode statistique particulières n’est nécessaire dans ce contexte.

Commentaires :

Attention à bien connaitre la définition des biais (sélection / classement / confusion) et des validités (interne/externe) afin de ne pas se retrouver à cocher au hasard

Question 6 :

Une partie de l’étude est réalisée en « insu »

A. ce qui signifie que le patient n’est pas au courant du résultat des examens B. ce qui signifie que le chirurgien n’est pas au courant du résultat des examens

C. ce qui signifie que les radiologues ne sont pas au courant du résultat des autres examens D. ce qui signifie que les médecins nucléaires ne sont pas au courant du résultat des autres

examens

E. ce qui signifie que les anatomopathologistes ne sont pas au courant du résultat des autres examens

Réponse : C, D, E

A. ce qui signifie que le patient n’est pas au courant du résultat des examens B. ce qui signifie que le chirurgien n’est pas au courant du résultat des examens

C. ce qui signifie que les radiologues ne sont pas au courant du résultat des autres examens

(5)

D. ce qui signifie que les médecins nucléaires ne sont pas au courant du résultat des autres examens

E. ce qui signifie que les anatomopathologistes ne sont pas au courant du résultat des autres examens

Attention à ce terme dans le cadre des essais diagnostiques qui est différent du cadre de l’essai thérapeutique classique. Le dernier paragraphe de l’introduction précise que l’essai est en ouvert ce qui laisse supposer que le praticien et le patient sont mis au courant du résultat des examens. Ceci est logique et n’a aucune conséquence car les examens sont systématiquement réalisés et la prise en charge ne serait pas modifiée. En revanche il est toujours souhaitable que l’évaluation des différents examens à l’essai (TDM et PET-TDM) se fassent en aveugle l’un de l’autre, mais aussi en aveugle du gold standard (anapath). En effet en l’absence de ceci il y a un risque que le radiologue/isotopiste/anapath soit influencé par le résultats des autres examens ce qui créerait du biais de classement différentiel. Cet effet est plus ou moins important selon le caractère subjectif de l’examen testé.

Commentaires :

Attention au termes spécifiques : puissance, validité, insu, aléatoire, … qui peuvent selon le contexte renvoyer à des notions différentes.

Question 7 :

Le calcul du nombre de patients à inclure A. se basait sur un risque alpha de 5%

B. se basait sur un risque béta de 80%

C. se basait sur une augmentation de 75% à 90% de la Sensiblité / Spécificité

D. a dû être modifié en cours d’étude car la répartition entre les malades et les non malades était plus équilibrée que prévu

E. prenait en compte le caractère apparié des données

Réponse : A, C, E

A. se basait sur un risque alpha de 5%

B. se basait sur un risque béta de 80%

C. se basait sur une augmentation de 75% à 90% de la Sensibilité / Spécificité

D. a dû être modifié en cours d’étude car la répartition entre les malades et les non malades était plus équilibrée que prévu

E. prenait en compte le caractère apparié des données

Le calcul initial reposait sur alpha = 5%, puissance = 80% et donc béta = 20%, augmentation de 75% à 90% du critère principal (sens/spe). Ceci repose également sur une répartition entre malades et non malade particulière ici estimée à 60/40. Plus cette répartition est idéale, c’est- à-dire proche de 50/50 plus l’essai est puissant = il répond à la question avec moins de patient.

Malheureusement la répartition était plus déséquilibrée que prévu avec un 73/27. Ceci

(6)

engendre une perte de puissance qui a dû être compensée d’autant que parallèlement moins de malade que prévu était évaluable.

D’autre part, les données sont clairement appariées car c’est bien sur le même patient que le scanner et le PET-TDM étaient réalisés. Dans un essai classique les résultats d’un patient sont complètement indépendants de deux d’autre patients et chaque patient ne reçoit qu’un seul traitement. Si le patient reçoit alternativement les deux traitements ou les deux examens (chaque patient est son propre témoin) la probabilité d’avoir une TEP-TDM positive n’est peut-être pas la même selon que le scan est positif ou non. Dans cette situation, l’utilisation de méthode statistique particulière pour série appariée est nécessaire. C’est la raison pour laquelle un test de MacNemar est utilisé plutôt qu’un Chi² classique (c’est un point un peu plus compliqué).

Commentaires :

Cette étude démontre qu’il est aussi possible (et souhaitable) de calculer à l’avance dans un essai diagnostique le nombre de sujets. L’impact de la modification en cours d’étude de ce nombre est difficile à préciser mais me semble assez limité car elle ne repose pas sur la réalisation itérative de comparaisons ou sur la modification des supposés sur les performances du test. Elle est de plus en plus pratiquée (avec un cadre statistique différent) dans le cadre des essais dit adaptatifs.

Question 8 :

Concernant les patients inclus :

A. tous les patients inclus n’ont pas reçu le médicament à l’étude ce qui constitue un biais d’attrition

B. tous les patients inclus ne sont pas analysés ce qui peut constituer un biais de sélection C. la figure 1 montre que l’analyse est en per-protocole

D. moins de 0,5% des patients avaient le nouvel examen diagnostic considéré comme ininterprétable par les 3 lecteurs

E. le gold standard est disponible pour tous les patients

Réponse : B, D

A. tous les patients inclus n’ont pas reçu le médicament à l’étude ce qui constitue un biais d’attrition

B. tous les patients inclus ne sont pas analysés ce qui peut constituer un biais de sélection C. la figure 1 montre que l’analyse est en per-protocole

D. moins de 0,5% des patients avaient le nouvel examen diagnostic considéré comme ininterprétable par les 3 lecteurs

E. le gold standard est disponible pour tous les patients

Le biais d’attrition défini par la perte de la comparabilité des groupes dans un essai randomisé ne peut pas être présent ici car l’étude n’est pas randomisée et chaque patient est son propre comparateur. En revanche les exclusions après inclusion posent un problème potentiel de biais de sélection s’ils sont importants. En effet la population cible à laquelle on souhaiterait que

(7)

l’étude s’applique est « la population pour laquelle la question d’une résection chirurgicale se pose » mais devient ici : « pour laquelle une résection se pose ET ont pu effectivement être opéré ET avoir eu les deux examens »… petites différences. Dans cet essai non randomisé il n’y a pas lieu de parler de per-protocole ou d’intention de traiter. Seul 1 patient sur 204 (=0.49% donc <0.5 % en calcul mental ~ 1/200) ont eu un examen ininterprétable ce qui est très positif. 2 patients n’ont pas été opérés et la valeur du gold standard est donc inconnue chez eux.

Commentaires :

On peut remarquer qu’outre le fait que le flow chart est particulièrement mal foutu et donc difficile à comprendre il contient probablement une ou deux erreurs. Dans la branche de droite le chiffre dans « patient subissant la chirurgie et disponibilité… » devrait être à 202 pour rester cohérents avec le 204-1-1 = 202 de la branche supérieure et le 146+56=202 des branches inférieures. Le nombre de patients ininterprétables -3 dans le groupe cancer -4 dans le groupe pas cancer (total = -7) ne colle pas avec le texte 1 TEP-TDM ininterprétable et 5 TDM (total = 6). Le flow chart avait précisément était imposé afin qu’il soit plus difficile aux auteurs d’embrouiller les lecteurs avec les effectifs…. Ici ce n’est pas une réussite !

Question 9 :

Concernant les critères principaux et secondaires de jugement

A. la sensibilité est la probabilité d’avoir un test positif quand on est malade

B. la valeur prédictive positive est la probabilité d’être malade quand on a un test positif C. la valeur prédictive négative est liée à la sensibilité

D. la spécificité varie avec la prévalence du cancer dans la population E. la précision correspond au taux d’examen classant correctement

Concernant les critères principaux et secondaires de jugement

A. la sensibilité est la probabilité d’avoir un test positif quand on est malade

B. la valeur prédictive positive est la probabilité d’être non malade quand on a un test positif C. la valeur prédictive négative est liée à la sensibilité

D. la spécificité varie avec la prévalence de la maladie dans la population E. la précision correspond au taux d’examen classant correctement

Sens = Probabilité d’avoir un test positif quand on est malade Spé = Probabilité d’avoir un test négatif quand on n’est pas malade VPP = Probabilité d’être malade qu’on a un test positif

VPN = Probabilité de ne pas être malade quand on a un test négatif Sens et Spé ne varient pas avec la prévalence mais la VPP et la VPN oui Sens et VPN sont liées de même que Spe et VPP

Commentaires :

Une bête question de cours ... Mais INDISPENSABLE pour comprendre ce que signifient les résultats de ce genre de test

(8)

Question 10 :

Concernant les résultats sur les critères principaux et secondaires :

A. une différence significative est atteinte sur la sensibilité car le p < 0.05

B. une différence significative est atteinte sur la spécificité car l’intervalle de confiance de la différence ne comprends pas 1

C. il n’y a pas de différence significative pour les critères secondaires (VPP, VPN, précision) : N pour non significatif

D. les valeurs indiquées de sensibilité sont des valeurs moyennes pour les 3 observateurs E. l’intervalle de confiance à 95% de 0,188 à 0,747 pour la spécificité du TDM-IC montre

que le test identifie les non malades mieux que le hasard car il ne comprend pas 0

Réponse : A, D

A. une différence significative est atteinte sur la sensibilité car le p < 0.05

B. une différence significative est atteinte sur la spécificité car l’intervalle de confiance de la différence ne comprends pas 1

C. il n’y a pas de différence significative pour les critères secondaires (VPP, VPN, précision) : N pour non significatif

D. les valeurs indiquées de sensibilité sont des valeurs moyennes pour les 3 observateurs E. l’intervalle de confiance à 95% de 0,188 à 0,747 pour la spécificité du TDM-IC montre

que le test identifie les non malades mieux que le hasard car il ne comprend pas 0

On peut conclure à la supériorité de deux façons : soit avec un p inférieur au seuil alpha préfixé (ici à 0,05), soit en regardant l’intervalle de confiance. Mais attention c’est un intervalle de confiance d’une différence et pas d’un rapport ! C’est donc la valeur 0 et non 1 que l’intervalle de confiance ne doit pas comprendre pour avoir une différence entre les deux traitements. La lecture du paragraphe méthodologie et des notes de bas de page montrent que les critères secondaires sont donnés à titre informatif et ne bénéficient d’aucune comparaison statistique (les IC ne sont pas donnés non plus). N signifie probablement non testé.

Enfin et de façon générale pour toutes ces probabilités et les aires sous la courbe, une simple pièce de monnaie (le hasard) permet d’obtenir des valeurs à 0,5 c’est donc cette valeur est non le zéro que l’on souhaiterait non comprise dans l’IC.

Commentaires :

Une question pas foncièrement difficile si on prend le temps de bien lire tous les tableaux avec leurs notes de bas de page… et si on réfléchit un petit peu à ce que représentent ces valeurs qui sont des probabilités et non des odds ratio

Question 11 :

Concernant la concordance (la reproductibilité de l’examen) A. seule la reproductibilité inter observateur est mesurée

B. le coefficient de corrélation a permis de tester la reproductibilité C. le TEP-TDM était significativement plus reproductible que la TDM-IC

D. la statistique Κ représente le pourcentage de fois ou les 3 observateurs sont d’accord sur le nombre total d’examen

(9)

E. la reproductibilité intra-observateur n’était pas parfaite

Réponse : E

A. seule la reproductibilité inter observateur est mesurée

B. le coefficient de corrélation a permis de tester la reproductibilité C. le TEP-TDM était significativement plus reproductible que la TDM-IC

D. la statistique Κ représente le pourcentage de fois ou les 3 observateurs sont d’accord sur le nombre total d’examen

E. la reproductibilité intra-observateur n’était pas parfaite

Cette étude a permis d’étudier à la fois la reproductibilité intra et inter observateur. On peut noter (on sait bien qu’aucun examen n’est parfait) que pour les deux examens, la reproductibilité intra observateur n’est pas de 100%...

Pour tester la concordance entre les paires d’observateurs, les auteurs ont utilisé la statistique Kappa qui mesure l’accord entre évaluateurs en prenant en compte que certains accords peuvent être le fait du hasard et non un pourcentage brut. La statistique est nulle ou négative en cas de désaccord, comprise entre 0 et 1 si accord. On considère globalement que l’accord est fort entre 0,61 et 0,80 et presque parfait quand >0,80. Les intervalles donnés correspondent aux valeurs observées pour les 3 différentes paires de comparaisons et non des IC à 95%. Il n’est donc pas possible de savoir si les deux valeurs sont statistiquement différentes ou non.

Commentaires :

Il s’agit d’une notion statistique un peu plus avancée donc moins capitale. Comprendre le principe reste utile.

Question 12 :

Concernant les limites de cette étude :

A. l’effectif de l’étude est trop faible pour pouvoir conclure B. la méthodologie statistique employée est adaptée

C. la reproductibilité de la TEP-TDM n’est pas suffisante

D. le bénéfice apporté par cet examen dans la prise en charge (diagnostique/thérapeutique) n’est pas démontré

E. il existe un biais de sélection

Réponse : B, D, E

A. l’effectif de l’étude est trop faible pour pouvoir conclure B. la méthodologie statistique employée est adaptée

C. la reproductibilité de la TEP-TDM n’est pas suffisante

D. le bénéfice apporté par cet examen dans la prise en charge (diagnostique/thérapeutique) n’est pas démontré

E. il existe un biais de sélection Correction détaillée :

(10)

L’étude est dans sa globalité très bien menée et les auteurs ont fait beaucoup d’effort pour obtenir un haut niveau de preuve. On peut noter un effectif de patient important pour ce type d’étude, calculé à priori et permettant d’obtenir la significativité statistique et des IC pas trop larges. Bien qu’imparfaites, la reproductibilité inter et intra observateur restent toujours largement supérieures à 0,80 signant une bonne concordance. Le biais de sélection est toujours possible (rien que le fait que le patient accepte de participer constitue une différence potentielle avec ceux n’acceptant pas). Il est peut-être un tout petit peu majoré ici par l’absence de définition précise des critères d’inclusions/d’exclusions et l’exclusion de certains patients en cours d’étude. Finalement la principale limitation de l’étude est liée à son statut d’étude de phase 3 et non de phase 4. On sait grâce à elle que la TEP-TDM est un excellent examen (supérieur au scanner) même dans la population dans laquelle il est légitime de se poser la question (et pas que sur une population idéale). En revanche, l’apport réel de l’examen en terme de bénéfice patient (opérations/complications évitées vs cancer non opéré) ne sera évalué qu’au cours de l’étude de phase 4.

Commentaires :

Avoir une lecture critique c’est savoir dire quand ça ne va pas … mais aussi quand ça va ! Ne pas systématiquement descendre les études.

Question 13 :

Les performances diagnostiques de la TEP-TDM permettent d’envisager de l’utiliser : A. comme un examen polyvalent car sensibilité et spécificité sont correctes

B. comme un excellent examen de confirmation de l’indication chirurgicale car la VPP est excellente

C. comme un examen de dépistage car la précision est élevée

D. dans une population à plus faible prévalence du cancer à cellule claire, la VPN serait plus élevée

E. l’utilisation de courbes ROC permettrait de choisir un seuil plus adapté à la problématique posée (confirmation ou dépistage)

Réponse : A, B, D

A. comme un examen polyvalent car sensibilité et spécificité sont correctes

B. comme un excellent examen de confirmation de l’indication chirurgicale car la VPP est excellente

C. comme un examen de dépistage car la précision est élevé

D. dans une population à plus faible prévalence du cancer à cellule claire, la VPN serait plus élevée

E. l’utilisation de courbes ROC permettrait de choisir un seuil plus adapté à la problématique posée (confirmation ou dépistage)

Les caractéristiques intrinsèques du test (Sens et Spe) ne varient pas avec la prévalence et avec une sensibilité et une spécificité à 0,85 le test est globalement bon partout. Mais voilà, VPP et VPN varient avec la prévalence de la maladie et donc le test qui est globalement bon

(11)

partout peut devenir excellent ou un peu moins bon. Dans cette population où la prévalence du cancer est très élevée (>70%) la VPP devient excellente. Une tumeur qui est positive avec cet examen est dans 95% des cas un cancer et doit être opérée. En revanche la VPN devient moins intéressante à 0,7 (tout en restant correcte). La précision qui est par essence une mesure globale de l’efficacité ne peut pas servir à choisir si le test est plus ou moins utile dans un contexte ou l’autre. Dans une population à plus faible prévalence, la VPN serait un peu meilleure, la VPP un peu moins bonne.

Les courbes ROC sont très intéressantes pour aider au choix du seuil pour un test qui est quantitatif est donc pour lequel il faut définir un seuil de positivité. Ici le test est qualitatif (binaire) il n’y a pas de seuil. Elles ne sont donc d’aucune utilité.

Commentaires :

Encore une fois ces notions doivent être parfaitement maitrisées pour savoir quelle caractéristique est recherchée dans quelle situation

Question 14 :

D’après la discussion, les auteurs pensent que la TEP-TDM pourrait être utilisée pour : A. effectuer un dépistage en population générale du cancer du rein à cellules claires B. servir à la décision préopératoire car l’histologie est difficile à obtenir

C. proposer plus souvent une surveillance active chez les patients présentant des comorbidités si la TEP-TDM est négative

D. diagnostiquer, au sein des cancers du rein à cellules claires, les grades les plus agressifs E. renforcer l’indication chirurgicale, même chez un patient à risque, quand l’imagerie est

positive

Réponse : B, C, E

A. effectuer un dépistage en population générale du cancer du rein à cellules claires B. servir à la décision préopératoire car l’histologie est difficile à obtenir

C. proposer plus souvent une surveillance active chez les patients présentant des comorbidités si la TEP-TDM est négative

D. diagnostiquer, au sein des cancers du rein à cellules claires, les grades les plus agressifs E. renforcer l’indication chirurgicale, même chez un patient à risque, quand l’imagerie est

positive

La discussion de cet article n’est pas toujours très claire mais il en ressort que : l’examen existe car l’histologie qui serait pourtant très importante pour la prise en charge est difficile à obtenir et donc le plus souvent non faite. Ceci fait que des opérations agressives sont proposées à des masses potentiellement bénignes. Si la TEP-TDM est négative le diagnostic de cancer s’éloigne et on l’on pourrait donc proposer uniquement une surveillance, notamment chez les sujets fragiles : c’est le principal intérêt que donne les auteurs. A la toute fin de la discussion un deuxième point est avancé : chez un sujet fragile pour lequel on hésiterait à réaliser une néphrectomie radicale, la positivité de l’examen renforcerait cette attitude (nous avons vu que la VPP est excellent à 0,95).

(12)

En revanche, aucune différence de positivité n’était observée pour les différents grades de cancer à cellules claires (résultats, tableau 3 et fin de la discussion). Le test n’est pas prévu pour être utilisé en population générale.

Commentaires :

Pas vraiment de difficulté tout est marqué dans la discussion il suffit comme souvent de bien chercher.

Question 15 :

Les résultats de cette étude sont concluants. Pour avancer dans la recherche on pourrait

A. faire une étude avec comme critère principaux la VPP et la VPN seuls paramètres intéressants du point de vue du clinicien

B. faire une étude avec plus de patients pour avoir une puissance supplémentaire C. faire une évaluation médico-économique pour justifier le coût de l’examen

D. randomiser les patients : stratégie thérapeutique guidée par le TEP/TDM versus stratégie guidée par le TDM-IC

E. randomiser les patients : stratégie thérapeutique guidée par le TEP/TDM versus stratégie guidée par l’examen anaotomopathologique

Réponse : C, D

A. faire une étude avec comme critère principaux la VPP et la VPN seuls paramètres intéressant du point de vue du clinicien

B. faire une étude avec plus de patients pour avoir une puissance supplémentaire C. faire une évaluation médico-économique pour justifier le coût de l’examen

D. randomiser les patients : stratégie thérapeutique guidée par le TEP/TDM versus stratégie guidée par le TDM-IC

E. randomiser les patients : stratégie thérapeutique guidée par le TEP/TDM versus stratégie guidée par l’examen anaotomopathologique

L’étude est déjà significative pour ses critères primaires. Elle ne manque donc pas de puissance il n’y pas de raison de refaire la même avec plus de patients. Les critères principaux de jugement choisis (Sens et Spe) sont robustes et sont des caractéristiques intrinsèques du test (qui ne varient pas avec la prévalence de la maladie). De plus la VPP et la VPN sont fortement liées à la Sens et la Spe. Refaire une étude juste pour montrer une différence sur ces paramètres est donc probablement inutile.

Deux voies de recherche sont possibles : le côté médico-économique et le côté clinique (passage en phase IV). Tout examen coûte cher et il est dans l’air du temps de réduire les dépenses. Soit la nouvelle stratégie coûte moins cher que l’ancienne et est au moins équivalent et c’est réglé. Il est raisonnable de penser que c’est le cas ici en raison des hypothèses de l’étude. Même si le PET coûte cher, c’est toujours moins qu’une hospitalisation pour néphrectomie et le test va éviter des néphrectomies inutiles…Si la nouvelle stratégie ne coûte pas moins cher, une approche est d’essayer de montrer son « coût-efficacité ». C’est-à- dire que l’on n’acceptera pas une amélioration minime pour un coût énorme. Il faut donc fixer un seuil ce qui est forcément subjectif. Par exemple 30.000 € / QALY (gagner une année de

(13)

vie avec qualité) est un seuil classique. Si on est en dessous de ce seuil le produit est « coût- efficace » sinon il coûte trop cher pour ce qu’il apporte en qualité de vie. Pour l’approche clinique, on sait de cette étude que le test est performants au niveau diagnostic dans sa population cible (Phase III de Sackett). La prochaine étape est donc de montrer que ce test permet d’apporter un bénéfice patient par rapport aux examens usuels. Pour cela, il faut randomiser les patients (Phase IV de Sackett) dans un bras où la stratégie est guidée par les examens habituels et un autre bras guidée par le nouvel examen. Dans ce type d’étude le critère principal de jugement n’est plus la performance diagnostique du test mais un critère

« patients » : survie globale, taux de complications, durée d’hospitalisation, qualité de vie…

Enfin il faut noter qu’ici l’examen anatomopathologique était le gold standard de l’étude. Le nouveau test n’a pas vocation à le remplacer parce qu’il serait meilleur (cas où il faudrait randomiser PET/TDM vs anapath) mais à s'y substituer car on sait qu’ils sont fortement liés.

Le test ne remplacera d’ailleurs pas non plus le scanner qui sert au screening mais s’y ajoutera dans la démarche.

Commentaires :

Comme pour un essai thérapeutique il faut faire les phases du développement une à une.

Quand une phase est positive on passe à la suivante sinon on s’arrête. Pour les essais diagnostiques il s’agit des phases de Sackett et non des phases classiques des essais thérapeutiques il faut bien les comprendre et les connaitre. L’aspect médico-économique est de plus en plus important et il faut connaitre grossièrement le principe.

(14)

Predictors of the risk of cognitive deficiency in very preterm infants : the EPIPAGE prospective cohort

Question 1 :

Il s’agit d’une étude

A. de cohorte prospective B. de cohorte rétrospective C. cas-témoin

D. observationnelle E. analytique

Réponse : A, D, E

A. de cohorte prospective B. de cohorte rétrospective C. cas-témoin

D. observationnelle E. analytique

Les études épidémiologiques sont soit interventionnelles (essai clinique) soit observationnelles.

Les études observationnelles peuvent être descriptives (décrit la fréquence et la répartition des paramètres de santé) ou analytiques (analyse les associations entre facteurs de risque et maladie).

Ici il ne s’agit pas d’un essai clinique : l’étude est donc observationnelle.

Elle recherche des facteurs de risque : analytique

Elle enregistre tous les nouveaux nés prématurés de moins de 32SA sur une période données : cohorte

Le recueil de l’information est prospectif.

Effectivement, on compare des cas de déficience à des témoin n’ayant pas de déficience, mais l’ensemble des enfants prématurés a été enregistré et les patients n’ont pas été recruté sur le statut malade/non malade, il s’agit donc bien d’une cohorte et non pas d’une étude cas- témoin.

Commentaire :

Question de cours, en plus, tout est dans le titre !

Question 2 :

L’objectif/ les objectifs de cette étude

A. était d’identifier les causes de la déficience cognitive chez les prématurés

B. était d’identifier les facteurs associés à la déficience cognitive chez les prématurés C. était d’identifier l’effet des lésions cérébrales chez les prématurés

D. était d’étudier l’effet de la prématurité sur la survenue d’une déficience cognitive E. était de décrire la prévalence et l’incidence de la déficience cognitive chez les grands

prématurés.

Réponse : B

(15)

A. était d’identifier les causes de la déficience cognitive chez les prématurés

B. était d’identifier les facteurs associée à la déficience cognitive chez les prématurés C. était d’identifier l’effet des lésions cérébrales chez les prématurés

D. était d’étudier l’effet de la prématurité sur la survenue s’une déficience cognitive E. était de décrire la prévalence et l’incidence de la déficience cognitive chez les grands

prématurés.

L’inférence causale nécessite soit une étude interventionnelle soit de nombreux critères (dit

« de causalité » ou « de Bradford-Hill ») et même si les études épidémiologiques analytiques peuvent fournir certains de ces arguments, elles ne suffisent pas en elles-mêmes pour parler de

« causes ». Il faut donc parler de « facteurs de risque ».

Tous les enfants étant prématurés, il ne s’agit pas d’étudier l’effet de la prématurité (sinon, il y aurait un groupe contrôle à terme).

Cette étude est analytique et prospective, même si on aurait pu donner la prévalence et l’incidence de la déficience cognitive chez les prématurés, ce n’était pas l’objectif de l’étude.

Commentaire :

Bien lire la question ! On demande l’objectif et non pas ce qu’il est possible de faire.

Méfiez-vous de la causalité. En général, quand on vous demande si tel ou tel facteur est la cause, il faut souvent répondre non, car la causalité n’est jamais prouvé dans les essais non interventionnelles et la supposer demande un faisceau d’argument !

Question 3 :

Les auteurs ont choisi une étude de type cohorte : A. parce que c’est la plus facile à réaliser

B. parce que la maladie d’intérêt est très fréquente dans la population C. parce que le niveau de preuve est élevé

D. parce qu’on veut étudier plusieurs facteurs de risques E. parce que ça supprime les biais de confusion

Réponse : C, D

A. parce que c’est la plus facile à réaliser

B. parce que la maladie d’intérêt est très fréquente dans la population C. parce que le niveau de preuve est élevé

D. parce qu’on veut étudier plusieurs facteurs de risques E. parce que ça supprime les biais de confusion

L’étude de cohorte est le type d’étude épidémiologique le plus compliqué et le plus couteux.

Notamment car celui-ci nécessite un suivi prolongé dans le temps (ici 5 ans) qui est très couteux et n’existe pas dans les études rétrospectives. En revanche c’est également celui qui donne le meilleur niveau de preuve en épidémiologie (NP 2). Les avantages sont notamment une limitation des problèmes de sélection (notamment des témoins), une standardisation des mesures qui évite les biais de classement (notamment de mémorisation). Elle permet d’étudier plusieurs facteurs de risque et même si chaque étude se concentre sur une maladie, la cohorte en elle-même permet d’en étudier plusieurs pour la rentabiliser. L’étude de cohorte est

(16)

habituellement intéressante pour les pathologies relativement fréquentes dans la population générale sinon on n’a pas assez de cas. Quand la pathologie est rare, l’enquête cas-témoins est habituellement plus adaptée. Ici la pathologie est plutôt rare (prema < 32 SA + déficiences cognitives). Plusieurs facteurs ont permis de quand même réaliser une cohorte : le fait que la quasi-totalité des naissances prématurées à ces termes se produisent dans un nombre limité de centres bien identifiés (les maternités de niveau 3), les faits que ces enfants sont de toute façon bien suivis et l’acceptabilité des explorations dans le contexte, la facilité à trouver des financements (cf « ACKNOWLEDGEMENTS »). Il aura quand même fallu inclure pendant 1 an entier la totalité des naissances de 9 régions pour arriver à des effectifs corrects….

Commentaires :

Question classique à bien connaitre : avantages et inconvénients respectifs des différents types d’étude.

Question 4 :

La cohorte EPIPAGE concerne

A. 2901 nouveaux nés prématurés de moins de 32 SA B. 1742 nouveaux nés prématurés de moins de 32SA C. 1503 nouveaux nés prématurés de moins de 32SA

D. l’ensemble des nouveaux nés de France nés avant 32SA en 1997

E. tous les nouveaux nés avant 32SA dans 9 régions françaises entre 1997 et 2010

Réponse : A

A. 2901 nouveaux nés prématurés de moins de 32 SA B. 1742 nouveaux nés prématurés de moins de 32SA C. 1503 nouveaux nés prématurés de moins de 32SA

D. l’ensemble des nouveaux nés de France nés avant 32SA en 1997

E. tous les nouveaux nés avant 32SA dans 9 régions françaises entre 1997 et 2010

Le diagramme de flux de la figure 1 permet de répondre à cette question.

La cohorte inclue tous les nouveaux nés prématurés nés en 1997 dans 9 régions de France soit 2901 enfants.

La population éligible correspond à la population sur laquelle l’analyse va pouvoir être réalisée (après suppression par exemple des enfants décédés avant 5 ans ou des patients n’ayant pas de données pour la déficience cognitive) : 1742 enfants

1503 correspond aux enfants qui ont fait le test MPC à 5 ans: c’est la population d’étude, tous les autres sont exclus.

Commentaire :

Attention la question concerne la cohorte et non pas la population de cette étude ! De nombreuses études sont habituellement réalisés à partir d’une cohorte avec chacune leurs propres critères de sélection et donc de sujets. Bien lire la question. Bien lire également les flow-charts et les figures, les effectifs évoluent et sont parfois trompeurs, c’est une question simple mais il ne faut pas se précipiter !

(17)

Question 5 :

Les 239 enfants pour lesquels le score MPC n’est pas disponible

A. sont différents des enfants pour lesquels le score est disponible B. sont responsables d’un biais de classement

C. ont été exclus de l’étude

D. ont été inclus dans une étude de sous-groupe E. sont responsables un biais de sélection

A. sont différents des enfants pour lesquels le score est disponible B. sont responsables d’un biais de classement

C. ont été exclus de l’étude

D. ont été inclus dans une étude de sous-groupe E. sont responsables d’un biais de sélection

Le texte spécifie que ces 239 enfants sont différents. Cela pose effectivement un problème de biais de sélection puisque la population incluse dans l’étude n’est plus représentative de la population cible. En effet, s’ils ont plus (ou moins) de déficience cognitive que les enfants avec scores, certains facteurs de risque, voire la maladie, peuvent se retrouver sur ou sous représentés dans ce sous-groupe.

Ils ont bien été exclus de l’étude, comme le montre le flow chart ou la note de bas de tableau (tableau 1). Ce phénomène n’a aucune incidence sur la certitude de la maladie ou de l’exposition aux autres facteurs de risques n’entrainant pas de biais de classement.

Commentaire :

Attention aux définitions simples (les familles de biais) qui doivent être connues parfaitement pour répondre en toute tranquillité.

Question 6 :

Les centres pouvaient choisir de n’inclure qu’un enfant sur deux nés à 32SA

A. pour diminuer la charge de travail des centres

B. pour équilibrer le nombre d’enfant car il y a beaucoup plus d’enfants qui naissent à 32SA qu’à 28SA

C. un enfant sur deux était alors inclus de façon chronologique D. cela peut créer un biais de confusion

E. seuls deux centres ont choisi cette option

Réponse : A, E

A. pour diminuer la charge de travail des centres

B. pour équilibrer le nombre d’enfant car il y a beaucoup plus d’enfants qui naissent à 32SA qu’à 28SA

C. un enfant sur deux était alors inclus de façon chronologique D. cela peut créer un biais de confusion

E. seuls deux centres ont choisi cette option Correction détaillée :

(18)

Il est dit dans le texte que c’est pour diminuer la charge de travail des centres, et que seulement 2 centres ont choisi cette option. Le choix des enfant inclus était fait par randomisation et non pas par ordre chronologique (dans le texte). Cela peut bien entendu entrainer un biais de sélection (même si la randomisation est censée équilibrer les caractéristiques des enfants sélectionnés et des enfants exclus). Les biais de confusion qui sont en rapport avec les relations des variables entre elles ne sont ici pas affectés.

Commentaire :

Attention à bien comprendre les différents synonymes que peuvent prendre l’ajustement : ajusté, multivariée, indépendant, à niveau égal des autres variables… Tous signifie la même chose : que ces résultats prennent en compte les autres variables et les éventuelles relations entre les variables.

Question 7 :

La déficience cognitive

A. est traitée comme une variable quantitative B. est traitée comme une variable qualitative

C. est définie par une évaluation du score MPC à 5 ans D. est définie comme « légère », « modérée » ou « sévère » E. est définie comme « légère » ou « sévère »

Réponse : B, C,E

A. est traitée comme une variable quantitative B. est traitée comme une variable qualitative

C. est définie par une évaluation du score MPC à 5 ans D. est définie comme « légère », « modérée » ou « sévère » E. est définie comme « légère » ou « sévère »

Correction détaillée

La déficience cognitive est définie à partir du score MPC (l’équivalent d’un test de QI comme précisé dans le texte) qui est initialement une variable quantitative. Mais ce score est ensuite coupé en deux catégories pour définir la déficience en légère (« mild ») ou sévère (« moderate to severe » résumée en « severe ») et en faire une variable qualitative à deux classes. Ceci est probablement réalisé afin de simplifier l’analyse et l’interprétation des résultats. Il faut noter que ce n’est absolument pas une nécessité statistique juste une commodité pour la présentation

Commentaire :

Schématiquement, il n’existe que trois types de variables qu’il faut connaitre pour comprendre les analyses :

 Quantitative = qui mesure une quantité de façon numérique (on peut leur appliquer des opérations mathématiques)

 Qualitative = en classe = qui sépare les patients en 2 ou plusieurs catégories (qui peuvent ordonnées ou non)

 De survie = qui mesure à la fois est ce qu’un évènement s’est produit (le décès) et le temps avant celui-ci

(19)

Question 8 :

Les facteurs de risque étudiés incluent

A. Le statut socio-économique de la mère

B. l’âge maternel lors de la découverte des lésions C. l’âge gestationnel à la naissance

D. le score MPC de l’enfant à 5 ans E. le sexe de l’enfant

Réponse : C, E

A. Le statut socio-économique de la mère

B. l’âge maternel lors de la découverte des lésions C. l’âge gestationnel à la naissance

D. le score MPC de l’enfant à 5 ans E. le sexe de l’enfant

Il est précisé dans le texte que le statut socio-économique considéré est celui des parents (c’est à dire le statut le plus élevé entre le père et la mère). L’âge de la mère est relevé à la naissance de l’enfant. Le score MPC sert à définir la déficience cognitive et donc la maladie, ce n’est pas un facteur de risque.

Commentaire : simple question de lecture de texte. Comme dans la vraie vie, la lecture exacte de comment sont définies les expositions / la maladie est capitale de façon à pouvoir les utiliser dans la pratique.

Question 9 :

Concernant les lésions cérébrales : A. 2 types de lésions ont été évaluées

B. elles ont été évaluées par une échographie C. elles ont été évaluées par un scanner D. tous les enfants ont eu cette évaluation

E. les enfants n’ayant pas eu cette évaluation ont été exclu

Réponse : A, B

A. 2 types de lésions ont été évaluées

B. elles ont été évaluées par une échographie C. elles ont été évaluées par un scanner D. tous les enfants ont eu cette évaluation

E. les enfants n’ayant pas eu cette évaluation ont été exclu

Deux types de lésions ont effectivement été évaluées : les hémorragies intraventriculaires (« Intraventricular haemorrhage ») et les pathologies de la substance blanche (« white matter disease »). Elles sont évaluées par échographie transfontanellaire. Seuls 97% des enfants de la cohorte EPIPAGE ont eu cette évaluation, mais il n’est pas précisé combien l’ont eu dans la population d’étude. Pour en avoir le cœur net, on peut additionner les effectifs des lésions cérébrales du tableau 1 qui n’est pas égal à 1503 : tous les enfants de l’étude ne l’ont donc pas eu. Mais ces enfants n’ont pas été pour autant exclus : les critères d’exclusion sont précisés dans le diagramme figure 1, et l’absence d’échographie n’en fait pas partie.

(20)

Commentaire :

On peut voir que comme dans la très grande majorité des articles, le nombre de patient avec une données manquantes (pour autre chose que le critère principal de jugement) n’est pas précisé ! Pour les données qualitatives, on peut retrouver l’information en faisant les sommes des effectifs. Pour les quantitatives (exprimés par une moyenne) impossible de savoir…

Question 10 :

Les résultats sont exprimés en odds ratio A. car c’est une étude de cohorte

B. car les analyses ont été faites par régression logistique C. car le risque relatif n’est pas calculable

D. qui représente la différence entre les cotes d’exposition chez les cas et les témoins E. qui est une bonne approximation du risque relatif dans ce cas

Réponse : B, E

A. car c’est une étude de cohorte

B. car les analyses ont été faites par régression logistique C. car le risque relatif n’est pas calculable

D. qui représente la différence entre les cotes d’exposition chez les cas et les témoins E. qui est une bonne approximation du risque relatif dans ce cas

Attention ne confondons pas tout. A la différence du risque relatif, l’odds ratio peut être calculé dans tous les types d’enquête. Il est défini par le rapport (et non la différence) entre la côte (l’odd) d’être malade quand on est exposé et d’être malade quand on n’est pas exposé.

Ce sont les études cas-témoins qui ne peuvent fournir que des odds ratio car le risque relatif nécessite que le risque de maladie chez les exposés et les non exposés soit représentatif de la population générale. Or, dans une étude cas-témoin, les proportions de malades sont fixées par l’investigateur (et donc représentatif de rien du tout). Dans cette étude prospective ayant pris (quasiment) tous les enfants sans connaissance de leur futur statut malade le risque relatif est parfaitement calculable. Il faut noter que l’OR n’est pas une moins bonne mesure que le RR, juste plus difficile à comprendre pour nous…

Deux phénomènes contribuent ici à l’utilisation d’un OR plutôt que d’un RR : la publication dans une revue anglo-saxonne qui aime traditionnellement les odds (comme pour les cotes des paris) et l’utilisation d’une régression logistique qui est un modèle mathématique utilisant les OR et non les RR. On peut approximer le risque relatif par l’odd ratio quand la maladie est rare dans la population (et pas dans l’échantillon), ce qui est le plus souvent vrai en médecine.

Commentaire : question complexe qui nécessite d’avoir bien compris le principe de mesure de ces 2 paramètres.

Question 11 : D’après le tableau 1,

A. les nouveaux nés de sexe masculin ont une cote (« un risque ») 1,22 fois plus

important d’avoir une déficience cognitive sévère par rapport à une déficience légère B. 133 nouveaux nés avec un retard de croissance avaient une déficience légère

C. parmi les enfants avec une déficience légère, 20% sont nés entre 31 et 32SA D. parmi les enfants nés entre 31 et 32SA, 20% ont une déficience légère

(21)

E. le fait d’avoir reçu des corticoïdes en anténatal multiplie par 0,78 la cote (« le risque ») de déficience sévère

Réponse : D, E

A. les nouveaux nés de sexe masculin ont une cote (« un risque ») 1,22 fois plus

important d’avoir une déficience cognitive sévère par rapport à une déficience légère B. 133 nouveaux nés avec un retard de croissance avaient une déficience légère

C. parmi les enfants avec une déficience légère, 20% sont nés entre 31 et 32SA D. parmi les enfants nés entre 31 et 32SA, 20% ont une déficience légère

E. le fait d’avoir reçu des corticoïdes en anténatal multiplie par 0,78 la cote (« le risque ») de déficience sévère

Pour les OR, la catégorie de référence est donnée par le chiffre 1. Les nouveaux nés masculin ont donc 1,22 fois plus de risque de déficience cognitive que les filles.

La légende pour « No » est donnée en note de bas de tableau : il s’agit de l’effective total pour chaque modalité du facteur, et non de l’effectif de la déficience légère, comme on pourrait le croire si on lit vite, parce qu’il est à côté de cette catégorie. Le tableau se lit « parmi les nouveaux nés présentant le facteur X, Y% ont une déficience légère » et non pas « parmi les enfants ayant une déficience, Y% présente le facteur X ». Pour vous en persuader (et comprendre comment le tableau fonctionne), vous pouvez additionner les pourcentages. Le retard de croissance par exemple : s’il s’agissait de la répartition des âges gestationnels chez les déficients, le total ferait 100.

N.B. : on essaye de faire attention ici, pour être puriste il faut parle de cote et non de risque mais dans la pratique on utilise indifféremment les deux termes (oui c’est mal !)

Commentaire :

Les tableaux sont là pour simplifier la lecture des informations qui seraient trop indigestes dans le texte… sauf que ce n’est pas toujours simple. Pour ne pas se tromper (surtout sur les tableaux complexes) bien prendre le temps de lire : le titre du tableau (de quoi on parle ?), les en-têtes de colonnes / de ligne (qu’est ce qui est représentés ?), toutes les notes de bas de tableau (cf ECNi 2016) (pleins de petites choses cachées !).

Question 12 :

Dans le tableau 2, l’allaitement

A. concerne un allaitement exclusif de 6 mois minimum B. concerne un allaitement mixte ou exclusif

C. est un facteur protecteur pour les déficiences de façon significative

D. est significativement plus protecteur des déficiences sévères que modérées E. ce résultat est probablement biaisé par le fait que ce sont les catégories socio-

professionnelles les plus élevées qui souvent allaitent

Réponse : B, C, D

A. concerne un allaitement exclusif de 6 mois minimum B. concerne un allaitement mixte ou exclusif

C. est un facteur protecteur pour les déficiences de façon significative

D. est significativement plus protecteur des déficiences sévères que modérées

(22)

E. ce résultat est probablement biaisé par le fait que ce sont les catégories socio- professionnelles les plus élevées qui souvent allaitent

Le texte précise que la variable allaitement concerne toutes les patientes qui allaitent encore à la sortie de la maternité, même si l’allaitement est mixte. L’OR est de 0,66 pour la déficience légère et de 0,32 pour la déficience sévère. L’allaitement est donc protecteur. De plus, les intervalles de confiance ne comprennent pas 1, c’est donc significatif. Bien regarder la note de bas de tableau ; la p-value donnée et bien celle de la comparaison sévère versus modérée et non autre chose. J’accorde au plus pointilleux qu’on aurait préféré qu’il soit indiqué « <0.05 » et non « 0.05 » car quand la p-value est arrondie à 0.05 ceci peut laisser un doute : 0.05 c’était 0.04999 (significatif) ou 0.0523 (non significatif).

Enfin, le tableau 2 rapporte l’analyse après ajustement (multivariée) : la catégorie socio- professionnelle est donc prise en compte et ne biaise plus le résultat (prise en compte des facteurs de confusion).

Commentaire :

Savoir interpréter et comprendre les résultats des analyses multivariées est fondamental car c’est le résultat de cette analyse qui est le résultat principal de l’article

Question 13 :

Les auteurs mettent en évidence un odds ratio de 0.61 de déficience cognitive légère pour les nouveaux nés avant 28SA (tableau 2). Ce résultat

A. est logique : les nouveaux nés très prématurés ont probablement plus de dommages cérébraux

B. est illogique : cela est peut-être dû à un biais de sélection C. est illogique :cela est peut-être dû au risque alpha D. est illogique : cela est peut-être dû au risque beta

E. est illogique mais forcement vrai car le résultat est ajusté sur les facteurs de confusion

Réponse : B, C

A. est logique : les nouveaux nés très prématurés ont probablement plus de dommages cérébraux

B. est illogique : cela est peut-être dû à un biais de sélection C. est illogique :cela est peut-être dû au risque alpha D. est illogique : cela est peut-être dû au risque beta

E. est illogique mais forcement vrai car le résultat est ajusté sur les facteurs de confusion

Un OR inférieur à 1 signe un facteur protecteur. Ce résultat est donc illogique puisque les nouveaux nés très prématurés ont probablement plus de dommage cérébraux (la proposition A est donc fausse).

Pourquoi ce résultat ?

Un biais de sélection est de loin le plus probable, car il est précisé dans la discussion que les nouveaux nés avant 28SA exclus faute d’avoir rempli le score MPC ont plus de lésions cérébrales et sont moins allaités. Si ces nouveaux nés avaient été inclus, probablement qu’il y

(23)

aurait eu plus de déficience chez les moins de 28SA. C’est un phénomène très courant en règle général dans le sens où ceux qui ont pu avoir la totalité de la séquence thérapeutique et survive jusqu’à l’analyse constitue un sous-groupe de pronostic différent.

Le risque alpha (de première espèce) correspond au risque de conclure à tort à une différence alors qu’il n’y en a pas. Il est ici fixé à 5% (puisque l’intervalle de confiance est à 95%). Donc il y a 5% de risque qu’on ait conclu à tort que ces enfants avaient plus de déficience.

Le risque béta (de 2^ème espèce) est le risque de conclure qu’il n’y a pas de différence alors qu’il y en a une. Ce risque est utilisé principalement pour le calcul du nombre de sujet nécessaire.

Un biais de confusion est toujours possible même si le résultat est ajusté, car on n’ajuste pas sur tout. De plus, en raison des explications d’avant, une erreur est toujours possible, et le résultat n’est donc pas forcement vrai.

Commentaire :

Cette question illustre un phénomène courant : la constatation d’un résultat illogique ou inattendue. Parfois on vient de faire une découverte scientifique… le plus souvent on s’est gouré. Toujours regarder les résultats d’un œil critique : ce n’est pas juste des chiffres ça veut dire quelque chose ! Deux phénomènes principaux sont traitres :

 Risque alpha : si on pousse le raisonnement à fond (et avec un peu de mauvaise foi) dans une revue qui contient 100 articles, 5 seront significatifs par hasard et donc avec un résultat faux. On s’en prémunit en vérifiant qu’une seconde étude vient bien confirmer les résultats

 Un biais : les biais de sélection, classement et confusion peuvent être responsables de résultat inattendu. On s’en prémunit en réalisant une étude de meilleur qualité…mais ce n’est pas toujours possible et les études sur le même sujet ont tendance à avoir les même biais (difficulté à la sélection des sujets ou dans l’évaluation précise du critère principal de jugement)

Question 14 :

Les biais potentiels de cette étude sont A. des biais de confusion

B. des biais de sélection car tous les enfants de la cohorte ne sont pas analysés

C. des biais de sélection car la définition de la déficience cognitive repose sur un score mental (le MPC score) et non pas sur une définition universelle de la déficience cognitive

D. des biais de classement car il est possible que les enfants avec une déficience cognitive aient eu plus d’imagerie cérébrale, et donc plus de chance de trouver une lésion

E. Il n’y a pas de biais dans une étude de cohorte et c’est la raison pour laquelle les auteurs ont choisi ce design

Réponse : A, B

A. des biais de confusion

B. des biais de sélection car tous les enfants de la cohorte ne sont pas analysés

C. des biais de sélection car la définition de la déficience cognitive repose sur un score mental (le MPC score) et non pas sur une définition universelle de la déficience cognitive

D. des biais de classement car il est possible que les enfants avec une déficience cognitive aient eu plus d’imagerie cérébrale, et donc plus de chance de trouver une lésion

(24)

E. il n’y a pas de biais dans une étude de cohorte et c’est la raison pour laquelle les auteurs ont choisi ce design

Il y a toujours des biais de confusion, même lorsque l’on réalise des ajustements. Pour pouvoir ajuster encore faut-il que le facteur soit connu, mesurable et disponible dans l’étude.

Seule la randomisation est capable « d’ajuster sur tout » et encore de façon asymptotique !!

Il y a également de nombreux patients exclus pour des raisons d’absence de score par exemple, et il est même explicitement dit que ces exclus sont différents des inclus : biais de sélection manifeste !

Par contre, la définition de la déficience cognitive peut effectivement poser problème (l’utilisation d’un autre score aurait pu donner des résultats différents !) mais il ne s’agit pas d’un biais de sélection mais de classement.

La déficience cognitive est définie à 5 ans et testée chez tous les enfants, l’imagerie, réalisée à la naissance et les jours qui suivent, n’ont donc aucune influence.

Et bien sûr, il n’y a pas d’étude idéale, et les cohortes, comme les autres, sont pleines de biais !

Commentaire :

Une question très classique sur les biais : aucun problème si on sait de quoi il retourne…

sinon sur un QCM à 5 propositions, le hasard n’est pas vraiment votre ami : https://what-if.xkcd.com/2/

Question 15 :

Concernant l’impact de cette étude sur les pratiques :

A. il est faible d’un point de vue thérapeutique car la plupart de facteurs mis en évidence dans la déficience cognitives sont non modifiables.

B. il est important et pourrait permettre d’améliorer le pronostic neurologique de ces enfants

C. l’imagerie cérébrale est utile chez les prématurés

D. il faudrait privilégier l’allaitement exclusif chez les prématurés

E. on ne peut rien conclure car les études de cohorte ne permettent pas d’affirmer la causalité

Réponse : A, C

A. il est faible d’un point de vue thérapeutique car la plupart de facteurs mis en évidence dans la déficience cognitives sont non modifiables.

B. il est important et pourrait permettre d’améliorer le pronostic neurologique de ces enfants

C. l’imagerie cérébrale est utile chez les prématurés

D. il faudrait privilégier l’allaitement exclusif chez les prématurés

E. on ne peut rien conclure car les études de cohorte ne permettent pas d’affirmer la causalité

Correction détaillée

Pour en finir avec la causalité : effectivement, elle nécessite un faisceau d’argument, mais ça n’est pas pour autant qu’on ne peut rien conclure !! Dans beaucoup de situations il n’est tout simplement pas éthique de randomiser…

(25)

A part l’allaitement, l’ensemble des facteurs mis en évidence dans cette étude sont effectivement non modifiables (catégorie socio-professionnelle, nombre de frère et sœur...).

On ne peut donc pas en déduire des améliorations à faire sur les pratiques. Pour l’allaitement, il était défini comme un allaitement exclusif ou mixte à la sortie de la maternité : c’est donc cette définition qui fait foi et qui diminuerait la déficience. On ne peut rien conclure sur l’allaitement exclusif.

Les lésions cérébrales sont prédictives de déficience sévère ; il est donc utile de faire une imagerie cérébrale aux prématurés.

Les intérêts éventuels de cette étude sont : pour améliorer l’information des patients (en fait de leur famille), éventuellement modifier le suivi qui pourrait être renforcé en cas de haut risque.

Commentaire :

Ce genre de question joue sur les mots ! Bien lire les propositions pour vérifier que ce qui est écrit ne dépasse pas les conclusions de l’étude. A l’inverse ne pas tout rejeter au seul motif que l’étude présente des imperfections.