Essais thérapeutiques d équivalence et de non infériorité

(1)

Essais thérapeutiques

d’équivalence et de non infériorité

Sandra DAVID TCHOUDA Cellule innovation CHU Grenoble

Plan

Bref rappel sur l’essai de supériorité

Introduction aux essais de non inf. / équ.

Calcul du nombre de sujet dans l’essai de non inf. / équ.

Population d’analyse et autres aspects du protocole dans l’essai de non inf. / équ.

Seuil de non infériorité / marge d’équivalence

Comparaison indirecte et essais de non inf. / équ.

(2)

3

Rappel sur l’essai de supériorité

L’essai de supériorité (1) : but / limites

LE Gold Standard des études en recherche clinique : Essai randomisé, contrôléversus Placebo (ou ttt de ref), en double aveugle, multicentrique.

Pourquoi le contrôle ?

– l'évolution spontanée de la maladie, – la régression vers la moyenne, – l'effet placebo.

Permet, avec une taille d'échantillon minimale (différentiel d'efficacité maximisée ∆sup), de démontrer la supériorité de l'intervention testée.

Mais problèmes éthiques et pratiques :

– Biais de déception : recrutement difficile quand le patient sait qu'il peut être dans un bras « placebo »,

– Arrêts de traitement plus fréquents si inefficacité perçue.

(3)

5

L’essai de supériorité (2) : design habituel

Randomisation

Grp T

Grp C

Critère

Critère Groupe

comparable Maintien de la comparabilité

Biais de sélection Biais de réalisation Biais de subjectivité Biais d'attrition

Randomisation Double aveugle contrôle ITT

L’essai de supériorité (3) : Test statistique : interprétation

Différence

observée Test

Il est peu probable que la différence observée soit due au hasard

Différence significative la probabilité que la p < 5%

(4)

7

L’essai de supériorité (4) :

Test statistique : différence NS ?

Résultat NS

Absence réelle d'effet

Manque de puissance

?

Impossible de conclure

– Bcp de sujets, faible variabilité alors absence d’effet probable mais non démontré

– Peu de sujets et / ou forte variabilité : on ne peut rien dire sinon qu’il ne fallait pas faire l’étude dans ces conditions (échec programmé…)

ÎL’absence de preuve n’est pas une preuve de l’absence d’effet thérapeutique...

Alternatives à l’essai de supériorité

Essai de supériorité : B est plus efficace que A.

– L'essai de supériorité demande de définir une différence minimale d'efficacité ∆sup que l'on veut mettre en évidence avec une puissance suffisante (calcul de taille d'échantillon).

_________________________________________

Essai d'équivalence: B et A sont thérapeutiquement équivalents.

Essai de non-infériorité: B n'est pas plus « mauvais » que A.

– Ce type d’essai demande de définir une marge d'équivalenceà partir d'une grandeur ∆eq qui correspond à la plus grande perte d'efficacité que l'on peut tolérerpour conclure que l'un des traitements n'est pas inférieur à l'autre. ∆eq < ∆sup.

(5)

9

Introduction à l’essai de non inf. / équ.

Introduction à l’Essai de Non-Inf. / Eq.(1)

Les essais de non infériorité («non-inferiority trial»), parfois appelé par abus de langage essais d’équivalence

(«equivalence trial»), sont de plus en plus fréquents dans l’évaluation clinique des nouveaux ttts.

Malgré tout, méthodologie et techniques statistiques relativement peu connu depuis 30 ans (Blackwelder 1982).

@ De fait, des nouveaux traitements peuvent être acceptés sur la

(6)

11

Introduction à l’Essai de Non-Inf. / Eq. (2)

L’essai de « non infériorité » ne permet pas de

conclure que le nouveau ttt a une efficacité identique à celle du ttt de référence mais simplement qu’il a une efficacité « suffisante ».

L’essai de non inf. permet d’exclure que le nouveau ttt entraine une perte d’efficacité sup. à une

certaine limite, fixée a priori et qui est devrait être la plus grande perte d’efficacité cliniquement

négligeable…

F

On peut seulement raisonnablement éliminer la possibilité que le nouveau ttt soit significativement moins efficace que le ttt de référence.

Introduction à l’Essai de Non-Inf. / Eq. (3)

F

A l’issu d’un essai de non inf. concluant, rien ne permet d’exclure que le nouveau ttt soit en réalité moins efficace que le ttt de référence.

F

seule chose acquise (avec un risque α de 5%) : la perte d’efficacité est inf. à la limite que les

investigateurs ont choisis et sont donc prêts à

perdre compte tenu des avantages qu’offre le

nouveau ttt par ailleurs.

(7)

13

Justification d'un Essai de Non-Inf. / Eq.

Préalable: Il existe un traitement comparateur de référence ayant fait la preuve de son efficacité contre placebo.

L'innovation n'est pas supérieure en efficacité, mais apporte d'autres avantages:

– Avantage en terme de tolérance

• Fréq. des effets secondaires moindre, ou moins graves – Facilité d’utilisationplus grande :

• voie d’adm. plus simple (par exemple orale vs IV…)

• dose unique à la place d’un ttt de plusieurs jours…

• absence d’ajustement de dose – Inconvénients plus faibles :

• ttt médical à la place d’un ttt chirurgical

• chirurgie moins délabrante / radiothérapie moins prolongée…

– Coûtplus faible

Essai de non infériorité (1) : hypothèses

On veut montrer que deux traitements sont

comparables, mais on accepte que le nouveau ttt fasse un peu moins bien que celui de référence :

∆ = µ

₁

- µ

₀

> -∆eq.

– H0 :

∆ ≤ -∆eq (ttt innovant inférieur à la référence).

– H1 :

∆ > -∆eq (non-infériorité du ttt innovant).

(8)

15

Essai de non infériorité (2) : démonstration

On « déplace » la valeur de référence de notre échelle :

@ce n’est plus « 0 », c’est « -∆eq »

∆et son IC

Essai d’équivalence (3) : hypothèses

On veut montrer que |∆| = |µ

₁

- µ

₀

| < ∆eq – H0 :

∆ ≤ -∆eq ou ∆ ≥ ∆eq (non équivalence de

l’innovation).

– H1 : -∆eq < ∆ < ∆eq (équivalence).

ª

Essai de non infériorité « bilatéral »

(9)

17

Essai d’équivalence (4) : démonstration

Calcul du nombre de sujet

(10)

19

Paramètres nécessaires au calcul du nb de sujet dans l’Essai de Non-Inf. / Eq.

Le calcul dépend :

Du risque d’erreur α de rejeter H0 à tort,

Du défaut de puissance ß ( puissance = 1 – ß) à montrer l'équivalence/non-infériorité quand elle existe,

De la différence δ d'efficacité entre les deux traitements (en général, on postule δ = 0),

De la variabilité de cette différence σδ (dans le cas d’une variable continue),

De la marge d'équivalence choisi : ∆eq.

Formules nécessaires au calcul du nb de sujet dans l’Essai de Non-Inf. / Eq.

Dans le cas d'une différence de moyennes :

Supériorité : N = 2 σ² / ∆sup² × (Z

_1-α/2

+ Z

_1-ß

)²

Equivalence : N = 2 σ² / (∆eq-δ)² × (Z

_1-α

+ Z

_{1-ß /2}

)²

Non-infériorité : N = 2 σ² / (∆eq-δ)² × (Z

_1-α

+ Z

_1-ß

)²

ª

Comme ∆sup >> ∆eq, les tailles d'échantillon sont

plus importantes en non-infériorité qu'en supériorité.

(11)

21

Exemple calcul du nb

de sujet dans l’Essai de Non-Inf. / Eq (1)

Etude Telediab 3

– Démontrer que le recours à une plateforme en TM pour l’échange d’informations entre diabétologue et patient DID1 n’est pas inférieur à une prise en charge

conventionnelle (consultations itératives)

– Critère de jugement : HbA1c à 12 mois (var continue) – Le seuil de non infériorité = 0,15%, pour une HbA1c

attendue de 8,5 % à 12 mois (ET=0,5%).

(logiciel NQuery)

Exemple calcul du nb

de sujet dans l’Essai de Non-Inf. / Eq (2)

1 2 3

Test significance level, alpha (one-sided) 0,050 0,050 0,025 Equivalence limit difference, D₀ 0,000 0,000 0,000 Expected difference, D₁ 0,150 0,150 0,150

D₀-D₁ -0,150 -0,150 -0,150

Nbre pour essai de non inf (Etude Telediab 3)

(12)

23

Exemple calcul du nb

de sujet dans l’Essai de Non-Inf. / Eq (3)

Nbre pour essai d’équivalence (Etude Telediab 3)

1 2 3

alpha (one-sided) 0,050 0,050 0,025

Lowerequivalence limit, DL -0,150 -0,150 -0,150 Upperequivalence limit, DU 0,150 0,150 0,150

Expected difference 0,000 0,000 0,000

Common standard deviation, s 0,500 0,500 0,500

Power ( % ) 80 90 90

n per group 191 242 290

Exemple calcul du nb

de sujet dans l’Essai de Non-Inf. / Eq (4)

Ex fictif avec une variable qualitative :

(Calcul http://www.spc.univ-lyon1.fr/mfcalc/ sous explorerbasée sur l'utilisation de la différence des risques)

– Soit 45 % le taux de succès attendu avec un ttt A de référence – On veut démontrer qu’un ttt innovant B ne sera pas inférieur à A

en acceptant une limite de non infériorité de 10 % (RRR de 25% ≈) – Alpha = 0,05 (one-sided par défaut), puissance 90% (80%)

N= 424 sujets (307 sujets par groupe) par groupe

(13)

25

Population d’analyse et autres aspects du protocole

dans l’essai de non inf. / equ.

Population d’analyse

de l’Essai de Non-Inf. / Eq. (1)

Analyse en Intention de Traiter (ITT) : tous les patients randomises, dans leur groupe de randomisation.

– Recommandée pour l'essai de supériorité, déconseillée

en équivalence.

Analyse Per Protocole (PP) : analyse sur les

patients n'ayant pas eu de changement/arrêt de

(14)

27

Population d’analyse

de l’Essai de Non-Inf. / Eq. (2) : justif.

ITT : déviations au protocole semblables -en principe-dans les 2 groupes @homogénéisation des réponses @diminution de l'efficacité estimée.

– Souhaitable en supériorité (attitude la plus conservatrice).

PP @augmentation du contraste entre les groupes attendue.

– Souhaitable (attitude la plus conservatrice) en équivalence.

– Avec le risque de surestimation de l'efficacité d'un ttt où les non- répondeurs arrêteraient systématiquement (i.e. risque de conclure à la non-infériorité alors qu'il y avait infériorité : inflation du risque d’erreur)

@Les essais d'équivalence/non-infériorité doivent se faire en PP, et il est primordial de décrire cette population PP aussi

Aspects du protocole

de l’Essai de Non-Inf. / Eq.

Essais très sensibles à la qualité du protocole.

Calquer l'essai qui a établi la supériorité du ttt de référence (démontrer l'équivalence du nouveau ttt dans le contexte où on sait le ttt de référence efficace).

Mêmes critères d'inclusion, mêmes patients que dans l’essai de supériorité, même critère de jugement,

Bon choix du traitement de référence,

Bon choix de la marge d'équivalence ∆eq .

Objectifs secondairessur la supériorité du nouveau ttt (EI, facilité, cout…) +++

– Pose le problème des tests multiples

Augmenter la puissance peut pallier l’inflation possible du risque alpha

(15)

29

Rappel

Critère clinique - critère intermédiaire

Hypertension

Objectif thérapeutique

Prévenir les accidents cardiovasculaires

Critère clinique accidents cardiovasculaires

pression artérielle = critère intermédiaire (critère de substitution)

Dogme

Passage non-infériorité @ supériorité : – Non-infériorité démontrée,

–

δ > 0 (par intervalle de confiance, ou par test

statistique de supériorité ).

@

Le mettre en objectif secondaire

(16)

31

Seuil de non infériorité / marge d’équivalence

Seuil de non-infériorité / marge d’équ.

Ö ∆eq

La signification du seuil est importante: Il s’agit de la plus grande perte d’efficacitépar rapport au ttt de référence que l’on consent.

– Par exemple, un seuil relatifde 10% signifie que l’on considérera le nouveau ttt comme « équivalent » (non inférieur) tant que son efficacité ne sera pas inférieure, en relatif, de 10% à celle du ttt de référence. Au maximum, le nouveau ttt, déclaré comme

« équivalent », pourra entraîner une augmentation relative de la fréquence du critère de jugement de 10%.

Ö Apparaît ici l’ambiguïté du terme « non inférieur » (ou

équivalent). Si le seuil choisi correspond à une perte importante d’efficacité, dire que le nouveau ttt est « non inférieur » est un abus de langage.

Ö Admettre « l’équivalence ou la non inf. » de deux traitements, c’est accepter que le nouveau ttt soit d’une efficacité

potentiellement inférieure à celle du ttt de référence.

(17)

33

Choix de ∆eq

Détermination de la borne ∆eq

Certains pense qu’il est préférable d’exprimer ∆eq non pas en différence absolue mais en risque relatif

Ex : hypothèse de 5 % d’échecs, borne ∆eq identique mais exprimée différemment en :

– En différence absolue : ∆eq = + 1%

– En risque relatif ∆eq = +1% de 5% = 6%/5% = 20 % d’augmentation du risque, soit RR = 1,2.

ªDe fait, le RR tient compte des incidences

réellement observées

Choix de la marge d’équivalence (1) : qui ?

Bouvenot & Villani :

– La méthode consiste à faire définir par les cliniciens(et non par les statisticiens), une zone dite d'équivalence, c'est-à dire un intervalle dans lequel il est raisonnable que se situe la différence d'effet observée entre les deux ttts, si l'on admet qu'ils sont également efficaces.

D'Agostino :

– To the dismay of some (clinicians?), the statisticians seem to have taken control of this issue.

(18)

35

Choix de la marge d’équivalence (2) : comment?

Deux contraintes :

Montrer que le traitement évaluée à une efficacité non nulle (i.e. supériorité par rapport au placebo)

@

étape statistique inutile si validation interne (bras

placebo),

Montrer qu'il n'est pas inférieur au traitement de référence

@

étape clinique : ∆

_eqdoit être « cliniquement négligeable »

ª En pratique, énorme variabilité dans les méthodes de détermination de ∆

_eq

. et dans les

recommandations officielles sur ces méthodes

Interprétation des résultats d’un essai de Non-Inf. / Eq.

La décision de conclure à la non-infériorité (du nouveau ttt par rapport au ttt de référence), s’effectuera en comparant la borne « adéquate » de l’IC avec le seuil de non-infériorité choisi.

Un IC unilatéral à 97.5%est utilisé.

– Cet ICcorrespond à un risque alpha de 2.5% (ou 5% one-sided).

– Cohérence avec l’essai de supériorité.

• En effet avec un test bilatéral et un risque alpha de 5% (test

classiquement utilisée pour les essais de supériorité), le risque alpha rattaché à la conclusion de supériorité est de 2.5% (cf. test

unilatéraux/bilatéraux).

• Avec un intervalle unilatéral à 97.5% dans l’essai de non infériorité, le risque de conclure à tort à la non infériorité est donc aussi de 2.5%, ce qui assure une cohérence entre les 2 approches.

(19)

37

Extrapolation à l’essai de non inf. / équ.

Par comparaison indirecte

Comparaison indirecte et essai de non inf. (1)

L’interprétation du résultat d’un essai de non-infériorité peut se ramener à un problème de comparaison indirecte.

Cette approche de l’équivalence consiste à extrapoler

l’efficacité du nouveau ttt par rapport au placebo(putatif) à partir de 2 essais.

– l’estimation de l’efficacité du ttt de référence par rapport au placebo (essai de supériorité ou d’équivalence)

– l’estimation de l’efficacité du nouveau ttt par rapport au traitement de référence (essai de supériorité non concluant).

Cette efficacité extrapolée permet ensuite:

(20)

39

Comparaison indirecte

et essai de non inf. (2) : exemple

RR

(IC à 95%) log(RR) var(log RR) Comparateur vs placebo

(C vs PBO) 0,70

(0,55;0,89) -0,357 0,0149 Nouveau ttt vs comparateur

(N vs C) 1,02

(0,87;1,20) 0,020 0,0065

(N vs PBO)

(extrapolation) 0,71

(0,54;0,95) -0,337 0,0214

Extrapolation à partir des var(log RR) :

var(log RR _{N vs PBO}) =

var(log RR _{C vs PBO}) + var(log RR _{N vs C})

Comparaison indirecte

et essai de non inf. (3) : exemple

0.40 0.60 0.80 1.00 1.20 1.40

Risque relatif C vs PBO

N vs C N vs PBO

Ce graphique montre ainsi, que le nouveau ttt est supérieur au placebo. Son efficacité est très certainement proche de celle du ttt de référence. Mais il n’est pas possible d’exclure avec

certitude une efficacité moindre, visualisée par une borne supérieure de l’IC du nouveau traitement plus élevée que celle du traitement de référence (0,95 à la place de 0,89).

À partir de là, calcul possible de la perte réelle d’efficacité

(21)

41

Comparaison indirecte et essai de non inf.

(3) : calcul de la perte réelle d’efficacité

RRR de N = 5% (100-0,95) (borne sup IC 0,95)

RRR de C = 11% (100-0,89)

RRR de N représente 45% de la RRR de C (5/11=45%),

soit une perte de 55%de l’efficacité de C.

ª On ne peut raisonnablement exclure que le N ne développe que 45% de l’efficacité du traitement de référence

1.00 11%

RRR C vs PBO

N vs PBO 5%

Perte d’efficacité consentie

Exemple d’un essai de non inf. :

l'harpagophyton dans l'arthrose

(22)

43

Exemple : Harpagophyton equ. Trial (1)

Extrait de l’article : Leblan D, Chantre P, Fournié B. Harpagophytum procumbens in the treatment of knee and hip osteoarthritis. Four- month results of a prospective, multicenter, double-blind trial versus diacerhein. Joint Bone Spine. 2000;67(5):462-7

– Laboratoires Arkopharma, Carros, France.

OBJECTIVE: To evaluate the efficacy and safety of Harpagophytum in the treatment of hip and knee osteoarthritis comparatively with the slow-acting drug for osteoarthritis, diacerhein.

– primary evaluation criterion was the pain score on a visual analog scale

PATIENTS AND METHODS:

– A multicenter, randomized, double-blind, parallel-group study was conducted in 122 patients with hip and/or knee osteoarthritis.

– Treatment duration was four months

– Harpagophytum 2,610 mg per day vs diacerhein 100 mg per day.

Exemple : Harpagophyton equ. Trial (2)

Le but de cet essai était

démontrer l’efficacité de l'harpagophyton dans l'arthrose sur une durée de ttt suffisamment longue = quatre mois.

pas de groupe placebo dans cette étude (arguments des auteurs: il est souvent difficile de recruter des patients lorsqu'ils sont informées du risque -égal à 50 %- d'être dans un groupe placebo, et ce d'autant plus que la durée de traitement est particulièrement longue…)

– ttt de ref ?

Il a donc été choisi comme traitement comparateur un anti- arthrosique d'effet différé et prolongée de référence : la diacerhéine, qui a fait l'objet de nombreux essais cliniques, démontrant son efficacité à la fois dans des études contre placebo ou contre AINS

(23)

45

Exemple : Harpagophyton equ. Trial (3)

L'hypothèse principale à tester était la suivante : essai d'équivalence unilatérale ou de non infériorité de

l'harpagophyton par rapport a la diacerhéeine sur la douleur spontanée mesurée a l'aide d'une EVA (100 mm).

En posant l'hypothèse que la différence vraie entre les

traitements était nulle avec un ∆eq de 10 mm (sur l’EVA)et un écart type de σ 18 mm, un test d'équivalence unilatéral avec un risque αà 0,05, un risque ß à 0,10, nécessitait l'inclusion de 56 patients par groupe :

– n = 2 σ² / (∆eq-δ)² × (Z1-α+ Z1-ß)²

= 2(18)² / 10² × (1,64+1,28)² = 55,5 – Sur NQuery : 70 sujets par groupe

ª 122 patients ont été randomisées dont 92 ont terminée l'essai conformément au protocole.

Exemple : Harpagophyton equ. Trial (4)

Analyse Harpagophyton Diacerhéeine δ IC90%

PP -30,6 mm -25,5 mm -5,1 (-13,1 ; 3,0)

Les auteurs ont mesuré l'évolution de la douleur entre l'inclusion et M3.

Comme une différence négative indique une diminution de la douleur, un δ négatifindique qu'Harpagophyton est plus efficace que la

Diacerhéeine pour diminuer la douleur. La non-infériorité est rejetée si l'intervalle de confiance coupe la valeur ∆eq = +10.

(24)

47

Exemple : Harpagophyton equ. Trial (5)

RESULTS:

– After four months, considerable improvements in osteoarthritis symptoms were seen in both groups, with no significant

differences for pain, functional disability, or the Lequesne score.

– However, use of analgesic (acetaminophen-caffeine) and nonsteroidal anti-inflammatory (diclofenac) medications was significantly reduced in the Harpagophytum group,

– which also had a significantly lower rate of adverse events.

Avantages comparés

– Significativement moins d'AINS dans le groupe harpagophyton.

– Significativement moins de patients avec EI dans le groupe harpagophyton.

Conclusion: les contraintes à retenir

(25)

49

Inconvénients de l’essai de Non-Inf. (1)

Un essai d’équivalence ou de non infériorité nécessite un plus grand nombre de patients, simplement pour le critère principal

Les objectifs secondaires peuvent aussi faire croitre les effectifs

Il est moins spectaculaire – Difficulté à publier

Inconvénients de l’essai de Non-Inf. (2)

Un essai d’équivalence ou de non infériorité au niveau du critère principal impose un test de supériorité sur un critère secondaire

– Il doit mettre en avant l’avantage du nouveau ttt

EX :

(26)

51 Test 1

Risque de conclure à tort à

une différence

= 5%

Test 2 Risque de conclure à tort à

une différence

= 5%

une différence

= 5%

une différence

= 5%

Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%.

n risque global

2 0.10

3 0.13

5 0.23

10 0.40

Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul

Î rappel sur les tests multiples

Inflation du risque alpha

Contraintes de l’essai de Non-Inf. (3)

Un essai d’équivalence ou de non infériorité doit a priori s’analyser en per protocole plutôt qu’en intention de traiter

– L’analyse en intention de traiter minimise la différence entre A et B

• C’est un atout en essai de supériorité

• C’est un biais possible en équivalence

– Il suffit de saborder la prise en charge du groupe de référence pour démontrer la non infériorité

(27)

53

BPC des essai de non inf. / equ.

Essai de non inf / revue littérature : Le Henanff, A. et al. JAMA 2006;295:1147-1151

Methodological Quality of Reports of Randomized Controlled Trials of

Noninferiority or Equivalence

(28)

55 Le Henanff, A. et al. JAMA 2006;295:1147-1151 (suite et fin)

Copyright restrictions may apply.

Practical Recommendations

for Planning and Reporting the Analysis of Data

From Noninferiority or Equivalence Trials.

CONSORT Group

“Consolidated Standards of Reporting Trials »

un panel d’experts en méthodologie des essais cliniques

Première version en 1996 rédigée par le Groupe CONSORT

http://www.consort-statement.org

(29)

57

Bibliographie du cours

Bibliographie

– Les essais thérapeutiques (définition et lecture critique) www.spc.univ-lyon1.fr/lecture-critique

– D'Agostino RB, Massaro JM, Sullivan LM. Non-inferiority trials: design concepts and issues - the encounters of academic consultants in statistics. Statist. Med.

2003;22:169-86.

– Elie C, De Rycke Y, Jais JP, et al. Aspects méthodologiques et statistiques des essais d'équivalence et de non-infériorité. RESP. 2008;56:267-77.

– EMEA/CHMP. Points to consider on switching between superiority and noninferiority. July 2000.

– EMEA/CHMP. Guideline on the choice of the non-inferiority margin. July 2005

Je remercie les 3 personnes suivantes pour leurs enseignements relatifs à l’essai d’équivalence ou de non infériorité dont je me suis inspiré :

– Jean-Luc BOSSON (CIC Grenoble)

– Michel CUCHERAT (HCL Lyon) www.spc.univ-lyon1.fr/lecture-critique – Lionel RIOU FRANCA (Inserm U669)