Essais thérapeutiques
d’équivalence et de non infériorité
Sandra DAVID TCHOUDA Cellule innovation CHU Grenoble
Plan
Bref rappel sur l’essai de supériorité
Introduction aux essais de non inf. / équ.
Calcul du nombre de sujet dans l’essai de non inf. / équ.
Population d’analyse et autres aspects du protocole dans l’essai de non inf. / équ.
Seuil de non infériorité / marge d’équivalence
Comparaison indirecte et essais de non inf. / équ.
3
Rappel sur l’essai de supériorité
L’essai de supériorité (1) : but / limites
LE Gold Standard des études en recherche clinique : Essai randomisé, contrôléversus Placebo (ou ttt de ref), en double aveugle, multicentrique.
Pourquoi le contrôle ?
– l'évolution spontanée de la maladie, – la régression vers la moyenne, – l'effet placebo.
Permet, avec une taille d'échantillon minimale (différentiel d'efficacité maximisée ∆sup), de démontrer la supériorité de l'intervention testée.
Mais problèmes éthiques et pratiques :
– Biais de déception : recrutement difficile quand le patient sait qu'il peut être dans un bras « placebo »,
– Arrêts de traitement plus fréquents si inefficacité perçue.
5
L’essai de supériorité (2) : design habituel
Randomisation
Grp T
Grp C
Critère
Critère Groupe
comparable Maintien de la comparabilité
Biais de sélection Biais de réalisation Biais de subjectivité Biais d'attrition
Randomisation Double aveugle contrôle ITT
L’essai de supériorité (3) : Test statistique : interprétation
Différence
observée Test
Il est peu probable que la différence observée soit due au hasard
Différence significative la probabilité que la p < 5%
7
L’essai de supériorité (4) :
Test statistique : différence NS ?
Résultat NS
Absence réelle d'effet
Manque de puissance
?
Impossible de conclure
– Bcp de sujets, faible variabilité alors absence d’effet probable mais non démontré
– Peu de sujets et / ou forte variabilité : on ne peut rien dire sinon qu’il ne fallait pas faire l’étude dans ces conditions (échec programmé…)
ÎL’absence de preuve n’est pas une preuve de l’absence d’effet thérapeutique...
Alternatives à l’essai de supériorité
Essai de supériorité : B est plus efficace que A.
– L'essai de supériorité demande de définir une différence minimale d'efficacité ∆sup que l'on veut mettre en évidence avec une puissance suffisante (calcul de taille d'échantillon).
_________________________________________
Essai d'équivalence: B et A sont thérapeutiquement équivalents.
Essai de non-infériorité: B n'est pas plus « mauvais » que A.
– Ce type d’essai demande de définir une marge d'équivalenceà partir d'une grandeur ∆eq qui correspond à la plus grande perte d'efficacité que l'on peut tolérerpour conclure que l'un des traitements n'est pas inférieur à l'autre. ∆eq < ∆sup.
9
Introduction à l’essai de non inf. / équ.
Introduction à l’Essai de Non-Inf. / Eq.(1)
Les essais de non infériorité («non-inferiority trial»), parfois appelé par abus de langage essais d’équivalence
(«equivalence trial»), sont de plus en plus fréquents dans l’évaluation clinique des nouveaux ttts.
Malgré tout, méthodologie et techniques statistiques relativement peu connu depuis 30 ans (Blackwelder 1982).
@ De fait, des nouveaux traitements peuvent être acceptés sur la
11
Introduction à l’Essai de Non-Inf. / Eq. (2)
L’essai de « non infériorité » ne permet pas de
conclure que le nouveau ttt a une efficacité identique à celle du ttt de référence mais simplement qu’il a une efficacité « suffisante ».
L’essai de non inf. permet d’exclure que le nouveau ttt entraine une perte d’efficacité sup. à une
certaine limite, fixée a priori et qui est devrait être la plus grande perte d’efficacité cliniquement
négligeable…
F
On peut seulement raisonnablement éliminer la possibilité que le nouveau ttt soit significativement moins efficace que le ttt de référence.
Introduction à l’Essai de Non-Inf. / Eq. (3)
F
A l’issu d’un essai de non inf. concluant, rien ne permet d’exclure que le nouveau ttt soit en réalité moins efficace que le ttt de référence.
F
seule chose acquise (avec un risque α de 5%) : la perte d’efficacité est inf. à la limite que les
investigateurs ont choisis et sont donc prêts à
perdre compte tenu des avantages qu’offre le
nouveau ttt par ailleurs.
13
Justification d'un Essai de Non-Inf. / Eq.
Préalable: Il existe un traitement comparateur de référence ayant fait la preuve de son efficacité contre placebo.
L'innovation n'est pas supérieure en efficacité, mais apporte d'autres avantages:
– Avantage en terme de tolérance
• Fréq. des effets secondaires moindre, ou moins graves – Facilité d’utilisationplus grande :
• voie d’adm. plus simple (par exemple orale vs IV…)
• dose unique à la place d’un ttt de plusieurs jours…
• absence d’ajustement de dose – Inconvénients plus faibles :
• ttt médical à la place d’un ttt chirurgical
• chirurgie moins délabrante / radiothérapie moins prolongée…
– Coûtplus faible
Essai de non infériorité (1) : hypothèses
On veut montrer que deux traitements sont
comparables, mais on accepte que le nouveau ttt fasse un peu moins bien que celui de référence :
∆ = µ
1- µ
0> -∆eq.
– H0 :
∆ ≤ -∆eq (ttt innovant inférieur à la référence).– H1 :
∆ > -∆eq (non-infériorité du ttt innovant).15
Essai de non infériorité (2) : démonstration
On « déplace » la valeur de référence de notre échelle :
@ce n’est plus « 0 », c’est « -∆eq »
∆et son IC
Essai d’équivalence (3) : hypothèses
On veut montrer que |∆| = |µ
1- µ
0| < ∆eq – H0 :
∆ ≤ -∆eq ou ∆ ≥ ∆eq (non équivalence del’innovation).
– H1 : -∆eq < ∆ < ∆eq (équivalence).
ª
Essai de non infériorité « bilatéral »
17
Essai d’équivalence (4) : démonstration
Calcul du nombre de sujet
19
Paramètres nécessaires au calcul du nb de sujet dans l’Essai de Non-Inf. / Eq.
Le calcul dépend :
Du risque d’erreur α de rejeter H0 à tort,
Du défaut de puissance ß ( puissance = 1 – ß) à montrer l'équivalence/non-infériorité quand elle existe,
De la différence δ d'efficacité entre les deux traitements (en général, on postule δ = 0),
De la variabilité de cette différence σδ (dans le cas d’une variable continue),
De la marge d'équivalence choisi : ∆eq.
Formules nécessaires au calcul du nb de sujet dans l’Essai de Non-Inf. / Eq.
Dans le cas d'une différence de moyennes :
Supériorité : N = 2 σ² / ∆sup² × (Z
1-α/2+ Z
1-ß)²
Equivalence : N = 2 σ² / (∆eq-δ)² × (Z
1-α+ Z
1-ß /2)²
Non-infériorité : N = 2 σ² / (∆eq-δ)² × (Z
1-α+ Z
1-ß)²
ª
Comme ∆sup >> ∆eq, les tailles d'échantillon sont
plus importantes en non-infériorité qu'en supériorité.
21
Exemple calcul du nb
de sujet dans l’Essai de Non-Inf. / Eq (1)
Etude Telediab 3
– Démontrer que le recours à une plateforme en TM pour l’échange d’informations entre diabétologue et patient DID1 n’est pas inférieur à une prise en charge
conventionnelle (consultations itératives)
– Critère de jugement : HbA1c à 12 mois (var continue) – Le seuil de non infériorité = 0,15%, pour une HbA1c
attendue de 8,5 % à 12 mois (ET=0,5%).
(logiciel NQuery)
Exemple calcul du nb
de sujet dans l’Essai de Non-Inf. / Eq (2)
1 2 3
Test significance level, alpha (one-sided) 0,050 0,050 0,025 Equivalence limit difference, D0 0,000 0,000 0,000 Expected difference, D1 0,150 0,150 0,150
D0-D1 -0,150 -0,150 -0,150
Nbre pour essai de non inf (Etude Telediab 3)
23
Exemple calcul du nb
de sujet dans l’Essai de Non-Inf. / Eq (3)
Nbre pour essai d’équivalence (Etude Telediab 3)
1 2 3
alpha (one-sided) 0,050 0,050 0,025
Lowerequivalence limit, DL -0,150 -0,150 -0,150 Upperequivalence limit, DU 0,150 0,150 0,150
Expected difference 0,000 0,000 0,000
Common standard deviation, s 0,500 0,500 0,500
Power ( % ) 80 90 90
n per group 191 242 290
Exemple calcul du nb
de sujet dans l’Essai de Non-Inf. / Eq (4)
Ex fictif avec une variable qualitative :
(Calcul http://www.spc.univ-lyon1.fr/mfcalc/ sous explorerbasée sur l'utilisation de la différence des risques)
– Soit 45 % le taux de succès attendu avec un ttt A de référence – On veut démontrer qu’un ttt innovant B ne sera pas inférieur à A
en acceptant une limite de non infériorité de 10 % (RRR de 25% ≈) – Alpha = 0,05 (one-sided par défaut), puissance 90% (80%)
N= 424 sujets (307 sujets par groupe) par groupe
25
Population d’analyse et autres aspects du protocole
dans l’essai de non inf. / equ.
Population d’analyse
de l’Essai de Non-Inf. / Eq. (1)
Analyse en Intention de Traiter (ITT) : tous les patients randomises, dans leur groupe de randomisation.
– Recommandée pour l'essai de supériorité, déconseillée
en équivalence.
Analyse Per Protocole (PP) : analyse sur les
patients n'ayant pas eu de changement/arrêt de
27
Population d’analyse
de l’Essai de Non-Inf. / Eq. (2) : justif.
ITT : déviations au protocole semblables -en principe-dans les 2 groupes @homogénéisation des réponses @diminution de l'efficacité estimée.
– Souhaitable en supériorité (attitude la plus conservatrice).
PP @augmentation du contraste entre les groupes attendue.
– Souhaitable (attitude la plus conservatrice) en équivalence.
– Avec le risque de surestimation de l'efficacité d'un ttt où les non- répondeurs arrêteraient systématiquement (i.e. risque de conclure à la non-infériorité alors qu'il y avait infériorité : inflation du risque d’erreur)
@Les essais d'équivalence/non-infériorité doivent se faire en PP, et il est primordial de décrire cette population PP aussi
Aspects du protocole
de l’Essai de Non-Inf. / Eq.
Essais très sensibles à la qualité du protocole.
Calquer l'essai qui a établi la supériorité du ttt de référence (démontrer l'équivalence du nouveau ttt dans le contexte où on sait le ttt de référence efficace).
Mêmes critères d'inclusion, mêmes patients que dans l’essai de supériorité, même critère de jugement,
Bon choix du traitement de référence,
Bon choix de la marge d'équivalence ∆eq .
Objectifs secondairessur la supériorité du nouveau ttt (EI, facilité, cout…) +++
– Pose le problème des tests multiples
Augmenter la puissance peut pallier l’inflation possible du risque alpha
29
Rappel
Critère clinique - critère intermédiaire
Hypertension
Objectif thérapeutique
Prévenir les accidents cardiovasculaires
Critère clinique accidents cardiovasculaires
pression artérielle = critère intermédiaire (critère de substitution)
Dogme
Passage non-infériorité @ supériorité : – Non-infériorité démontrée,
–
δ > 0 (par intervalle de confiance, ou par teststatistique de supériorité ).
@
Le mettre en objectif secondaire
31
Seuil de non infériorité / marge d’équivalence
Seuil de non-infériorité / marge d’équ.
Ö ∆eq
La signification du seuil est importante: Il s’agit de la plus grande perte d’efficacitépar rapport au ttt de référence que l’on consent.
– Par exemple, un seuil relatifde 10% signifie que l’on considérera le nouveau ttt comme « équivalent » (non inférieur) tant que son efficacité ne sera pas inférieure, en relatif, de 10% à celle du ttt de référence. Au maximum, le nouveau ttt, déclaré comme
« équivalent », pourra entraîner une augmentation relative de la fréquence du critère de jugement de 10%.
Ö Apparaît ici l’ambiguïté du terme « non inférieur » (ou
équivalent). Si le seuil choisi correspond à une perte importante d’efficacité, dire que le nouveau ttt est « non inférieur » est un abus de langage.
Ö Admettre « l’équivalence ou la non inf. » de deux traitements, c’est accepter que le nouveau ttt soit d’une efficacité
potentiellement inférieure à celle du ttt de référence.
33
Choix de ∆eq
Détermination de la borne ∆eq
Certains pense qu’il est préférable d’exprimer ∆eq non pas en différence absolue mais en risque relatif
Ex : hypothèse de 5 % d’échecs, borne ∆eq identique mais exprimée différemment en :
– En différence absolue : ∆eq = + 1%
– En risque relatif ∆eq = +1% de 5% = 6%/5% = 20 % d’augmentation du risque, soit RR = 1,2.
ªDe fait, le RR tient compte des incidences
réellement observées
Choix de la marge d’équivalence (1) : qui ?
Bouvenot & Villani :
– La méthode consiste à faire définir par les cliniciens(et non par les statisticiens), une zone dite d'équivalence, c'est-à dire un intervalle dans lequel il est raisonnable que se situe la différence d'effet observée entre les deux ttts, si l'on admet qu'ils sont également efficaces.
D'Agostino :
– To the dismay of some (clinicians?), the statisticians seem to have taken control of this issue.
35
Choix de la marge d’équivalence (2) : comment?
Deux contraintes :
Montrer que le traitement évaluée à une efficacité non nulle (i.e. supériorité par rapport au placebo)
@
étape statistique inutile si validation interne (bras
placebo),
Montrer qu'il n'est pas inférieur au traitement de référence
@
étape clinique : ∆
eqdoit être « cliniquement négligeable »ª En pratique, énorme variabilité dans les méthodes de détermination de ∆
eq. et dans les
recommandations officielles sur ces méthodes
Interprétation des résultats d’un essai de Non-Inf. / Eq.
La décision de conclure à la non-infériorité (du nouveau ttt par rapport au ttt de référence), s’effectuera en comparant la borne « adéquate » de l’IC avec le seuil de non-infériorité choisi.
Un IC unilatéral à 97.5%est utilisé.
– Cet ICcorrespond à un risque alpha de 2.5% (ou 5% one-sided).
– Cohérence avec l’essai de supériorité.
• En effet avec un test bilatéral et un risque alpha de 5% (test
classiquement utilisée pour les essais de supériorité), le risque alpha rattaché à la conclusion de supériorité est de 2.5% (cf. test
unilatéraux/bilatéraux).
• Avec un intervalle unilatéral à 97.5% dans l’essai de non infériorité, le risque de conclure à tort à la non infériorité est donc aussi de 2.5%, ce qui assure une cohérence entre les 2 approches.
37
Extrapolation à l’essai de non inf. / équ.
Par comparaison indirecte
Comparaison indirecte et essai de non inf. (1)
L’interprétation du résultat d’un essai de non-infériorité peut se ramener à un problème de comparaison indirecte.
Cette approche de l’équivalence consiste à extrapoler
l’efficacité du nouveau ttt par rapport au placebo(putatif) à partir de 2 essais.
– l’estimation de l’efficacité du ttt de référence par rapport au placebo (essai de supériorité ou d’équivalence)
– l’estimation de l’efficacité du nouveau ttt par rapport au traitement de référence (essai de supériorité non concluant).
Cette efficacité extrapolée permet ensuite:
39
Comparaison indirecte
et essai de non inf. (2) : exemple
RR
(IC à 95%) log(RR) var(log RR) Comparateur vs placebo
(C vs PBO) 0,70
(0,55;0,89) -0,357 0,0149 Nouveau ttt vs comparateur
(N vs C) 1,02
(0,87;1,20) 0,020 0,0065
(N vs PBO)
(extrapolation) 0,71
(0,54;0,95) -0,337 0,0214
Extrapolation à partir des var(log RR) :
var(log RR N vs PBO) =var(log RR C vs PBO) + var(log RR N vs C)
Comparaison indirecte
et essai de non inf. (3) : exemple
0.40 0.60 0.80 1.00 1.20 1.40
Risque relatif C vs PBO
N vs C N vs PBO
Ce graphique montre ainsi, que le nouveau ttt est supérieur au placebo. Son efficacité est très certainement proche de celle du ttt de référence. Mais il n’est pas possible d’exclure avec
certitude une efficacité moindre, visualisée par une borne supérieure de l’IC du nouveau traitement plus élevée que celle du traitement de référence (0,95 à la place de 0,89).
À partir de là, calcul possible de la perte réelle d’efficacité
41
Comparaison indirecte et essai de non inf.
(3) : calcul de la perte réelle d’efficacité
RRR de N = 5% (100-0,95) (borne sup IC 0,95)
RRR de C = 11% (100-0,89)
RRR de N représente 45% de la RRR de C (5/11=45%),
soit une perte de 55%de l’efficacité de C.
ª On ne peut raisonnablement exclure que le N ne développe que 45% de l’efficacité du traitement de référence
1.00 11%
RRR C vs PBO
N vs PBO 5%
Perte d’efficacité consentie
Exemple d’un essai de non inf. :
l'harpagophyton dans l'arthrose
43
Exemple : Harpagophyton equ. Trial (1)
Extrait de l’article : Leblan D, Chantre P, Fournié B. Harpagophytum procumbens in the treatment of knee and hip osteoarthritis. Four- month results of a prospective, multicenter, double-blind trial versus diacerhein. Joint Bone Spine. 2000;67(5):462-7
– Laboratoires Arkopharma, Carros, France.
OBJECTIVE: To evaluate the efficacy and safety of Harpagophytum in the treatment of hip and knee osteoarthritis comparatively with the slow-acting drug for osteoarthritis, diacerhein.
– primary evaluation criterion was the pain score on a visual analog scale
PATIENTS AND METHODS:
– A multicenter, randomized, double-blind, parallel-group study was conducted in 122 patients with hip and/or knee osteoarthritis.
– Treatment duration was four months
– Harpagophytum 2,610 mg per day vs diacerhein 100 mg per day.
Exemple : Harpagophyton equ. Trial (2)
Le but de cet essai était
démontrer l’efficacité de l'harpagophyton dans l'arthrose sur une durée de ttt suffisamment longue = quatre mois.
pas de groupe placebo dans cette étude (arguments des auteurs: il est souvent difficile de recruter des patients lorsqu'ils sont informées du risque -égal à 50 %- d'être dans un groupe placebo, et ce d'autant plus que la durée de traitement est particulièrement longue…)
– ttt de ref ?
Il a donc été choisi comme traitement comparateur un anti- arthrosique d'effet différé et prolongée de référence : la diacerhéine, qui a fait l'objet de nombreux essais cliniques, démontrant son efficacité à la fois dans des études contre placebo ou contre AINS
45
Exemple : Harpagophyton equ. Trial (3)
L'hypothèse principale à tester était la suivante : essai d'équivalence unilatérale ou de non infériorité de
l'harpagophyton par rapport a la diacerhéeine sur la douleur spontanée mesurée a l'aide d'une EVA (100 mm).
En posant l'hypothèse que la différence vraie entre les
traitements était nulle avec un ∆eq de 10 mm (sur l’EVA)et un écart type de σ 18 mm, un test d'équivalence unilatéral avec un risque αà 0,05, un risque ß à 0,10, nécessitait l'inclusion de 56 patients par groupe :
– n = 2 σ² / (∆eq-δ)² × (Z1-α+ Z1-ß)²
= 2(18)² / 10² × (1,64+1,28)² = 55,5 – Sur NQuery : 70 sujets par groupe
ª 122 patients ont été randomisées dont 92 ont terminée l'essai conformément au protocole.
Exemple : Harpagophyton equ. Trial (4)
Analyse Harpagophyton Diacerhéeine δ IC90%
PP -30,6 mm -25,5 mm -5,1 (-13,1 ; 3,0)
Les auteurs ont mesuré l'évolution de la douleur entre l'inclusion et M3.
Comme une différence négative indique une diminution de la douleur, un δ négatifindique qu'Harpagophyton est plus efficace que la
Diacerhéeine pour diminuer la douleur. La non-infériorité est rejetée si l'intervalle de confiance coupe la valeur ∆eq = +10.
47
Exemple : Harpagophyton equ. Trial (5)
RESULTS:
– After four months, considerable improvements in osteoarthritis symptoms were seen in both groups, with no significant
differences for pain, functional disability, or the Lequesne score.
– However, use of analgesic (acetaminophen-caffeine) and nonsteroidal anti-inflammatory (diclofenac) medications was significantly reduced in the Harpagophytum group,
– which also had a significantly lower rate of adverse events.
Avantages comparés
– Significativement moins d'AINS dans le groupe harpagophyton.
– Significativement moins de patients avec EI dans le groupe harpagophyton.
Conclusion: les contraintes à retenir
49
Inconvénients de l’essai de Non-Inf. (1)
Un essai d’équivalence ou de non infériorité nécessite un plus grand nombre de patients, simplement pour le critère principal
Les objectifs secondaires peuvent aussi faire croitre les effectifs
Il est moins spectaculaire – Difficulté à publier
Inconvénients de l’essai de Non-Inf. (2)
Un essai d’équivalence ou de non infériorité au niveau du critère principal impose un test de supériorité sur un critère secondaire
– Il doit mettre en avant l’avantage du nouveau ttt
EX :
51 Test 1
Risque de conclure à tort à
une différence
= 5%
Test 2 Risque de conclure à tort à
une différence
= 5%
Test 4 Risque de conclure à tort à
une différence
= 5%
Test 3 Risque de conclure à tort à
une différence
= 5%
Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%.
n risque global
2 0.10
3 0.13
5 0.23
10 0.40
Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul
Î rappel sur les tests multiples
Inflation du risque alpha
Contraintes de l’essai de Non-Inf. (3)
Un essai d’équivalence ou de non infériorité doit a priori s’analyser en per protocole plutôt qu’en intention de traiter
– L’analyse en intention de traiter minimise la différence entre A et B
• C’est un atout en essai de supériorité
• C’est un biais possible en équivalence
– Il suffit de saborder la prise en charge du groupe de référence pour démontrer la non infériorité
53
BPC des essai de non inf. / equ.
Essai de non inf / revue littérature : Le Henanff, A. et al. JAMA 2006;295:1147-1151
Methodological Quality of Reports of Randomized Controlled Trials of
Noninferiority or Equivalence
55 Le Henanff, A. et al. JAMA 2006;295:1147-1151 (suite et fin)
Copyright restrictions may apply.
Practical Recommendations
for Planning and Reporting the Analysis of Data
From Noninferiority or Equivalence Trials.
CONSORT Group
“Consolidated Standards of Reporting Trials »
un panel d’experts en méthodologie des essais cliniques
Première version en 1996 rédigée par le Groupe CONSORT
http://www.consort-statement.org
57
Bibliographie du cours
Bibliographie
– Les essais thérapeutiques (définition et lecture critique) www.spc.univ-lyon1.fr/lecture-critique
– D'Agostino RB, Massaro JM, Sullivan LM. Non-inferiority trials: design concepts and issues - the encounters of academic consultants in statistics. Statist. Med.
2003;22:169-86.
– Elie C, De Rycke Y, Jais JP, et al. Aspects méthodologiques et statistiques des essais d'équivalence et de non-infériorité. RESP. 2008;56:267-77.
– EMEA/CHMP. Points to consider on switching between superiority and non- inferiority. July 2000.
– EMEA/CHMP. Guideline on the choice of the non-inferiority margin. July 2005
Je remercie les 3 personnes suivantes pour leurs enseignements relatifs à l’essai d’équivalence ou de non infériorité dont je me suis inspiré :
– Jean-Luc BOSSON (CIC Grenoble)
– Michel CUCHERAT (HCL Lyon) www.spc.univ-lyon1.fr/lecture-critique – Lionel RIOU FRANCA (Inserm U669)