Méthode expérimentale et évaluation des technologies en santé

CHAPITRE 2. METHODE D’EVALUATION MULTIDIMENSIONNELLE ET DE TRAVAIL COLLABORATIF

2. Le modèle du médicament est-il applicable aux technologies de santé ?

2.2. Méthode expérimentale et évaluation des technologies en santé

Cette méthode expérimentale appliquée au médicament est-elle adaptée à l’évaluation des technologies de santé ? Peut-on définir un tronc commun d’évaluation ? Quels « écarts » peut-on se permettre et comment les justifier ? Ces questions ont été à la base de notre réflexion et de notre travail.

2.2.1 Méthode expérimentale

L’évaluation consiste à établir un lien de causalité entre une intervention et l’effet attendu. Seule la méthode expérimentale permet d’établir ce lien de causalité. Celle-ci exige :

54 - la mise en place d’un protocole,

- le recours à un témoin ou comparateur,

- une randomisation : certaines grandeurs sont contrôlées par la définition de la population évaluée et les autres grandeurs sont réparties aléatoirement afin que les facteurs confondants jouent de la même manière sur les termes de la comparaison,

- que l'hypothèse testée, sur laquelle s'appliqueront les tests statistiques, soit parfaitement formulée au préalable, autrement dit que les résultats de l’expérimentation soient prévus avant leur mise en œuvre.

Si l’essai contrôlé est l’application à la recherche clinique de la méthode expérimentale, celle-ci n’est pas propre au secteur médical et encore moins au médicament. Il n’y a donc a priori pas d’obstacle à son application aux gérontechnologies. La méthode expérimentale exige donc, au minimum, une hypothèse à valider, un protocole, un comparatif, et une randomisation dans la mesure du possible. Ce témoin comparateur peut être obtenu par un design avant/après ou mieux, par un design en parallèle. Cependant, ces contraintes sont trop complexes ou trop chères à mettre en œuvre pour certaines technologies et on peut alors avoir recours à une méthode simplifiée, voire une modélisation. Dans tous les cas, un niveau de preuve maximal est souhaitable et les « écarts » à ces prérequis doivent être justifiés dans le protocole. Seul un consensus peut alors permettre de décider, protocole par protocole, où se trouve la limite de l’acceptable. Il est indispensable de motiver, point par point les obstacles à l’utilisation d’un comparatif, d’une randomisation, de l’insu, etc.

2.2.2. Essais randomisés contrôlés et technologies de santé

Dans le domaine de l’évaluation du bénéfice thérapeutique des médicaments, le Gold-standard de l’évaluation est bien entendu l’essai clinique randomisé, contrôlé (ERC), comparatif contre placebo ou médicament de référence, en double voire triple insu, avec hypothèse préétablie, évaluation sur un critère clinique principal unique, puissance calculée a priori, avec analyse en intention de traiter. Il n’est pas possible d’appliquer ce schéma à l’ensemble des gérontotechnologies, en revanche il est nécessaire, quand cela est possible, de s’en rapprocher. Dans le domaine de la télémédecine, par exemple, certains considèrent que les ERCs ne sont pas réalisables dans la plupart des cas. Cela bien souvent par manque d’expertise, de temps et de ressources. Ils suggèrent cependant qu’à minima des données médicales, de processus, et de coûts soient collectées afin d’être exploitables par d’autres [123]. Par exemple, entre juillet 2003 et décembre 2007 la Veterans Health Administration (VHA) a débuté un programme national de télémédecine à domicile en population générale : Care Coordination/Home Telehealth (CCHT), avec pour objectif de limiter les admissions en maison de retraite des patients porteurs de maladies chroniques [124]. Les technologies proposées sont des vidéophones, des outils de messagerie ou de biométrie, des caméras, ou du télémonitoring. Ce programme est actuellement proposé en routine avec des critères d’inclusion stricts. Une fois le patient éligible, un coordinateur formé sélectionne la

55 technologie appropriée et les données pertinentes à monitorer (par exemple la glycémie) et délivre en fonction une formation adaptée au patient et/ou à l’aidant. Il choisit la technologie pertinente médicalement qui a le meilleur rapport coût-efficacité en s’appuyant sur un algorithme technologique [125]. Les auteurs ont réalisé une étude d’évaluation observationnelle type case report car c’était techniquement la seule méthode réalisable. Celle-ci a montré, par une méthodologie avant/après, une diminution des hospitalisations et une réduction des coûts. L’enquête de satisfaction a révélé un taux de satisfaction de 86% (questionnaire de satisfaction adressé via télémédecine tous les trois mois, avec un taux de réponse élevé de 60%). Même si ces données sont de faible niveau de preuve en comparaison à un ERC, elles correspondent au mieux de ce qui était réalisable dans ce contexte. Il n’empêche que dans d’autres conditions, certaines équipes ont pu réaliser des essais contrôlés randomisés [106]. L’Agence d’évaluation des technologies et des modes d’intervention en santé (AETMIS) a publié une revue systématique de la littérature qui recense les études ayant analysé les effets associés à la télésurveillance à domicile concernant le diabète, les maladies pulmonaires et les maladies cardiovasculaires [102]. Les auteurs ont répertorié 119 études (tableau 3) dont 40% sont des essais cliniques randomisés. 6% des ERCs comportent des échantillons de grande taille (supérieur à 100 personnes/groupe) et 34% ont des échantillons de petite taille (inférieur à 100 personnes/groupe). En dehors des essais randomisés, les auteurs ont identifié les études de cohortes (39 %), les essais cliniques non randomisés (15 %), les études cas-témoins (4 %) et les études descriptives (1 %). Moins du quart des études mentionnent avoir calculé a priori la taille nécessaire de l’échantillon lors de la préparation du plan de recherche. Les analyses statistiques sont précisées dans la moitié des cas seulement. Concernant les études randomisées avec témoins, 65% sont randomisées à l’aveugle et l’étude est à l’insu des évaluateurs dans 17% des cas. Voici le détail des sept grands ERCs identifiés :

Tableau 3. Qualité des plans de recherche aux ECR de grande taille [102]

La comparaison avec un « témoin » peut donc être obtenu dans le meilleur des cas par un design en parallèle ou si cela n’est pas possible par un design avant/après (mais dans ce cas, les facteurs de confusion, sont tels que le niveau de preuve est en général faible). Le design avant/après peut cependant être acceptable dans certains cas, par exemple s’il s’agit d’un problème médical majeur, sans alternatives thérapeutiques (SMR ou Service Médical Rendu potentiel élevé), et cela pour un risque faible au sens large (acceptabilité, coût, etc.). Le placebo et l’insu sont naturellement difficiles à utiliser dans de nombreuses autres études de gérontotechnologies ; c’est le cas de l’évaluation de la robotique. En revanche, l’évaluation est parfois réalisée contre une technique de référence ou des soins usuels, ce qui constitue le Gold Standard. Dans l’exemple de l’étude REFINE portant sur les chutes [126], les auteurs ont mené une étude pilote (6 patients, 5 infirmières) afin d’évaluer la possibilité d’avoir recours à une comparaison en aveugle avec des capteurs témoins inactifs. Mais ces derniers étaient facilement identifiés. Le design final est donc en simple aveugle (évaluateur), mais les auteurs justifient ainsi l’absence d’insu. Comme pour les études interventionnelles médicamenteuses les données transversales sont naturellement de moindre qualité de preuve que les données obtenues de façon longitudinale. Par exemple, lors d’une étude transversale [46] portante sur 14 personnes âgées réparties en deux groupes selon l’état cognitif (sain ou légèrement altéré), les auteurs ont évalué les performances de capteurs placés au domicile pour mesurer le niveau d’activité et la vitesse de marche en continue. Leur objectif était de rechercher des corrélations entre ces paramètres et les performances

57 cognitives. Les résultats montrent un coefficient de variation intra-individuelle de la vitesse de marche plus élevé dans le groupe « altéré sur le plan cognitif ». Ils concluent que cette évaluation en situation pourrait permettre de dépister précocement une altération cognitive débutante comparativement à une évaluation ponctuelle. Cette étude a permis de confirmer la faisabilité de la méthode et de l’outil mais demande évidemment une confirmation en longitudinal, autrement dit de démontrer que sur la base de l’analyse capteur on est capable de dépister des troubles cognitifs en amont de leur apparition ce que seule une étude avec un suivi de longue durée peut démontrer. Il n’existe pas, en revanche, d’obstacle à établir une hypothèse de travail et à réaliser un calcul de puissance a priori. Dans l’étude évaluant REFINE [126], la puissance statistique nécessaire a été calculée avec les méthodes classiques en fonction de l’incidence des chutes du lit et de la différence attendue entre les deux groupes. Les auteurs devront ainsi inclure 905 sujets par bras dans le cas où l’étude est réalisée. Nous avons également vu l’exemple des études menées en télémédecine. Concernant la puissance des études, il existe souvent un rapport coût unitaire d’une intervention par rapport au marché commercial potentiel (plus étroit) défavorable qui limite les investigateurs. S’il s’agit de matériel cher, par exemple des robots, les critères informels de la commission européenne semblent être de 2-3 robots pour 15-20 patients. Il est possible de pallier en partie aux faibles effectifs par le recours au cross over (mais attention au « carry over effect », ou risque de persistance de l’effet de l’intervention de la première phase d’étude lors de la seconde phase d’étude : une intervention visant à promouvoir l’exercice physique par exemple peut avoir un effet rémanent après son arrêt et le groupe ne peut plus être considéré comme un témoin neutre).

L’essai contrôlé randomisé évalue l’effet intrinsèque de l’intervention, dans un contexte le plus proche possible de la réalité mais inévitablement de manière contrôlée et caricaturale. Plus que pour le médicament, il est difficile d’extrapoler les résultats à des populations et des contextes différents et hétérogènes. Il faut donc allier contexte d’évaluation contrôlé rigoureux et critères d’évaluations pragmatiques.

2.3. Particularité de l’évaluation des technologies en santé comparativement au

Dans le document Méthodes d’évaluation multidimensionnelle et de travail collaboratif pour le développement des technologies de prévention de la dépendance des sujets âgés (Page 54-58)