• Aucun résultat trouvé

6.2 Constitution de la cohorte Dat’Aids ® ARV1

6.2.4 Exploration, contrôle qualité et traitement des bases de données

La constitution de la cohorte Dat’Aids® ARV1 s’inscrit dans un projet validé par le conseil

scientifique de Nadis® et ayant pour but de constituer un laboratoire épidémiologique ouvert sur

les premières lignes de HAART. L’utilisation de cette cohorte dépasse largement le cadre de ce projet de thèse et aidera à analyser une large gamme de problèmes scientifiques sur les premières lignes. D’autres projets de recherche, sur lesquels je reviendrai dans les perspectives de la thèse, seront développés à partir de cette cohorte.

Dans ce but, le travail principal de mon début de thèse a donc consisté à mettre en place cette cohorte en travaillant sur les requêtes nécessaires à l’extraction des données et en assurant notamment la qualité et la validité des données recueillies. Trois grandes catégories de vérifications ont été réalisées : 1- Bilan des informations recueillies, 2- Vérification des dossiers et 3- Cohérence des observations par rapport au protocole, aux connaissances sur le VIH et les

arrêts des premières lignes de HAART. Cette troisième partie était plus spécifique à mon sujet de thèse.

6.2.4.1

Bilan des informations recueillies

Le but de cette étape consistait à vérifier les critères d’inclusion de l’étude et d’identifier les patients inclus à tort. Un diagramme a résumé les étapes d’inclusions des patients. Le fichier

global compilé des neuf centres participants avait été reçu sous format .mdb (Access). Il

contenait une trentaine de tables (tables des CD4, CV, poids/taille etc.) et une quarantaine de requêtes initiales. La table principale contenait 17 286 patients à la date du premier gel (31/03/2010). Il était alors nécessaire d’organiser les données afin d’avoir un fichier final correspondant à ces critères d’inclusion dont les variables étaient dans différentes tables. Une fusion des différentes tables était alors nécessaire. Etant donné qu’il y avait plusieurs lignes par patient, l’un des défis était de sélectionner la ligne contenant l’information requise pour une variable donnée selon le bon délai autour de l’initiation du traitement (par exemple, pour la charge virale, plus ou moins un mois autour de l’initiation du traitement).

6.2.4.2

Vérification des dossiers

Une fois obtenu le fichier correspondant à nos critères d’inclusion et contenant l’ensemble des variables pronostiques et les événements d’intérêts, cette étape visait à contrôler qu’il n’y ait pas d’erreur lors de l’enregistrement informatique. Nous avons procédé :

• à des vérifications par « fourchette » par description unidimensionnelle de chaque

variable. Celles-ci consistaient à afficher les valeurs minimales et maximales de chacune des variables et à contrôler les dossiers donnant les valeurs trop élevées ou trop basses (par exemple un âge supérieur à 110 ans, un taux de CD4 supérieur à 2000 etc.) ;

• nous avons donc établi une description univariée de chaque variable et affiché les

graphiques en boîte à moustaches. L’étape permettait aussi de comptabiliser le nombre de données manquantes pour chaque variable. Pour les variables qualitatives (par exemple, le sexe), les effectifs et pourcentages ont été vérifiés ;

• nous avons fait des vérifications de codage des variables. Quand cela était nécessaire,

certaines variables ont été recodées et/ou labélisées. Le groupe de référence a été codé 0 ;

• nous avons fait des vérifications « logiques » par description bidimensionnelle entre les

variables. Elles visaient à vérifier la cohérence entre les valeurs relevées de différents variables ou patients.

o rechercher les doublons ;

o vérifier si les dates de censures (perte de vue, arrêt, décès, date de point) ou bilans immunovirologiques ou biologiques réalisés autour de la censure étaient postérieures à la date de début du traitement ou les dates qui lui sont proches (première consultation d’observance, premier bilan biologique, premier bilan immunovirologique) ou à la date de séropositivité ;

o vérifier si la date de séropositivité était antérieure ou égale à la date SIDA ou à la

date du début de traitement ;

o vérifier si le délai entre la date de séropositivité et les 1ers bilans

immunovirologiques ou biologiques était d’environ 3 mois ;

o vérifier si la date de SIDA était postérieure à la date de début de traitement ;

o vérifier s’il y avait une notion de grossesse (motif d’arrêt) chez les femmes de

plus de 43 ans (notion de ménopause) ou chez les hommes (donnée aberrante) ;

o vérifier s’il y avait des retraités de moins de 55 ans ;

o vérifier s’il y avait des chômeurs employés.

En cas d’incohérence ou de valeurs aberrantes observées, une vérification des données sur la base de données d’origine et un retour au dossier par des cliniciens des centres concernés étaient faites avant de prendre une décision de la façon de les traiter. Pour les données manquantes dans la base d’origine, une décision d’équipe a établi la façon de les traiter.

6.2.4.3

Cohérence des observations par rapport au protocole et aux

connaissances sur le VIH et les arrêts des premières lignes de HAART

En complément de l’étape précédente où les données étaient vérifiées sujet par sujet, nous avons procédé à un premier traitement statistique des observations destiné à étudier leur cohérence globale et à faire le point avec les analyses statistiques qui devraient suivre. Ainsi nous avons pu :

• créer la variable délai de survenue de l’événement ;

• déclarer la variable délai de survenue de l’événement dans le logiciel ;

• rechercher les associations connues. Nous avons vérifié si certains facteurs de risque de

la maladie habituellement cités dans la littérature étaient effectivement liés à l’arrêt dans nos données. Par exemple nous avons vérifié si les femmes avaient une probabilité plus importante d’arrêt.

Toutes ces étapes d’extraction de données, de constitution de la base, de contrôle des données, et d’aller-retour avec les dossiers médicaux dans chacun des centres ont constitué une part importante de mon début de thèse.