• Aucun résultat trouvé

2 Les données

2.2 Contrôle qualité des données

Pour chaque cohorte, nous avons travaillé à partir d’un fichier regroupant l’ensemble des visites du suivi (les visites à domicile et les visites au centre de santé) et incluant pour chaque visite les

informations sur la date de la visite, les données cliniques (température, antécédent de fièvre au cours des dernières 24h), les résultats des tests diagnostiques (TDR et GE) ainsi que d’autres données relevées tout au long du suivi, telles que l’information concernant l’utilisation de la moustiquaire ou l’estimation du risque d’exposition.

Un protocole standard de contrôle qualité des données a été appliqué, avec notamment une vérification des valeurs extrêmes et de la cohérence entre les données (cohérence entre les dates, entre les deux tests de diagnostics (TDR et GE), entre les différentes lectures des lames de GE, etc.). Lorsque plusieurs visites avaient eu lieu le même jour pour un même enfant (par exemple une visite à domicile suivie, en cas de fièvre, d’une visite au centre de santé), ces données ont été agrégées afin d’obtenir une seule ligne de données par jour.

Les accès palustres et les infections asymptomatiques ont ensuite été codés de manière automatique avec un script R (R Core Team, 2017). Un accès palustre a été défini comme un test de diagnostic positif (TDR et/ou GE) associé à une fièvre (de température axillaire ≥ 37 ° 5) ou un antécédent de fièvre au cours des dernières 24h. Une infection asymptomatique a été définie comme une GE positive (GE systématique réalisée lors de la visite mensuelle) en absence de fièvre et d’antécédent de fièvre, et sans diagnostic d’accès palustre dans les trois jours suivants. Comme il s’agit ici d’une étude sur de très jeunes enfants (avant le développement d’une immunité protectrice), il n’a pas été appliqué de seuil de parasitémie pour définir un accès palustre. A la suite des accès palustres, tous les enfants ayant reçu un traitement antipaludique, nous avons considéré une période de 14 jours après le diagnostic pendant laquelle l’enfant n’est plus considéré comme à risque. Le diagramme ci-dessous (Figure 2.2) donne une illustration des données dont nous disposons. Il représente les données des accès palustres pour cinq individus. Tous les individus ont fait au moins un accès palustre (triangle rouge). L’individu 4, par exemple, a fait un accès palustre à 4, 9 et 11 mois. La discontinuité du trait après un accès palustre indique la période pendant laquelle l’individu n’est plus considéré comme à risque. Quatre des cinq enfants ont été suivis pendant la totalité des 18 mois

(indiqué par un cercle noir). L’individu 1 a quitté l’étude prématurément, entraînant une censure des données (rond gris).

2.2.2 Les données génétiques

Au total, 820 enfants (536 dans la cohorte de Tori-Bossito et 283 dans celle d’Allada) ont été

génotypés avec la puce Illumina HumanOmni5-4v1 (4,2 millions de SNPs ou d’insertions/délétions de petite taille) par le Centre National de Recherche en Génomique Humaine (CNRGH, CEA, Evry, France). Nous avons effectué ensuite un contrôle qualité des données de génotypage en nous appuyant sur les étapes et critères définis pour les GWAS par Anderson et al. (Anderson et al., 2010). Les différentes étapes du contrôle qualité sont reprises dans le flow chart de la Figure 2.3. Le

contrôle qualité des échantillons d’ADN a consisté :

- à comparer le sexe génotypique à celui reporté dans la base de données,

- à représenter l’hétérozygotie versus le taux de génotypage par individu (des valeurs basses par rapport à l’ensemble de l’échantillon pour ces deux variables étant révélatrices d’une mauvaise qualité de l’échantillon),

Figure 2.2 Diagramme des données de récurrence des accès palustres pour 5 individus de la cohorte de Tori-Bossito

- et à examiner les relations de parenté entre les individus en estimant la matrice de corrélation génétique (ou Genetic Relationship Matrix, GRM) telle que définie dans l’encadré de la Figure 2.4.

Après exclusion d’un individu présentant des valeurs aberrantes d’hétérozygotie et de taux de génotypage, tous les autres échantillons avaient un taux de génotypage > 0,97 (moyenne = 0,998) et ont été conservés pour l’analyse. Une paire d'individus a été supprimée en raison d'un coefficient de

parenté étonnamment élevé (Ф = 0,27, correspondant à des frères et sœurs). La GRM a par ailleurs révélé un certain degré de parenté entre les enfants dans les deux cohortes. Ceci était attendu sachant que le recrutement des nouveau-nés a été réalisé dans des villages ruraux, c'est-à-dire dans des petites communautés endogames. Pour un certain nombre de paires, les coefficients de parenté Ф étaient compris entre 0,10 et 0,16, ce qui correspond à des niveaux de parenté pour des

demi-Figure 2.3 Flow chart du contrôle qualité des données génétiques

frères et sœurs, oncle-neveu voire des ¾ frères et sœurs (deux enfants ayant le même père et dont les mères sont sœurs par exemple). L’ensemble de ces individus ont été conservés pour les analyses d’association.

Le contrôle qualité des marqueurs génétiques a consisté à éliminer les variants présentant un écart très significatif à l’équilibre de Hardy Weinberg (P < 10-8, test réalisé sur les individus non

apparentés) et ceux dont le taux de génotypage est inférieur à 0,98. A partir d’échantillons d’ADN dupliqués (21 paires d’échantillons), nous avons également identifié et éliminé des SNPs présentant une mauvaise reproductibilité (SNPs montrant au moins une discordance). Enfin, les variants

monomorphes ainsi que les variants des chromosomes X et Y ont été exclus. En effet, pour ce travail de thèse, nous avons limité l'analyse aux chromosomes autosomaux, l’analyse des chromosomes X et Y demandant l’utilisation de méthodes spécifiques.

Matrice de corrélation génétique (GRM)

Les données génotypiques sur l’ensemble du génome permettent d’estimer avec précision le degré de parenté entre les individus sans avoir recours à l’information des généalogies. La matrice GRM peut être estimée par la matrice de variance-covariance calculée à partir de l’information sur le nombre d’allèle mineur à chaque SNP (Yang et al.2011).

La GRM est une matrice de taille (n x n), n étant le nombre d’individus. Pour deux individus i et j, la covariance sur un ensemble de m SNPs, s’écrit :

𝐺𝐺𝐺𝐺𝐺𝐺𝑖𝑖𝑖𝑖=𝑚𝑚 �1 (𝐺𝐺𝑖𝑖𝑖𝑖− 2𝑝𝑝𝑖𝑖)�𝐺𝐺𝑖𝑖𝑖𝑖− 2𝑝𝑝𝑖𝑖� 2𝑝𝑝𝑖𝑖(1 − 𝑝𝑝𝑖𝑖)

𝑚𝑚 𝑖𝑖=1

avec k un SNP spécifique, 𝐺𝐺𝑖𝑖𝑖𝑖 = 0, 1 ou 2, le nombre d’allèles mineurs pour l’individu i au SNP k et 𝑝𝑝𝑖𝑖 la fréquence de l’allèle mineur au même SNP. Alors 2𝑝𝑝𝑖𝑖 est l’espérance 𝐺𝐺𝑖𝑖𝑖𝑖 dans la population et 2𝑝𝑝𝑖𝑖(1 − 𝑝𝑝𝑖𝑖), sa variance.

La GRM est utilisée en génétique pour estimer le coefficient de parenté ϕ entre les individus (𝐺𝐺𝐺𝐺𝐺𝐺 = 2𝜑𝜑) et pour ajuster sur les relations de parenté dans les GWAS. Pour estimer ϕ, cette méthode nécessite que les SNPs soient indépendants. Une approche consiste à réduire le nombre initial de SNPs en supprimant ceux qui sont en DL afin d’obtenir un sous-ensemble de SNPs approximativement indépendants. Dans notre étude, la GRM a été calculée à partir des SNPs communs (MAF>0,05) et après filtre des SNPs en DL (r2> 0,2)

Figure 2.4 Matrice de corrélation génétique (GRM)

Après le contrôle qualité, les données de génotypage de 2 609 111 variants étaient disponibles pour 812 enfants. Une étape d’imputation a été réalisée par Pierre Luisi, post-doctorant au Centre National d’investigation scientifique et technique à Cordoba (Argentine) et qui a également initié l’analyse sur l’ensemble des infections (deuxième phénotype de la GWAS). Cette étape d’imputation permet de densifier la couverture du génome, en récupérant l’information pour un certain nombre de variants non présents sur la puce (et donc non génotypés) mais en déséquilibre de liaison avec des variants génotypés. Brièvement, l’imputation a été réalisée sur le serveur du Michigan (Michigan Imputation Server) avec l’algorithme minimac 3, après une étape de contrôle qualité supplémentaire (Figure 2.4). Avant l’imputation, les données génotypiques ont été préphasées avec le logiciel SHAPEIT v2, en utilisant comme panel de référence l’ensemble des haplotypes du projet 1000 Genomes v5. Les données imputées ont ensuite été filtrées pour ne conserver que les SNPs avec une très bonne qualité d’imputation (R2 > 0.8).

Au final, le jeu de données complet (variants génotypés et imputés) incluait 15 566 900 variants avec une MAF supérieure à 0,01. Les analyses de ce manuscrit ont porté sur 800 enfants (525 dans la cohorte de Tori-Bossito et 275 dans la cohorte d’Allada), après exclusion a posteriori de 12 enfants avec une mauvaise qualité de suivi. L’ensemble du contrôle qualité a été réalisé avec le logiciel R (R Core Team, 2017). Le contrôle qualité des données génétiques a été réalisé avec le paquet gaston (Perdry & Dandine-Roulland, 2018).