• Aucun résultat trouvé

Structure génétique de la cohorte de Pobè

Liens familiaux cryptiques

L’examen de la matrice IBS a permis de mettre en évidence un certain nombre de liens

familiaux dans l’échantillon. La Figure 35A est une représentation de cette matrice. La distance génétique entre chaque individu et les n-1 autres individus de la cohorte (D = 1 – IBS) est représentée par un point pour chaque paire d’individus distincts. 803*802 relations sont donc successivement

représentées le long de l’axe des abscisses. La valeur absolue de la distance, sur l’axe des ordonnées, dépend des fréquences alléliques des marqueurs génotypés et n’a pas d’intérêt en soi. En revanche, cette représentation rend apparente le caractère strié de la distribution observée des distances. Une

inspection visuelle simple permet d’identifier 5 types de relations, avec respectivement une distance moyenne de l’ordre de 0.14, 0.165, 0.215, 0.24 et 0.27. Certains liens familiaux identifiés sur les dossiers permettent d’affirmer que la bande de distance 0.165 correspond à un lien de premier degré (coefficient de parenté F de 1/4), type parent-enfant ou frère-sœur (le coefficient de parenté

entre deux individus, i et j, est égal à la probabilité pour que deux allèles tirés au hasard au même locus, l'un chez i et l'autre chez j, soient identiques par descendance (242)). Par ailleurs, la grande majorité des distances sont autour de 0.27 et représentent les individus sans liens familiaux particuliers (coefficient de parenté F nul). Un lien familial du second degré, de type grand-

parent/petit-enfant ou oncle/neveu (coefficient de parenté 1/8) et un lien du troisième degré, de type cousins germains (coefficient de parenté F de 1/16) auraient respectivement une distance moyenne attendue de 0.217 et 0.244, ce qui est effectivement observé. Quelques individus avec une

distance IBS faible représentent probablement des individus consanguins reliés au premier degré.

Chaque individu peut être apparenté à un ou plusieurs individus. Pour obtenir un échantillon d’individus « indépendants », on élimine itérativement k-1 individus de chaque grappe de k individus.

152

Structure de population à l’échelle mondiale

Nous avons réalisé une ACP regroupant les 675 individus indépendants de la cohorte primaire génotypés sur puce Illumina Omni2.5 et 1024 individus HapMap fondateurs génotypés sur puce Affymetrix 6.0. Les individus HapMap appartenaient à diverses populations d’origine africaine,

asiatique, européenne ou américaine. Spécifiquement, les populations d’origine africaine regroupaient 90 individus Luhya du Kenya (LWK), 142 individus Masaï du Kenya (MKK), 120 individus Yoruba du Nigeria (YRI) et 53 individus afro-américains des Etats-Unis (ASW). Les populations

d’origine asiatique regroupaient 90 individus Han de Chine (CHB), 90 individus d’origine chinoise des Etats-Unis (CHD), et 91 individus du Japon (JPT). Les populations d’origine européenne regroupaient 119 individus caucasiens des Etats-Unis (CEU) et 90 individus toscans d’Italie (TSI). Par ailleurs, deux populations d’origine respectivement indo-européenne et américano-européenne étaient

incluses avec 89 individus du Gujarat en Inde (GIH) et 50 individus mexicains (MEX) (188,243,244).

212427 marqueurs en commun ont été identifiés. Après filtres stringents (taux de génotypage supérieur à 99%, fréquence de l’allèle mineur supérieure 5%, pvalue du test du respect

de l’équilibre de Hardy-Weinberg supérieure à 10-4) et élimination du déséquilibre de liaison via Plink (option –indep-pairwise avec des fenêtres de 50 SNPs glissantes sur 5 SNPs, seuil de r2 à 0.2),

l’ACP a été réalisée sur 94697 marqueurs via l’implémentation smartpca du package EIGENSTRAT version 4.2 (option outlier removal désactivée, c’est-à-dire sans suppression des individus aux

coordonnées extrêmes). Les coordonnées des 128 individus de la cohorte de Pobè non inclus dans l’ACP ont été calculées à partir de leurs génotypes et des valeurs et vecteurs propres obtenues. Ces 128 individus sont donc projetés à proximité de leurs apparentés.

La Figure 35B représente les coordonnées des 1827 individus sur les deux premières composantes principales. La cohorte de Pobè est homogène et superposée à la population HapMap Yoruba. Il n’y a donc pas de structure génétique majeure dans la cohorte de Pobè à l’échelle

153

Figure 36. Structure génétique de la cohorte : ACP à l’échelle locale

(A) Représentation des 4 premières composantes principales. En diagonal sont représentées les

distributions des coordonnées de chaque composante chez les 803 individus sous forme de courbes de densité. Sous la diagonale sont représentées les coordonnées de chaque individu sur 2 composantes

principales.

(B) Distribution des coordonnées des 803 individus sur la composante 1, 2 et 4 en fonction de leur facteur

explicatif respectifs, le lieu d’habitation, la plaque de génotypage et le statut cas-témoin.

(C) Contribution de chacun des 94697 marqueurs, répartis sur 22 chromosomes, à chacune des quatre premières composantes principales.

154

Structure de population à l’échelle locale

Nous avons ensuite réalisé une ACP à l’échelle locale afin de visualiser une structure génétique fine au sein de la cohorte primaire. Cette ACP incluait les 675 individus indépendants de la cohorte primaire. Comme précédemment, après filtres stringents (taux de génotypage supérieur à

99%, fréquence de l’allèle mineur supérieure à 5%, pvalue du test d’équilibre de Hardy-Weinberg supérieure à 10-4) et élimination du déséquilibre de liaison via Plink (option –indep-pairwise

fenêtres de 50 SNPs glissantes sur 5 SNPs, seuil de r2 à 0.2), l’ACP a été réalisée sur 291460

marqueurs via l’implémentation smartpca du package EIGENSTRAT version 4.2 (option outlier removal désactivée). Les coordonnées des 128 individus non inclus dans l’ACP ont été calculées à

partir de leurs génotypes et des valeurs et vecteurs propres obtenues.

La Figure 36A représente les coordonnées des 803 individus sur les 4 premières composantes principales par paire de deux composantes principales. On distingue clairement à l’inspection visuelle

plusieurs groupes d’individus en particulier sur les deux premières composantes principales. Une distribution bimodale de la distribution de la seconde composante principale est clairement visible sur la courbe de densité correspondante (diagonale de la Figure 36A). Il y a donc une structure

génétique à l’échelle locale.

Pour tenter d’expliquer cette structure, nous avons recherché des corrélations entre chacune des dix premières composantes principales et des variables générales comme l’âge, le sexe, le lieu d’habitation, le statut cas-témoin et la localisation physique de l’ADN dans les plaques de

génotypage. Pour trois composantes principales, nous avons identifié une association significative avec une variable explicative (Figure 36B). La première composante principale corrèle significativement avec la localisation microgéographique des individus, avec des valeurs négatives pour les habitants du Nigéria et du Plateau et des valeurs positives pour les habitants du Ouémé, sur

les rives du fleuve. La seconde composante principale corrèle significativement avec l’appartenance à certaines plaques de génotypage, avec des valeurs positives pour les plaques 1 et 7 respectivement

155 et négative pour les autres. La quatrième composante principale corrèle significativement avec le

statut cas-témoin. Il n’a pas été identifié de corrélat pour les autres composantes principales, avec les informations dont nous disposions.

La contribution de chaque SNP aux coordonnées des quatre premières composantes

principales est représentée en Figure 36C. On observe que les SNPs contributeurs (ceux avec les poids les plus élevés en valeur absolue) sont répartis sur tous les chromosomes. Il est intéressant d’observer que pour la composante 2, artéfactuelle, les poids sont bien plus élevés en valeur absolue que pour les autres composantes principales. Il y a donc un sous-ensemble bien précis de SNPs dont

157

Analyse d’association pangénomique

Dans la suite du manuscrit, le terme « analyse d’association pangénomique » et l’acronyme GWAS (Genome-Wide Association Study) seront utilisés de façon interchangeable.