• Aucun résultat trouvé

Méthodes d’identification

Plusieurs approches existent pour détecter la présence de structure dans un échantillon d’individus génotypés pour un grand nombre de marqueurs (231,235). Une première classe de méthodes dite modèle-dépendante consiste à considérer l’existence de K populations (ou groupes,

ou « clusters ») dans l’échantillon, d’estimer la probabilité d’appartenance d’un individu à chaque population K via des méthodes de type MCMC et d’estimer la valeur la plus vraisemblable de K (236). Sachant K et la probabilité d’appartenance à telle ou telle population d’un individu, il est possible

d’estimer les fréquences alléliques pour un marqueur donné chez les cas et témoins de chaque population, puis de formuler un test d’association stratifié, et ce de plusieurs façons (rapport de vraisemblance, test de Mantel-Haenzel, régression logistique avec ajustement sur les probabilités

d’appartenance à chaque population) (231,237). Cette méthode, peut-être la plus naturelle, implémentée dans le logiciel STRUCTURE, n’est cependant pas efficace sur le plan computationnel et ne peut être appliquée à des données comportant des millions de marqueurs génétiques. Par

ailleurs, l’estimation de K est problématique.

Une seconde classe de méthodes repose sur l’analyse en composante principale d’une matrice mesurant la similarité génétique entre individus. Pour résumer la ressemblance génétique de n individus sur m marqueurs (matrice X de dimension m*n des génotypes centrés et réduits), une

réduction rapide et importante de dimension est obtenue en estimant la covariance des génotypes pour chaque paire d’individu (matrice de variance-covariance Σ, proportionnelle à XTX, de dimension n*n, symétrique). Deux individus dont les génotypes sont systématiquement proches auront une valeur de covariance fortement positive ; à l’inverse deux individus dont les génotypes sont

systématiquement opposés auront une valeur de covariance fortement négative. La matrice XXT peut ensuite être reformulée comme le produit d’une matrice V de n vecteurs propres indépendants et d’une matrice diagonale S² de n valeurs propres ou eigenvalues (XTX =VS²VT). La matrice V contient

147 l’importance relative des différentes composantes. La matrice d’origine X peut elle-même être

exprimée comme le produit USVT, avec U la matrice de dimension m*n des coordonnées de chaque marqueur sur les n composantes principales (également appelés poids ou loadings du marqueur sur chaque composante principale). Cette analyse en composante principale (ACP), ou décomposition en

valeur singulière de la matrice X, est à la base de l’approche EIGENSTRAT (238,239).

Le principe géométrique sous-jacent à cette approche est la recherche de l’axe de projection qui conserve au maximum la dispersion des données (première composante principale), puis d’un second axe de projection orthogonal conservant au maximum la dispersion des données (seconde

composante principale) et ainsi de suite. Il s’agit d’un changement de base dans un espace à n dimensions, tel que les premiers axes soient les plus informatifs. Chaque individu, initialement caractérisé par m génotypes résumés en n covariances, est maintenant caractérisé par n

coordonnées sur n composantes principales, combinaisons linéaires des covariances initiales (elles- mêmes combinaisons des génotypes initiaux). Les composantes principales sont ordonnées en fonction de leur valeur propre, une mesure de la proportion de la dispersion initiale qu’elles capturent. En acceptant une perte d’information minimisée, les données peuvent donc être

tronquées à p premières composantes principales, ce qui constitue la deuxième étape importante de réduction de dimension de la matrice initiale X. Le choix de p n’est pas un problème simple comme on le verra par la suite. Néanmoins, la visualisation des 10 premières composantes principales peut

déjà être informative sur la structure de l’échantillon.

Autrement dit, l’information génétique relative d’un individu au sein d’un groupe peut être décrite exhaustivement par son génotype à m marqueurs (m ~ 106) ou résumée par ses coordonnées sur p composantes principales (p~10). Chaque composante principale représente un axe continu de

variation génétique, et sépare des groupes génétiquement homogènes : les individus appartenant à la population A auront par exemple des coordonnées négatives sur la composante principale 1 et ceux appartenant à la population B des coordonnées positives. Cette technique a été utilisée avec

148 succès pour reconstituer une carte géographique de l’Europe par la représentation des coordonnées

de 3000 individus génotypés sur 500,000 SNPs résumés à 2 composantes principales (240).

La capacité d’une ACP à séparer des individus par groupe sur les premières composantes principales dépend fortement des niveaux de structure présents dans l’échantillon, comme nous le

verrons. Ainsi, une ACP réalisée sur un échantillon composé de populations très hétérogènes (Europe et Afrique par exemple) ne séparera pas les sous-populations de chaque groupe de manière optimale (différentes populations africaines par exemple) (241). A une échelle locale, la présence de quelques individus fortement reliés, comme les membres d’une même famille, peut accaparer les premières

composantes principales et dissimuler la structure génétique d’intérêt (238). Il est donc préférable d’identifier a priori les individus fortement reliés entre eux et de réaliser l’ACP sur le sous-échantillon des individus « indépendants ». Les apparentements les plus forts peuvent être identifiés par

l’inspection de la matrice IBS (Identity By State) composée de la proportion d’allèles partagés par deux individus sur l’ensemble des marqueurs génotypés. Cette matrice a des liens avec la matrice de variance-covariance utilisée par EIGENSTRAT, mais n’est pas normalisée en fonction des fréquences

149

Figure 35. Structure génétique de la cohorte : identité par état et ACP à l’échelle mondiale

(A) Représentation de la matrice de distance 1-IBS (identité par état) entre chacune des 803*802 paires d’individus. La striation apparente des valeurs de distance 1-IBS est rendue apparente par le code couleur auquel est rattaché un type de relation potentielle. Premier degré : fratrie ; parent/enfant ; second degré : grand-parent/petit-enfant, oncle/neveu ; troisième degré : cousins germains. Quelques

paires d’individus aux distances IBS basses pourraient correspondre à des individus consanguins. (B) Représentation des deux premières composantes d’une analyse en composante principale à l’échelle

mondiale incluant 803 individus de la cohorte primaire (Pobe) et 1024 individus fondateurs HapMap provenant de diverses populations mondiales. La cohorte primaire se superpose exactement à la population Yoruba. Populations d’origine africaine : Luhya du Kenya (LWK), Masaï du Kenya (MKK), Yoruba d’Ibadan au Nigeria (YRI), individus afro-américains des Etats-Unis (ASW). Populations d’origine

asiatique : Han de Beiing en Chine (CHB), individus d’origine chinoise de Denver aux Etats-Unis (CHD), individus de Tokyo au Japon (JPT). Populations d’origine européenne : individus caucasiens de l’Utah

aux Etats-Unis (CEU), individus toscans d’Italie (TSI). Populations d’origine indienne : individus du Gujarat en Inde (GIH). Population d’origine centraméricaine : individus mexicains (MEX).

151