Structure génétique de la population de l’Ouest de la France

−6 −4 −2 0 2 46 47 48 49 50

0.00010 0.00015 0.00020 1e −⁰⁴ 1e⁻ 04 0.00012 0.00014 0.00016 0.00018 2e₋₀₄ 0.00022 0.00022 0.00024 −6 −4 −2 0 2

0.4726 0.4728 0.4730 0.4732 0.4726 0.4728 0.473 0.473 0.4732

−0.06 −0.04 −0.02 0.00 0.02 0.04 0.06 − 0.05 0.00 0.05

Structure génétique de la population de l’Ouest de la France

Les résultats de cette section font l’objet d’une soumission en révisions mineures dans European

journal of Human genetics :

Matilde Karakachoff, Nicolas Duforet-Frebourg, et al. (2014), Fine scale human genetic structure

in Western France. European journal of Human genetics, (minor revision).

L’article se trouve dans la section 8.4.

5.2.1 Données du projet DESIR-CavGens

Nous analysons les données génétiques échantillonnées sur un ensemble de 1684 individus.

Les individus proviennent de deux études précédemment réalisées, les études D.E.S.I.R. et

Cav-Gens qui ont été menées dans les Pays de la Loire. Les individus sont génotypés sur une puce

Illumina HumanHap300, contenant plus de 300 000marqueurs de type SNP. En plus des données

génétiques, une information sur le lieu de naissance de chaque individu est disponible. Pour

suppo-ser que les données génétiques d’un individu sont corrélées à son lieu de naissance, il est préférable

de contrôler que les quatre grand-parents sont bien nés dans un lieu proche. Néanmoins, nous

fe-rons l’hypothèse que ces lieux de naissance sont informatifs. Les individus couvrent l’ensemble

de la France, mais sont essentiellement originaires des régions de l’Ouest : Pays de la Loire,

Bre-tagne, Normandie et Poitou-Charentes (Figure 26). Nous essayons de démontrer que même à une

échelle géographique siﬁne, les variations génétiques humaines ne sont pas aléatoires et sont

struc-turées. Une telle preuve de structure à une échelle ﬁne impliquerait la présence de variants rares

[Kristiansson et al., 2008]. Ces variants ont un intérêt médical car ils peuvent participer au

détermi-nisme génétique de certaines pathologies [Cirulli and Goldstein, 2010, McClellan and King, 2010].

5.2.2 Analyse de structure

Depuis le travail initial de [Menozzi et al., 1978], il a été démontré qu’à l’échelle de

l’Eu-rope ou de n’importe quel autre continent, la variation génétique est structurée chez les humains

[Novembre et al., 2008, Jay et al., 2011]. De même à l’intérieur des pays européens, les preuves de

structure de populations sont nombreuses [T O’Dushlaine et al., 2010, Salmela et al., 2011, Humphreys et al., 2011].

Il est donc envisageable d’observer de la structure à l’échelle d’une partie de la France. Le contexte

Individus DESIR

Individus CavGens

FIGURE 26 – Lieux de naissances des individus échantillonnés dans les jeux de données RAC et

DESIR. L’échantillonnage couvre essentiellement les régions de l’ouest de la France.

spatial des données nous permet de chercher des traces du schéma d’isolement par la distance.

Nous appliquons la méthode développée dans la section 4, et nous pouvons observer que la

dif-férenciation génétique locale est plus forte en Bretagne et en Vendée (Figure 27). Nous

obser-vons de plus un accroissement du déséquilibre de liaison moyen en Bretagne. Ce résultat est

at-tendu, et reﬂète la taille efﬁcace de population plus faible à une extrémité d’une aire de

répar-tition [Wilkins and Wakeley, 2002]. D’autres méthodes classiques telles que l’analyse en

compo-santes principales [Patterson et al., 2006] et l’inférence de coefﬁcients d’ascendance avec

Admix-ture[Alexander et al., 2009] conﬁrment la présence de structure spatiale (Figure 28). De plus, nous

fusionnons les données CavGens et DESIR avec le jeu de données POPRES [Nelson et al., 2008].

Nous retrouvons le résultat établissant que la structure de population est corrélée à la géographie à

l’aide d’une analyse en composantes principales [Novembre et al., 2008]. Nous observons de plus

que les individus nés dans les départements bretons se distinguent du reste du jeu de données par

leur proximité avec les individus irlandais du jeu de données POPRES. Cette proximité est mesurée

à l’aide de mesure d’identité par état allélique [Purcell et al., 2007], et deF

sur des régions de 50

marqueurs consécutifs. Ce résultat peut reﬂéter une ascendance commune récente entre bretons et

irlandais.

Longitude

Latitude

Longitude

Fst at

30 km

LD at

15 kb

FIGURE27 – Panel A : Carte de différenciation génétique locale des individus des jeux de données

DESIR et CavGens. Les estimateurs de différenciation génétique locale sont desF

à 30 kilomètres

de chaque département. Panel B : Carte du déséquilibre de liaison moyen à 15kb par département.

PC1

PC2

Pays de la Loire

Brittany

Normandy

Centre

Poitou−Charentes

Vendée (Dept.)

FIGURE28 – Première et deuxième composante principale des individus des jeux de données

DE-SIR et CavGens. Les individus sont coloriés en fonction de leur appartenance aux 5 régions les

plus représentées dans les données. Les enveloppes contiennent 75% des individus d’une région.

Les individus du département vendéen sont en rouge, pour être mis en évidence bien qu’ils fassent

partie de la région Pays de la Loire.

6 Conclusions et perspectives

6.1 Conclusions

Dans ce manuscrit, nous avons présenté les enjeux de la génétique des populations. Ces enjeux

regroupent un grand nombre d’applications possibles, incluant la reconstruction de la démographie

des espèces et la détection de processus adaptatifs. La génétique des populations est une science

qui aujourd’hui est transformée fondamentalement par le changement dans la nature et la quantité

des données. Une part importante des efforts de recherche en génétique depuis le début des années

2000 concerne le traitement informatique et statistique des données massives. Le travail de cette