• Aucun résultat trouvé

Les résultats de cette section font l’objet d’une soumission en révisions mineures dans European

journal of Human genetics :

Matilde Karakachoff, Nicolas Duforet-Frebourg, et al. (2014), Fine scale human genetic structure

in Western France. European journal of Human genetics, (minor revision).

L’article se trouve dans la section 8.4.

5.2.1 Données du projet DESIR-CavGens

Nous analysons les données génétiques échantillonnées sur un ensemble de 1684 individus.

Les individus proviennent de deux études précédemment réalisées, les études D.E.S.I.R. et

Cav-Gens qui ont été menées dans les Pays de la Loire. Les individus sont génotypés sur une puce

Illumina HumanHap300, contenant plus de 300 000marqueurs de type SNP. En plus des données

génétiques, une information sur le lieu de naissance de chaque individu est disponible. Pour

suppo-ser que les données génétiques d’un individu sont corrélées à son lieu de naissance, il est préférable

de contrôler que les quatre grand-parents sont bien nés dans un lieu proche. Néanmoins, nous

fe-rons l’hypothèse que ces lieux de naissance sont informatifs. Les individus couvrent l’ensemble

de la France, mais sont essentiellement originaires des régions de l’Ouest : Pays de la Loire,

Bre-tagne, Normandie et Poitou-Charentes (Figure 26). Nous essayons de démontrer que même à une

échelle géographique sifine, les variations génétiques humaines ne sont pas aléatoires et sont

struc-turées. Une telle preuve de structure à une échelle fine impliquerait la présence de variants rares

[Kristiansson et al., 2008]. Ces variants ont un intérêt médical car ils peuvent participer au

détermi-nisme génétique de certaines pathologies [Cirulli and Goldstein, 2010, McClellan and King, 2010].

5.2.2 Analyse de structure

Depuis le travail initial de [Menozzi et al., 1978], il a été démontré qu’à l’échelle de

l’Eu-rope ou de n’importe quel autre continent, la variation génétique est structurée chez les humains

[Novembre et al., 2008, Jay et al., 2011]. De même à l’intérieur des pays européens, les preuves de

structure de populations sont nombreuses [T O’Dushlaine et al., 2010, Salmela et al., 2011, Humphreys et al., 2011].

Il est donc envisageable d’observer de la structure à l’échelle d’une partie de la France. Le contexte

Individus DESIR

Individus CavGens

FIGURE 26 – Lieux de naissances des individus échantillonnés dans les jeux de données RAC et

DESIR. L’échantillonnage couvre essentiellement les régions de l’ouest de la France.

spatial des données nous permet de chercher des traces du schéma d’isolement par la distance.

Nous appliquons la méthode développée dans la section 4, et nous pouvons observer que la

dif-férenciation génétique locale est plus forte en Bretagne et en Vendée (Figure 27). Nous

obser-vons de plus un accroissement du déséquilibre de liaison moyen en Bretagne. Ce résultat est

at-tendu, et reflète la taille efficace de population plus faible à une extrémité d’une aire de

répar-tition [Wilkins and Wakeley, 2002]. D’autres méthodes classiques telles que l’analyse en

compo-santes principales [Patterson et al., 2006] et l’inférence de coefficients d’ascendance avec

Admix-ture[Alexander et al., 2009] confirment la présence de structure spatiale (Figure 28). De plus, nous

fusionnons les données CavGens et DESIR avec le jeu de données POPRES [Nelson et al., 2008].

Nous retrouvons le résultat établissant que la structure de population est corrélée à la géographie à

l’aide d’une analyse en composantes principales [Novembre et al., 2008]. Nous observons de plus

que les individus nés dans les départements bretons se distinguent du reste du jeu de données par

leur proximité avec les individus irlandais du jeu de données POPRES. Cette proximité est mesurée

à l’aide de mesure d’identité par état allélique [Purcell et al., 2007], et deF

st

sur des régions de 50

marqueurs consécutifs. Ce résultat peut refléter une ascendance commune récente entre bretons et

irlandais.

−6 −4 −2 0 2 46 47 48 49 50

Longitude

Latitude

0.00010 0.00015 0.00020 1e 04 1e 04 0.00012 0.00014 0.00016 0.00018 2e04 0.00022 0.00022 0.00024 −6 −4 −2 0 2

Longitude

0.4726 0.4728 0.4730 0.4732 0.4726 0.4728 0.473 0.473 0.4732

Fst at

30 km

LD at

15 kb

FIGURE27 – Panel A : Carte de différenciation génétique locale des individus des jeux de données

DESIR et CavGens. Les estimateurs de différenciation génétique locale sont desF

st

à 30 kilomètres

de chaque département. Panel B : Carte du déséquilibre de liaison moyen à 15kb par département.

−0.06 −0.04 −0.02 0.00 0.02 0.04 0.06 − 0.05 0.00 0.05

PC1

PC2

Pays de la Loire

Brittany

Normandy

Centre

Poitou−Charentes

Vendée (Dept.)

FIGURE28 – Première et deuxième composante principale des individus des jeux de données

DE-SIR et CavGens. Les individus sont coloriés en fonction de leur appartenance aux 5 régions les

plus représentées dans les données. Les enveloppes contiennent 75% des individus d’une région.

Les individus du département vendéen sont en rouge, pour être mis en évidence bien qu’ils fassent

partie de la région Pays de la Loire.

6 Conclusions et perspectives

6.1 Conclusions

Dans ce manuscrit, nous avons présenté les enjeux de la génétique des populations. Ces enjeux

regroupent un grand nombre d’applications possibles, incluant la reconstruction de la démographie

des espèces et la détection de processus adaptatifs. La génétique des populations est une science

qui aujourd’hui est transformée fondamentalement par le changement dans la nature et la quantité

des données. Une part importante des efforts de recherche en génétique depuis le début des années

2000 concerne le traitement informatique et statistique des données massives. Le travail de cette

thèse s’inscrit dans cet effort de modélisation statistique pour répondre aux enjeux de la génétique

des populations, et de la biologie de l’évolution. Pour cela nous avons adopté un point de vue

phé-noménologique pour la modélisation statistique. Nous détacher des approches classiques souvent

mécanistes est un moyen de proposer des méthodes innovantes qui montrent un taux de fausses

dé-couvertes plus faibles sur plusieurs jeux de données. Ces modèles et logiciels s’incorporent dans la

panoplie des méthodes disponibles pour le traitement de données génétiques en grande dimension.

Une partie importante de mon travail de thèse est de proposer un modèle innovant et non

su-pervisé pour détecter les marqueurs génétiques impliqués dans le processus d’adaptation locale.

L’état de l’art dans le domaine de la détection de l’adaptation locale a été fait dans la section

2. Cet état de l’art est partiel, mais rappelle que l’approche classique, proposée par Lewontin

et Krackauer [Lewontin and Krakauer, 1973], a posé les fondements des méthodes basées sur les

scans àF

st

. Par la suite de nombreux modèles ont développé l’idée de scanner le génome à l’aide

de statistiquesF [Beaumont and Nichols, 1996, Vitalis et al., 2003, Beaumont and Balding, 2004,

Antao et al., 2008, Foll and Gaggiotti, 2008, Bonhomme et al., 2010, Fariello et al., 2013]. Nous n’avons

pas détaillé toutes les méthodes, et nous sommes concentrés sur deux d’entre elles, implémentées

dans les logicielsBayescanetfdist. Ces deux méthodes nous servent de référence pour assurer les

bons résultats du modèle que nous présentons dans la section 3. D’autres approches existent pour

détecter l’adaptation locale basées sur des méthodes de corrélation entre données génétiques et

va-riables environnementales [Coop et al., 2010, Frichot et al., 2013]. Le modèle que nous proposons

pour détecter l’adaptation locale est basé sur une analyse factorielle, ce qui lui permet d’apprendre

la structure de population, et de calculer des facteurs de Bayes pour chaque marqueur. Nous

démon-trons l’utilité de ce modèle sur des données réelles et simulées (section 8.1). Une approche rapide

de la méthode a également été proposée. Cette autre méthode a l’avantage de passer à l’échelle des

grands jeux de données, mais n’est pas robuste au choix du nombre de facteurs K. L’algorithme

détaillé dans la section 7.2, ainsi que la version rapide sont implémentés dans le logicielPCAdapt.

Une autre question adressée dans cette thèse est l’étude des variations génétiques dans l’espace.

Il a été montré que certains processus évolutionnaires complexes peuvent entraîner des schémas

d’isolement par la distance non-stationnaires. Pour quantifier la non-stationnarité résultante nous

proposons un modèle de krigeage bayésien et introduisons la différenciation génétique locale. Cette

mesure permet d’observer des schémas de non-stationnarité pour des données simulées selon un

scénario complexe ou sur des données réelles dans la section 8.2. L’algorithme pour estimer la

différenciation génétique locale est implémenté dans le logiciel LocalDiff. Un test d’hypothèse de

non-stationnarité est présenté dans l’article de la section 8.2. Cette procédure teste l’hypothèse

nulle de stationnarité du schéma d’isolement par la distance, sachant un schéma d’échantillonnage

donné. Nous montrons par la suite sa capacité à détecter de la structure de population à une échelle

géographiquefine.

D’autres travaux sont présentés dans ce manuscrit et font partie du travail de thèse. Un logiciel

implémentant une stratégie de construction d’haplotypes informatifs au sens de [Rosenberg et al., 2003]

a été développé. Une analyse fine de la structure génétique dans l’ouest de la France a également

été réalisée, et montre que les variations génétiques dans les régions de l’Ouest sont structurées.

En particulier, il a été montré que la différenciation génétique à l’intérieur de la région Pays de

la Loire est plus forte entre la Vendée et les autres départements. Un autre résultat intéressant est

la proximité génétique entre les individus échantillonnés en Bretagne et les individus irlandais du

jeu de données POPRES impliquant une ascendance commune entre les irlandais et les bretons

des données DESIR et CavGens. Cette analyse de données a également été l’occasion d’utiliser la

mesure de différenciation génétique locale (section 4).

Documents relatifs