Les résultats de cette section font l’objet d’une soumission en révisions mineures dans European
journal of Human genetics :
Matilde Karakachoff, Nicolas Duforet-Frebourg, et al. (2014), Fine scale human genetic structure
in Western France. European journal of Human genetics, (minor revision).
L’article se trouve dans la section 8.4.
5.2.1 Données du projet DESIR-CavGens
Nous analysons les données génétiques échantillonnées sur un ensemble de 1684 individus.
Les individus proviennent de deux études précédemment réalisées, les études D.E.S.I.R. et
Cav-Gens qui ont été menées dans les Pays de la Loire. Les individus sont génotypés sur une puce
Illumina HumanHap300, contenant plus de 300 000marqueurs de type SNP. En plus des données
génétiques, une information sur le lieu de naissance de chaque individu est disponible. Pour
suppo-ser que les données génétiques d’un individu sont corrélées à son lieu de naissance, il est préférable
de contrôler que les quatre grand-parents sont bien nés dans un lieu proche. Néanmoins, nous
fe-rons l’hypothèse que ces lieux de naissance sont informatifs. Les individus couvrent l’ensemble
de la France, mais sont essentiellement originaires des régions de l’Ouest : Pays de la Loire,
Bre-tagne, Normandie et Poitou-Charentes (Figure 26). Nous essayons de démontrer que même à une
échelle géographique sifine, les variations génétiques humaines ne sont pas aléatoires et sont
struc-turées. Une telle preuve de structure à une échelle fine impliquerait la présence de variants rares
[Kristiansson et al., 2008]. Ces variants ont un intérêt médical car ils peuvent participer au
détermi-nisme génétique de certaines pathologies [Cirulli and Goldstein, 2010, McClellan and King, 2010].
5.2.2 Analyse de structure
Depuis le travail initial de [Menozzi et al., 1978], il a été démontré qu’à l’échelle de
l’Eu-rope ou de n’importe quel autre continent, la variation génétique est structurée chez les humains
[Novembre et al., 2008, Jay et al., 2011]. De même à l’intérieur des pays européens, les preuves de
structure de populations sont nombreuses [T O’Dushlaine et al., 2010, Salmela et al., 2011, Humphreys et al., 2011].
Il est donc envisageable d’observer de la structure à l’échelle d’une partie de la France. Le contexte
Individus DESIR
Individus CavGens
FIGURE 26 – Lieux de naissances des individus échantillonnés dans les jeux de données RAC et
DESIR. L’échantillonnage couvre essentiellement les régions de l’ouest de la France.
spatial des données nous permet de chercher des traces du schéma d’isolement par la distance.
Nous appliquons la méthode développée dans la section 4, et nous pouvons observer que la
dif-férenciation génétique locale est plus forte en Bretagne et en Vendée (Figure 27). Nous
obser-vons de plus un accroissement du déséquilibre de liaison moyen en Bretagne. Ce résultat est
at-tendu, et reflète la taille efficace de population plus faible à une extrémité d’une aire de
répar-tition [Wilkins and Wakeley, 2002]. D’autres méthodes classiques telles que l’analyse en
compo-santes principales [Patterson et al., 2006] et l’inférence de coefficients d’ascendance avec
Admix-ture[Alexander et al., 2009] confirment la présence de structure spatiale (Figure 28). De plus, nous
fusionnons les données CavGens et DESIR avec le jeu de données POPRES [Nelson et al., 2008].
Nous retrouvons le résultat établissant que la structure de population est corrélée à la géographie à
l’aide d’une analyse en composantes principales [Novembre et al., 2008]. Nous observons de plus
que les individus nés dans les départements bretons se distinguent du reste du jeu de données par
leur proximité avec les individus irlandais du jeu de données POPRES. Cette proximité est mesurée
à l’aide de mesure d’identité par état allélique [Purcell et al., 2007], et deF
stsur des régions de 50
marqueurs consécutifs. Ce résultat peut refléter une ascendance commune récente entre bretons et
irlandais.
−6 −4 −2 0 2
46
47
48
49
50
Longitude
Latitude
0.00010
0.00015
0.00020
1e
−04
1e−
04
0.00012
0.00014
0.00016
0.00018
2e−04
0.00022
0.00022
0.00024
−6 −4 −2 0 2
Longitude
0.4726
0.4728
0.4730
0.4732
0.4726
0.4728
0.473
0.473
0.4732
Fst at
30 km
LD at
15 kb
FIGURE27 – Panel A : Carte de différenciation génétique locale des individus des jeux de données
DESIR et CavGens. Les estimateurs de différenciation génétique locale sont desF
st
à 30 kilomètres
de chaque département. Panel B : Carte du déséquilibre de liaison moyen à 15kb par département.
−0.06 −0.04 −0.02 0.00 0.02 0.04 0.06
−
0.05
0.00
0.05
PC1
PC2
Pays de la Loire
Brittany
Normandy
Centre
Poitou−Charentes
Vendée (Dept.)
FIGURE28 – Première et deuxième composante principale des individus des jeux de données
DE-SIR et CavGens. Les individus sont coloriés en fonction de leur appartenance aux 5 régions les
plus représentées dans les données. Les enveloppes contiennent 75% des individus d’une région.
Les individus du département vendéen sont en rouge, pour être mis en évidence bien qu’ils fassent
partie de la région Pays de la Loire.
6 Conclusions et perspectives
6.1 Conclusions
Dans ce manuscrit, nous avons présenté les enjeux de la génétique des populations. Ces enjeux
regroupent un grand nombre d’applications possibles, incluant la reconstruction de la démographie
des espèces et la détection de processus adaptatifs. La génétique des populations est une science
qui aujourd’hui est transformée fondamentalement par le changement dans la nature et la quantité
des données. Une part importante des efforts de recherche en génétique depuis le début des années
2000 concerne le traitement informatique et statistique des données massives. Le travail de cette
thèse s’inscrit dans cet effort de modélisation statistique pour répondre aux enjeux de la génétique
des populations, et de la biologie de l’évolution. Pour cela nous avons adopté un point de vue
phé-noménologique pour la modélisation statistique. Nous détacher des approches classiques souvent
mécanistes est un moyen de proposer des méthodes innovantes qui montrent un taux de fausses
dé-couvertes plus faibles sur plusieurs jeux de données. Ces modèles et logiciels s’incorporent dans la
panoplie des méthodes disponibles pour le traitement de données génétiques en grande dimension.
Une partie importante de mon travail de thèse est de proposer un modèle innovant et non
su-pervisé pour détecter les marqueurs génétiques impliqués dans le processus d’adaptation locale.
L’état de l’art dans le domaine de la détection de l’adaptation locale a été fait dans la section
2. Cet état de l’art est partiel, mais rappelle que l’approche classique, proposée par Lewontin
et Krackauer [Lewontin and Krakauer, 1973], a posé les fondements des méthodes basées sur les
scans àF
st. Par la suite de nombreux modèles ont développé l’idée de scanner le génome à l’aide
de statistiquesF [Beaumont and Nichols, 1996, Vitalis et al., 2003, Beaumont and Balding, 2004,
Antao et al., 2008, Foll and Gaggiotti, 2008, Bonhomme et al., 2010, Fariello et al., 2013]. Nous n’avons
pas détaillé toutes les méthodes, et nous sommes concentrés sur deux d’entre elles, implémentées
dans les logicielsBayescanetfdist. Ces deux méthodes nous servent de référence pour assurer les
bons résultats du modèle que nous présentons dans la section 3. D’autres approches existent pour
détecter l’adaptation locale basées sur des méthodes de corrélation entre données génétiques et
va-riables environnementales [Coop et al., 2010, Frichot et al., 2013]. Le modèle que nous proposons
pour détecter l’adaptation locale est basé sur une analyse factorielle, ce qui lui permet d’apprendre
la structure de population, et de calculer des facteurs de Bayes pour chaque marqueur. Nous
démon-trons l’utilité de ce modèle sur des données réelles et simulées (section 8.1). Une approche rapide
de la méthode a également été proposée. Cette autre méthode a l’avantage de passer à l’échelle des
grands jeux de données, mais n’est pas robuste au choix du nombre de facteurs K. L’algorithme
détaillé dans la section 7.2, ainsi que la version rapide sont implémentés dans le logicielPCAdapt.
Une autre question adressée dans cette thèse est l’étude des variations génétiques dans l’espace.
Il a été montré que certains processus évolutionnaires complexes peuvent entraîner des schémas
d’isolement par la distance non-stationnaires. Pour quantifier la non-stationnarité résultante nous
proposons un modèle de krigeage bayésien et introduisons la différenciation génétique locale. Cette
mesure permet d’observer des schémas de non-stationnarité pour des données simulées selon un
scénario complexe ou sur des données réelles dans la section 8.2. L’algorithme pour estimer la
différenciation génétique locale est implémenté dans le logiciel LocalDiff. Un test d’hypothèse de
non-stationnarité est présenté dans l’article de la section 8.2. Cette procédure teste l’hypothèse
nulle de stationnarité du schéma d’isolement par la distance, sachant un schéma d’échantillonnage
donné. Nous montrons par la suite sa capacité à détecter de la structure de population à une échelle
géographiquefine.
D’autres travaux sont présentés dans ce manuscrit et font partie du travail de thèse. Un logiciel
implémentant une stratégie de construction d’haplotypes informatifs au sens de [Rosenberg et al., 2003]
a été développé. Une analyse fine de la structure génétique dans l’ouest de la France a également
été réalisée, et montre que les variations génétiques dans les régions de l’Ouest sont structurées.
En particulier, il a été montré que la différenciation génétique à l’intérieur de la région Pays de
la Loire est plus forte entre la Vendée et les autres départements. Un autre résultat intéressant est
la proximité génétique entre les individus échantillonnés en Bretagne et les individus irlandais du
jeu de données POPRES impliquant une ascendance commune entre les irlandais et les bretons
des données DESIR et CavGens. Cette analyse de données a également été l’occasion d’utiliser la
mesure de différenciation génétique locale (section 4).