2.5 Projeter la structure génétique des populations
2.5.2 Modèle de projection de la structure génétique des populations
popu-lations
Contexte : les modèles de distribution d’espèce. Dans les modèles de
distribu-tion d’espèce (species distribution models, SDMs) ce sont les données d’absence/présence,
parfois de présence uniquement, qui sont reliées à l’environnement. De nombreuses
mé-thodes sont actuellement employées pour estimer cette relation (Guisan and
Zimmer-mann 2000). La méthode la plus évidente est certainement la régression logistique. Les
données d’absence/présence peuvent en effet être codées comme des variables binaires
(absence = 0, présence = 1) que l’on souhaite expliquer à l’aide de combinaisons de
me-sures environnementales. Pour cela, une solution simple est de calibrer un modèle linéaire
généralisé (GLM (generalized linear model), Nelder and Wedderburn 1972) avec
comme fonction de lien la fonction logit. Un modèle de régression plus souple, le modèle
additif généralisé (GAM (generalized additive model), Hastie and Tibshirani 1990),
est aussi utilisé. Dans ce modèle la réponse binaire est expliquée par l’addition de
fonc-tions, à ajuster, des variables environnementales (Yee and Mitchell 1991). D’autres
types d’approche ne reposent pas sur les modèles de régression. Par exemple, l’algorithme
de type CART (classification and regression tree) est appliqué pour construire un arbre
de décision binaire expliquant la présence ou l’absence (Thuiller 2003). Les règles de
décision (à chaque nœud de l’arbre) sont construites à partir des variables
environnemen-tales. Des méthodes basées sur l’estimation de l’enveloppe minimale de la distribution
d’une espèce dans l’espace multidimensionnel des variables climatiques ont aussi été
dé-veloppées (Busby 1991; Walker and Cocks 1991; Carpenter et al. 1993). Enfin,
d’autres approches s’appuyant sur des méthodes de réseaux de neurones, d’analyse
cano-nique des correspondances ou encore d’analyse discriminante sont présentées par Guisan
and Zimmermann (2000) et Jeschke and Strayer (2008).
Une fois le modèle choisi calibré, la présence (ou parfois la probabilité de présence)
d’une espèce dans un emplacement peut être prédite à partir des mesures
environne-mentales (actuelles, passées, futures) de cet emplacement. De cette manière, on peut,
par exemple, obtenir la distribution d’une espèce en cas de changement climatique et la
comparer à la distribution actuelle. La comparaison mettra en évidence les zones dans
lesquelles l’espèce risque de disparaître et l’étendue des zones qui vont rester ou devenir
habitables dans le futur (e.g. Figure 2.4).
Utiliser POPS pour projeter la structure génétique de populations. Le principe
de notre approche est d’étudier non pas la distribution d’une espèce dans sa globalité,
mais la distribution intraspécifique. Pour cela nous nous intéressons aux données
géné-tiques multilocus, plutôt qu’aux données d’absence/présence. La méthode de POPS, que
nous avons présentée dans ce chapitre, consiste à estimer conjointement la structure
géné-tique de population d’une espèce et son lien éventuel à des covariables non génégéné-tiques. Si
ce lien est significatif, la structure peut être prédite à partir des covariables, en particulier
à partir de covariables dont les valeurs ont été modifiées (pour cause d’un changement
cli-matique par exemple). Le modèle de régression cachée dePOPSpermet en effet de simulera
posteriori des coefficients de métissage en utilisant les équations (2.16) et (2.17), la
distri-butiona posteriori des coefficients de régression et les nouvelles valeurs de covariables. La
projection sur une carte des coefficients de métissage donne alors un aperçu de la structure
génétique des populations en cas de changement des conditions environnementales.
De manière analogue aux SDMs qui comparent distributions actuelle et future de
l’espèce, il est possible de comparer projections actuelle et future de la structure génétique
des populations. Nous définissons ci-dessous deux critères que nous avons utilisés pour
réaliser ces comparaisons.
Déplacement de la zone de contact entre deux clusters. Nous pouvons évaluer
des phénomènes comme des mouvements de clusters dans l’espace ou encore la disparition
d’un cluster spécifique. En particulier, si une zone de contact existe entre deux clusters
voisins géographiquement (i.e. une zone où les individus sont métissés et où l’on peut
observer une variation graduelle des coefficients de métissage), il est possible d’étudier son
déplacement en cas de changement climatique. On localise la zone de contact à l’aide d’une
courbe correspondant aux valeurs des coefficient de métissage égales à 0,5. L’amplitude
du déplacement en cas de changement climatique est définie comme la distance entre la
courbe pour la zone de contact actuelle et la courbe pour la zone de contact prédite.
Renouvellement génétique de l’espèce (intraspecific turnover). Ce critère nous
permet d’évaluer la modification globale de la structure génétique des populations. Il est
mesuré à l’aide du coefficient de corrélation entre la matrice des coefficients de métissage
pour les conditions actuelles et la matrice des coefficients de métissage prédits en cas de
changement climatique. Plus la corrélation est faible, plus le renouvellement génétique
est important, i.e. plus le changement climatique risque d’avoir un impact élevé sur la
Relations entre structure génétique
et langages dans des populations
amérindiennes
3.1 Contexte
Pour mieux comprendre l’histoire du peuplement humain, les chercheurs combinent
souvent les informations apportées par diverses disciplines : paléontologie, archéologie,
gé-nétique des populations mais aussi linguistique. L’histoire évolutive des langages constitue
en elle-même un centre d’intérêt et peut être étudiée à la lueur de données génétiques ou
de méthodes utilisées en génétique des populations (par exemple, la reconstruction d’un
arbre de divergence des langues indo-européennes par Grayand Atkinson 2003). Déjà
Darwin, dans son ouvrage L’Origine des espèces, déclarait que la généalogie des
popu-lations humaines, si elle était parfaitement connue, procurerait la meilleure classification
possible des langues actuelles (Darwin 1859). C’est-à-dire que si les humains sont
re-liés entre eux selon un processus évolutif donné, les langues devraient avoir évolué selon
ce même processus. Pour expliquer cela, on a supposé que les populations sont reliées
entre elles essentiellement par une suite d’événements d’expansion-fission ayant eu lieu
au cours de la colonisation de la planète. Durant ces événements, gènes et langues
au-raient colonisé simultanément de vastes zones et y auau-raient coévolué (Cavalli-Sforza
et al.1988,1992). De là viendrait la forte corrélation actuelle entre génétique, linguistique
et géographie. Cavalli-Sforza et ses collaborateurs ont, entre autres, trouvé d’importantes
correspondances entre l’arbre évolutif construit à partir de marqueurs génétiques de 38
po-pulations du HGDP réparties dans le monde et la classification linguistique établie par
Ruhlen (1987) (voir Figure 3.1; Cavalli-Sforza et al. 1992). Si les avis ne sont pas
toujours aussi tranchés, il n’en demeure pas moins que les relations entre gènes et langages
sont au centre de nombreuses études (Sokal et al.1988; Excoffieret al. 1991;Belle
and Barbujani 2007; Hunley et al. 2008).
Dans notre étude, nous nous intéressons particulièrement aux relations entre langues,
géographie et structure génétique de populations amérindiennes. La classification des
langues amérindiennes a fait l’objet de vifs débats. Dans leur étude, basée sur des
don-nées génétiques, linguistiques et dentaires, Greenberg et al. (1986) suggèrent que le
peuplement américain a eu lieu en trois vagues de migration venues d’Asie, à l’origine
de trois groupes linguistiques différents (Amerinde, Na-Dene et Esquimo-Aléoute). Cette
théorie, et en particulier l’existence d’une super-famille linguistique Amerinde regroupant
un grand nombre de langages, est fortement controversée (Bolnick et al. 2004). À ce
jour, il n’existe toujours pas de consensus quant à la classification linguistique des langues
amérindiennes. Nous avons donc tenu compte de deux classifications : d’une part, celle
proposée par Greenberg et Ruhlen (Greenberg1987;Ruhlen1991) ; d’autre part, celle
de Gordon (2005), disponible sur le site The Ethnologue
1.
Les précédentes études des relations entre génétique et langages sont principalement
basées sur deux types de méthode détaillés dans la section 1.3. La méthode de Mantel
teste la significativité de la corrélation entre distances génétiques et distances
linguis-tiques. Elle peut être accompagnée du test de Mantel partiel pour tenir compte des
dis-tances géographiques. Ces tests ont été appliqués aux populations du HGDP par Belle
andBarbujani(2007) et aux populations amérindiennes parWanget al.(2007).Belle
andBarbujani(2007) trouvent que les données linguistiques expliquent une faible partie
de la variance génétique du HGDP lorsque la géographie est prise en compte, mais surtout
que la significativité de la corrélation dépend des définitions choisies pour les distances.
Wang et al. (2007) mettent en avant le fait que la corrélation chez les populations
amé-rindiennes est significative seulement si les populations, comparées deux à deux, parlent
des langues du même stock linguistique. Un deuxième type d’approche repose sur des
arbres de classification linguistique. Cavalli-Sforza et al. (1992) trouvent une forte
association entre arbres génétiques et arbres linguistiques de 42 populations, en utilisant
une mesure appeléeconstitency index.HunleyandLong(2005) etHunleyet al.(2007)
ont, eux, développé un test pour déterminer si un arbre linguistique est compatible avec
des distances génétiques. Lorsqu’ils l’appliquent à différentes classifications linguistiques
chez les populations amérindiennes, ils ne trouvent aucune classification compatible avec
les distances génétiques ; toutefois, certaines classifications fournissent une bien meilleure
prédiction des distances génétiques que d’autres.
Pour notre part, nous proposons d’étudier les relations entre structure génétique et
langages dans un cadre méthodologique nouveau, et de répondre aux questions suivantes.
Dans quelle mesure la géographie et les langues peuvent-elles expliquer la structure
gé-nétique des populations amérindiennes ? Ajoutées aux informations géographiques, les
informations linguistiques permettent-elles d’améliorer la prédiction de la structure
géné-tique des populations ? Y a-t-il une classification des langages amérindiens qui constitue
un meilleur prédicteur de cette structure ?
Figure3.1 – À gauche, un arbre montrant l’évolution génétique des populations construit
par Cavalli-Sforza et al. (1988). Seule la topologie de l’arbre est présentée, i.e. les
longueurs de branches ne correspondent pas aux temps de divergence. À droite, les familles
linguistiques de la classification de Greenberg (1987). Cavalli-Sforza et al. (1992)
présentent cette figure dans le cadre de leur étude de la coévolution entre gènes et langages.
Dans le document
Méthodes bayésiennes en génétique des populations : relations entre structure génétique des populations et environnement
(Page 50-56)