• Aucun résultat trouvé

2.5 Projeter la structure génétique des populations

2.5.2 Modèle de projection de la structure génétique des populations

popu-lations

Contexte : les modèles de distribution d’espèce. Dans les modèles de

distribu-tion d’espèce (species distribution models, SDMs) ce sont les données d’absence/présence,

parfois de présence uniquement, qui sont reliées à l’environnement. De nombreuses

mé-thodes sont actuellement employées pour estimer cette relation (Guisan and

Zimmer-mann 2000). La méthode la plus évidente est certainement la régression logistique. Les

données d’absence/présence peuvent en effet être codées comme des variables binaires

(absence = 0, présence = 1) que l’on souhaite expliquer à l’aide de combinaisons de

me-sures environnementales. Pour cela, une solution simple est de calibrer un modèle linéaire

généralisé (GLM (generalized linear model), Nelder and Wedderburn 1972) avec

comme fonction de lien la fonction logit. Un modèle de régression plus souple, le modèle

additif généralisé (GAM (generalized additive model), Hastie and Tibshirani 1990),

est aussi utilisé. Dans ce modèle la réponse binaire est expliquée par l’addition de

fonc-tions, à ajuster, des variables environnementales (Yee and Mitchell 1991). D’autres

types d’approche ne reposent pas sur les modèles de régression. Par exemple, l’algorithme

de type CART (classification and regression tree) est appliqué pour construire un arbre

de décision binaire expliquant la présence ou l’absence (Thuiller 2003). Les règles de

décision (à chaque nœud de l’arbre) sont construites à partir des variables

environnemen-tales. Des méthodes basées sur l’estimation de l’enveloppe minimale de la distribution

d’une espèce dans l’espace multidimensionnel des variables climatiques ont aussi été

dé-veloppées (Busby 1991; Walker and Cocks 1991; Carpenter et al. 1993). Enfin,

d’autres approches s’appuyant sur des méthodes de réseaux de neurones, d’analyse

cano-nique des correspondances ou encore d’analyse discriminante sont présentées par Guisan

and Zimmermann (2000) et Jeschke and Strayer (2008).

Une fois le modèle choisi calibré, la présence (ou parfois la probabilité de présence)

d’une espèce dans un emplacement peut être prédite à partir des mesures

environne-mentales (actuelles, passées, futures) de cet emplacement. De cette manière, on peut,

par exemple, obtenir la distribution d’une espèce en cas de changement climatique et la

comparer à la distribution actuelle. La comparaison mettra en évidence les zones dans

lesquelles l’espèce risque de disparaître et l’étendue des zones qui vont rester ou devenir

habitables dans le futur (e.g. Figure 2.4).

Utiliser POPS pour projeter la structure génétique de populations. Le principe

de notre approche est d’étudier non pas la distribution d’une espèce dans sa globalité,

mais la distribution intraspécifique. Pour cela nous nous intéressons aux données

géné-tiques multilocus, plutôt qu’aux données d’absence/présence. La méthode de POPS, que

nous avons présentée dans ce chapitre, consiste à estimer conjointement la structure

géné-tique de population d’une espèce et son lien éventuel à des covariables non génégéné-tiques. Si

ce lien est significatif, la structure peut être prédite à partir des covariables, en particulier

à partir de covariables dont les valeurs ont été modifiées (pour cause d’un changement

cli-matique par exemple). Le modèle de régression cachée dePOPSpermet en effet de simulera

posteriori des coefficients de métissage en utilisant les équations (2.16) et (2.17), la

distri-butiona posteriori des coefficients de régression et les nouvelles valeurs de covariables. La

projection sur une carte des coefficients de métissage donne alors un aperçu de la structure

génétique des populations en cas de changement des conditions environnementales.

De manière analogue aux SDMs qui comparent distributions actuelle et future de

l’espèce, il est possible de comparer projections actuelle et future de la structure génétique

des populations. Nous définissons ci-dessous deux critères que nous avons utilisés pour

réaliser ces comparaisons.

Déplacement de la zone de contact entre deux clusters. Nous pouvons évaluer

des phénomènes comme des mouvements de clusters dans l’espace ou encore la disparition

d’un cluster spécifique. En particulier, si une zone de contact existe entre deux clusters

voisins géographiquement (i.e. une zone où les individus sont métissés et où l’on peut

observer une variation graduelle des coefficients de métissage), il est possible d’étudier son

déplacement en cas de changement climatique. On localise la zone de contact à l’aide d’une

courbe correspondant aux valeurs des coefficient de métissage égales à 0,5. L’amplitude

du déplacement en cas de changement climatique est définie comme la distance entre la

courbe pour la zone de contact actuelle et la courbe pour la zone de contact prédite.

Renouvellement génétique de l’espèce (intraspecific turnover). Ce critère nous

permet d’évaluer la modification globale de la structure génétique des populations. Il est

mesuré à l’aide du coefficient de corrélation entre la matrice des coefficients de métissage

pour les conditions actuelles et la matrice des coefficients de métissage prédits en cas de

changement climatique. Plus la corrélation est faible, plus le renouvellement génétique

est important, i.e. plus le changement climatique risque d’avoir un impact élevé sur la

Relations entre structure génétique

et langages dans des populations

amérindiennes

3.1 Contexte

Pour mieux comprendre l’histoire du peuplement humain, les chercheurs combinent

souvent les informations apportées par diverses disciplines : paléontologie, archéologie,

gé-nétique des populations mais aussi linguistique. L’histoire évolutive des langages constitue

en elle-même un centre d’intérêt et peut être étudiée à la lueur de données génétiques ou

de méthodes utilisées en génétique des populations (par exemple, la reconstruction d’un

arbre de divergence des langues indo-européennes par Grayand Atkinson 2003). Déjà

Darwin, dans son ouvrage L’Origine des espèces, déclarait que la généalogie des

popu-lations humaines, si elle était parfaitement connue, procurerait la meilleure classification

possible des langues actuelles (Darwin 1859). C’est-à-dire que si les humains sont

re-liés entre eux selon un processus évolutif donné, les langues devraient avoir évolué selon

ce même processus. Pour expliquer cela, on a supposé que les populations sont reliées

entre elles essentiellement par une suite d’événements d’expansion-fission ayant eu lieu

au cours de la colonisation de la planète. Durant ces événements, gènes et langues

au-raient colonisé simultanément de vastes zones et y auau-raient coévolué (Cavalli-Sforza

et al.1988,1992). De là viendrait la forte corrélation actuelle entre génétique, linguistique

et géographie. Cavalli-Sforza et ses collaborateurs ont, entre autres, trouvé d’importantes

correspondances entre l’arbre évolutif construit à partir de marqueurs génétiques de 38

po-pulations du HGDP réparties dans le monde et la classification linguistique établie par

Ruhlen (1987) (voir Figure 3.1; Cavalli-Sforza et al. 1992). Si les avis ne sont pas

toujours aussi tranchés, il n’en demeure pas moins que les relations entre gènes et langages

sont au centre de nombreuses études (Sokal et al.1988; Excoffieret al. 1991;Belle

and Barbujani 2007; Hunley et al. 2008).

Dans notre étude, nous nous intéressons particulièrement aux relations entre langues,

géographie et structure génétique de populations amérindiennes. La classification des

langues amérindiennes a fait l’objet de vifs débats. Dans leur étude, basée sur des

don-nées génétiques, linguistiques et dentaires, Greenberg et al. (1986) suggèrent que le

peuplement américain a eu lieu en trois vagues de migration venues d’Asie, à l’origine

de trois groupes linguistiques différents (Amerinde, Na-Dene et Esquimo-Aléoute). Cette

théorie, et en particulier l’existence d’une super-famille linguistique Amerinde regroupant

un grand nombre de langages, est fortement controversée (Bolnick et al. 2004). À ce

jour, il n’existe toujours pas de consensus quant à la classification linguistique des langues

amérindiennes. Nous avons donc tenu compte de deux classifications : d’une part, celle

proposée par Greenberg et Ruhlen (Greenberg1987;Ruhlen1991) ; d’autre part, celle

de Gordon (2005), disponible sur le site The Ethnologue

1

.

Les précédentes études des relations entre génétique et langages sont principalement

basées sur deux types de méthode détaillés dans la section 1.3. La méthode de Mantel

teste la significativité de la corrélation entre distances génétiques et distances

linguis-tiques. Elle peut être accompagnée du test de Mantel partiel pour tenir compte des

dis-tances géographiques. Ces tests ont été appliqués aux populations du HGDP par Belle

andBarbujani(2007) et aux populations amérindiennes parWanget al.(2007).Belle

andBarbujani(2007) trouvent que les données linguistiques expliquent une faible partie

de la variance génétique du HGDP lorsque la géographie est prise en compte, mais surtout

que la significativité de la corrélation dépend des définitions choisies pour les distances.

Wang et al. (2007) mettent en avant le fait que la corrélation chez les populations

amé-rindiennes est significative seulement si les populations, comparées deux à deux, parlent

des langues du même stock linguistique. Un deuxième type d’approche repose sur des

arbres de classification linguistique. Cavalli-Sforza et al. (1992) trouvent une forte

association entre arbres génétiques et arbres linguistiques de 42 populations, en utilisant

une mesure appeléeconstitency index.HunleyandLong(2005) etHunleyet al.(2007)

ont, eux, développé un test pour déterminer si un arbre linguistique est compatible avec

des distances génétiques. Lorsqu’ils l’appliquent à différentes classifications linguistiques

chez les populations amérindiennes, ils ne trouvent aucune classification compatible avec

les distances génétiques ; toutefois, certaines classifications fournissent une bien meilleure

prédiction des distances génétiques que d’autres.

Pour notre part, nous proposons d’étudier les relations entre structure génétique et

langages dans un cadre méthodologique nouveau, et de répondre aux questions suivantes.

Dans quelle mesure la géographie et les langues peuvent-elles expliquer la structure

gé-nétique des populations amérindiennes ? Ajoutées aux informations géographiques, les

informations linguistiques permettent-elles d’améliorer la prédiction de la structure

géné-tique des populations ? Y a-t-il une classification des langages amérindiens qui constitue

un meilleur prédicteur de cette structure ?

Figure3.1 – À gauche, un arbre montrant l’évolution génétique des populations construit

par Cavalli-Sforza et al. (1988). Seule la topologie de l’arbre est présentée, i.e. les

longueurs de branches ne correspondent pas aux temps de divergence. À droite, les familles

linguistiques de la classification de Greenberg (1987). Cavalli-Sforza et al. (1992)

présentent cette figure dans le cadre de leur étude de la coévolution entre gènes et langages.

Documents relatifs