• Aucun résultat trouvé

L’identification des populations sources et la description des routes d’invasion suivies et de la chronologie des évènements lors de la colonisation sont un premier pas vers une meilleure compréhension des processus écologiques et évolutifs des invasions biologiques (Estoup & Guillemaud 2010). Des méthodes directes et indirectes ont couramment été utilisées pour retracer les routes d’invasions.

Les méthodes directes reposent sur des observations de présence et d’absence des espèces envahissantes. Les routes d’invasion ont donc traditionnellement été reconstruites à partir de données historiques ou d’observations directes, telles que les dates et localités de premières observations. Par exemple, les routes d’invasions du moustique tigre asiatique

Aedes albobictus ont été retracées à partir de données de circulation aérienne et maritime en

relation avec les données climatiques (Tatem et al. 2006). Cependant, ces méthodes ne sont pas exhaustives, et sont souvent basées sur des données rares et incomplètes (Estoup &

Guillemaud 2010), rendant difficile la description rigoureuse des routes empruntées par les populations envahissantes. De plus, les données de présence ne reflètent pas forcément le succès d’établissement des individus.

Les approches moléculaires bien qu’indirectes offrent une alternative pour décrire et étudier les populations sources, les routes et les mécanismes d’expansion (Handley et al. 2011). Ces méthodes basées sur les patrons génétiques observés entre et au sein des populations permettent d’inférer des liens de parentés entre populations. Traditionnellement ces méthodes sont basées sur des dendogrammes de distances génétiques inter- populationnelles, des statistiques résumées de la diversité (FST) ainsi que des méthodes de

regroupements d’individus ou de populations. Ces approches ne permettent cependant pas de retracer des scenarios complexes en raison de l’effet du hasard (stochasticité) sur les paramètres démographiques et historiques (par exemple sur les effets fondateurs et sur la dérive génétique) et de l’existence de sources multiples et d’évènements d’admixture. La dérive génétique peut par exemple fortement accroitre la différentiation génétique entre une population envahissante et sa source en modifiant aléatoirement les fréquences alléliques (Knowles 2009). Ainsi, une seule population source peut donner naissance à une infinité de populations très différenciées suite à l’échantillonnage aléatoire des allèles dans l’aire native. Ces phénomènes peuvent alors considérablement brouiller les pistes et rendre difficile l’identification des populations sources et des routes de colonisation.

L’application aux données moléculaires des nouvelles approches d’Approximate

Bayesian Computation (ABC) offre maintenant l’opportunité de tester des scénarios

complexes et d’estimer des paramètres démographiques sous un modèle d’évolution donné (Beaumont et al. 2002; Estoup & Guillemaud 2010) (Encadré 3). L’ABC est une méthode bayésienne qui consiste à faire une approximation des vraisemblances de scénarios évolutifs via la simulation d’un grand nombre de jeux de données. Plus précisément, les probabilités postérieures de différents modèles et/ou les distributions postérieures des paramètres démographiques générés sous un modèle donné sont déterminées en comparant des statistiques calculées à partir des données réelles obtenues à partir des populations étudiées, à celles des données simulées (Beaumont 2010; Bertorelle et al. 2010; Csillery et al. 2010; Lopes & Beaumont 2010). Cette méthode permet d’estimer des paramètres historiques (temps de divergence), évolutifs (taux de mutation, influence de la sélection, hybridation) et démographiques (taille efficace de la population, goulot d’étranglement) à l’aide de données génétiques, et ceci même dans les cas où l’ensemble des populations source n’auraient pas été

échantillonnées (populations fantômes). Les analyses réalisées avec la méthode ABC constituent des outils puissants et efficaces dans le cadre de l’inférence des routes d’invasions de nombreuses espèces (e.g. Brouat et al. 2014; Lombaert et al. 2011; Miller et al. 2005; Pascual et al. 2007).

Cependant, la méthode ABC connait aussi un certain nombre de limites. Le choix de la nature des statistiques résumées et de leurs nombres utilisés pour répondre à une question donnée est une tâche délicate pour laquelle il n’existe pas de règle. Celles-ci doivent être choisies de manière à représenter de manière pertinente les caractéristiques des données, être en nombre suffisant, mais non redondantes. Des solutions pour aider au choix de ces statistiques ont été proposées par différents auteurs (Blum & François 2010; Joyce & Marjoram 2008; Wegmann et al. 2009). De plus, la nature bayésienne contraint à fixer des distributions de paramètres a priori dans un intervalle qui doit être suffisamment large pour inclure toutes les valeurs jugées probables. Enfin, seul un nombre limité de modèles pourra être exploré (Templeton 2010). Il est donc nécessaire de procéder avec prudence et d’avancer pas à pas au cours d’une analyse basée sur les méthodes ABC. L’utilisation de données historiques et des méthodes indirectes mentionnées précédemment peuvent augmenter l’efficacité de la méthode (Estoup & Guillemaud 2010).

Outre la description des routes d’invasions, l’utilisation des données moléculaires a permis des avancées dans la compréhension des processus gouvernant les invasions. Elles ont ainsi révélé que les processus d’invasions impliquaient fréquemment des introductions multiples, ce qui expliquait des niveaux de diversité similaires voire plus élevés dans l’aire envahie par rapport à l’aire native (Dlugosch & Parker 2008). Ceci est aussi avancé pour expliquer le succès paradoxal des populations envahissantes à surmonter les effets fondateurs associés à la colonisation (e.g. Roman & Darling 2007). Un autre phénomène, l’effet « tête de pont », a été mis en évidence : une population établie et envahissante sert à son tour de population source lors d’invasions secondaires de territoires potentiellement isolés (e.g. Lombaert et al. 2010). D’un point de vue évolutif, un unique changement évolutif dans la population introduite (la population « tête de pont ») est requis, alors que plusieurs changements sont nécessaires dans le cas d’introductions multiples (Estoup & Guillemaud 2010).

D’un point de vue général, l’étude des processus d’invasions biologiques nous apportent de nombreux enseignements sur la dynamique des processus évolutifs et écologiques sur des

échelles de temps très courtes (Lee 2002; Sax et al. 2007). Elle fournit ainsi des informations sur la vitesse d’adaptation et le rôle des goulots d’étranglement dans l’évolution des espèces (Bock et al. 2015). De plus, d’un point de vue plus appliqué, décrire les populations sources et les routes de colonisation permet de renforcer la vigilance face aux espèces envahissantes, via par exemple des suivis spécifiques des populations sources identifiées ou des populations « tête de pont » (Estoup & Guillemaud 2010). D’autre part, les connaissances sur les populations sources peuvent aider à définir les caractéristiques écologiques des populations envahissantes et par conséquent, prédire l’étendue de la distribution de l’espèce dans le nouvel environnement (Kolar & Lodge 2001).

Encadré 3. Inférence des routes d’invasion par la méthode ABC

Dans cet encadré, nous ne détaillerons pas les caractéristiques statistiques de l’approche ABC qui ont été détaillées dans des revues récentes (Beaumont 2010; Bertorelle et al. 2010; Csillery et al. 2010; Lopes & Beaumont 2010). Nous présenterons, en revanche, le principe et les grandes étapes de l’analyse basée sur la méthode ABC.

Le principe général

Grâce aux statistiques bayésiennes, il est possible de construire des modèles et/ou d’estimer des paramètres sous un modèle donné à partir de données observées telles que des génotypes multi-locus (Beaumont & Rannala 2004). Par conséquent, il est possible de déterminer la distribution a posteriori d’un modèle ou du paramètre θ en connaissant les données observées

D en suivant l’équation suivante : P(θ|D) ∝ P(D|θ)P(θ) où P(θ) est la distribution a priori du

modèle ou du paramètre.

La probabilité P(D|θ) d’observer les données D étant donné le paramètre (ou le modèle) θ correspond à la vraisemblance de θ. Cette vraisemblance peut être estimée, mais lorsque les modèles sont très complexes, cette estimation devient difficile voire impossible. Dans ce cas, des méthodes sans calcul de la vraisemblance (likelihood free) permettent de calculer une distribution a posteriori en remplaçant la vraisemblance par une approximation en utilisant les statistiques résumées sur des jeux de données simulés selon différents modèles. La méthode ABC est une de ces méthodes particulièrement bien adaptée à l’analyse de données génétiques (Beaumont 2010; Beaumont et al. 2002; Bertorelle et al. 2010; Csillery et al. 2010; Lopes & Beaumont 2010).

Encadré 3. Suite

Les étapes de l’analyse

Le déroulement d’une analyse basée sur les méthodes ABC peut se décomposer en 5 étapes. A chacune de ces étapes, des phases de validations sont effectuées avant de passer à l’étape suivante :

Etape 1 : Définition des scénarios et priors. Il s’agit d’établir des scénarios d’introduction et d’associer des valeurs ou des distributions a priori à chacun des paramètres génétiques (taux de mutation des marqueurs), démographiques (tailles efficaces des populations), historiques (dates de première observation de chacune des populations envahissantes) et à la fréquence des modèles.

Etape 2 : Choix des statistiques résumées et simulations de données génétiques. Il s’agit de simuler des données génétiques selon chacun des scénarios à partir d’un modèle stochastique de mutation et de dérive liant démographie et génétique. Les paramètres sont tirés aléatoirement dans la distribution des priors. Chacun des jeux de données est ensuite résumé à l’aide des statistiques précédemment choisies pour décrire les variations génétiques intra et inter populationnelles (nombre moyen d’allèles par locus, hétérozygotie attendue, FST par

paire de populations).

Etape 3 : Rejet des jeux de données les moins informatifs. Les distances euclidiennes entre les statistiques simulées et observées sont calculées, puis les simulations les plus éloignées des observations, au-delà d’un certain seuil, sont rejetées.

Etape 4 : Sélection du scénario le plus probable. Le calcul de la probabilité a posteriori de chaque scénario par une régression logistique sur les jeux de données simulés conservés lors de l’étape 3 va permettre d’identifier le scénario. Il est ensuite possible d’estimer des distributions a posteriori des paramètres du scénario gagnant.

Etape 5 : Evaluation de la puissance d’analyse et de la pertinence des inférences. Il important (i) de vérifier la puissance de l’analyse effectuée en calculant les erreurs de type I et les erreurs de type II à l’aide de données simulées, utilisées comme des données qui auraient été observées (jeu de données pseudo-observées), pour déterminer si l’analyse permet de bien distinguer les différents scénarios et (ii) de contrôler la concordance entre le scénario sélectionné et les données observées en simulant des données à partir de valeurs de paramètres tirées dans les distributions a posteriori ( « model checking ») qui permet de déterminer si le scénario sélectionné et les distributions a posteriori des paramètres inférées reproduisent convenablement les données observées. En cas d’incohérence, il peut être nécessaire de repasser à l’étape 1.

Documents relatifs