• Aucun résultat trouvé

Les nouvelles analyses statistiques de type ABC et ABC-RF pour définir les scénarios d’invasion et de dispersion

LA pyRALE DU bUIS

4.2 Les nouvelles analyses statistiques de type ABC et ABC-RF pour définir les scénarios d’invasion et de dispersion

4.2.1 Principe de l’ABC

L’Approximate Bayesian Computation, ou ABC (Beaumont et al. 2002), est une méthode

statistique permettant de simuler un large nombre de jeux de données sous une hypothèse de scénario « d’évolution ». Elle est utilisée dans différents domaines de l’écologie pour comprendre, par exemple, les processus d’évolutions ou encore les routes d’invasion d’espèces (Bertorelle et al. 2010, Beaumont 2010). L’ABC est utilisée pour estimer de nombreux paramètres démographiques des populations comme la taille efficace d’une population, la datation d’événements démographiques passés, ou la vitesse de propagation d’un pathogène (Bertorelle et al. 2010). Cette méthode permet d’inclure des données historiques, génétiques et démographiques mais aussi des populations non-échantillonnées pour tester différents modèles (ou scénarios) d’évolution voire d’introductions dans le cas d’espèces envahissantes (Beaumont et al. 2002, Bertorelle et al. 2010). Ainsi, les logiciels d’ABC peuvent être utilisés pour tenter de démêler des scénarios complexes d’invasion impliquant plusieurs introductions ou des

évènements d’admixture et permettent de distinguer statistiquement quel scénario serait le plus

probable (Guillemaud et al. 2010, Estoup et al. 2016). Les logiciels d’ABC comme DIYABC permettent d’utiliser différents types de marqueurs comme des séquences de l’ADN mitochondrial, des SNP ou encore des microsatellites (Cornuet et al. 2008, 2014).

Néanmoins, cette méthode présente des contraintes comme le temps de calcul qui limite le nombre de populations pouvant être analysées simultanément, le côté subjectif du choix des scénarios et des paramètres du modèle (Estoup et al. 2012) ou encore la nécessité d’utiliser des

populations d’une vingtaine d’individus a minima (Guillemaud et al. 2010). L’utilisateur doit

également garder à l’esprit que la méthode permet de définir un modèle ou scénario probable.

Plusieurs scénarios peuvent expliquer le jeu de données réel, et la méthode ne pouvant être exhaustive, chaque scénario est fondamentalement faux (Csilléry et al. 2010).

4.2.2 Les différentes étapes

L’ABC se découpe en plusieurs étapes (Figure 11) allant de la définition du modèle (ou des

modèles à tester) à la sélection du meilleur modèle ou scénario dans le cas des invasions biologiques. Pour pouvoir définir les différents scénarios à tester, il faut avoir au préalable décrit la diversité et la structure génétique des populations considérées à l’aide d’une approche phylogéographique avec un marqueur mitochondrial et/ou des marqueurs nucléaires comme les microsatellites. Dans les reconstructions des routes d’invasion, les méthodes bayésiennes de clustering avec des marqueurs multilocus sont largement utilisées pour estimer la structure des populations (Putman & Carbone 2014), les zones sources potentielles et l’historique de l’invasion

Chapitre 4 – De l’introduction à la dispersion dans la zone envahie

104

(Lombaert et al. 2014). Ces méthodes sont implantées dans un certain nombre de logiciels comme STRUCTURE (Lombaert et al. 2018), BAPS ou encore Geneland (Putman & Carbone 2014). Elles permettent de caractériser la diversité et la structuration génétique des populations et de formuler des hypothèses sur les scénarios d’introduction et de dispersion. Cette étape préliminaire est importante car elle permet de caricaturer l’histoire évolutive de l’espèce dans sa zone native. En caricaturant la zone d’origine, cela permet de ne considérer qu’une population par zone génétiquement différente à utiliser dans les scénarios d’ABC. Minimiser le nombre de populations utilisées diminue ainsi le nombre de scénarios potentiels et donc le nombre de simulations nécessaires pour estimer le meilleur scénario (Estoup & Guillemaud 2010). Cela permet aussi de maximiser la présence de populations informatives et d’apporter un poids statistique plus fort au meilleur scénario. Cette approche « caricaturale » peut aussi être utilisée dans la zone d’introduction, même si les populations testées en ABC sont souvent choisies en fonction des données historiques obtenues. Pour augmenter la robustesse des scénarios testés, des populations alternatives peuvent être choisies dans les mêmes groupes génétiques identifiés avec les méthodes bayésienne de clustering (Lombaert et al. 2014).

Figure 11. Les différentes étapes de l'Approximate Bayesian Computation (ABC) dans le cas de reconstruction des routes d'invasion, d’après Csilléry et al. (2010) et Bertorelle et al. (2010).

Une fois que le choix des populations et des scénarios à tester est fait, on définit les statistiques résumées ou « summary statistics » (Encadré 1) et la distribution des « priors ». Ils vont permettre d’inclure des données génétiques liées aux populations ainsi que des informations démographiques et historiques connues ou estimées. Ces paramètres seront utilisés pour simuler les jeux de données. Le nombre de jeux de données simulés par scénario est choisi en fonction de la technique d’estimation du meilleur scénario. Si l’utilisateur souhaite définir le meilleur modèle avec la méthode implémentée dans DIYABC, il est alors fortement conseillé de simuler un très

grand nombre de jeux de données par scénario (106 simulations). Cette méthode est une

régression logistique basée sur les jeux de données simulés ayant été conservés (Estoup et al.

2012). A l’inverse, si l’utilisateur souhaite utiliser la méthode de « Random Forest » pour définir le

meilleur scénario, alors le nombre de jeux de données peut être plus faible (104 simulations par

scénario ; cf 4.2.4 pour plus de précisions sur cette méthode). L’estimation du meilleur scénario

se fait en comparant les jeux de données simulés au jeu de données réel. Le meilleur scénario correspond alors à celui qui est le plus proche du jeu de données réel. Il existe différentes méthodes pour évaluer la confiance qu’on peut avoir dans le meilleur scénario, dont la comparaison de la distribution des paramètres simulés avec les paramètres réels du jeu de données. L’étape de vérification et de calcul des intervalles de confiance est importante car elle permet de donner un poids statistique et de la robustesse au scénario choisi. Il est possible que le meilleur scénario ne soit pas représentatif du jeu de données réel. On retourne alors à l’étape 1

Encadré n°1: Le petit glossaire de l’ABC

 Distribution des paramètres d’entrés (priors) : Distribution de la valeur des différents paramètres (e.g. historique, démographique), définie avant les analyses ABC, et qui permet la simulation des jeux de données.

 Distribution des paramètres de sorties (posteriors) : Correspond à la distribution des valeurs estimées des paramètres d’entrés utilisée pour simuler les jeux de données.

 Statistiques résumées (Summary statistics) : Valeurs qui vont résumer chaque jeu de données et qui permettent de décrire les variations génétiques intra et inter-populationnelles (e.g. nombre moyen d’allèles par locus, FST, Admixture).

 Forêt d’arbres décisionnels (Random Forest) : Méthode statistique qui classe les variables explicatives en fonction de leur lien avec la variable à expliquer.

 Taux d’erreur (Prior error rate) : Valeur représentant la mauvaise classification des scénarios lors de la création des arbres décisionnels et calculée après avoir réutilisé les valeurs non prises en compte lors de la création des arbres de décision.

 Probabilités postérieures (Posterior probabilities) : Valeur donnant la fiabilité du scénario défini comme étant le meilleur par la méthode de Random Forest et calculée à partir des arbres de décision.

Chapitre 4 – De l’introduction à la dispersion dans la zone envahie

106

afin de vérifier la distribution des priors et des summary statistics et d’améliorer le scénario pour

obtenir un modèle plus proche du jeu de données réel.

4.2.3 L’ABC dans l’inférence des routes d’invasion

Depuis une décennie, l’ABC est couramment utilisée dans la reconstruction des routes

d’invasion (Guillemaud et al. 2010, Benazzo et al. 2015) pour de nombreux organismes (e.g. Rijal

et al. 2015, van Boheemen et al. 2017, Lippens et al. 2017) dont les insectes (e.g. Boubou et al.

2012, Valentin et al. 2017, Dittrich-Schröder et al. 2018). Dans le cas, désormais bien connu, de la

coccinelle asiatique Harmonia axyridis, l’utilisation de cette méthode a non seulement mis en

évidence un phénomène tête de pont (Lombaert et al. 2010) mais a également révélé l’existence

d’introductions multiples depuis la zone d’origine ainsi que des phénomènes d’admixture parmi

les populations envahissantes (Lombaert et al. 2010, Lombaert et al. 2014). Plus récemment, cette

méthode a suggéré que l’invasion du frelon asiatique Vespa velutina en Europe serait due à

l’introduction en France d’un très faible nombre de femelles, voire d’une seule femelle fécondée par plusieurs mâles (Arca et al. 2015). Elle a également permis de souligner, à l’échelle du globe, la complexité des routes d’invasion de la mouche des fruits Drosophila suzukii. En effet, il est vraisemblable que cette invasion cumule différentes populations ayant servi de source, des introductions multiples, un phénomène tête de pont, ainsi que l’existence très probable

d’admixture dans certaines populations envahissantes (Fraimout et al. 2017). Dans le cas de

l’Ambroisie à feuilles d'armoise Ambrosia artemisiifolia, van Boheemen et al. (2017) ont montré

que les populations introduites résultent d’un phénomène d’admixture entre 2 populations de la

zone native.

4.2.4 L’apport de l’ABC-RF dans la compréhension des routes d’invasion

Depuis peu, une nouvelle méthode d’analyse des jeux de données simulés par l’ABC a été

développée pour estimer le meilleur scénario et se base sur la méthode statistique dite de Random

Forest (Pudlo et al. 2016). C’est une méthode de « machine learning » permettant de prendre en

compte de manière aléatoire toutes les valeurs des summary statistics simulées avec l’ABC, à

partir desquelles des arbres aléatoires sont construits pour définir le scénario le plus probable

sans influencer les performances de calcul. Pour construire ces arbres, les summary statistics sont

tirées aléatoirement par arbre, où chaque branche de l’arbre dépend de la relation entre les données simulées et les statistiques qui les décrivent. La méthode estime ensuite le nombre de fois où chaque scénario ressort et lui attribue un nombre de votes qui correspondent au nombre de fois où le scénario est tiré. Le meilleur scénario est alors celui qui possède le plus de votes. Le

« prior error rate » et le « posterior probability » (Encadré 1) sont calculés par la suite et

permettent d’évaluer la robustesse du scénario choisi. Le prior error rate donne une estimation

attribué un vote au mauvais scénario. La valeur est estimée en recréant des arbres de décisions à partir des jeux de données non utilisés pour déterminer le meilleur scénario. A l’inverse, le

posterior probability donne une valeur de probabilité au meilleur scénario sélectionné.

Le Random Forest a été utilisé pour la première fois pour le traçage des routes de l’invasion

complexe de la mouche des fruits Drosophila suzukii (Fraimout et al., 2017), évoquée plus haut (cf

4.2.3), et a été récemment utilisé pour celles de l’Ambroisie à feuilles d'armoise Ambrosia

artemisiifolia (van Boheemen et al. 2017). Le Random Forest permet de pallier deux problèmes

liés aux analyses ABC (Pudlo et al. 2016) : (i) devoir sélectionner une partie des summary statistics

à utiliser pour les analyses et (ii) les problèmes de temps de calcul dus au grand nombre de jeux

de données simulés par scénario (Estoup et al. 2012). Néanmoins, l’utilisation de l’ABC Random

Forest dans la définition des scénarios d’invasion d’espèces envahissantes est encore récente et

par conséquent, ses limites sont encore peu connues.

4.3 Identification des routes d’invasion de la pyrale du buis