• Aucun résultat trouvé

Modéliser les niches et les distributions : des étapes fondamentales, une diversité de

4. Les modèles de niche écologique

4.2. Modéliser les niches et les distributions : des étapes fondamentales, une diversité de

Les modèles de niche écologique, également connus sous les noms de « modèles d’habitat », « modèles de distribution d’espèces » ou « modèles d’enveloppe bioclimatique », bien qu’il existe des nuances entre ces différentes appellations (encadré 1), consistent à établir un lien mathématique entre la présence ou l’abondance d’une espèce et une combinaison de variables environnementales afin d’expliquer son patron de distribution (Guisan & Zimmermann, 2000).

Bien qu’il existe une grande variété de méthodes et d’applications, une même approche est en général utilisée pour modéliser les niches écologiques et estimer les distributions géographiques des espèces. Le processus peut être résumé de la manière suivante (Hirzel et al., 2002) :

1. la zone d’étude est modélisée en tant que carte digitale au format raster, composée d’une grille de cellules à une résolution déterminée ;

Encadré 1 : Terminologie utilisée dans la littérature pour désigner des modèles explorant les relations entre la présence ou l’abondance d’une espèce et des prédicteurs environnementaux. D’après Araújo & Peterson (2012).

Modèle de niche écologique : estimation de l’espace environnemental qui correspond au mieux à la

distribution observée d’une espèce en lien avec la théorie de la niche écologique, qui prend sa source avec les travaux de Grinnell et d’Hutchinson.

Modèle d’habitat : expression liée à la définition de la « niche » puisqu’elle se rapporte à l’espace

géographique dont les caractéristiques environnementales sont favorables à une espèce plutôt qu’à sa distribution effective. Le terme « habitat » met l’accent sur l’espace physique où vit une espèce et sur les ressources qu’elle peut utiliser. Ainsi, cela ouvre la porte à l’incorporation de variables trophiques et de facteurs biotiques souvent absents des modèles. Cette définition est plus appropriée aux études à plus petite échelle spatiale dans lesquelles de telles connexions sont plus facilement établies.

Modèle de distribution d’espèce : modélisation de la distribution géographique de l’espèce (en matière de

probabilité d’occurrence ou d’abondance). La plupart des applications de tels modèles caractérise l’espace environnemental multivarié qui délimite la distribution des espèces, et projette ensuite un sous-ensemble de l’espace environnemental dans l’espace géographique. Des mécanismes importants, tels que la dispersion d’une espèce, son établissement ou les interactions biotiques ne sont pas pris en compte. Si seul le caractère approprié/habitable d’un espace géographique est modélisé, un modèle de distribution d’espèce estimera quelque chose proche de la distribution potentielle.

Modèle d’enveloppe bioclimatique : estimation de l’espace multivarié de variables climatiques (l’enveloppe)

qui correspond au mieux à la distribution observée de l’espèce. Le terme d’ « enveloppe » a souvent été utilisé pour définir les approches multivariées utilisant des données de présence seulement, mais tous les modèles qui construisent un espace multivarié de variables prédictives peuvent être considérés comme générant une enveloppe. Le mot « bioclimatique » peut être réducteur puisque les espèces peuvent être reliées à d’autres covariables environnementales que celles liées au climat. Des termes plus génériques, tels que «enveloppe abiotique » ou « environnementale », surmontent cette limitation.

Encadré 1 : Terminologie utilisée dans la littérature pour désigner des modèles explorant les

relations entre la présence ou l’abondance d’une espèce et des prédicteurs environnementaux. D’après Araújo & Peterson (2012).

33

2. la variable dépendante est la distribution connue d’une espèce ;

3. une série de variables environnementales est collectée afin de caractériser chaque cellule ; 4. une fonction des variables environnementales est générée afin de mesurer le degré avec

lequel une cellule est appropriée pour l’espèce.

En pratique, quatre étapes concrètes intervenant dans le processus de modélisation peuvent être identifiées (Peterson et al., 2011).

Etape 1 : Préparation des données

La première étape pour construire un modèle de niche consiste à collecter, traiter, vérifier et formater les données. Deux types de données sont nécessaires : les données biologiques, décrivant la distribution connue d’une espèce, et les données environnementales, décrivant l’espace dans lequel se trouve l’espèce. Les données de distribution d’une espèce peuvent être soit des présences seules (i.e. des signalements de l’espèce), soit des présences/absences (i.e. des signalements de présences et d’absences aux lieux échantillonnés), soit des abondances (i.e. des nombres d’individus de l’espèce aux lieux échantillonnés). Les variables environnementales peuvent comprendre soit des variables continues telles que la température ou la tension de cisaillement sur le fond, soit des variables qualitatives telles que la nature du sédiment. Les données qualitatives ne peuvent cependant pas être utilisées par un certain nombre d’algorithmes développés pour la modélisation des niches écologiques.

Etape 2 : Modélisation de la niche

Une fois les données collectées, l’étape suivante consiste en l’utilisation d’un algorithme de modélisation pour caractériser la niche écologique de l’espèce en fonction des variables environnementales. Il existe aujourd’hui un certain nombre d’algorithmes alternatifs permettant d’identifier les relations potentiellement complexes et non-linéaires dans l’espace environnemental multidimensionnel (encadré 2 ; Guisan & Zimmermann, 2000 ; Peterson et al., 2011).

34

Encadré 2 : Les grandes familles de méthodes utilisées pour modéliser la distribution des espèces.

Les enveloppes bioclimatiques

Les enveloppes bioclimatiques caractérisent les sites de l’espace environnemental multidimensionnel occupés par une espèce. BIOCLIM est un modèle d’enveloppe qui utilise la moyenne et l’écart-type de chaque variable environnementale pour calculer les enveloppes bioclimatiques. Des données de présence seulement sont nécessaires.

Les méthodes de régressions généralisées

La régression est une approche statistique qui relie une variable réponse (dépendante) et des variables explicatives (indépendantes). Les modèles linéaires généralisés (GLM) sont des extensions des méthodes de régression basiques par la méthode des moindres carrés qui sont plus flexibles, notamment en permettant différentes distributions de la variable réponse. Ils permettent ainsi de relier la moyenne de la variable réponse à une combinaison de variables explicatives (linéaires, quadratiques ou polynomiales). Les modèles additifs généralisés (GAM) sont des extensions semi-paramétriques des GLM plus adaptées à la modélisation de relations non-linéaires complexes sans a

priori par rapport à la forme de la réponse aux variables prédictives. Ils appliquent une fonction de

lissage à chaque prédicteur et calculent la réponse par cumulation. Les régressions multivariées par

splines adaptatifs (MARS) constituent une alternative pour décrire les réponses non linéaires en

utilisant des régressions linéaires par partition récursive. Les régressions quantiles (RQ) permettent de modéliser n’importe quelle borne relative de la distribution des données plutôt que la moyenne.

Les techniques de classification et les arbres de régression

Les arbres de classification ou Classification Tree Analysis (CTA) sont construits par la partition répétée des données en deux groupes mutuellement exclusifs, chacun étant le plus homogène possible. Les Random Forest (RF) génèrent de multiples arbres de classification avec un sous-ensemble aléatoire de prédicteurs. Le nombre de prédicteurs utilisés pour réaliser la partition à chaque branche est aléatoire et les arbres sont moyennés.

Les analyses discriminantes

Les analyses discriminantes linéaires (LDA) considèrent que la distribution des présences et celle des absences suivent chacune une distribution Gaussienne. Les analyses discriminantes flexibles (FDA) sont des extensions des LDA qui permettent de mélanger plusieurs distributions Gaussiennes.

Les méthodes d’apprentissage

Les méthodes d’apprentissage ne s’appuient sur aucun modèle particulier de courbe de réponse défini a priori mais « apprennent » la relation entre la variable réponse et ses prédicteurs. Les réseaux

neuronaux artificiels (ANN) « apprennent » ainsi la réponse d’une espèce aux variables

environnementales prédictives en faisant passer de manière répétée les données de construction du modèle à travers un réseau artificiel de « neurones ». En ajustant les structures internes du réseau neuronal après chaque itération, les ANN estiment une réponse dans une partie du réseau sur la base des données des variables environnementales qui entrent à des points différents du réseau. Les

arbres de régression boostés (BRT) sont destinés à améliorer la performance des arbres de régression

et de classification en ajustant un grand nombre de modèles et en les combinant pour créer des prédictions. Ils s’appuient sur les arbres de l’itération précédente en se focalisant de manière séquentielle sur les données observées les plus difficiles à prédire. MAXENT estime la distribution d’une espèce en identifiant la probabilité de distribution d’entropie maximum (i.e. la plus répandue) contrainte par la valeur attendue de chaque variable environnementale pour correspondre à la moyenne empirique.

35

Etape 3 : Prédictions et évaluation

En fonction de l’algorithme retenu, plusieurs types de prédictions peuvent être obtenus : des prédictions binaires (présence/absence), des probabilités d’occurrence, des probabilités de trouver des cellules similaires à celles déjà observées, des quantités liées aux enveloppes décrivant l’appartenance à un ensemble, des abondances moyennes ou encore des abondances à un quantile de distribution spécifié. En fonction des réalités biologiques et des hypothèses formulées, les prédictions peuvent correspondre de manière plus ou moins proche aux espaces géographique et environnemental occupés par l’espèce. L’évaluation de la justesse de prédiction d’un modèle, connue sous le nom de « validation » ou d’ « évaluation » est une étape essentielle du processus de modélisation. Dans l’idéal, les données utilisées pour l’évaluation du modèle doivent être collectées indépendamment des données utilisées pour sa calibration (Peterson et al., 2011). Il est toutefois commun d’utiliser une approche de partition des données pour générer un sous-ensemble de données destiné à la calibration et un autre destiné à son évaluation.

Dans le cas des modèles basés sur des données de présence/absence, deux types d’erreurs de prédiction sont possibles : les faux positifs et les faux négatifs. La performance prédictive peut être résumée par une matrice de confusion (encadré 3) pour laquelle des prédictions binaires plutôt que des probabilités d’occurrence sont requises. Ainsi, lorsque les sorties du modèle sont continues, il est souvent nécessaire de convertir ces prédictions continues en prédictions binaires en choisissant une valeur seuil à partir de laquelle l’espèce étudiée est considérée comme présente ou absente. A partir de cette matrice de confusion, plusieurs mesures statistiques ont été proposés pour évaluer la performance prédictive des modèles (Tableau 1 ; Fielding & Bell, 1997). Lorsque les sorties du modèle sont continues, l’évaluation de sa performance prédictive par l’utilisation de ces mesures est sensible au choix de la méthode utilisée pour sélectionner un seuil permettant de définir la prédiction binaire. Il est donc souvent utile d’utiliser un test statistique qui fournisse une mesure de performance indépendante du choix d’un seuil. C’est ce qu’offre l’aire sous la courbe « caractéristique de fonctionnement du récepteur » ou AUC (Area Under the Receiver Operating Characteristic Curve, Fig. 19).

36

Encadré 3 : La matrice de confusion : une méthode d’évaluation de la performance prédictive des modèles de présences/absences.

La matrice de confusion, également appelée « matrice d’erreur » ou « tableau de contingence », rassemble les fréquences de chacun des quatre cas possibles lors de la confrontation des prédictions avec les données d’évaluation du modèle.

a

Vrais positifs

b

Faux positifs

c

Faux négatifs

d

Vrais négatifs

Les faux positifs correspondent à l’erreur de type 1 ou erreur de « commission ». Les faux négatifs correspondent à l’erreur de type 2 ou erreur d’ « omission ». La proportion d’occurrences observées correctement prédites est appelée « sensibilité » ou « taux de de vrais positifs ». La proportion d’absences observées correctement prédites est appelée « sensibilité » ou « taux de vrais négatifs ». Chaque élement de la matrice de confusion peut être représenté dans l’espace géographique (d'après Pearson, 2007) :

où a est le nombre de présences correctement prédites par le modèle, b le nombre de présence prédites à tort par le modèle, c le nombre d’absences prédites à tort par le modèle et d le nombre d’absences correctement prédites par le modèle.

Présence Absence Pr és ence Abs ence Observations Pr éd ic tio ns

Erreur de type 1 = taux de faux positifs

Erreur de type 2 = taux de faux négatifs

Sensibilité =𝐚+𝐜𝐚

Spécificité =𝐛+𝐝𝐝

L’espace géographique représenté utilise la même distribution effective hypothétique que dans la figure 18. Chaque symbole décrit un site échantillonné où la présence ou l’absence de l’espèce est observée (on suppose ici que si le site d’échantillonnage fait partie de la distribution effective de l’espèce, alors elle est détectée). Ces observations constituent les données de calibration du modèle.

Encadré 3 : La matrice de confusion : une méthode d’évaluation de la performance prédictive des

modèles de présences/absences. Espace géographique Distribution effective Modèle de distribution d’espèce Vrais positifs Faux positifs Faux négatifs Vrais négatifs

37

Tableau 1. Exemples de mesures statistiques de la performance prédictive des modèles dérivées de la matrice de confusion. D’après Fielding & Bell (1997).

Figure. 19. Exemple de courbes « caractéristiques de fonctionnement du récepteur » (ROC) et illustration de distributions de fréquences. D’après Pearson (2007). (A) Courbes ROC créées en reportant la sensibilité en fonction de « 1 – la spécificité ». Deux courbes sont représentées. La courbe la plus haute (en rouge) traduit une meilleure performance prédictive du modèle. La ligne pointillée représente une performance prédictive égale au hasard et pour laquelle il est impossible de distinguer les sites occupés des sites inoccupés. (B) et (C) montrent des exemples de distributions de fréquences des probabilités prédites par un modèle pour les « présences » et « absences » observées. Les résultats montrent que (B) possède une bonne capacité à distinguer les présences des absences alors que les résultats pour (C) montrent davantage de chevauchement entre les distributions de fréquences, mettant en évidence une mauvaise capacité à distinguer les présences des absences. Le cas représenté en (B) produirait une courbe ROC similaire à la courbe rouge en (A). Le cas présenté en (C) donnerait une courbe ROC plus semblable à la courbe bleue en (A).

38

Etape 4 : Transférabilité du modèle

Pour certaines applications, il est nécessaire de transférer les conditions modélisées de la niche afin de prédire la distribution potentielle d’une espèce dans une nouvelle région ou pour une période de temps différente. Si transférer un modèle dans l’espace géographique permet d’identifier des régions avec un environnement similaire à celui modélisé pour une espèce, le transférer dans l’espace environnemental revient au contraire à prédire au-delà de la gamme de variabilité environnementale observée ayant servi à calibrer le modèle et est à même de présenter certains risques (e.g. Pearson et al., 2006).

Documents relatifs