• Aucun résultat trouvé

1.2 Modélisation de l’aire de distribution potentielle des habitats natu-

1.2.1 L’échantillonnage des bases de données floristique et habitat

Que l’approche directe ou indirecte soit utilisée, l’échantillonnage des bases de données est primordial pour ajuster des modèles de distribution robustes et non-biaisés (figure 121). Cet échantillonnage a pour but de (i) réduire le sur- échantillonnage des conditions environnementales et des zones géographiques qui pourrait fausser la relation entre espèce-environnement ou habitat-environnement, 1. http ://www.ifn.fr/spip/spip.php ?rubrique182&rub=cat pour un descriptif détaillé de la démarche pour la variable pH : ajustement de la niche écologique des plantes pour chacun de ces gradients à partir des relevés EcoPlant combinant des données de présence/absence des espèces et des mesures des variables édaphiques et d’hydromorphie (Gégout et al., 2003)

Chapitre 1 Matériel et méthodes

(ii) limiter l’autocorrélation spatiale qui pourrait baiser l’ajustement des modèles et (iii) équilibrer la gamme de variation environnementale des présences et ab- sences de l’espèce. Pour ce faire, un échantillonnage indépendant est réalisé pour chaque espèce (à partir de la BD floristique) et habitat (à partir de la BD Habitat) de la manière suivante :

– Croisement de la répartition des relevés avec une grille d’1 km de résolution (en accord avec la résolution des variables environnementales).

– Séparation des relevés de présence et d’absence. L’échantillonnage est mené séparément sur chacun de ces sous-jeux de données. Les relevés uniques dans une maille sont sélectionnés et conservés. Les autres sont comparés entre eux à l’intérieur de chaque maille en confrontant les conditions climatiques des relevés (températures moyennes et cumul des précipitations annuelles). Les différences de conditions climatiques observées entre les relevés d’une même maille proviennent de la date d’observation. Deux relevés d’une même maille sont sélectionnés si la différence de température moyenne annuelle excède 0.25°C. Si les relevés n’ont pas pu être départagés alors les relevés ayant une différence de 20 mm de précipitations sont conservés. Si à nouveau les relevés n’ont pas pu être départagés alors un relevé est conservé par tirage aléatoire.

Figure 1.2.1: Protocole d’ajustement, validation et spatialisation des modèles de distribution des espèces et des habitats

1.2.2 Estimation des conditions environnementales favorables

La cartographie des habitats est réalisée par modélisation de leur distribution à partir de variables environnementales [Araujo 11, Marage 09]. Cette approche est basée sur la théorie de la niche écologique, soit sur le fait qu’une espèce ou un ensemble d’espèces requiert des conditions écologiques particulières pour se développer et être associées in situ [Hutchinson 57]. Pour ce faire un modèle non- paramétrique a été utilisé : Generalized Additive model (GAM ; [Hastie 90]). Ce type de modèle mathématique est très utilisé pour l’ajustement de modèles de distribution [Yee 91]. Ce modèle a été préféré à d’autres (tels que MAXENT, méthode consensus, arbre de régression, réseau de neurones, modèle linéaire géné- ralisé, . . . ) car (i) il est assez souple au niveau des courbes de réponses modélisées, évitant ainsi la définition arbitraire de fonction mathématique parfois inadaptée [Oksanen 02], (ii) il utilise des données de présences et d’absences qui rendent la cartographie actuelle de la distribution des habitats plus précises, et (iii) il est simple et robuste comparé à des méthodes toujours plus complexes s’apparen- tant pour certaines à des boîtes noires difficilement interprétables sur le plan des relations espèce-environnement ou habitat-environnement.

Le modèle définit un gradient de probabilités de présence de l’habitat ou des es- pèces en fonction des conditions environnementales. Le grand nombre d’habitats et d’espèces à étudier n’est pas propice à la construction de modèle au cas par cas. A la place, les variables environnementales sont sélectionnées de manière automatique à partir d’un algorithme de sélection pas à pas basé sur deux critères important : ap- port d’une information significative et non redondante (figure 4) (pour un exemple voir Bertrand et al., 2012). En premier lieu chaque variable environnementale a été testée indépendamment des unes des autres dans un modèle GAM univarié liant la présence/absence des habitats ou espèces aux facteurs environnementaux (table 1.2). L’effet de chaque variable est testé de manière indépendante dans un modèle GAM univarié. La première variable sélectionnée correspond à celle (i) dont l’effet est significativement différent du modèle null (comparaison réalisée par analyse de déviance. La déviance d’un modèle est une généralisation de la somme des carrés des écarts ou des résidus utilisée dans le cas de la régression linéaire. Sa valeur est dérivée de la fonction de vraisemblance (L) (déviance = -2 × ln(L) ; Hastie & Tibshirani, 1990). Plus la valeur de la déviance est importante plus le modèle s’éloigne de l’ajustement parfait et moins les variables sélectionnées expliquent la distribution des espèces ou des habitats. probabilité critique du test inférieure au seuil de 1‰ Lorsque la probabilité critique du test est inférieure à 1‰, nous consi- dérons que la variable explique significativement la présence/absence de l’espèce ou de l’habitat (c’est-à-dire que l’information qu’apporte la variable explique la distribution de l’espèce ou de l’habitat plus qu’un phénomène aléatoire) ; Hastie & Tibshirani, 1990) et (ii) qui a la meilleure performance prédictive (valeur maximale

Chapitre 1 Matériel et méthodes

d’AUC).

La performance prédictive d’une variable est estimée à partir de la valeur de l’AUC correspondant à l’aire sous la courbe Receiver Operating Characteristic (ROC) et quantifiant la qualité de la séparation des présences et absences de l’espèce par le modèle (varie de 0.5 pour une différenciation aléatoire, à 1 pour une différenciation parfaite) [Manel 01].

Chacune des variables environnementales restantes est tour à tour associée à la variable déjà sélectionnée dans un nouveau modèle de distribution. Une nouvelle variable est sélectionnée si (i) elle contribue à expliquer une part supplémentaire et significative de la déviance du modèle (le modèle intégrant la nouvelle variable est comparée au modèle sans cette variable par analyse de déviance ; la variable est considérée comme significative si la probabilité critique du test inférieure au seuil de 1‰ ; Hastie & Tibshirani, 1990), (ii) elle améliore la performance prédictive du modèle (différence d’AUC avec le modèle sans la nouvelle variable > 0.005), et (iii) elle n’est pas fortement corrélée à une variable déjà sélectionnée (R2 < 0.25 et 0.5 respectivement pour des variables appartenant et n’appartenant pas à la même dimension écologique ; table 2). Ces restrictions évitent la redondance et la corrélation entre variables explicatives qui peut nuire à la qualité et la performance des modèles. Dans le cas où plusieurs variables répondent à ces critères, nous conservons la variable améliorant le plus la performance du modèle de distribution (c’est-à-dire qui maximise la valeur de l’AUC).

L’étape 2 est répétée jusqu’à que plus aucune variable environnementale ne réponde positivement à la totalité des critères de sélections. Via l’approche directe par les communautés Cette approche est l’une des plus couramment utilisée pour prédire la distribution des habitats (voir par exemple Marage & Gegout, 2009). Dans un premier temps, les données de présence/absence de chaque habitat sont échantillonnées d’après la méthode décrite supra. Seules les données observées sur la période 1964-2008 sont utilisés en accord avec la période couverte par les données environnementales (n=6861 relevés). Ensuite, le déterminisme environnemental de la distribution des habitats est recherché à partir de la méthode décrite supra.

Au total les conditions environnementales favorables de 19 habitats dont l’oc- currence varie de 19 (pour l’habitat 91D0) à 1524 (pour l’habitat 9130) ont pu être modélisés (table 1.3). L’ensemble de la méthodologie est décrite à la figure 121.