• Aucun résultat trouvé

Introduction

Dans le chapitre précédent, les avantages et les limites des méthodes de correction de l’effet du biais d’échantillonnage ont été présentés. Les études ayant comparé ces méthodes entre elles ont montré que les méthodes de correction qui consistent à sélectionner un sous-ensemble des sites de présence selon des critères géographiques permettaient aux modèles d’obtenir de meilleures performances. Cependant, dans certains cas d’étude, le très faible nombre de sites de présence limite l’utilisation de ces méthodes et, dans ce cas, la construc-tion d’un background biaisé semble être l’approche la plus pertinente. Cependant, ces mé-thodes présentent certaines limites : soit les mémé-thodes ne tiennent compte que du biais géo-graphique et non du biais environnemental ; soit la construction du background dépend d’une carte bioclimatique ne tenant pas compte des corrélations des variables environnementales entre elles ; soit il est nécessaire d’avoir un grand nombre de sites de présence du groupe cible.

Dans ce chapitre, nous proposons une méthode originale et générique pouvant être appliquée à des données de présence de l’espèce ou du groupe cible en faible quantité, tenant compte du biais environnemental, et en considérant l’ensemble des variables environnementales, quelle que soient leur nature (qualitatif ou quantitative).

I. Description de la méthode de correction de l’effet du biais d’échantillonnage

I. 1. Définition de l’espace environnemental

Afin de baser l’approche sur les caractéristiques environnementales et non géographiques, il est nécessaire de définir une distance environnementale entre les sites (pixels). Or, il existe deux principales difficultés à la définition d’une telle distance : les variables environnementales sont potentiellement corrélées entre elles ; les variables environnementales peuvent être nu-mériques (quantitatives) ou catégorielles (qualitatives). Ainsi, un nouvel espace de représen-tation des données défini à partir de l’ensemble des variables environnementales, est construit grâce à une Analyse Factorielle de Données Mixtes (AFDM). Une telle analyse est une mé-thode factorielle qui permet de traiter à la fois des variables catégorielles et des variables

numériques (Pagès,2015). Elle équivaut à réaliser conjointement une ACP sur les variables

continues et une Analyse des Correspondances Multiples (ACM) sur les variables catégo-rielles.

À chaque pixel x de la zone d’étude X sont associées n valeurs environnementales gi(x)i∈[1,...,n]. L’ensemble des l pixels de X est représenté dans un tableau de dimension l × n, où les l pixels représentent ainsi les individus statistiques, et les n variables environnementales, les variables d’analyse.

L’AFDM est appliquée à ce tableau, et l’ensemble des axes factoriels obtenus, non corrélés entre eux, obtenu va définir l’espace environnemental dans lequel la similitude des individus d’analyse (les pixels) peut être appréhendée au travers de la distance euclidienne. Dans un tel espace, plus deux pixels sont proches l’un de l’autre, et plus leurs conditions environnemen-tales sont comparables.

critères environnementaux I. 2. Définition du voisinage environnemental

À chaque pixel x de X est associé un voisinage environnemental défini dans l’espace en-vironnemental décrit précédemment. Le voisinage enen-vironnemental d’un pixel i regroupe l’en-semble des pixels ayant des conditions environnementales similaires ou proches des siennes.

Le degré d’appartenance d’un pixel quelconque j au voisinage de i ,wi j, est défini par une

fonction d’appartenance de type gaussienne. Ce degré d’appartenance s’écrit : wi j= 0.5(di j/Dmin)2

(2.1) où di jest la distance euclidienne entre les points i et j dans l’espace environnemental et Dmin

une distance seuil au delà de laquelle le degré d’appartenance du pixel j au voisinage de i passe en dessous de la valeur 0, 5. Au delà de Dmin, c’est-à-dire en deçà d’un degré d’apparte-nance de 0, 5, l’apparted’apparte-nance de j au voisinage de i est considéré non significative. La fonction d’appartenance est représentée en figure 2.1. Les propriétés de wi jsont les suivantes :

— wi j∈]0, 1] ;

— wi j= 1 lorsque di j= 0 ; — wi j< 0, 5 lorsque di j> Dmin.

Dmin ne dépend pas des connaissances liées à l’étendue géographique du domaine vital de

l’espèce étudié, comme dans la définition du background biaisé basée sur des critères géo-graphiques, mais elle doit s’appuyer sur des connaissances liées à la bio-écologie de l’espèce. Sa valeur définit la dispersion de la fonction gaussienne et ainsi le voisinage environnemental. Plus sa valeur est faible, plus le voisinage environnemental est réserré autour de i. Le chapitre qui suit donne un exemple de définition de cette distance Dmin en fonction des connaissances sur la bio-écologie de l’espèce d’intérêt.

I. 3. Définition du biais d’échantillonnage

Phillips et al.(2009) proposent de définir un groupe cible pour représenter l’effort d’échan-tillonnage et constitue le background. Dans ce travail, l’utilisation de groupe cible est éga-lement étudiée. Cependant, deux difficultés se présentent : le nombre de sites associés au groupe cible considéré est très faible (bien inférieur au nombre de sites de background par défaut, 10 000) limitant la capacité du groupe cible à représenter les conditions environnemen-tales de la zone d’étude et à générer un modèle suffisamment général ; il n’est pas possible de définir un groupe cible.

Lorsqu’il est possible de définir un groupe cible mais que le nombre de sites associés est en nombre réduit, au lieu d’utiliser directement ces sites comme sites de background, ils sont utilisés pour refléter l’effort d’échantillonnage de l’espèce cible et ainsi estimer le biais d’échan-tillonnage devant guider la sélection des sites de background.

Lorsqu’il n’est pas possible de définir un groupe cible, l’estimation du biais d’échantillonnage se base uniquement sur les sites de présence, de la même manière que dans la méthode utilisée parElith et al.(2010) (mais dans l’espace géographique).

Dans la suite, les sites de capture correspondent aux sites de présence de l’espèce cible auxquels s’ajoutent, s’ils existent, les sites de présence des autres espèces du groupe cible. Dans un premier temps, l’espace environnemental est défini avec l’ensemble des pixels de

I. Description de la méthode de correction de l’effet du biais d’échantillonnage 0.5 1 0 wij = 0.5 Factorial axis k w 1.5 2 2.5 0.5 1 0 1.5 2 2.5 3 Factorial axis l 1 0.5 0 0.25 0.5 0.75 1 w k i j Dmin

FIGURE2.1 –Représentation du voisinage du pixel i dans l’espace environnemental représenté par deux axes factoriels l et k.

Le voisinage environnemental de i est représenté par la fonction d’appartenance de type gaussienne. La droite bleue définit le seuil du degré d’appartenance en deça duquel l’appartenance est jugée non significative. Seul le site j est considéré comme voisin de i dans cet exemple.

la zone d’étude selon la méthode décrite au paragraphe I. 1. Pour chacun des pixels de X est défini son voisinage environnemental selon l’approche définie au paragraphe I. 2. Le biais d’échantillonnage environnemental d’un pixel i est défini comme étant l’effort d’échantillonnage relatif dans son voisinage environnemental. Il est noté zi et est défini par le ratio entre le nombre de sites de capture dans le voisinage environnemental de i et le nombre total de sites (pixels) dans ce même voisinage (représentant la disponibilité du contexte environnemental observé en i sur l’ensemble de la zone d’étude). L’effort d’échantillonnage relatif est donc défini par :

zi=j∈Xwi j.c

j∈Xwi j (2.2)

où c = {ck}k∈X, tel que ck= 1 si k est échantillonné et ck= 0 sinon.

L’utilisation de la disponibilité environnementale permet de distinguer deux environnements avec un même nombre de capture mais dont l’un est moins représenté que l’autre dans la zone d’étude. L’effort d’échantillonnage associé à l’environnement le plus rare sera plus élevé que celui associé à l’environnement plus fréquent. Les valeurs de zisont calculées pour l’ensemble des pixels de la zone d’étude.

critères environnementaux I. 4. Sélection des sites de background biaisés

Le biais d’échantillonnage environnemental a été calculé précédemment pour l’ensemble des pixels de la zone d’étude. La sélection du background se fait de manière aléatoire et pondérée par l’effort d’échantillonnage relatif correspondant au biais d’échantillonnage. Ainsi, plus l’effort d’échantillonnage relatif d’un pixel est élevé, plus la chance de sélectionner un site de background dans un pixel sera élevée. Les sites de background auront des conditions environnementales plus ou moins proches de celles des sites de captures en fonction de la valeur attribuée à Dmin. Ainsi les jeux de données de background et de présence présentent le même biais d’échantillonnage environnemental.