• Aucun résultat trouvé

Description des algorithmes de génération des données

Analyse comparative des résultats de simulations

4.2.1 Description des algorithmes de génération des données

Les données {xij} sont générées sur la base du modèle de régression logistique suivant : P (xij = 1) = exp (βi,0+ τ1jβi,1+ τ2jβi,2+ λ × Z)

1 + exp (βi,0+ τ1jβi,1+ τ2jβi,2+ λ × Z)

où τ1j et τ2j sont les valeurs des variables sites τ1 et τ2 pour le site j. Autrement dit, la probabilité qu’une espèce i soit présente sur un site j est donnée par la formule (4.4), où λ est une valeur réelle et Z une structure d’interaction permettant d’inclure une dépendance entre les espèces. Deux cas de figure se présentent pour la génération des données : le cas où elles sont générées sous l’hypothèse nulle du test (1.4) (λ = 0) et celui sous l’hypothèse alternative (λ 6= 0).

Choix des paramètres β pour le modèle (4.4)

En ce qui concerne les paramètres β, trois ensembles de paramètres ont été utilisés afin de faire varier l’impact des variables sites et de voir l’effet sur le résultat final.

• Effets positifs élevés : Le premier ensemble de paramètres permet d’assigner aux variables sites un effet positif élevé. Autrement dit, tous les paramètres β ont un signe positif et une valeur assez élevée. Dans ce cas, la probabilité qu’une espèce soit présente sur un site est beaucoup plus élevée lorsque ce dernier prend la modalité 1 pour les deux variables sites.

• Effets positifs modérés : La différence de ce scénario avec le précédent est que les valeurs des paramètres ont été diminuées. Les paramètres gardent leur signe positif mais leur valeur est divisée par deux. Ici, lorsqu’un site a la modalité 1 pour les deux variables sites, la probabilité qu’une espèce y soit présente est beaucoup plus élevée mais elle est inférieure au cas précédent.

• Effets alternés : Pour ce cas de figure, les deux variables sites ont des effets opposés. Autrement dit, le fait qu’un site ait la modalité 1 pour les deux variables sites a un effet nul sur la probabilité qu’une espèce y soit présente.

Espèces - Espèce 1 à 10 Espèce 11 à 20

β β0 β1 β2 β1 β2

Effets positifs élevés -1 1 2 2 1

Effets positifs modérés -0.5 0.5 1 1 0.5

Effets alternés 0 1 -1 -1 1

Table 4.1 – Valeurs des paramètres β utilisés dans la formule (4.4) pour la génération des données.

Simulation sous l’hypothèse nulle

Dans ce cas de figure, la valeur λ = 0 est utilisée dans le modèle (4.4). Les données sont ainsi générées en n’incluant aucune interaction entre les espèces, c’est-à-dire qu’elles sont obtenues selon le modèle d’indépendance conditionnelle étant donné les variables sites. La présence des espèces sur les sites ne dépend pas de la présence ou l’absence des autres espèces. Avec ces données, les propriétés des algorithmes utilisés pour l’étude de simulation sont comparées sur

la base des seuils observés. En effet, le seuil observé doit approximativement être égal au seuil nominal pour qu’un test soit acceptable.

Simulation sous l’hypothèse alternative

La valeur de λ pour ce cas de figure est non nulle (λ 6= 0). Ainsi, les données sont générées de sorte qu’il existe une interaction entre les espèces. La structure de cette interaction est définie par Z. Dans ce document, deux structures sont utilisées : une dépendance par paire d’espèces et une dépendance séquentielle entre toutes les espèces.

• Dépendance par paire d’espèces

Cette structure d’interaction introduit une association par couple d’espèces. Pour chaque espèce dont le numéro de la ligne qui l’identifie est pair, la probabilité qu’elle soit présente sur un site dépend de la présence ou de l’absence de l’espèce de la ligne précédente sur le même site. Autrement dit, la valeur de Z dans la formule (4.4) est remplacée par : Z = 0 si i est impaire et Z = x(i−1)j si i est paire.

• Dépendance séquentielle

La structure séquentielle utilisée dans ce cas-ci permet d’introduire une association entre toutes les espèces de la matrice. La procédure consiste d’abord à générer la première espèce en utilisant la formule du modèle d’indépendance, puis les autres espèces sont générées dépendamment de celles des lignes précédentes. Autrement dit :

- pour i = 1, Z = 0 ; - pour i = 2, Z = x1j;

- et pour i ≥ 3, Z = x(i−1)j× x(i−2)j. Visualisation de la dépendance

Les matrices de présence-absence peuvent être représentées sous format graphique. Ces gra- phiques sont construits de telle sorte qu’une présence d’une espèce sur un site est représentée par un carré noir et une absence par carré blanc. Nous allons présenter quelques graphiques de matrices simulées avec une dépendance séquentielle ou une dépendance par paire d’espèces. Nous utilisons les β qui donnent des effets positifs modérés, voir le tableau 4.1. L’espèce 1 apparaît à la ligne au bas du graphique alors que l’espèce 20 est en haut. Pour permettre une meilleure visualisation de cette dépendance sur les graphiques, des valeurs de λ assez élevées sont utilisées. De plus, les modalités des variables sites (0 et 1) sont ordonnées de manière croissante, autrement dit les sites avec une modalité 1 pour une variable site seront à droite la matrice représentée. Les valeurs { -10, 0 et 10} vont être utilisées pour le paramètre λ. Le cas λ = 0 (voir figure4.1) n’indique aucune structure particulière sur la présence ou l’ab- sence des espèces sur les sites. Par contre, en observant les graphiques 4.2 et 4.3 ou 4.4 et 4.5, on constate que pour λ = 10, les espèces ont tendance à être ensemble, alors que pour λ = −10, elles s’évitent. En effet, avec une forte dépendance par paires, si l’espèce impaire est

présente, alors l’espèce paire correspondante est aussi présente. C’est le contraire avec λ néga- tif. Avec la dépendance séquentielle négative, il est impossible d’avoir 3 espèces consécutives présentes sur le même site. Une visualisation de la dépendance avec les effets sites alternés se trouve à l’annexe C.

Figure 4.1 – Matrice de présence-absence obtenue sous le modèle d’indépendance (λ = 0).

Figure 4.2 – Matrice de présence- absence obtenue avec la dépendance par paire d’espèces (λ = 10).

Figure 4.3 – Matrice de présence- absence obtenue avec la dépendance par paire d’espèces (λ = −10).

Figure 4.4 – Matrice de présence- absence obtenue avec la dépendance séquentielle (λ = 10).

Figure 4.5 – Matrice de présence- absence obtenue avec la dépendance séquentielle (λ = −10).

Documents relatifs