• Aucun résultat trouvé

5.2.1 Étude de corrélations

Avant d’apprendre le réseau bayésien, étudions le comportement des espèces d’arthropodes relevés dans les champs. En effet, l’apprentissage du réseau par réseau bayésien dynamique étiqueté a un

Figure 5.1 – Distribution des coefficients de corrélation entre les abondances avant récolte et après récolte pour chaque espèce

sens si les indicateurs de présence ou d’absence d’espèces sont corrélées entre elles. Le coefficient de corrélation entre deux variables aléatoires X et Y est défini par

r = cov(X, Y ) σX· σY

où cov(X, Y ) désigne la covariance des variables X et Y , σX et σY leurs écarts-types respectifs. Ce coefficient r est une quantité comprise entre -1 et 1, les valeurs négatives correspondant à des corrélations négatives (la valeur de X baisse lorsque celle de Y augmente et inversement) et les valeurs positives à des corrélations positives (la valeur de X augmente lorsque celle de Y augmente et inversement). les valeurs r = −1 et r = 1 correspondent à des corrélations parfaites négatives ou positives (par exemple entre une variable X et −X ou entre X et elle-même respectivement), et r = 0 indique qu’il n’existe aucune corrélation. Observons tout d’abord les corrélations des abondances de chaque espèce entre les deux dates d’observation, dont la distribution est représentée en figure 5.1. Peu d’espèces sont corrélées entre elles. Les différences entre les deux dates d’observation ne peut donc pas expliquer le comportement de chaque espèce indépendamment. Cette différence pourrait en revanche s’expliquer par les autres espèces. La heatmap en figure 5.2 représente les corrélations entre les abondances de chaque espèce lors de la première date d’observation (lignes) et de la dernière (colonnes). La couleur rouge représente une corrélation faible, la couleur jaune une corrélation forte,

le noir un manque de données.

Ce résultat semble encourageant : les fortes corrélations sont assez éparses, et dispersées entre beaucoup d’espèces. Ceci est la forme attendue d’un réseau d’interactions écologiques que l’on cherche à apprendre : un réseau dans lequel chaque espèce n’est liée qu’à un nombre restreint d’espèces.

Figure 5.2 – Distribution des coefficients de corrélations entre les abondances de chaque espèce avant récolte et chaque espèce après époque

E L 0 14,2 20,85 2 3,76 10,51 32 3,14 8,59

Table 5.1 – Abondances moyennes de chaque piège pour chaque pas de temps

5.2.2 Abondances par pièges

Dans chaque parcelle sont relevés 3 pièges : un à l’extérieur de la parcelle (0m), un en bordure (2m) et un à l’intérieur (32m). Ces 3 pièges sont difficilement interprétables comme des observations indépendantes, et il est tentant de sommer les abondances de chaque espèce afin d’avoir une mesure par pas de temps, par espèce et par parcelle. Étudions la corrélation des abondances des espèces entre chacun de ces pièges pour savoir dans quel cas cette agrégation est pertinente. Le tableau 5.1 donne les moyennes des abondances des espèces pour chaque piège et chaque pas de temps.

Il semble que les pièges situés à 2m et à 32m représentent des abondances similaires, tandis que le piège situé à 0m semble à part. Une représentation de ces corrélations est donnée en figure 5.3. Les coordonnées en ligne et en colonne représentent un piège (la première ligne/colonne représente le piège 0m, la seconde 2m et la troisième 23m), le triangle supérieur représente la première date d’observation, le triangle inférieur la seconde. Il semble que la distribution des abondances des espèces issues des pièges 2m et 32m soient similaires, ce qui avait été suggéré par les moyennes

0

2

32

0 2 32

Figure 5.3 – Distribution des corrélations des abondances des espèces par piège. La corrélation se calcule pour chaque espèce entre les abondances avant récolte et les abondances après récolte.

proches. On peut penser qu’il est raisonnable de réunir les abondances des espèces observées dans ces deux pièges. Ce n’est cependant pas le cas pour les espèces recueillies dans le piège 0m. Ces différences peuvent s’expliquer par le fait que ce piège est à l’extérieur de la parcelle, contrairement aux pièges de 2m et de 32m. Les données concernant ce piège ne seront pas forcément utiles pour l’apprentissage du réseau car il peut avoir piégé des espèces ne peuplant pas réellement les champs. Nous ne considérerons donc pas ces données.

5.2.3 Distribution des abondances et seuil de présence

La méthode d’apprentissage demande des données de présence/absence des espèces et non d’abondance. Pour transformer les données d’abondance disponibles en données de présence/absence, une solution possible est de considérer une espèce comme présente dès que son abondance est supérieure à 0 lors d’une observation dans une parcelle donnée. Il est également possible de monter le seuil, afin de considérer comme absente une espèce dont l’abondance est très faible à un moment d’observation dans une parcelle donnée alors que son abondance est très importante d’habitude. Une représentation des abondances de chaque espèce aiderait à définir une méthode. Le diagramme représenté en figure 5.4 est un histogramme des comptages individuels (sans distinction d’espèce, de champs ou de piège, à l’aide d’un vecteur contenant l’ensemble de ces données) supérieurs à 0. La distribution des abondances semble classique pour des données de ce type : il y a plus d’abondances faibles que d’abondances élevées. Il semble y avoir assez peu d’abondances très élevées. Choisir un seuil supérieur à 0 pour changer les données d’abondance en données de présence/absence risque de conduire à beaucoup d’absences, et pourrait ne pas être très pertinent. Le problème des

données homogènes se pose moins que dans les données PISCO. En effet, les nombreux jeux de données différents (un par parcelle) atténuent les risques d’homogénéité des données. Les données de présence/absence des espèces d’arthropodes sont donc converties de la façon suivante : si au moins un individu de l’espèce i a été observée dans une parcelle s à un moment t,

s Xt i = 1, s Xt i = 0 sinon.

5.2.4 Données de présence/absence utilisées pour l’apprentissage

Les données que nous utiliserons pour apprendre la structure du réseau écologique associé à ces données sont donc les données de présence/absence obtenues à partir des sommes des abondances des pièges situés à 2m et à 32m pour chaque espèce et chaque parcelle. Dans ces données se trouvaient également des informations sur des espèces d’oiseaux (et non d’arthropodes). Ces données concernant les oiseaux sont en fait des données construites à partir des autres données d’abondance d’arthropodes et non pas des données observées. Les données concernant les oiseaux ont donc été écartées.

Les autres espèces ne sont pas non plus toutes observées partout. Afin d’avoir des données cohérentes, nous souhaitons éviter d’inclure les espèces qui n’ont jamais été observés. Nous faisons le choix de considérer un jeu de données par type de culture, et de n’inclure dans ces jeux de données que les espèces ayant été observées au moins une fois dans au moins une parcelle de cette culture. Cela donne 4 différents jeux de données, tous ayant 2 pas de temps observés, mais chacun ayant un nombre d’espèces différents :

— 41 espèces différentes sont observées dans les cultures de betterave. — 29 espèces différentes sont observées dans les cultures de maïs. — 40 espèces différentes sont observées dans les cultures de colza d’été. — 29 espèces différentes sont observées dans les cultures de colza d’hiver.

Décrivons alors la procédure d’apprentissage des réseaux trophiques associés à ces données.