• Aucun résultat trouvé

Conditions de référence pour le compartiment "Poissons" des eaux de transition : Evaluation préliminaire d'une approche de modélisation par arbres de régression

N/A
N/A
Protected

Academic year: 2021

Partager "Conditions de référence pour le compartiment "Poissons" des eaux de transition : Evaluation préliminaire d'une approche de modélisation par arbres de régression"

Copied!
40
0
0

Texte intégral

(1)

HAL Id: hal-02599643

https://hal.inrae.fr/hal-02599643

Submitted on 16 May 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Conditions de référence pour le compartiment

”Poissons” des eaux de transition : Evaluation

préliminaire d’une approche de modélisation par arbres

de régression

Philippe Boët

To cite this version:

Philippe Boët. Conditions de référence pour le compartiment ”Poissons” des eaux de transition : Eval-uation préliminaire d’une approche de modélisation par arbres de régression. [Rapport de recherche] irstea. 2009, pp.39. �hal-02599643�

(2)

Philippe Boët

Unité écosystèmes estuariens

et poissons migrateurs amphihalins - EPBX

50, avenue de verdun - Gazinet

33612 Cestas cedex

Convention de partenariat ONEMA-Cemagref 2008

Domaine [2.4] – Faire progresser les savoirs : initier, soutenir et réaliser des études et recherches d’intérêt général

Conditions de référence pour

le compartiment « Poissons »

des eaux de transition

Évaluation préliminaire d’une

approche de modélisation

par arbres de régression

avril 2009

(3)
(4)

Sommaire

_____________________________________________________

Introduction

1

________________________________________________

Cadre conceptuel

3

... Les modèles en écologie : entre réalisme, précision et généralisation 3

... Les descripteurs de l’écosystème 4

...

Statique ou dynamique 4

...

Espèces ou communautés 4

_________________________________________

Modélisation des données

7

...

Les arbres de régression 7

... Justification du choix de ce type de modélisation 7

...

Description technique des Arbres de régression 7

...

Construction de l’arbre 8

... Mesure de l’efficacité des modèle et courbes ROC 11

...

Matrice de confusion 11

... Métriques calculées à partir de la matrice de confusion 12

...

Une méthode intéressante : la courbe ROC 12

...

Cas des arbres de régression multivariés 14

__________________________________________________

Mise en œuvre

15

...

Les données traitées 15

...

Variables indirectes 15

... Variables directes : les données piscicoles considérées par guildes 15

...

Descripteurs des milieux et engins de pêche 16

...

Construction des modèles 17

___________________________________________

Résultats préliminaires

18

... Modèle de présence-absence de guildes 18

...

Cas des estuaires 18

...

Cas des Lagunes 20

... Modèles multivariés d’abondances des guildes écologiques 23

______________________________________

Conclusions et perspectives

25

___________________________________________________

Bibliographie

26

_______________________________________________________

Annexes

27

(5)
(6)

Introduction

La mise en œuvre de la Directive cadre européenne sur l’eau (DCE 2000) nécessite l’établissement de conditions de référence par type de masses d’eau en situation peu ou non anthropisées, afin de caractériser le très bon état correspondant au niveau maximal de qualité de ces milieux.

Or, de telles références n’existent pas en France pour les différents types de masses d’eau de transition. Ceci, du fait même de leur position de réceptacle dans les systèmes hydrographiques et de l’impact des multiples usages auxquels elles sont soumises.

En l’absence de milieu présentant des conditions « pristines » deux approches sont alors envisageables pour construire ces références biologiques visant à mesurer un éventuel écart en situation réelle  : les reconstitutions historiques, dans la mesure où des données anciennes sont disponibles, et une construction théorique par simulation au moyen de modèles mathématiques.

C’est cette deuxième voie, qu’explore le présent document, qui rend compte de premières investigations visant à évaluer la pertinence d’une approche de modélisation par arbres de régression, selon la méthode CART (Classification and Regression Trees), afin d’établir une référence théorique de communautés de poissons dans les masses d’eau de transition.

Ce projet s’inspire de travaux antérieurs menés à large échelle sur l’ensemble du bassin de la Seine (Grave 2004). L’idée est de construire d’abord des modèles prédictifs, fondés sur les caractéristiques des systèmes inventoriés, notamment les pressions s’y exerçant, et la présence/ absence des espèces constituant les peuplements. Puis, de simuler l’absence de pression en vue d’établir les peuplements de référence correspondants.

Dans un premier temps, l’effort porte sur la prédiction des guildes de poissons. Les résultats obtenus sont encore très préliminaires et à analyser plus en détail mais ils laissent cependant entrevoir des perspectives qui mériteraient d’être approfondies.

(7)
(8)

Cadre conceptuel

1. Les modèles en écologie : entre réalisme, précision et généralisation

Un système biologique est trop complexe pour pouvoir en modéliser tous les aspects et toutes les relations entre ses divers composants. Un modèle doit vérifier trois propriétés  : le réalisme, la précision et la généralisation. Selon Levins (1966), seules deux de ces trois exigences peuvent être respectées par un modèle, la troisième devant être sacrifiée. Il en résulte trois types de modèles.

Classification des modèles en écologie (d'après Guisan & Zimmermann 2000).

Le modèle analytique sacrifie le réalisme et se concentre sur la précision et la généralisation.

En partant d’hypothèses visant à simplifier la réalité, ces modèles sont conçus pour prédire avec précision la variable réponse dans cet « univers restreint ».

Le modèle empirique met en exergue le réalisme et la précision. Ici, on ne cherche ni

formulation mathématique de relations causales, ni explication de mécanismes du système, mais on essaye seulement de faire ressortir des informations à partir de données empiriques.

Le modèle mécanique réalise des prédictions à partir de véritables relations causales. Il

optimise donc les critères de réalisme et généralisation.

Notre étude vise plutôt un modèle empirique puisqu’il s’agit surtout de chercher des relations entre les variables sans expliciter nécessairement les mécanismes biologiques responsables de ces relations.

(9)

2. Les descripteurs de l’écosystème

Guisan et Zimmermann (2000) distinguent trois types de variables :

• Les variables de ressources sont les matières ou énergies directement consommées par les individus d’une espèce, comme les nutriments et l’eau.

• Les variables directes influencent directement la physiologie des individus mais ne sont pas consommées. Ex. : température, pH…

• Les variables indirectes n’ont pas une influence directe sur l’espèce. Ex  : pente d’un cours d’eau, caractéristique géologique…

Idéalement, la prédiction de peuplements d’espèces devrait se faire à partir de variables en lien direct avec l’écologie des espèces (variables de ressources et variables directes), afin que le modèle soit intelligible. Cependant, la précision de ces variables est souvent assez faible car elles sont issues d’extrapolations sur des données de stations ponctuelles. En revanche, les variables topographiques (indirectes) sont souvent beaucoup plus précises. Elles ne sont pas en relation physiologique avec les espèces considérées, mais elles interagissent indirectement. Par exemple, l’emplacement géographique peut expliquer en partie les températures qui agissent sur les peuplements. Ainsi, les variables indirectes donnent souvent de meilleurs résultats en prédiction et sont souvent utilisées.

2.1.1. Statique ou dynamique

La majorité des modèles prédictifs sont statiques. Ils font l’hypothèse que le système est à l’équilibre. Or pour les études environnementales, ceci est peu réaliste.

En principe, le cas des relations peuplements-environnement souffre moins de cet inconvénient car à une telle échelle d’intégration biologique et en considérant de larges étendues, l’évolution des peuplements est relativement lente et l’état du système peut être considéré comme un pseudo-équilibre. Mais avec le changement global, climatique et anthropique, en cours et désormais perceptible sur de longues chroniques de données, ceci est de moins en moins réaliste.

Par ailleurs dans notre cas, les données piscicoles disponibles sont constituées de pêches réalisées à différentes années (2006 et 2007). Or, sur un même lieu, les abondances de poissons peuvent différer assez largement suivant les années car elles dépendent de nombreux facteurs  environnementaux, ainsi que des conditions de pêche (temps, opérateurs, etc.), sans que ces variations soient imputables à une quelconque évolution de l’écosystème.

L’un des problèmes de cette étude est donc de créer un modèle statique avec des données présentant une variabilité par rapport au temps.

2.1.2. Espèces ou communautés

Se distinguent également les modélisations d’espèces individuelles ou de communautés, chacune ayant ses avantages et ses défenseurs.

Les différentes espèces connaissent des évolutions qui leur sont propres au contraire des communautés qui sont des entités difficiles à définir à proprement parler. De ce point de vue, la modélisation individuelle paraît plus réaliste que celle des communautés.

En revanche, dans une optique d’évaluation générale de la qualité écologique d’un hydrosystème, et dans le cadre d’une étude statique, les communautés d’espèces sont plus intéressantes car elles sont plus significatives que les espèces prises séparément.

(10)

-Nous nous intéressons ici à la modélisation de guildes d’espèces, considérées d’abord individuellement en terme de présence/absence, à l’aide d’arbre de décision. Puis, grâce à un récent outil de modélisation développé par De’ath (2002), les arbres de régression multivariés, nous tentons d’étendre l’étude en raisonnant en terme d’assemblage de guildes de poissons.

(11)
(12)

Modélisation des données

3. Les arbres de régression

De nombreuses méthodes ont été développées afin de modéliser les relations entre des espèces et leur environnement (Guisan & Zimmermann 2000). Plus récemment, les recherches se sont tournées vers des outils de prédiction et se focalisent moins qu’auparavant sur la description et l’analyse de données. En écologie, ce changement est profond car des problèmes tels que le réchauffement climatique ou l’anthropisation des milieux naturels font de la prédiction l’objectif principal des études sur les relations espèces-environnement.

La modélisation des données par arbre de régression (AR) a deux objectifs  : d’abord, décrire les relations entre les données, c’est-à-dire trouver un modèle qui représente la structure des données ; ensuite, permettre de prédire une ou plusieurs variables en fonction de l’ensemble des autres.

Les AR sont également une méthode de classification qui recherche une partition des données, telle que les classes obtenues soient les plus homogènes et les plus séparables possibles. En d’autres termes, les données d’une même classe doivent se ressembler, tandis que les données de deux classes distinctes doivent être « éloignées ».

3.1. Justification du choix de ce type de modélisation

Il existe de nombreuses techniques de modélisation (analyse factorielle, analyse discriminante à base de noyaux, réseaux neuronaux, cartes de Kohonen, règles d’associations…). Mais les AR offrent de nombreux avantages. Tout d’abord, les données environnementales présentent des spécificités qui rendent la majorité des modélisations difficiles à mettre en œuvre : complexité des données (relations fortement non-linéaires entre les variables), bruit, déséquilibre (certaines espèces sont présentes sur la majorité des sites, tandis que d’autres ont une occurrence très faible), et valeurs manquantes. Les AR ont l’avantage d’être robustes, de ne pas être linéaires, de ne faire aucune hypothèse sur les variables, et de gérer les valeurs manquantes. De plus, ils permettent de manipuler à la fois des données qualitatives et quantitatives  ; la modélisation obtenue est aisément intelligible, même pour des personnes non initiées aux arbres de régression ; enfin l’algorithme est relativement facile à mettre en œuvre et rapide.

3.2. Description technique des Arbres de régression

Cet outil est une méthode de régression qui consiste à construire, à partir du jeu de données, un modèle prédictif qui explique les variations de variables réponses numériques (dans notre cas, les abondances d’espèces piscicoles) à partir de variables exploratrices qui peuvent être numériques ou qualitatives (descripteurs du milieu). Ce modèle est construit par apprentissage supervisé. Le jeu de données est appris pour trouver une relation liant les variables d’exploration Xi aux variables réponses Yi, en espérant que cette relation soit généralisable afin de pouvoir

prédire les Yi à partir des Xi sur de nouveaux cas.

Les arbres de régression se présentent sous la forme d’arbres binaires qui symbolisent une suite de partitions des données en deux sous-groupes exclusifs. La racine représente le jeu de données de départ. L’arbre est construit par une succession de divisions binaires des données. Chaque division est caractérisée par un test simple sur une unique variable d’exploration. Ces divisions sont choisies pour maximiser l’homogénéité des deux sous-ensembles obtenus. Les feuilles (nœuds terminaux) représentent la partition finale des données.

(13)

L’arbre final peut être résumé par les caractéristiques de chacun de ses nœuds : la moyenne multivariée, et l’impureté qui mesure l’hétérogénéité du nœud ; ainsi que par le taux d’erreur estimé R(T), c’est-à-dire la somme des impuretés des feuilles divisée par l’impureté initiale.

3.3. Construction de l’arbre

L’algorithme de construction d’un arbre de régression se déroule en deux étapes suivies d’une phase de validation.

a) Phase 1 : construction de l’arbre complet

La construction de l’arbre se fait par un algorithme glouton de divisions binaires récursives. Chaque division est caractérisée par un test sur une unique variable d’exploration : par exemple, pour une variable numérique : X > a, ou pour une variable qualitative X {A1, A2, A3, … An}.

Divisions d'un arbre de régression

Dans l’algorithme est définie une fonction d’impureté qui prend des valeurs entre 0 et l’infini. Égale à 0 pour un ensemble parfaitement homogène, l’impureté augmente lorsque l’homogénéité de l’ensemble diminue.

Dans la librairie mvpart de régression multivariée, l’impureté d’un ensemble est définie comme la somme des carrés des différences entre les données et la moyenne multivariée de l’ensemble :

Lors de la division d’un nœud, le choix de la variable et du test sur celle-ci répond au critère de maximisation de la diminution d’impureté. C’est une mesure de qualité locale. Le meilleur choix sera celui pour lequel la différence entre l’impureté du nœud et la somme des impuretés des deux nœuds fils sera maximale.

µ : moyenne multivariée : une observation

m : nombre de variables réponses

(14)

-L’algorithme réalise donc des divisions récursives. À chaque pas,

il choisit arbitrairement un nœud non divisé,

recherche la meilleure séparation linéaire des observations de ce nœud,

le divise

Cet algorithme se poursuit tant que l’amélioration possible du modèle, c’est-à-dire le gain en homogénéité, dû à toute nouvelle division, est inférieure à un certain seuil. Bien sûr, se pose le problème de la valeur du seuil. Si elle est trop grande, l’arbre sera trop petit et n’aura pas suffisamment « appris » les données ; si elle est trop petite, l’arbre sera trop grand et détaillé, cela revient à un apprentissage « au cas par cas » des données. Or, lors du sur-apprentissage, le taux d’erreur estimé sur le jeu d’apprentissage diminue, mais l’erreur réelle de prédiction sur de nouveaux exemples augmente. C’est le dilemme de l’apprentissage : recueillir le plus d’information possible dans les données, sans pour autant perdre en capacité de généralisation. Il est donc nécessaire de savoir à quel moment arrêter la construction de l’arbre.

Évolution du taux d'erreur estimé et du taux d'erreur réel en fonction de la taille de l’arbre.

b) Phase 2 : élagage de l’arbre

Breiman et al. (1984) ont proposé une solution pour les arbres de décision, qui peut également s’appliquer à notre cas. Au lieu d’arrêter la construction de l’arbre en cours, il est développé entièrement jusqu’à l’obtention de «  l’arbre complet  ». Ensuite, on recherche l’arbre optimal en l’élaguant avec une méthode basée sur une validation croisée, dont l’algorithme est détaillé ci-dessous.

Le problème est de déterminer la taille optimale de l’arbre. Il est donc nécessaire de trouver une estimation plus précise du taux d’erreur, plus proche de l’erreur réelle.

Pour cela, Breiman et al. pénalisent le taux d’erreur R(T). La nouvelle estimation est :

La complexité α est un nombre compris entre 0 et l’infini, qui mesure le « coût » d’ajouter un nœud à l’arbre. Ainsi plus l’arbre est grand, plus il est pénalisé par le terme de complexité. La

Taux d’erreur réel

Taux d’erreur estimé

(15)

suite de l’algorithme consiste à trouver le α optimal, c’est-à-dire celui qui rend Rα(T) le plus proche

de l’erreur réelle.

Soit Tα le plus petit sous-arbre de l’arbre complet qui minimise Rα. T0 est donc l’arbre

complet et T∞, le modèle ne comprenant que la racine.

Atkinson et Therneau (1997; 2000) détaillent plusieurs résultats qui permettent de mettre en place l’algorithme :

si T1 et T2 sont deux sous-arbres d’un arbre T vérifiant Rα(T1) = Rα(T2) alors soit T1

est un sous-arbre de T2, soit T2 est un sous-arbre de T1.

si α > β, alors soit Tα = Tβ, soit Tα est un sous-arbre de Tβ.

soient α et β quelconques, Tα et Rβ(Tα) peuvent être calculés facilement.

Considérant ces résultats, et comme le nombre de sous-arbres de l’arbre complet T est fini, il existe une suite de nombres α1=0, α2 …, αm+1 et une suite de sous-arbres imbriqués T0, ..., Tm =

T∞ telles que :

On choisit des valeurs caractéristiques des intervalles

On obtient autant de sous-arbres associés Tβi. Il ne reste plus qu’à chercher celui qui minimise l’erreur réelle.

L’ensemble d’apprentissage A est équisubdivisé en A1, …, As. L’algorithme repose sur une validation croisée et peut être résumé ainsi :

Pour chaque βj, on somme ces erreurs sur l’ensemble des valeurs de i. On obtient ainsi une bonne estimation de l’erreur commise par l’arbre Tβj.

On choisit le sous-arbre qui a l’erreur la plus faible. C’est le sous-arbre optimal. €

∀i ∈ 1, .... m

{

}

et ∀α ∈ Ii =

]

αi−1i

]

Ti minimise la fonction Rα(T)

Ii=

]

αi−1

]

: βi= αi−1αi

1. création d’un arbre complet sur A – Ai

2. détermination des sous-arbres Tβ1, Tβ2, …. , Tβm

3. application de chaque Tβj aux données de Ai et calcul des erreurs de prédiction

(16)

-c) Validation du modèle

Pour valider le modèle, des tests de prédiction sont faits sur les données. Pour améliorer la robustesse de ces tests, on sépare le jeu de données en deux : le jeu d’apprentissage sur lequel est construit le modèle (environ quatre cinquièmes des données) et le jeu de validation sur lequel il est testé.

L’erreur de prédiction donne une idée de la qualité du modèle :

4. Mesure de l’efficacité des modèle et courbes ROC

Diverses méthodes permettent de mesurer l’efficacité d’un modèle de prédiction la présence/absence d’une espèce (ou toute réponse de type 0/1), c’est-à-dire sa capacité à discriminer les sites positifs et négatifs, afin de pouvoir comparer les modèles entre eux.

4.1. Matrice de confusion

Pour mesurer la qualité du modèle, on le teste sur l’ensemble de validation. La matrice de confusion regroupe les résultats de ce test. Le modèle fournit, pour chaque site, la probabilité de présence de l’espèce considérée. Cette valeur est comparée à un seuil de décision, généralement fixé arbitrairement à 0.5. Si la probabilité est supérieure au seuil, l’espèce est déclarée présente, dans le cas contraire, elle est déclarée absente.

Ensuite, pour chaque site, valeur prédite et valeur réelle de la réponse sont comparées. Il en résulte quatre paramètres formant la matrice de confusion :

le nombre de vrais positifs (sites positifs correctement prédits), VP ;

le nombre de vrais négatifs (sites négatifs correctement prédits), VN ;

le nombre de faux positifs (sites négatifs déclarés positifs), FP ;

le nombre de faux négatifs (sites positifs déclarés négatifs), FN.

Matrice de confusion Observation Observation Présence Absence Prédiction Présence VP FP Prédiction Absence FN VN yj : prédiction

(17)

4.2. Métriques calculées à partir de la matrice de confusion

Plusieurs métriques traduisant les qualités du modèle peuvent être calculées à partir de la matrice de confusion :

Le taux de classification correcte :

La sensibilité traduit la capacité du modèle à reconnaître les sites positifs :

La spécificité traduit la capacité du modèle à reconnaître les sites négatifs :

L’indice Kappa (Cohen 1960) est le rapport entre l’amélioration apportée par le modèle et

l’amélioration optimale.

Il revient à comparer la proportion de concordance observée po = p(VP) + p(VN), en

tenant compte de la part aléatoire due au hasard, sous l’hypothèse d’indépendance des deux critères pe = p(VP+FN) * p(VP+FP) + p(FN+VF) * (FP+VN).

Critères d’appréciation de l’indice de Kappa

Concordance Kappa Très bon 0,80-1.00 Bon 0,60 - 0,80 Moyen 0,40 - 0,60 Médiocre 0,20 - 0,40 Mauvais < 0,20

Ces métriques dépendent de plusieurs paramètres. Notamment, le taux de classification correcte dépend de l’occurrence de l’espèce. Et toutes dépendent du seuil de décision (cf. figure ci-dessous). En effet, le choix de celui-ci modifie les valeurs de VP, VN, FP et FN et influe donc fortement sur les métriques.

4.3. Une méthode intéressante : la courbe ROC

La courbe ROC Receiver Operating Characteritic (Zweig & Campbell 1993) est obtenue en traçant la sensibilité en fonction de la valeur (1 – spécificité) pour des valeurs de seuil variant de 0 à 1.

K = po− pe 1 − pe

(18)

-Évolution du nombre d'erreurs selon la valeur du seuil de décision.

(VN : vrais négatifs ; FN : faux négatifs ; FP : faux positifs ; VP : frais positifs).

L’aire sous cette courbe, appelée AUC (Area Under the Curve) est un estimateur précis de la qualité du modèle, c’est-à-dire sa capacité à discriminer les classes. D’après Daigle (2002), si la valeur de l’AUC est S, pour une sélection au hasard de deux individus, un parmi le groupe des positifs, l’autre parmi le groupe des négatifs, le cas positif aura un résultat (probabilité d’être positif, estimée par le modèle) supérieur à celui du cas négatif dans S% du temps.

L’AUC mesure donc la qualité du modèle. En outre, elle ne dépend ni de l’occurrence de l’espèce, ni du seuil de décision.

Trois scénarios possibles pour la courbe ROC : un test idéal (A) donne une séparation nette entre les deux populations ; au contraire d’un test sans aucune discrimination (C) ; en pratique, la courbe passe entre ces deux extrêmes (B).

(19)

4.4. Cas des arbres de régression multivariés

Si pour les arbres de décision, la courbe ROC et l’AUC donnent une mesure précise de la qualité du modèle, en revanche, la littérature ne fournit aucune méthode pour mesurer la qualité des modèles d’arbres de régression multivariés, ce qui constitue l’un de leur principaux défauts.

Pour le moment, on peut seulement tester le modèle sur l’ensemble de validation, et calculer le taux d’erreur. Cela donne une idée de la qualité du modèle, mais ce taux peut varier énormément en fonction du découpage des données entre ensemble d’apprentissage et ensemble de validation ; il n’est donc pas très fiable.

(20)

-Mise en œuvre

5. Les données traitées

Toutes les données traitées sont celles utilisées par Girardin et al. (2009) pour construire l’indice « Poissons  ».

5.1. Variables indirectes

Les variables indirectes concernent les descripteurs des milieux échantillonnés, notamment les pressions anthropiques s’y exerçant décrites sous la forme de trois indices, variant chacun entre 0, pression nulle, et 1, pression maximale (voir Girardin et al. 2009 pour une description détaillée de la construction de ces indices de pressions).

Pression de pollution (iPoll)

Ces pressions de pollution pour les masses d’eau estuariennes comprennent : les nitrates (N03-) les phosphates (PO4+), métaux lourds (cadmium, mercure, zinc, plomb, cuivre), les polluants

organiques (indane, PCB4, HAP5). Dans le cas des lagunes, sont en outre pris en compte les matières en suspensions et les pesticides.

Les concentrations en nitrates et phosphates proviennent du Réseau National de Bassin (RNB), tandis que les données de métaux lourds et de polluants organiques dans les estuaires sont issues du Réseau National d’Observation de l’Ifremer (RNO).

Pressions sur l’habitat et sur le vivant (iHV)

Les pressions sur l’habitat et sur le vivant sont susceptibles d’agir directement sur les habitats et sur la mortalité des poissons. Il s’agit par exemple de l’entretien des chenaux par dragage ou de la pêche. Ces pressions modifient directement le peuplement ichtyologique par la destruction d’habitat et par prélèvements d’individus  ; elles peuvent ainsi modifier les relations trophiques et de compétitions entre les individus.

Usages du sol (iCLC)

S’ajoutant aux pressions de pollution et aux pressions sur l’habitat et le vivant, les activités ou les aménagements présents sur les zones rivulaires des masses d’eau et susceptibles d’influencer leur qualité sont également pris en compte.

À cette fin, une approche par systèmes d’informations géographiques ajoute une dimension spatiale aux indices de pression en prenant en compte différents usages d’occupation du sol à proximité de la masse d’eau : zones urbanisées (ZU) ou industrielles (ZI), mines, décharges et chantiers (Mines), terres arables (TA), cultures permanentes (CP) et zones agricoles hétérogènes (ZA).

5.2. Variables directes : les données piscicoles considérées par guildes

Les données piscicoles utilisées sont aussi celles récoltées lors des campagnes DCE (Girardin et al. 2009). Comme toutes données de pêche, elles sont sujettes à de nombreux biais, liés d’une part à l’efficacité des engins de pêche mis en œuvre et l’expérience des opérateurs, et d’autre part à la « capturabilité » variable des espèces, selon leur comportement, ainsi que fonction de leur abondance réelle.

(21)

Ces données fournissent donc une image déformée des peuplements piscicoles qu’il est nécessaire de prendre en compte, lors de la réalisation du modèle, pour pouvoir comparer les différentes stations.

Sur l’ensemble des espèces pêchées, seules celles ayant une occurrence supérieure à 5% sont considérées. En effet, les espèces trop rares sont difficiles à capturer. En outre, les arbres de régression sont assez peu puissants pour modéliser les espèces à très faible occurrence.

Comme première étape pour apprécier la capacité de la modélisation par arbre de régression, l’analyse porte sur les guides d’espèces qui constituent un descripteur synthétique de la composition et de la structure des communautés.

Il s’agit des guildes retenues pour construire l’indice poissons, décrites en détails par Girardin et al. (2009).

Cinq guildes écologiques :

Les espèces migratrices amphihalines, CA

Les espèces résidentes, ER

Les espèces d’origine dulçaquicole, FW

Les espèces marines, estuaire-dépendantes, MJ (marine juvénile) et MS (marine saisonnière)

Quatre guildes trophiques :

Les espèces zooplanctonophages (tendance dominante), Z

Les espèces consommant principalement des invertébrés benthiques, IB

Les espèces essentiellement piscivores, F

Les espèces omnivores, O Une guilde de position :

Les espèces benthiques B

Le tableau initial des données traitées se compose donc pour chaque masse d’eau, du nombre et de la densité absolue de chacune de des guildes définies ci-dessus.

5.3. Descripteurs des milieux et engins de pêche

Ces descripteurs sont les facteurs géographiques, hydromorphologiques ou liés au protocole d’échantillonnage qui expliquent une part de la variabilité des métriques choisies lors de la construction de l’indice « Poissons  » (Girardin et al. 2009).

Plusieurs facteurs pouvant induire une variabilité des métriques, ont en effet été identifiés et testés par GLM. Parmi eux, sont retenus pour leur significativité :

S’agissant des les estuaires :

L’engin de pêche : petit ou grand chalut

La saison : printemps ou automne

La salinité : en 3 classes [0 à 5] ; ]5 à 18] ; >18

(22)

-•

La surface du système (km2)

L’écorégion : Manche ou Atlantique Et dans le cas des lagunes :

La saison : printemps ou automne

La salinité (en classes)

La surface du système (km2)

La connexion à la mer : faible ou forte

6. Construction des modèles

Les arbres de régression sont construits avec le logiciel R en utilisant la librairie Rpart, développée par Therneau & Atkinson (1997) selon la méthode CART (Classification and Regression Tree) de Breiman et al. (1984), ainsi que sa généralisation la librairie mvpart (multivariate partitioning) développée par De’ath (2002) qui considère des réponses multidimensionnelles.

Les AUC sont calculées avec la fonction ROC proposée par Mahomey & Atkinson (1998). À cette fin, un tirage aléatoire est réalisé coupant les jeux de données en deux parties, la première pour l’apprentissage et la construction des modèles, la seconde pour tester leur validité.

Dans le cas des estuaires, le tableau initial de 1003 observations est découpé en 803 lignes pour l’apprentissage et 200 pour la validation, tandis que pour les lagunes, le tableau initial de 310 observations est découpé en deux ensembles de 250 et 60 lignes, pour l’apprentissage et la validation respectivement.

(23)

Résultats préliminaires

7. Modèle de présence-absence de guildes

7.1. Cas des estuaires

Dix modèles sont établis pour prédire la présence ou l’absence des guides des poissons dans les estuaires.

Seuls sept sont consistants. Les deux métriques trophiques F et IB, ainsi que la guilde de positionnement B sont en effet très mal modélisées, comme en témoignent les très faibles scores, tant des AUC que des indices de Kappa.

Évaluation de la qualité des modèles de régression établis pour la prédiction des guildes écologique et trophiques dans les estuaires. Valeur d’AUC (erreur-standard, significativité et

limites de confiance), coefficient de Kappa, sensibilité et spécificité.

Guilde ROC AUC Error Std. z value Pr(>z) lower.95 upper.95 Kappa Sensitivity Specificity CA ER FW MJ MS F IB O Z B 0,83 0,03 12,39 0,000 0,78 0,88 0,66 0,81 0,85 0,75 0,04 6,67 0,000 0,68 0,82 0,52 0,91 0,59 0,96 0,04 12,89 0,000 0,89 1,03 0,92 0,93 0,99 0,75 0,03 7,52 0,000 0,68 0,81 0,49 0,82 0,67 0,87 0,03 14,57 0,000 0,82 0,92 0,75 0,81 0,93 0,50 0,00 NA NA 0,50 0,50 0,00 1,00 0,00 0,50 0,00 NA NA 0,50 0,50 0,00 1,00 0,00 0,72 0,04 5,73 0,000 0,64 0,79 0,44 0,57 0,87 0,77 0,03 8,86 0,000 0,71 0,82 0,53 0,72 0,81 0,52 0,02 0,83 0,202 0,48 0,55 0,05 0,99 0,04

Ce sont les modèles de prédiction de présence-absence des guildes écologiques qui obtiennent les meilleurs résultats avec des valeurs d’AUC comprises entre 0,75 (MS) et 0,96 (FW) et des coefficients de Kappa variant de 0,49 à 0,92 respectivement.

S’agissant de la prédiction des guildes trophiques, seules les guildes des zooplanctonophages (Z : AUC 0,77 ; Kappa 0,72) et dans une moindre mesure des omnivores (O : AUC 0,72 ; Kappa 0,44) sont correctement modélisées.

L’arbre de décision construit pour les poissons d’eau douce (FW) obtient le meilleur score, s’agissant tant d’AUC (0,96) que de Kappa (0,92).

Il est très simple (cf. Figure ci-dessous), voire trivial, mais assez pédagogique cependant.

(24)

-Exemple d’arbre de décision. Cas de la guilde des poissons d’eau d’eau douce

En effet, selon ce modèle, la salinité est le premier critère pris en compte, la guilde des poissons d’eau douce étant bien absente des eaux de classe de salinité 2 et 3. Puis, c’est l’indice de d’usage du sol qui est considéré. Si la valeur de cette pression est supérieure à 0,59, alors le modèle prédit la présence d’espèces d’eau douce.

Exemple d’arbre de décision. Cas de la guilde des Catatromes.

| Arbre élagué FW (cp= 0.071 ) Sal_class=2,3 iCLC< 0.5938 0 0 1 | Arbre élagué CA (cp= 0.013 ) Surf< 41.75 Sal_class=3 iPoll>=0.234 iPoll>=0.619 0 0 1 0 1

(25)

Le modèle de la guilde des catadromes donne lui aussi de bons résultats (AUC = 0,83 ; Kappa = 0,66). Il fait intervenir en premier lieu la surface de l’estuaire. Dans les estuaires de petite taille fortement salé les catadromes sont prédits absents. Dans ces petits estuaires, il est plus probable de les rencontrer pour des zones de salinité 2 et 1, non polluées. Dans les estuaires de plus grande taille, c’est aussi l’indice de pollution qui est prépondérant.

Exemple d’arbre de décision. Cas de la guilde des Marins saisonniers

Le dernier exemple ci-dessus, concernant l’arbre de prédiction de la guildes des espèces Marines saisonnières, est plus touffu et plus difficile à interpréter. Dans ce cas, c’est l’engin de pêche qui est le premier critère, puis la salinité et la surface de l’estuaire (arborescence de droite). Ensuite, pour les milieux de petite taille, l’indice de pression sur l’habitat et le vivant est considéré.

Pour les échantillonnages au petit chalut (arborescence de gauche), les indices de pression iCLC et iPoll sont discriminants mais ils interviennent positivement ; c’est-à-dire que la présence est prédite pour des valeurs élevées de ces derniers.

7.2. Cas des Lagunes

Comme précédemment, 10 modèles sont construits.

Globalement, les résultats sont assez proches de ceux obtenus pour les estuaires, bien que les valeurs d’AUC et de Kappa soient sensiblement plus faibles, sans doute en raison du nombre d’observations réduit. Les difficultés à construire des modèles performants pour les guildes trophiques se confirment, seuls les omnivores sont correctement prédits (AUC 0,61 ; Kappa 0,95).

| Arbre élagué MS (cp= 0.011 ) Engin=PC iCLC>=0.4688 iPoll>=0.357 Surf>=12.08 Ecoreg=MAN Surf< 35.99 Saison=prin Surf>=41.75 Surf>=25.04 Sal_class=1 Surf< 385.1 iHV>=0.3125 Surf>=215.2 0 0 0 0 0 1 0 1 1 0 0 0 1 1 20

(26)

-Évaluation de la qualité des modèles de régression établis pour la prédiction des guildes écologique et trophiques dans les lagunes. Valeur d’AUC (erreur-standard, significativité et

limites de confiance), coefficient de Kappa, sensibilité et spécificité.

Guilde ROC AUC Std. Error z value Pr(>z) lower.95 upper.95 Kappa Sensitivity Specificity CA ER FW MJ MS F IB O Z B 0,67 0,06 2,65 0,004 0,54 0,80 0,39 0,93 0,41 0,60 0,07 1,37 0,086 0,46 0,75 0,28 0,98 0,22 0,94 0,06 8,00 0,000 0,84 1,05 0,93 0,89 1,00 0,76 0,06 4,46 0,000 0,64 0,87 0,49 0,78 0,73 0,53 0,04 0,99 0,162 0,47 0,60 0,09 0,10 0,97 0,50 0,00 NA NA 0,50 0,50 0,00 1,00 0,00 0,50 0,00 NA NA 0,50 0,50 0,00 1,00 0,00 0,61 0,05 2,12 0,017 0,51 0,71 0,25 0,95 0,27 0,58 0,10 0,81 0,209 0,38 0,78 0,20 0,96 0,20 0,50 0,06 0,00 0,500 0,38 0,62 0,00 0,80 0,20

Le modèle des espèces d’eau douce est aussi le plus robuste (AUC 0,94 ; Kappa 0,89).

Arbre de décision de la guilde poissons d’eau d’eau douce en lagunes.

En dépit d’une AUC correcte (0, 76) mais avec une valeur de Kappa moyenne (0,49), l’arbre des espèces marines juvéniles, réduit à sa plus simple expression est surprenant. En effet, si c’est la pollution qui apparaît le critère déterminant, c’est une faible valeur qui conduit à l’absence de la guilde. Cette question doit être examinée plus en détail.

| Arbre élagué FW (cp= 0 ) Sal_class=3 Connec=for Surf< 23.24 0 0 1 1

(27)

Arbre de décision de la guilde des poissons juvéniles marins en lagunes

Enfin, l’arbre pour les espèces catadromes correspond en fait à un arbre complet (cp = 0,00). Il est moyennement robuste (AUC 0,67 ; Kappa 0,39) et son intérêt est principalement de mettre l’accent sur les pressions de pollution et sur le vivant.

Arbre de décision de la guilde des poissons catadromes en lagunes

| Arbre élagué MJ (cp= 0.031 ) iPoll< 0.665 0 1 | Arbre élagué CA (cp= 0 ) Surf>=35.16 Sal_class=3 Saison=prin iPoll>=0.25 iHV< 0.295 iPoll>=0.54 Saison=auto Surf< 23.24 Connec=for 0 1 0 1 1 0 1 1 1 1 22

(28)

-8. Modèles multivariés d’abondances des guildes écologiques

Les deux modèles ci-dessous sont construits à partir des données de densité des guildes capturées dans les masses d’eau. Seules les guildes écologiques sont considérées dans l’exercice.

Arbre de régression multivarié. Abondances relatives des guildes écologiques dans les Estuaires.

Arbre de régression multivarié. Abondances relatives des guildes écologiques dans les lagunes.

Engin=PC Sal_class=1,2 iCLC>=0.5938 Saison=prin Saison=prin iHV< 0.2345 Sal_class=2,3 3.95 : n=15 26.3 : n=65 22.4 : n=71 53.7 : n=170 53.1 : n=203 25.6 : n=116 30.1 : n=147 3.01 : n=16 deCA deER deFW deMJ deMS Error : 0.734 CV Error : 0.76 SE : 0.0242 iPoll< 0.875 Sal_class=2,3 iCLC>=0.41 Surf>=100.9 Saison=auto iHV< 0.195 Saison=prin Surf>=6.365 Saison=auto 3.96 : n=130.516 : n=10 17.6 : n=129 1.58 : n=13 2.34 : n=11 6.71 : n=35 0.105 : n=60.0968 : n=6 5.77 : n=12 3.45 : n=15 deCA deER deFW deMJ deMS Error : 0.52 CV Error : 0.617 SE : 0.0655

(29)

Pour réduire la variabilité des données et les rendre comparables, les données sont normalisées en considérant les proportions de guildes, c’est-à-dire le nombre de poissons capturés de la guilde considérée sur le nombre total de poissons pêchés. Et, bien que l’on perde de cette façon de l’information sur les quantités, cette idée est intéressante car elle reste cohérente avec l’objectif de travailler sur des communautés de poissons.

En prédiction sur les données de tests, l’erreur est importante, en particulier dans le cas des estuaires. Paradoxalement, cette erreur est plus faible pour le modèle d’arbre des lagunes. Mais comme indiqué précédemment (cf. §4.4), ces valeurs ne sont pas très fiables.

Dans l’ensemble, les indices de pressions sont pris en compte. Dans le cas des lagunes la pression de pollution iPoll apparaît majeure. Tandis que les critères de pressions iHV et iCLC sont pris en compte dans les deux types de masse d’eau.

L’analyse de ces premiers résultats demande des approfondissements.

En particulier, d’autres transformations de données sont envisageables qui mériteraient d’être testées pour servir de comparaison, notamment en terme d’erreur de prédiction. Par exemple, la normalisation classique, où pour chaque espèce, on retranche la moyenne puis on divise par l’écart type, ainsi que la normalisation proposée par De’ath (2002), où les abondances de chaque espèce sont divisées par leur abondance moyenne, puis transformées en densités de poissons.

En l’état, l’intérêt des modèles présentés est surtout d’illustrer les possibilités offertes par cette méthode d’arbre de régression multivarié.

(30)

-Conclusions et perspectives

À ce stade du travail, les résultats obtenus sont encore loin de satisfaire les objectifs assignés.

Mais cette première exploration montrent cependant les possibilités intéressantes de cet outil original.

En particulier, l’intérêt des guildes écologiques pour décrire les peuplements est avéré. Mais la poursuite d’une démarche similaire à l’échelle des espèces ne doit cependant pas être écartée.

Une stratégie intermédiaire pourrait être également de construire des modèles de prédiction du nombre d’espèces par guildes en testant leur validité à l’aide de l’indice de Kappa multiple proposé par Fleiss (1971).

S’agissant des arbres multivariés, il conviendrait de tester différentes transformations des données.

Par ailleurs, dans la plupart des cas, les modèles construits réagissent aux indices de pression. Dès lors, il est donc possible d’étudier leur réaction en simulant l’absence de celles-ci.

Un intérêt majeur qui s’offre est aussi la possibilité de considérer ces pressions de façon plus détaillée que lors de ces premiers essais. À cet égard, les indices peuvent en effet être détaillés en reprenant les valeurs initiales de leurs différentes composantes. Au plan méthodologique, il n’est en effet pas gênant d’avoir beaucoup de descripteurs pour la construction des arbres, l’algorithme prenant, à chaque division, le descripteur optimal.

Une façon de faire serait de procéder par ajouts successifs des différentes variables à tester et de comparer ensuite les modèles à l’aide de l’AUC pour juger de leur apport en matière de pouvoir de prédiction. Un tel affinement est susceptible de déboucher sur une identification plus précise des facteurs explicatifs en jeu qui pourraient ultérieurement asseoir un éventuel diagnostic.

Dans tous les cas, une première chose serait de compléter et d’enrichir la base de donnée afin de disposer de davantage d’exemples pour renforcer la validité de ces premiers résultats.

(31)

Bibliographie

Atkinson E.J. & Therneau T.M. (2000). An introduction to recursive partitioning using the RPART routines.

Technical report, #61, Mayo Foundation, February 11, 2000, pp. 52.

Breiman L., Friedman J.H., Olshen R.A. & Stone C.J. (1984). Classification and regression trees. Chapman & Hall, New York, 358 pp.

Cohen J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement 20 (1): 37-46.

Daigle J.-M. 2002. L'utilisation des courbes ROC dans l'évaluation des tests diagnostiques de laboratoire clinique : application à l'étude de la pneumonite d'hypersensibilité. M. Sc. Faculté des études

supérieures de l'Université de Laval, Département de mathématiques et de statistique. Département de mathématiques et de statistique, Faculté des sciences et de génie, Laval, Québec. p. 57 + annexes.

DCE (2000). Directive 2000/60/CE du Parlement Européen et du Conseil du 23 octobre 2000 établissant un cadre pour une politique communautaire dans le domaine de l'eau, adoptée le 22/12/2000.

Journal officiel des Communautés européennes, FR: L 327/1 - L 327/21 + XI annexes.

De'ath G. (2002). Multivariate regression trees: a new technique for modeling species-environment relationships. Ecology, 83 (4): 1105-1117.

Fleiss J.L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76 (5): 378-382.

Girardin M., Lepage M., Amara R., Boët P., Courrat A., Delpech C., Durozoi B., Laffargue P., Le Pape O., Lobry J., Parlier E. & Pasquaud S. (2009). Développement d’un indicateur poisson pour les eaux de transition. Rapport scientifique de fin de contrat, Programme LITEAU2 2005, Janvier 2009, pp. 36 + annexes.

Grave T. (2004). Application des arbres de régression multivariés à la prédiction des espèces piscicoles dans le bassin versant de la Seine. Rapport de stage d'ingéniorat, Ecole nationale supérieure des

télécommunications de Bretagne, octobre 2004, Brest, pp. 44 + annexes.

Guisan A. & Zimmermann N.E. (2000). Predictive habitat distribution models in ecology. Ecol. Modelling, 135 (2-3): 147-186.

Levins R. (1966). The strategy of model building in population biology. American Scientist, 54 (4): 421-431. Mahomey D. & Atkinson E.J. (1998). ROC function. roc34 - Splus3.4 version of the roc function, Library,

Mayo Foundation for Medical Education and Research, On line http://mayoresearch.mayo.edu/mayo/ research/biostat/software.cfm 4/16/2001.

Therneau T.M. & Atkinson E.J. (1997). An introduction to recursive partitioning using the RPART routines.

Technical report, Mayo Foundation, September 3, 1997, pp. 52.

Zweig M.H. & Campbell G. (1993). Receiver-Operating Characteristic (Roc) Plots - a Fundamental Evaluation Tool in Clinical Medicine. Clinical Chemistry, 39 (4): 561-577.

(32)

-Annexes

Arbres de décision construits pour les estuaires mais non figurés dans le

corps de texte.

| Arbre élagué ER (cp= 0.014 ) iHV>=0.2345 Saison=prin Sal_class=1,2 iPoll>=0.357 iPoll< 0.119 Sal_class=1 Surf>=125.3 0 0 0 1 0 1 1 1 | Arbre élagué MJ (cp= 0.005 ) Sal_class=1 Surf< 28.16 iPoll>=0.3055 iPoll< 0.0715 0 0 0 1 1

(33)

Arbres de décision construits pour les estuaires mais non figurés dans le

corps de texte (suite).

| Arbre complet F (cp= 0.04 ) iHV< 0.2655 iCLC>=0.4688 Sal_class=2,3 0 0 0 1 | Arbre complet IB (cp= 0.009 ) Saison=prin Engin=PC iHV>=0.2035 iPoll< 0.024 Surf>=33.07 Sal_class=3 0 0 1 1 1 1 1 28

(34)

-Arbres de décision construits pour les estuaires mais non figurés dans le

corps de texte (suite).

| Arbre élagué O (cp= 0.007 ) Surf< 52.44 iPoll>=0.619 Sal_class=1,3 Ecoreg=MAN Engin=PC 0 0 0 0 1 1 | Arbre élagué Z (cp= 0.021 ) Surf< 18.38 iCLC>=0.375 Sal_class=1 iCLC< 0.3438 0 1 0 0 1

(35)

Arbres de décision construits pour les estuaires mais non figurés dans le

corps de texte (suite).

| Arbre complet B (cp= 0.013 ) Sal_class=1 Ecoreg=ATL Engin=PC Surf>=131.9 iHV< 0.2655 iHV>=0.1095 iPoll< 0.3055 Sal_class=3 Saison=prin Surf>=4.883 Surf< 10.98 Surf>=32.87 0 1 1 1 0 0 1 1 1 1 1 1 1 30

(36)

-Arbres de décision construits pour les lagunes mais non figurés dans le

corps de texte.

| Arbre élagué ER (cp= 0 ) Surf< 12.31 Surf>=6.275 Saison=auto 0 1 1 1 | Arbre complet MS (cp= 0.022 ) iHV< 0.195 iPoll>=0.665 Surf>=4.93 Saison=prin iPoll< 0.54 Saison=prin Surf>=23.24 Surf< 23.24 0 0 0 1 0 0 1 0 1

(37)

Arbres de décision construits pour les lagunes mais non figurés dans le

corps de texte (suite).

| Arbre élagué F (cp= 0.045 ) iCLC< 0.625 0 1 | Arbre élagué IB (cp= 0 ) Sal_class=3 iPoll< 0.25 iCLC>=0.345 Saison=auto Surf< 53.38 Surf>=3.905 iPoll>=0.375 Surf>=22.48 Connec=for 0 0 1 1 0 1 1 1 1 1 32

(38)

-Arbres de décision construits pour les lagunes mais non figurés dans le

corps de texte (suite).

| Arbre élagué O (cp= 0.008 ) iHV>=0.195 iPoll>=0.54 Connec=for iCLC>=0.345 Saison=auto Surf< 25.75 Surf>=25.75 Sal_class=3 iPoll>=0.46 0 1 0 1 1 1 0 1 1 1 | Arbre complet Z (cp= 0.067 ) Surf< 12.31 Surf>=6.275 Saison=auto 0 1 1 1

(39)

Arbres de décision construits pour les lagunes mais non figurés dans le

corps de texte (suite).

| Arbre complet B (cp= 0.021 ) iCLC>=0.41 Saison=auto Surf< 61.5 Connec=fai Surf>=45.8 Surf>=22.48 iPoll>=0.375 0 0 1 1 0 1 1 1 34

(40)

-Résumé – Texte – -Résumé – Texte… Direction générale Parc de Tourvoie BP 44 - 92163 Antony cedex Tél. 01 40 96 61 21 - Fax 01 40 96 62 25 www.cemagref.fr

Références

Documents relatifs

For a configuration u, let ρ(u) denote the reduced con- figuration obtained from the monomial associated to u by performing reductions in the Gr¨obner basis of I G associated with

Au-delà des aspects mégadonnées, ces méthodes commencent à se diffuser dans la sphère actua- rielle notamment du fait de leur simplicité de mise en œuvre et surtout de

Nous avons examiné de nombreux jeux de données tests pour étudier le comportement de la méthode proposée pour des données aberrantes de différents types : plusieurs modes

Pour répondre à ces problématiques, notre contribution principale dans cette thèse est de proposer la méthode Bayesian functional Linear regression with Sparse Step function

Un chercheur en sociologie veut analyser s’il existe une relation linéaire entre la densité de population dans les ville et le taux de criminalité correspondant dans ces villes?.

On étudiera ici deux méthodes de régression par l'analyse des cor- respondances ; dans la première on raisonne sur le tableau initial X J , tandis que dans la seconde, on

Nous rappelons la définition de modèle AR(p) quadrantal de Tj0stheim (voir [9], [10]) et étudions ensuite, dans le cas particulier de champs autorégressifs, les