• Aucun résultat trouvé

Utilisation des techniques de modélisation neuronale pour l'évaluation de la qualité des eaux par les communautés de diatomées benthiques

N/A
N/A
Protected

Academic year: 2021

Partager "Utilisation des techniques de modélisation neuronale pour l'évaluation de la qualité des eaux par les communautés de diatomées benthiques"

Copied!
38
0
0

Texte intégral

(1)

HAL Id: hal-02594676

https://hal.inrae.fr/hal-02594676

Submitted on 15 May 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Utilisation des techniques de modélisation neuronale

pour l’évaluation de la qualité des eaux par les

communautés de diatomées benthiques

M. Bottin

To cite this version:

M. Bottin. Utilisation des techniques de modélisation neuronale pour l’évaluation de la qualité des eaux par les communautés de diatomées benthiques. Sciences de l’environnement. 2008. �hal-02594676�

(2)

BOTTIN Marius

Maître de stage : DELMAS François

Juin2008

Groupement de BORDEAUX

50, Avenue de Verdun 33 612 CESTAS CEDEX

Tél. : 05.57.89.08.00 Fax : 05.57.89.08.01

Département Ressources en Eau, Usages et Risques

Unité de Recherche Réseaux, Epuration et Qualité des Eaux

UTILISATION des TECHNIQUES de

MODELISATION NEURONALE pour

l'EVALUATION de la QUALITE des EAUX

par les COMMUNAUTES de

DIATOMEES BENTHIQUES

(3)

UTILISATION des TECHNIQUES de

MODELISATION NEURONALE pour

l'EVALUATION de la QUALITE des EAUX

par les COMMUNAUTES de

DIATOMEES BENTHIQUES

BOTTIN Marius

(4)

Résumé

La mise en application de la Directive Cadre sur l’Eau (WFD), nécessite d’améliorer nos connaissances des milieux aquatiques et les techniques de biosurveillance des eaux de surface. Les prélèvements de diatomées benthiques des cours d’eau sont utilisés en routine depuis une quinzaine d’années, du fait de leur fort pouvoir intégrateur et de leur sensibilité à l’intégrité des milieux aquatiques. Afin de maîtriser l’effet de la variabilité naturelle sur notre évaluation de la qualité des eaux, le réseau hydrologique français a été divisé en Hydro-Eco-Régions (HER) et des sites de référence (peu ou pas impactés) ont été sélectionnés grâce à des descripteurs abiotiques de pressions et d’état chimique. L’évaluation de la qualité écologique des cours d’eau prend en compte ces facteurs abiotiques, mais il est important de s’appuyer aussi sur la structure des communautés de diatomées pour maîtriser l’effet de la variabilité naturelle. Dans cette étude, nous avons proposé une méthodologie permettant la prise en compte des HER et de l’estimation des conditions de référence a priori. Dans ce cadre, la technique des cartes auto‐organisatrices de Kohonen (SOM) permet l’ordination des communautés de diatomées et la séparation a posteriori des conditions de référence selon les communautés, la définition d’une biotypologie de ces communautés et l’extraction de « pseudo‐communautés » représentatives du jeu de données (prototypes). A chacune de ces étapes, l’utilisation d’un outil issu de la théorie de l’information, l’entropie, permet la prise en compte optimale des informations connues a priori. De plus nous comparons l’effet de l’utilisation des distances euclidiennes et des distances de Bray‐Curtis sur les résultats des SOM et testons une méthode de tri des espèces non‐structurantes pour limiter l’effet du « bruit » qu’elles pourraient contenir. Les résultats montrent de meilleures performances des SOM avec la distance de Bray‐Curtis, et après avoir supprimé les espèces non‐structurantes par la méthode proposée. Ils permettent aussi de définir une typologie précise des communautés de diatomées à l’échelle nationale, ainsi que de décrire les gradients sous‐jacents (altitude et alcalinité). Enfin cette méthodologie aboutit au calcul d’une métrique basée sur l’écart à la référence dont la capacité à décrire la qualité des milieux doit encore être vérifiée, mais qui semble prometteuse.

Abstract

The Water Framework Directive (WFD) implementation generates the need to improve our knowledge of the aquatic environments, as of biomonitoring techniques for surface hydrosystems. In rivers, benthic diatom samplings are routinely used from 15 years because of their strong integrative power and their sensitivity to aquatic ecosystems integrity. In order to master the effect of natural variation on our water quality assessment power, the French hydrographic network has been divided into HydroEcoRegions (HER) and the reference sites (unimpacted or lowly impacted) have been selected through abiotic descriptors of pressures and chemical state. Assessment of the ecological quality of rivers accounts with these abiotic factors, but it is also important to rely on diatom community structure to control the effect of natural variability. In this study, we proposed a method allowing to account for the HER framework and the assessment of a priori reference conditions. The Kohonen Self-Organizing Map technique allows the ordination of diatom communities, the isolation of reference conditions derived from communities (a

posteriori), the definition of a biotypology and the extraction of pseudo-communities representative of the

dataset (prototypes of communities). At each of these steps, the use of a tool derived from the information theory, the entropy, allows to optimal use of information known a priori. Furthermore, we compare the use of Euclidean distance and Bray-Curtis distance on the results of SOM, and test a method sorting the non-structuring species generating noise. Results show a better performance of SOM using the Bray-Curtis distance after having removed the non-structuring species. They allow to define a precise typology of diatom:communities at the national scale, and to describe underlying gradients (elevation and alkalinity). Finally, this methodology leads to the calculation of a metric based on the deviation to the reference status which capacity to describe ecological quality of environments must be verified, but looks promising.

(5)

Remerciements 

  Ah les remerciements … cette partie du mémoire est loin d’être la partie la plus facile  à  rédiger !  Surtout  qu’au‐delà  du  coté  quelque  peu  rituel  et  contraignant  de  cet  exercice  (surtout,  n’oublie  personne !),  je  voudrais  réellement  remercier  les  gens  qui  m’ont  accompagné  d’une  façon  ou  d’une  autre  jusqu’à  cette  nuit  fatidique  qui  clôture  un  stage  digne  de  ce  nom (yeux  rouges,  peu  de  sommeil  depuis  quelques  jours,  fébrilité  due  à  l’association du stress, du café et de l’écran d’ordinateur) … 

  Tout  d’abord  François,  pour  son  encadrement  et  ses  conseils,  la  liberté  qu’il  m’a  laissé au cours de ce stage, sa bonne humeur et bien sûr… ses légendaires débits et volumes  de paroles qui en font un personnage unique ! 

  Muriel,  pour  m’avoir  donné  envie  de  me  lancer  dans  ce  monde  bizarre  qu’est  la  recherche, pour ses précieux conseils et l’attention qu’elle m’a porté 

  Juliette, pour sa gentillesse et sa disponibilité, ainsi que pour toutes les réponses aux  questions que je n’avais pas oubliées avant d’arriver à son bureau ! 

  Soizic,  Julie,  Emilie,  Gilles,  Michel,  Melodie,  Maria,  Florian,  Younes,  Vincent,  Fany,  Sebastien,  Karine,  … ,  compagnons  de  travail,  de  pause  ou  de  repas  qui  font  qu’il  est  agréable d’être au CEMAGREF    Marie‐Hélène et Daniel pour l’efficacité dont ils ont fait preuve pour les dossiers de  thèses et d’embauche    Marine, Fanny et Max, pour ces sessions de Djembe et ces soirées, indispensables à  mon adaptation à la vie bordelaise    SLR et tous les gens qui se battent pour que la recherche ait un avenir…      Je ne peux pas écrire cette page sans penser à :   Zacharie, Cassandre, Roger et Etienne qui resteront toujours mes « collocs »,  Stephane, Claire, mes amis et confidents,  Fabienne,  Mes parents,  Marie et Eric, mes « autres parents »,  Hannah, Etienne, Elie, Loïc, Azilis, Mathilde, mes frères et sœurs et Dario, Oscar, mes neveux 

(6)

Table des matières :

1 INTRODUCTION 1

2 MATERIEL ET METHODES 5

2.1 Données 5

2.1.1 Zone géographique et échelle de l’étude 5 2.1.2 Données biologiques 6 2.1.3 Données physico-chimiques, et informations a priori sur les communautés 6

2.2 Méthodes et procédures 7

2.2.1 Méthodes analytiques et statistiques utilisées 7 a) Cartes auto-organisatrices de Kohonen 7 b) Sélection des espèces structurantes par INDVAL (Indicator Values) 9

c) Entropie 9

d) Calcul des écarts à la référence la plus proche grâce aux prototypes de SOM 10 2.2.2 Procédure complète d’analyse et mise en œuvre des méthodes 11

3 RESULTATS 12

3.1 Suppression des espèces non structurantes 12

3.2 Définition des sites de référence a posteriori 14 3.3 Cartes finales : SOM sur les référence a posteriori et projection des sites-test 15

3.3.1 Répartition des sites sur les cartes 15 3.3.2 Définitions des biotypes de références 16 3.3.3 Description physico-chimique des biotypes 18 3.3.4 Projection des sites non-références sur les SOM de référence 20

3.3.5 Disposition géographique des biotypes de référence et des sites impactés a posteriori 21 3.3.6 Distances aux prototypes les plus proches 23

4 DISCUSSION 24

4.1 Méthodologie 24

4.1.1 Suppression des espèces non structurantes 24 4.1.2 Utilisation de l’entropie 26 4.1.3 Distances : Bray-Curtis ou euclidiennes ? 27 4.1.4 Procédure complète d’analyse et utilité des distances aux prototypes les plus proches 28

4.2 Discussion sur les résultats 29

(7)

1

Introduction

La Directive Cadre Européenne sur l’Eau (DCE) prévoit d’atteindre le bon état écologique des eaux de surface européennes pour 2015, ce qui implique de pouvoir surveiller et quantifier la notion d’état écologique des écosystèmes aquatiques. Aussi l’application de cette directive requiert une connaissance accrue des facteurs naturels et anthropiques affectant la diversité et la structure des communautés aquatiques. Sa mise en place s’est d’ailleurs accompagnée de nombreux programmes scientifiques à l’échelle européenne qui ont permis, entre autres, l’amélioration des techniques de bioindication et de biosurveillance (biomonitoring) de la qualité des eaux de surface. En effet, les communautés aquatiques sont connues pour réagir particulièrement rapidement aux modifications des conditions physiques et chimiques des cours d’eau et intégrer ces modifications sur des échelles de temps et d’espaces plus facilement reliables au concept de qualité de l’eau (Hellawell, 1986). Aussi, la DCE prévoit l’utilisation des communautés de poissons, de macrophytes, de macroinvertébrés et de diatomées en ce sens.

Les diatomées occupent une place fondamentale dans les écosystèmes aquatiques (Stevenson et al., 1996). Leur importance est essentiellement due à leur rôle fonctionnel crucial, dans la chaine trophique (Lamberti, 1996) et dans les cycles biogéochimiques (Mulholland, 1996) : on estime qu’elles représentent 23% de la production primaire terrestre (Snoeijs et al., 2002, selon les estimations de Melillo et al.,1993). Cette importance est associée à une diversité faramineuse en termes de nombre d’espèces (Mann & Droop, 1996), de taille et de formes (Snoeijs et al., 2002), et fonctionnelle. Aussi, le cycle de vie très court, la fixation au substrat (mobilité réduite), la diversité, l’abondance et la large répartition des diatomées benthiques en font de très bons indicateurs de la qualité des cours d’eau (Stoermer & Smol, 1999). Elles semblent particulièrement sensibles aux pollutions par les composés organiques biodégradables (van Dam et al., 1994), mais d’autres études montrent leur sensibilité à d’autres facteurs (ex : facteurs naturels Pan & Lowe, 1994 ; pesticides : Debenest, 2007 , metaux : Morin, 2006)

De nombreux travaux, liés à la mise en place de la DCE, ont permis de mieux comprendre les liens de causes à effets entre les facteurs du milieu et les communautés biologiques. De ces travaux est née une « philosophie de la DCE ». En effet, des choix conceptuels ont été faits en ce qui concerne la façon dont doit être conduite la biosurveillance des systèmes aquatiques continentaux. Ainsi, par exemple, il est conseillé de mesurer la

(8)

qualité et l’intégrité des milieux aquatiques par comparaison à des stations de référence, peu ou pas impacté par les activités anthropiques. On parle alors d’écart à la référence. Aussi, on s’est aperçu qu’il était intéressant séparer les cours d’eaux français et européens en « Hydro-éco-régions » (HER), qui sont des zones géographiques au sein desquelles les paramètres abiotiques des cours d’eaux sont similaires. Cette division en HER a été faite d’après le constat que les écosystèmes aquatiques subissent des variations naturelles, qui doivent être séparées des variations dues aux activités anthropiques. (Wasson et al., 2002) L’ensemble de ces concepts doit être vérifié dans le cas particulier des diatomées et des méthodes statistiques doivent être adaptées de façon à être en accord avec ces principes généraux.

En se basant sur ces considérations, diverses façons de quantifier les effets des perturbations anthropiques sur les communautés ont été proposées. Ces diverses méthodologies peuvent être regroupées en trois grands groupes. Le premier groupe de méthode concerne l’utilisation de métriques pour quantifier l’effet des perturbations anthropiques (Lavoie et al., 2006b; Tison, 2006). Il s’agit en fait de résumer la qualité écologique d’un site grâce à une ou plusieurs métriques décrivant la structure (richesse, proportions de taxons sensibles…) ou les caractéristiques fonctionnelles (habitat, mode de reproduction…) des communautés. Les métriques sont ensuite comparées à celles des sites de référence du même groupe de sites. L’avantage de telles méthodes réside en la simplicité du calcul des métriques et de leur signification, ainsi qu’en la prise en compte explicite de facteurs fonctionnels des communautés. Par contre, certains auteurs pensent que l’utilisation combinée de plusieurs métriques amène souvent à la prise en compte d’informations redondantes et des études ont montré que ce type d’approche ne permettait pas une différenciation aussi efficace des sites de référence que d’autres méthodes (Reynoldson et al., 1997).

Une autre approche, souvent appelée approche multivariée, consiste en la comparaison des communautés réelles des sites testés avec les communautés prédites de ces même sites sous l’hypothèse que ce sont des sites de référence(Simpson & Norris, 2000; Wright et al., 1993). Après la prédiction de la présence de certains taxons la comparaison est faite avec les taxons réellement présents dans le site sous la forme de la proportion de ceux réellement présents parmi ceux qui sont attendus sous l’hypothèse du site de référence (ratio Observed/Expected : O/E). Ce type de technique a montré une meilleure précision que l’approche multimétrique (Reynoldson et al., 1997). Malgré cela, plusieurs critiques lui ont été faite : Chessman (1999) et Chessman et al. (2008) pensent que le principal désavantage de cette méthode est le fait de fait de classer les sites de références en plusieurs types car les communautés auraient plutôt tendance à suivre un gradient continu. Van Sickle (2008), quant

(9)

à lui, montre que le rapport O/E utilisé dans ces techniques ne permet pas un suivi de certains changements subtils dans les communautés. De plus l’essai d’application de ces méthodes par Chessman et al., (1999) sur les communautés de diatomées a montré de faibles résultats, et il est possible que cela soit dû, entre autres, à la réponse particulière de la richesse taxonomique des diatomées aux perturbations.

Enfin la dernière méthodologie générale consiste en la séparation des sites de références en différents groupes. Au sein de ces groupes, les sites testés qui ne sont pas significativement différents de ceux-là sont considérés comme des sites de référence. ou des sites de très bonne qualité. Cette méthodologie est souvent apparentée à la méthode des modèles nuls (pour plus de précision se reporter à Van Sickle, 2005) car on s’affranchit de l’effet des perturbations anthropiques en ne considérant que les sites de référence dans la description de la variabilité naturelle des communautés. La méthode consiste en la comparaison des sites testés avec la distribution des seuls sites de références. Les différents niveaux de différence (ou de significativité) permettent de statuer sur l’appartenance des sites testés à différentes classes de qualité. Cette dernière approche peut aussi être utilisée avec des comparaisons de métriques(Bates Prins & Smith, 2007). Moins contraignante, elle permet aussi la comparaison des abondances des taxons plutôt que leur simple occurrence.

En ce qui concerne le traitement des données sur les diatomées en vue de l’évaluation de la qualité des eaux, la séparation entre ces différentes méthodologies est moins nette. Les travaux ont principalement porté sur la réalisation de biotypologies (Tison et al., 2004)et leur comparaison aux typologies de type HER (Tison et al., 2005), avec détermination des facteurs naturels et anthropiques structurants les communautés (Lavoie et al., 2006b; Tison et al., 2007). D’autres études ont porté sur l’amélioration des indices (métriques) de qualité biologiques des eaux de surface(Lavoie et al., 2006b). Les travaux de Grenier et al., (2007; 2006) montrent la possibilité et les avantages qu’il y a à se baser sur les communautés elle-même pour évaluer la qualité des eaux, les sites de références et les communautés-types (détermination a posteriori). Ils opposent cette approche à l’utilisation des variables physico-chimiques pour déterminer ou prédire les conditions de référence (détermination a priori avec une faible prise en compte de l’impact réel des différents facteurs sur la structure des communautés). Cela implique l’utilisation de technique d’ordination non-supervisée des communautés (permettant la prise en compte sans faire d’hypothèses préalables sur les forces réellement structurantes des communautés), avant la caractérisation de ces facteurs grâce aux variables physico-chimiques.

La caractérisation des communautés aquatiques et de leur relation avec les différents facteurs des milieux restent relativement complexes. Le recours à des techniques statistiques

(10)

avancées est souvent conseillé pour décrire la non-linéarité et les distributions complexes qui leur sont associées. L’augmentation de la puissance de calcul a permis le développement de nombreuses méthodes puissantes de traitement et d’analyse des données : on peut citer par exemple les réseaux de neurones, le random Forest ou les Support Vector Machine. Ces techniques sont de plus en plus utilisées dans le domaine de l’écologie des communautés aquatiques. Le programme européen PAEQANN (« Predicting Aquatic Ecosystem Quality using Artificial Neural Network ») a montré l’efficacité des réseaux de neurones, aussi bien pour classer que pour prédire ces dernières (Lek et al., 2005). L’avantage de telles approches réside essentiellement en la prise en compte efficace de relations complexes, mais les résultats sont souvent difficiles à interpréter (« boites noires »). Aussi l’utilisation de telles techniques ne peut être suffisante pour caractériser les communautés et les résultats doivent être soumis à une expertise biologique ou écologique.

Un type de réseaux de neurones a particulièrement attiré notre attention : il s’agit des cartes auto-organisatrices de Kohonen (Self-Organizing Map : SOM). Cette technique d’apprentissage non supervisé permet une visualisation simplifiée de la typologie des données sur un plan, l’extraction de prototypes (pseudo-échantillons) représentatifs des données et la caractérisation de relations hiérarchiques entre ces prototypes. Foody montrait en 1999 la possibilité d’utiliser les cartes de Kohonen pour l’ordination des communautés. Depuis de nombreuses applications ont été faites en écologie (ex.:Brosse et al., 2001; Gevrey et al., 2006), et plus particulièrement pour la biotypologie des communautés de diatomées (ex.:Grenier et al., 2006; Tison et al., 2004). Si Giraudel & Lek (2001), ont montré que les SOM présentaient de nombreux avantages par rapport aux techniques classiques d’ordination, ils indiquent aussi que les choix à faire avant l’apprentissage pour le paramétrage de ces réseaux en sont le principal inconvénient. En effet, différentes tailles de cartes, mesures de dissimilarité, nombres de groupes peuvent entre autres être utilisés. Aussi il est important de vérifier l’effet de tels choix sur les résultats de l’analyse des échantillons de diatomées benthiques. Pour cette raison deux paramétrages de distances, ainsi que différents choix dans le nombre de groupes pris en comptes ont été comparés dans nos différentes utilisations de la méthode des SOM.

Une autre question se pose devant la grande diversité spécifique des diatomées : faut-il supprimer des espèces avant le traitement statistique des données ? Certains auteurs pensent qu’une partie des espèces constitue un bruit perturbant le traitement des données (Gauch, 1982). Afin de diminuer le bruit contenu dans les abondances des espèces qui n’apportent que peu d’information (ou des informations qui ne sont pas analysables), et de diminuer le grand nombre d’espèces (c'est-à-dire le nombre de dimensions

(11)

de l’espace écologique), il est important de trouver des techniques qui permettent d’écarter des espèces sans perdre une trop grande quantité d’information. La solution la plus souvent appliquée est de supprimer les espèces rares (présentes dans peu de sites ou peu présentes en termes d’abondance), mais cette façon de faire est source de débats. En effet les espèces rares représentent souvent justement une bonne source d’information. Aussi, Arscott et al. (2006) montre que le bruit n’est pas forcément porté par les espèces rares De plus, en ce qui concerne les diatomées, les espèces à fort volume, particulièrement importantes dans la structure et le fonctionnement des biofilms, sont souvent des espèces rares (Lavoie et al., 2006a; Snoeijs et

al., 2002). Pour ces raisons nous proposons dans cette étude une méthode qui permet de

trouver les espèces significativement structurantes dans les biotypologies proposées.

Dans cette étude nous proposons et testons une méthodologie originale sur une base de données dejà exploitée, dans un but de suivi de la qualité des eaux. Cette méthodologie est basée sur la philosophie des modèles nuls et comprend trois étapes : (i) définition des sites de référence a posteriori ; (ii) définition d’une biotypologie et de prototypes représentatifs de ces sites de référence et (iii) proposition d’un indice de qualité des eaux utilisant ces prototypes de référence pour évaluer la « distance à la référence ». Le traitement des données est basé sur l’utilisation de la technique des cartes auto-organisatrices de Kohonen et dans le même temps nous évaluons l’effet de la suppression d’espèces non-structurantes et testons deux mesures de dissimilarité entre les communautés.

2

Matériel et méthodes

2.1 Données

2.1.1 Zone géographique et échelle de l’étude

Cette étude se base sur des campagnes de suivi de la qualité des eaux à l’échelle nationale. La base de données comprend des informations sur 836 sites géoréférencés inégalement répartis sur l’ensemble du territoire français (figure 1). Il faut à ce sujet noter que cette base de données est déséquilibrée aussi bien en termes de bassins et sous-bassin échantillonnés qu’en termes de qualité, beaucoup de données provenant des réseaux institutionnels, qui ont tendance à relever particulièrement les stations situées à l’aval de rejets à surveiller.

(12)

Figure n° 1 : Répartition géographique des 836 sites de la base de données. Le fond de carte représente les hydroécorégions de niveau, 1 ne prenant pas en compte les

séparations géographique très localisées (inter-bassin).

2.1.2 Données biologiques

La collecte, le traitement et l’analyse qualitative des diatomées a été réalisé selon la norme NF T 90-354 (AFNOR, 2000). Les échantillons ont été prélevés sur substrat dur naturel, en zone éclairée lotique, et dans des périodes identiques, pour éviter les variations des communautés dues à des variations saisonnières. Après avoir été déposés sur lame, les

diatomées furent identifiées en microscopie photonique (grossissement ×1000). L’effort de

détermination a porté sur 400 à 500 valves de diatomées, déterminées à l’espèce, selon les recommandations de Coste & Verrel (1978). Pour chaque espèce, l’appellation taxonomique la plus récente a été retenue. Le tableau de données comprend l’abondance relative de 941 espèces sur les 836 sites de la figure 1.

2.1.3 Données physico-chimiques, et informations a priori sur les

communautés

Les données biologiques des diatomées sont associées à des variables décrivant l’ambiance physico-chimique des sites : l’altitude (ALTm, en m.), le pH (PH), le taux de

matière en suspension (SuspMatters, en mg.L-1), l’alcalinité (Alkmeq, en meq.L-1), la

conductivité (Cond20, à 20°C, en µS.cm-1) et la concentration en calcium (Ca, en mg.L-1).

Les sites sont aussi reliés aux différentes hydro-éco-régions (les 22 HER de niveau 1) définies par Wasson et al. (2002), à partir de critères géologiques, climatiques physico-chimiques et spatiaux, ainsi que l’appartenance des sites à 5 biotypes définis dans une étude antérieure basée sur le même jeu de données (Tison et al., 2005) Ces biotypes ont été définis à

(13)

partir des communautés de diatomées sur la base des HER (ils seront appelés HER-diatomées pour éviter toute confusion avec les biotypes définis dans cette étude).

Des indices diatomiques de qualité biologique ont aussi été calculé pour chacun des sites : l’IBD Indice Biologique Diatomées(Indice Biologique Diatomées ; Lenoir & Coste, 1996)et l’IPS (Indice de Polluosensibilité Spécifique, Coste in Cemagref, 1982) dont les principales différences sont l’utilisation d’un très grand nombre d’espèce pour l’IPS et la prise en compte de « profils écologiques » pour l’IBD, ainsi que l’EQRIPS et l’EQRIBD (versions normalisées par biotypes de l’IPS et l’IBD).Aussi nous disposons d’une variable catégorielle qui définit pour chaque site s’il est considéré comme un site de référence (Référence/non-référence). Les sites de références ont été définis à partir de données physico-chimique, des indices diatomiques, et des connaissances des pressions anthropiques sur les sites proposés. Les variables HER, HER-diatomées et référence/non-référence seront considérées comme des variables permettant la prise en compte d’informations a priori sur les communautés

2.2 Méthodes et procédures

2.2.1 Méthodes analytiques et statistiques utilisées

a)

Cartes auto-organisatrices de Kohonen

Afin d’analyser et de comprendre la globalité de la structure des données formées par les abondances relatives des diatomées dans les différents sites, des réseaux de neurones non-supervisé ont été utilisé. Ce type de réseau est appelé carte auto-organisatrice de Kohonen (Self Organizing Map : SOM) (Kohonen, 2001) et permet la projection de données comprenant de nombreuses dimensions sur un espace à deux dimensions, plus facilement abordable et analysable.

Ce type de réseau de neurones est constitué de deux couches de neurones : la couche d’entrée (input layer) et la couche de sortie (output layer). Les abondances relatives des diatomées sont présentées à la couche d’entrée en tant que « vecteurs réels » comprenant autant de valeurs qu’il y a de descripteurs dans le jeu de données (ici les des descripteurs sont les espèces). La couche d’entrée est constituée d’autant de « neurones ». La couche de sortie est une carte d’une forme régulière (ici rectangulaire), constituée de m hexagones formant une grille. Ces hexagones sont appelés « cellules » ou « neurones de sortie ». Chacun d’entre eux est relié à chaque neurone d’entrée par un « poids ». Ces poids représentent des valeurs virtuelles pour chacune des variables-espèces et forme des « vecteurs virtuels », prototypes décrivant des communauté-types.

(14)

L’algorithme d’apprentissage peut-être résumé ainsi. Tout d’abord, les vecteurs virtuels sont initialisés avec des valeurs tirées au hasard. Grâce à une mesure de distance (ou de dissimilarité : distance dans l’espace écologique), un vecteur réel est placé dans la couche d’entrée et comparé aux neurones de sortie (aux valeurs virtuelles des prototypes). Le vecteur réel est ensuite assigné au vecteur virtuel le plus proche (Best Matching Unit : BMU). Les valeurs du vecteur virtuel sont modifiées afin que celui-ci se rapproche en termes de similarité du vecteur réel qui lui a été assigné. Aussi les valeurs des cellules avoisinantes sont modifiées de telle façon que les vecteurs virtuels se ressemblent d’autant plus qu’ils sont proches. Ce processus est répété séquentiellement pour chaque vecteur réel, selon un nombre d’itérations choisi. Au bout de quelques itérations plusieurs vecteurs présentés à la couche d’entrée peuvent être assigné au même neurone de sortie. Alors que les vecteurs virtuels représentent des valeurs « lissées » des vecteurs réels, les différences entre ceux-ci sont préservées autant que possible. En fait, les échantillons qui sont très différents sont sensés être placés dans des cellules distantes sur la carte.

Cette première étape d’apprentissage a pour but l’extraction de prototypes décrivant les différences entre les échantillons de manière simplifiée. Dans le cas où le nombre d’échantillons est élevé, il est important de pouvoir encore synthétiser l’information contenue cette fois-ci dans les neurones de sortie. La solution utilisée ici est d’appliquer une analyse de classification (un classement) hiérarchique sur les vecteurs virtuels. Selon la distance choisie nous utiliserons les algorithmes de « Ward » (distances euclidiennes) ou l’UPGMA (Unweighted Pair Group Method : lien moyen) afin de dégager les similarités entre vecteurs virtuels et de les arranger de façon hiérarchique. Pour éviter le choix arbitraire du nombre de groupe (lié à un « niveau de coupe »), un tableau est créé où l’on peut identifier l’appartenance des sites à leur groupe sur la totalité de l’arbre de classement hiérarchique.

Les algorithmes liés à la formation elle-même des cartes qui ont été utilisés dans cette étude ont été programmés sous le langage Matlab sur la base de la SOM toolbox (version 2.0 beta, Matlab 7.0.4.136) développée par le Laboratory of Information and Computer Science, Helsinki University of Technology

(http://www.cis.hut.fi/projects/somtoolbox/documentation/somalg.shtml). Les algorithmes liés à la classification des vecteurs virtuels (calcul des distances, algorithmes de Ward et UPGMA) ont été réalisé sous le logiciel libre R (packages basiques et package « vegan »).

(15)

b)

Sélection

des

espèces

structurantes

par INDVAL

(Indicator Values)

L’INDVAL (Dufrêne & Legendre, 1997) est un indice qui permet d’attribuer à une espèce une valeur d’association à un facteur (géographique, type de milieu, biotype, etc.). Il prend en compte l’occurrence et l’abondance des espèces dans les échantillons répondant à ce facteur selon la formule :

j ij i ij ij Ns Ns Ab Ab INDVAL • • × =

- Ab : Abondance de l’espèce i dans le groupe j ij

- Ns : Nombre de sites du groupe j dans lesquels l’espèce i est présente ij

On peut ainsi calculer cet indice pour l’ensemble des groupes de chacun des niveaux de coupes obtenus par le classement des valeurs virtuelles de SOM. Pour chaque niveau de coupe on estime que l’INDVAL d’une espèce est celui associé au groupe pour lequel la valeur est la plus forte. On fait ensuite un test de permutation pour vérifier que l’espèce est associée significativement à ce groupe. Ce test est réalisé en mélangeant les abondances des espèces et en calculant la proportion de fois (ici, sur 1000 permutations) où l’INDVAL est plus fort après le mélange.

Dans cette étude nous avons exploré la possibilité d’utiliser l’INDVAL pour éliminer les espèces non structurantes et diminuer ainsi le bruit pouvant perturber les analyses. Ainsi les espèces ayant aucune Pvalue supérieure à 0.05 sur l’ensemble des niveaux de coupe sont

considérées comme non-structurantes et supprimée du jeu de données. Le calcul des INDVAL et les tests de permutation furent réalisés grâce au logiciel R et au package labdsv.

c)

Entropie

Afin de pouvoir utiliser les informations données a priori sur les communautés (sites de référence, hydro-éco-régions) tout en se basant essentiellement sur les biotypologies des communautés des diatomées effectuées avec les méthodes d’analyse décrites. Il est important de trouver des descripteurs du lien qui peut exister entre les analyses effectuées et ces informations. Cela permettrait à la fois une appréciation de la capacité des résultats obtenus à retranscrire les résultats attendus et une comparaison des résultats obtenus en fonction des différents paramétrages des techniques choisis (suppression des espèces, distance utilisée, nombre de groupes à prendre en compte) De tels outils ont été développés dans le cadre de la théorie de l’information, ainsi, l’entropie de Shannon permet de mesurer la pureté (ou au

(16)

contraire la diversité) des informations. En fait, mesurer la pureté des groupes créés par nos analyses de classification en termes de HER ou de sites de référence revient à mesurer la capacité de nos classements à discriminer ces derniers.

Ainsi l’entropie de ces variables au sein de l’ensemble des groupes issus d’un niveau de coupe du classement des unités virtuelles est calculée selon la formule :





×

×

=

• = •• • = •• •

i ji c j j p i i p

n

n

n

n

n

n

E

ln

1 1

-

n

ji : effectif de la classe j de la variable d’intérêt dans le groupe i

- p : nombre de groupes

- c : nombre de catégories de la variable d’intérêt

Le gain d’entropie correspondant à la séparation d’un groupe en deux sous-groupes est donc : Gp = Ep – Ep-1. Afin de trouver un niveau de coupe optimal pour la description des

variables « site de référence » et « HER » au sein des SOM. Un test de permutation est associé à ce gain d’entropie pour vérifier si la création de nouveaux sous-groupes permet une discrimination significative des différentes catégories de la variable étudiée. Le calcul des entropies et les tests de significativités furent réalisés sous le logiciel R.

d)

Calcul des écarts à la référence la plus proche grâce aux

prototypes de SOM

Dans l’algorithme d’apprentissage des SOM, un site est « projeté » dans une cellule si le vecteur virtuel qui est associé à la cellule est son BMU, c'est-à-dire si ce vecteur virtuel est le plus similaire du site. Ainsi, il est possible de réaliser l’apprentissage d’une carte auto-organisatrice à partir d’un jeu de données d’apprentissage, puis d’utiliser les vecteurs virtuels formés pour classer de nouveaux individus sans les modifier. Cela permet d’utiliser une carte auto-organisatrice comme technique de classification supervisée et de classer les individus supplémentaires selon les critères qui ont servi au classement optimal du jeu d’apprentissage.

Ainsi nous avons créé des cartes SOM classiques sur des jeux de données ne contenant que des communautés de référence, puis nous avons calculé les BMU des communautés présentant des conditions de qualité moindre. Cela revient à projeter les sites impactés sur les conditions de référence pour déterminer les conditions de références qui lui sont les plus proches. Aussi nous gardons la mesure de distance entre les sites projetés ainsi et leur BMU afin de tester la possibilité d’utiliser cette mesure comme un écart à la référence, concept qui selon la DCE est le plus à-même de permettre une évaluation de la qualité des eaux

(17)

2.2.2 Procédure complète d’analyse et mise en œuvre des

méthodes

Afin de permettre une description plus claire de la méthodologie et une vision globale du traitement des données effectué, nous expliciterons dans ce paragraphe l’utilisation concrète des méthodes décrites ci-dessus et le déroulement chronologique des différentes étapes.

Les tailles de toutes les cartes SOM de cette étude furent choisies selon plusieurs paramètres. La taille est choisie afin de minimiser deux mesures d’erreurs (erreur topographique (topo) : proportion des sites pour lesquels le premier et le second BMU ne sont pas adjacent et la « quantization error » (quant): distance moyenne des vecteurs réels avec leur BMU), et aussi afin de se rapprocher le plus possible d’un critère optimal théorique dans lequel le nombre de cellules est égal à 5√n , où n est le nombre de sites (Laboratory of Computer and Information Science ; Espoo, Finland). Avant l’apprentissage une transformation logarithmique (log(x+1)) des tableaux d’abondances des diatomées fut appliquée, afin de réduire l’importance des différences d’abondance moyenne entre les espèces, et afin d’accorder plus d’importance aux espèces rares, notamment aux espèces à fort biovolume et faible vitesse de développement (Snoeijs et al., 2002). Ensuite les lignes des tableaux (sites) furent normalisées par ligne, pour revenir sur des données d’abondance relative.

Tout d’abord deux SOM furent réalisées sur le jeu de données complet, une utilisant la distance euclidienne pour l’apprentissage (taille : [13 10], quant = 119.88, topo = 0.017) et l’autre utilisant la distance de Bray-Curtis (Bray & Curtis, 1957) (taille [13 11], quant = 182.80, topo = 0.026). La plupart des études où des matrices de distances euclidiennes sont utilisées avec le but de s’en servir pour un classement hiérarchique utilisent l’algorithme de Ward. En ce qui concerne, la distance de Bray-Curtis, c’est plutôt l’UPGMA qui est utilisé. Aussi, avons-nous pris le parti de tester les distances et les algorithmes de classement indifféremment, c’est pourquoi lorsque nous écrivons « distance euclidienne » dans ce mémoire cela implique obligatoirement son association avec l’algorithme de Ward, il en est de même pour « distance de Bray-Curtis » et l’UPGMA.

Après un classement des unités virtuelles, la procédure de caractérisation des espèces structurantes par l’INDVAL fut appliquée aux résultats de ces deux SOM. Plusieurs p.values furent testées, le choix de garder les espèces ayant une p.value minimale sur l’ensemble de la classification inférieure à 0.05 fut fait après expertise dans le but de garder les espèces

(18)

connues pour être significative de conditions particulières. Ce choix amena à garder 523 espèces pour la distance de Bray-Curtis et 397 espèces pour la distance euclidienne.

Deux SOM (distances de Bray-Curtis et euclidienne) furent appliquées sur les nouveaux tableaux formés après la suppression des espèces non-structurantes (respectivement tailles : [13 11] et [15 9], quant = 211.91 et quant = 134.4 et topo = 0.028 et topo = 0.019). Ces SOM furent réalisés avec les mêmes transformations sur les tableaux de données que les premières.

Les fonctions d’entropie de la variable ‘référence/non-référence’ au sein des classements hiérarchiques des prototypes de SOM furent calculés et les gains d’entropies furent testés pour définir les niveaux de coupe optimaux du dendrogramme pour la description de cette variable, tout en restant axé sur la description de la structure des communautés. Les groupes contenant une majorité de sites de références furent considérés comme des groupes de référence et les sites associés furent considérés comme des sites de référence « a posteriori ».

Ensuite les deux dernières SOM (distance de Bray-Curtis : taille : [13 5], topo=0.005 et quant=152.53 ; distance euclidienne : taille : [11 6], topo=0.006 et quant=271.8) furent réalisées sur les références a posteriori uniquement. Ensuite les distances des autres sites avec les prototypes les plus proches furent calculées. Les fonctions d’entropie de la variable ‘HER’ au sein des classements hiérarchiques des prototypes de SOM furent calculés et les gains d’entropies furent testés pour définir les niveaux de coupe optimaux du dendrogramme pour la description de cette variable en restant axés sur la structure de communautés. Cela a mené à la définition d’un petit nombre de biotypes de référence pour chacune des SOM, qui furent décrits grâce aux variables abiotiques et aux données géographiques.

Enfin, les distances aux prototypes les plus proches des communautés non-référence a

posteriori et les distances des communautés de référence a posteriori à leur BMU furent calculées et comparées aux indices biotiques.

3

Résultats

3.1 Suppression des espèces non structurantes

La procédure de tri des espèces décrite ci-dessus permet de supprimer les espèces considérées comme non-structurantes. Une espèce est considérés comme non-structurante et supprimée du jeu de données si les p-value associées au calcul des INDVAL de cette espèce sont supérieures, quel que soit le nombre de groupe considéré au sein du classement, à une

(19)

effet cette valeur nous a permis de supprimer certaines espèces dont on savait qu’elles étaient porteuses d’informations peu claires ou peu utiles, tout en gardant celles dont la valeur indicatrice de certaines conditions particulières est reconnue. Ce choix a amené à garder 523 espèces dans le cas des SOM réalisées avec la distance de Bray-Curtis et 397 espèces dans le cas de la SOM réalisées avec la distance euclidienne, sur les 941 espèces présentes dans le jeu de données initial. Afin de mesurer l’effet de ces suppressions d’espèces sur les SOM nous avons calculé les fonctions d’entropie des variables « référence » et « HER » des classements de cellules des SOM, avant et après cette suppression.

0 20 40 60 80 100 120 140 -0 .5 -0 .4 -0 .3 -0 .2 -0 .1 0 .0 nombre de groupes e n tr o p ie

Après suppression des espèces non structurantes Ensemble des espèces

distance de Bray-Curtis distance euclidienne 0 20 40 60 80 100 120 140 -2 .5 -2 .0 -1 .5 -1 .0 -0 .5 0 .0 nombre de groupes e n tr o p ie

Après suppression des espèces non structurantes Ensemble des espèces

distance de Bray-Curtis distance euclidienne a) b) 0 20 40 60 80 100 120 140 -0 .5 -0 .4 -0 .3 -0 .2 -0 .1 0 .0 nombre de groupes e n tr o p ie

Après suppression des espèces non structurantes Ensemble des espèces

distance de Bray-Curtis distance euclidienne 0 20 40 60 80 100 120 140 -2 .5 -2 .0 -1 .5 -1 .0 -0 .5 0 .0 nombre de groupes e n tr o p ie

Après suppression des espèces non structurantes Ensemble des espèces

distance de Bray-Curtis distance euclidienne 0 20 40 60 80 100 120 140 -0 .5 -0 .4 -0 .3 -0 .2 -0 .1 0 .0 nombre de groupes e n tr o p ie

Après suppression des espèces non structurantes Ensemble des espèces

distance de Bray-Curtis distance euclidienne 0 20 40 60 80 100 120 140 -2 .5 -2 .0 -1 .5 -1 .0 -0 .5 0 .0 nombre de groupes e n tr o p ie

Après suppression des espèces non structurantes Ensemble des espèces

distance de Bray-Curtis distance euclidienne

a) b)

Figure n° 2 : Fonction d’entropie de la variable catégorielle Référence / Non

Référence selon le nombre de groupes au sein des analyses de classification des vecteurs virtuels des différentes cartes auto-organisatrices a)fonctions d’entropies de de la variable

catégorielle Référence / Non Référence ; b) fonctions d’entropie de la variable HER

La figure 2 présente les fonctions d’entropie des variables « référence/non référence » et « HER » selon le nombre de groupes de cellules de SOM. Il faut noter que ces fonctions d’entropie sont logiquement croissantes : en effet quand le nombre de groupe augmente, le nombre de sites dans chaque groupe diminue, et donc il en est de même pour la « diversité » des catégories de la variable au sein de ce groupe. Dans notre cas on voit clairement que l’entropie des deux variables considérées montre des valeurs plus fortes quand la procédure de tri des espèces grâce à l’INDVAL est appliquée. De plus ces courbes présentent de fortes augmentations quand le nombre de groupe est faible. Ceci nous montre que le tri des espèces permet une meilleure discrimination, et ceci dès la séparation du jeu de données en un faible nombre de groupe, des différentes catégories de ces variables quand la procédure de tri des espèces non structurantes est appliquée. De plus ceci est vérifiable pour chacune des mesures

(20)

de distances utilisées au sein des SOM. Il faut aussi noter que cette amélioration semble plus forte sur l’entropie de la variable « référence » que sur la variable « HER »

3.2 Définition des sites de référence a posteriori

Figure n° 3 Gains d’entropie et niveaux de significativité selon le nombre de groupes

(uniquement de 1 à 50 groupes)

La figure 3 présente les gains d’entropie (sur la variable « référence ») à chaque séparation d’un groupe de cellules de SOM en deux groupes. Seules les séparations de 1 à 50 groupes sont montrées dans cette figure car aucun gain significatif d’entropie n’est remarqué lorsque l’on considère plus de groupes. La couleur des barres des figures 3 c) et d) sont fonctions de la significativité de ces gains. Ces figures montrent de forts gains (très significatifs) en particulier à la création des premiers groupes, signe que la séparation entre les conditions de référence se fait principalement dans la création de ces groupes. Aussi, il faut remarquer que la SOM utilisant la distance euclidienne montre des gains significatifs liés à la

séparation en un nombre de groupes assez élevé (notamment lors de la séparation en un 43ème

groupe). Ce phénomène de gain d’entropie significatif tardif est plus restreint dans la SOM utilisant la distance de Bray-Curtis, cette dernière semblant permettre une discrimination plus efficace des sites de référence a priori.

Le but de cette représentation est principalement de nous permettre de choisir un nombre de groupe pour lequel on considère que les communautés de références

(21)

(correspondant aux sites de référence a posteriori) sont séparées des autres communautés. Le principe est de choisir un nombre de groupe suffisant pour une bonne discrimination des communautés de référence, tout en considérant le plus petit nombre de groupes possibles pour prendre en compte les différences les plus déterminantes entre les communautés. Ceci nous amène à considérer 23 groupes (178 sites de référence a posteriori) dans le cas de la SOM réalisée avec la distance de Bray-Curtis et 43 groupes (210 sites de référence a posteriori) dans le cas de la SOM réalisée avec la distance euclidienne

3.3 Cartes finales : SOM sur les référence a posteriori et

projection des sites-test

3.3.1 Répartition des sites sur les cartes

5 10 15 20 25 30 Nsites 1 2 3 4 5 6 7 8 9 10 11 12 Nsites a) b) 5 10 15 20 25 30 Nsites 5 10 15 20 25 30 Nsites 1 2 3 4 5 6 7 8 9 10 11 12 Nsites 1 2 3 4 5 6 7 8 9 10 11 12 Nsites a) b)

Figure n° 4 : Nombres de sites associés aux différentes cellules des SOM.réalisées sur les

sites de référence a posteriori a) SOM utilisant la distance de Bray-Curtis ; b) SOM utilisant la distance euclidienne. Le gradient de couleur indique le nombre de sites associés aux

différentes cellules. Les cellules hachurées en rouge ne contiennent pas de sites

La figure 4 permet une visualisation du nombre de sites associés à chaque cellule des deux SOM réalisées sur les sites de référence a posteriori. La SOM utilisant la distance de Bray-Curtis (figure 4 a) montre une répartition fortement déséquilibré des sites au sein des différentes cellules, ainsi qu’une large proportion de cellules vides (presque la moitié des cellules). Il faut noter que les cellules vides de cette SOM sont plutôt situées sur le centre de la carte, alors que les cellules qui contiennent des sites sont plutôt situées sur le bord de la carte. Ceci correspond à une forte séparation des sites lors de l’apprentissage, et à l’absence de sites que l’on pourrait considérer comme intermédiaires. Aussi, il faut noter que près d’un tiers des sites de référence se trouvent dans seulement deux cellules (les cellules situées en haut à gauche et en haut à droite de la carte).

(22)

La SOM utilisant la distance euclidienne (figure 4 b) montre une meilleure répartition des sites au sein des différentes cellules, et peu de cellules vides. Ce type de résultat correspond à un gradient homogène de différences entre les prototypes, malgré une légère concentration du nombre de sites dans la partie basse de la carte.

3.3.2 Définitions des biotypes de références

0 10 20 30 40 50 60 -2 .0 -1 .4 a) nombre de groupes e n tr o p ie 0 10 20 30 40 50 60 -2 .0 -1 .0 b) nombre de groupes e n tr o p ie 1 2 3 4 5 6 7 8 9101112131415161718192021 22232425262728293031 3233343536733839404142 43444546474849501552 5354555657855960616263 6465 c) nombre de groupes g a in d e n tr o p ie 0.0 0.1 0.2 0.3 0.4 non significatif p < 0.05 p < 0.01 p < 0.001 p=0 1 2 3 4 5 6 7 8 9101112131415161718192021223224252627282903313233343536373839404142434445464748495051255354555657589560616263646566 d) nombre de groupes g a in d e n tr o p ie 0.00 0.05 0.10 0.15 0.20 0.25 non significatif p < 0.05 p < 0.01 p < 0.001 p=0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 3 0 3 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 4 0 4 1 4 2 4 3 4 4 4 5 4 6 4 7 4 8 4 9 5 0 5 1 5 2 5 3 5 4 5 5 5 6 5 7 5 8 5 9 6 0 6 1 6 2 6 3 6 4 6 5 e) nombre de groupes g a in d e n tr o p ie 0.00 0.05 0.10 0.15 0.20 0.25 0.30 non significatif p < 0.05 p < 0.01 p < 0.001 p=0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 3 0 3 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 4 0 4 1 4 2 4 3 4 4 4 5 4 6 4 7 4 8 4 9 5 0 5 1 5 2 5 3 5 4 5 5 5 6 5 7 5 8 5 9 6 0 6 1 6 2 6 3 6 4 6 5 6 6 f) nombre de groupes g a in d e n tr o p ie 0.00 0.05 0.10 0.15 0.20 non significatif p < 0.05 p < 0.01 p < 0.001 p=0

Figure n° 5 : Fonctions d’entropie, gains d’entropie et significativité des gains sur les

variables « HER » et « HER diatomées » selon le nombre de groupes pris en compte sur les SOM réalisées avec les références a posteriori a) et b) sont les fonctions d’entropies de la

variable « HER » ; c) et d) représentent les gains d’entropie de la variable « HER » et leur niveau de significativité ; e) et f) représentent les gains d’entropie de la variable « HER-diatomées ». Les représentations a), c) et d) concerne la SOM sur les sites de référence a

posteriori utilisant la distance de Bray-Curtis ; b), d) et f) celle utilisant la distance

euclidienne

La figure 5 montre de forts gains significatifs de l’entropie des deux variables lors de la création d’un faible nombre de groupes, en particulier en ce qui concerne la SOM utilisant la distance de Bray-Curtis, ce qui montre une discrimination plus efficace des HER et des HER-diatomées pour cette SOM. On voit aussi sur cette figure, que les principaux gains d’entropies de la variable HER sont associés à de forts gains également pour la variable HER-diatomées . Cela est le signe que la séparation des différentes HER permise par le

(23)

classement hiérarchique des cellules des deux SOM dans cette étude est comparable aux séparations effectuée dans l’étude ayant permis la définition de HER-diatomées

Lors de cette étape il est important de choisir un nombre de groupe particulièrement réduit afin de permettre une bonne caractérisation de ces groupes et une analyse simplifiée de leur répartition géographique et des facteurs physico-chimique sous-jacents. Aussi nous n’avons ici pas pris en compte les gains d’entropie tardifs ou faiblement significatifs, ce qui nous a amené à définir 5 biotypes de référence en ce qui concerne la SOM avec distance de Bray-Curtis et 11 biotypes de référence en ce qui concerne la SOM utilisant la distance euclidienne. Les classifications hiérarchiques et découpages des cartes associés à la définition de ces biotypes sont représentés sur la figure 6.

4 6 5 7 4556 2 32434 3 5 31412 13 1 2 26 37 25 36 48 59 47 58 28 39 27 38 50 61 49 60 7 18 6 17 5 16 4 15 53 64 52 63 51 62 30 41 29 40 31 42 8 19 21 22 10 11 9 20 32 33 43 44 54 65 55 66 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 d is ta n c e s i n te r-g ro u p e s (W a rd ) 1 011 9 22 3 5 1 3 2 3 1 224 37 2 526 3 648 61 4 962 5 0 3 839 6364 5 2 5 1654 356 57 5 8 4 559 4 6 4 760 3244 3 334 4 041 53 54 27284 255 2930 1 7 3 16 1 2 1415 7208 21 46 518 1 931 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5 d is ta n c e s m o y e n n e s ( U P G M A ) I

IA1 IA2 IB IC IIA1 IIA2 IIB1 IIB2 IIC1 IIC2a IIC2b

I II

IA IB IC IIA IIB IIC II Ib Ia Ia1 IIb IIa Ib Ia2 IA1 IB IC IIA1 IA2 IIA2 IIB1 IIB2 IIC1 IIC2a IIC2b IA1 IB IC IIA1 IA2 IIA2 IIB1 IIB2 IIC1 IIC2a IIC2b Ia1 Ia2 IIb IIa Ib a) b) c) d) 4 6 5 7 4556 2 32434 3 5 31412 13 1 2 26 37 25 36 48 59 47 58 28 39 27 38 50 61 49 60 7 18 6 17 5 16 4 15 53 64 52 63 51 62 30 41 29 40 31 42 8 19 21 22 10 11 9 20 32 33 43 44 54 65 55 66 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 d is ta n c e s i n te r-g ro u p e s (W a rd ) 1 011 9 22 3 5 1 3 2 3 1 224 37 2 526 3 648 61 4 962 5 0 3 839 6364 5 2 5 1654 356 57 5 8 4 559 4 6 4 760 3244 3 334 4 041 53 54 27284 255 2930 1 7 3 16 1 2 1415 7208 21 46 518 1 931 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5 d is ta n c e s m o y e n n e s ( U P G M A ) 4 6 5 7 4556 2 32434 3 5 31412 13 1 2 26 37 25 36 48 59 47 58 28 39 27 38 50 61 49 60 7 18 6 17 5 16 4 15 53 64 52 63 51 62 30 41 29 40 31 42 8 19 21 22 10 11 9 20 32 33 43 44 54 65 55 66 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 d is ta n c e s i n te r-g ro u p e s (W a rd ) 4 6 5 7 4556 2 32434 3 5 31412 13 1 2 26 37 25 36 48 59 47 58 28 39 27 38 50 61 49 60 7 18 6 17 5 16 4 15 53 64 52 63 51 62 30 41 29 40 31 42 8 19 21 22 10 11 9 20 32 33 43 44 54 65 55 66 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 d is ta n c e s i n te r-g ro u p e s (W a rd ) 1 011 9 22 3 5 1 3 2 3 1 224 37 2 526 3 648 61 4 962 5 0 3 839 6364 5 2 5 1654 356 57 5 8 4 559 4 6 4 760 3244 3 334 4 041 53 54 27284 255 2930 1 7 3 16 1 2 1415 7208 21 46 518 1 931 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5 d is ta n c e s m o y e n n e s ( U P G M A ) 1 011 9 22 3 5 1 3 2 3 1 224 37 2 526 3 648 61 4 962 5 0 3 839 6364 5 2 5 1654 356 57 5 8 4 559 4 6 4 760 3244 3 334 4 041 53 54 27284 255 2930 1 7 3 16 1 2 1415 7208 21 46 518 1 931 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5 d is ta n c e s m o y e n n e s ( U P G M A ) I

IA1 IA2 IB IC IIA1 IIA2 IIB1 IIB2 IIC1 IIC2a IIC2b

I II

IA IB IC IIA IIB IIC II Ib Ia Ia1 IIb IIa Ib Ia2 IA1 IB IC IIA1 IA2 IIA2 IIB1 IIB2 IIC1 IIC2a IIC2b IA1 IB IC IIA1 IA2 IIA2 IIB1 IIB2 IIC1 IIC2a IIC2b Ia1 Ia2 IIb IIa Ib Ia1 Ia2 IIb IIa Ib a) b) c) d)

Figure n° 6 : Classification hiérarchique des cellules de SOM avec découpage des groupes

au niveau permettant la meilleure prise en compte des HER a) classification hiérarchique des cellules de la SOM utilisant la distance de Bray-Curtis sur les sites de référence a posteriori

(algorithme UPGMA) c) représentation de ces groupes sur la carte b) classification des cellules de la SOM utilisant la distance euclidienne sur les sites de référence a posteriori

(algorithme de Ward) d) représentation de ces groupes sur la carte. Les tailles des traits séparant les différents groupes de cellule sur

La visualisation du dendrogramme de classification hiérarchique des cellules de la SOM sur distances de Bray-Curtis (figure 6 a) permet de voir que le « niveau de coupe » choisi au paragraphe précédent (5 groupes) permet un groupement des cellules ayant un réel

(24)

sens en termes de distances moyennes entre les cellules des différents groupes. En effet ce groupement permet la création de groupes de cellules qui présentent des distances moyennes inter-groupe beaucoup plus élevées que les distances moyennes intra-groupe. Au contraire, le niveau de groupement des cellules de la SOM utilisant la distance euclidienne amène à la création de groupes pour lesquels les distances inter-groupes et intra-groupe sont comparables. Ceci est encore le signe d’une moins bonne adéquation entre le classement effectué par celle-ci et les HER qu’avec la distance de Bray-Curtis.

3.3.3 Description physico-chimique des biotypes

10 20 30 40 50 60 70 80 90 Ca 0.2 0.4 0.6 0.8 1 1.2 1.4 TotalInorganicN 0 10 20 30 40 50 60 SuspMatters 1 2 3 4 5 6 7 8 PH 0.5 1 1.5 2 2.5 3 Alkmeq 200 400 600 800 1000 1200 1400 ALTm Ia1 Ia2 IIb IIa Ib 100 200 300 400 500 600 Cond20 10 20 30 40 50 60 70 80 90 Ca 10 20 30 40 50 60 70 80 90 Ca 10 20 30 40 50 60 70 80 90 Ca 0.2 0.4 0.6 0.8 1 1.2 1.4 TotalInorganicN 0.2 0.4 0.6 0.8 1 1.2 1.4 TotalInorganicN 0.2 0.4 0.6 0.8 1 1.2 1.4 TotalInorganicN 0 10 20 30 40 50 60 SuspMatters 0 10 20 30 40 50 60 SuspMatters 0 10 20 30 40 50 60 SuspMatters 1 2 3 4 5 6 7 8 PH 1 2 3 4 5 6 7 8 PH 1 2 3 4 5 6 7 8 PH 0.5 1 1.5 2 2.5 3 Alkmeq 0.5 1 1.5 2 2.5 3 Alkmeq 200 400 600 800 1000 1200 1400 ALTm 200 400 600 800 1000 1200 1400 ALTm 200 400 600 800 1000 1200 1400 ALTm Ia1 Ia2 IIb IIa Ib Ia1 Ia2 IIb IIa Ib 100 200 300 400 500 600 Cond20 100 200 300 400 500 600 Cond20 100 200 300 400 500 600 Cond20

Figure n° 7: Description des biotypes de la SOM de référence utilisant la distance de

Bray-Curtis par les paramètres environnementaux. Pour chaque carte le gradient de couleur décrit les valeurs moyennes des variables au sein des cellules, la taille des cellules est inversement

proportionnelle à la variabilité de la variable au sein de celles-ci

Un des principaux avantages de la technique des SOM est la visualisation simplifiée de variables n’ayant pas servi à la formation de la carte grâce à la possibilité de projeter les moyennes de ces variables sur la carte au sein de chaque cellule. Ici cette application (figure 7) nous permet de décrire les conditions physico-chimiques liées à chacun des biotypes de référence de la SOM utilisant la distance de Bray-Curtis.

Ainsi le groupe I (Ia1, Ia2 et Ib) est caractérisé par des altitudes de basse à haute montagne, des faibles teneurs en azote inorganique. Au sein du groupe I, c’est le groupe Ia2 qui montre les plus fortes valeurs d’altitude et les plus faibles en azote inorganique, Les

(25)

groupes Ia1 et Ia2 se distingue du groupe Ib par une plus forte teneur en calcium (et de plus forte valeurs d’alcalinité) et de conductivité, ainsi que des valeurs de pH plus hautes (pH legèrement basiques). Aussi la différence principale entre ces deux groupes semble être principalement les différences d’altitude, le groupe Ia1, semble concerner des sites de moyenne montagne alors que le groupe Ia2 concerne les groupes de haute montagne

Le groupe II quant à lui est caractérisé par des faibles altitudes, des plus fortes valeurs en azote inorganique de faibles valeurs de conductivité. La principale différence entre les groupe IIa et IIb est une différence de pH et d’alcalinité, le groupe IIa étant fortement alcalin et le groupe IIb fortement acide. Aussi la conductivité est elle plus forte dans le groupe IIa, et des matières en suspension moindres.

Pour résumer, cette carte présente 2 gradients principaux, qui rendent les différences physico-chimiques des différents groupes aisément interprétables et analysables. Un gradient d’altitude et de niveau trophique qui va du bas vers le haut de la carte avec le groupe Ia2 qui représente les sites de haute altitude les plus oligotrophes, les groupes Ia1 et Ib, de moyenne montagne et oligotrophes à mésotrophes et le groupe II, mésotrophe à légèrement eutrophe et de plaine. Le deuxième gradient est un gradient d’alcalinité et de pH qui va des groupes alcalins à gauche de la carte (Ia1, Ia2 et IIa) vers les groupes acides de la droite de la carte (groupes IIb et Ib).

Comme pour la SOM avec distances de Bray-Curtis, la figure 8 montre une première séparation (groupe I / groupe II) lié à l’altitude et au niveau de trophie. En effet le groupe 1 semble caractérisé par des sites de montagne (IC) et de haute montagne (IA1,IA2, IB), ainsi que par des teneurs très faibles en azote inorganique. Ce groupe présent aussi un pH plutôt alcalin, malgré de faibles valeurs au niveau de l’alcalinité du groupe IA1. Au sein de ce groupe les différences entre les sous-groupes sont difficiles à définir : on peut noter une légère différence de conductivité (plus forte dans les groupes IA2 et IC).

Le groupe II est assez hétérogène pour les variables mesurées, mis à part que l’on peut y voir des teneurs en azote inorganique généralement plus fortes. Les sous-groupes IIA1 et IIA2 semblent caractérisés par des altitudes de piémont, ainsi qu’une forte conductivité et une alcalinité particulièrement élevée (forte teneur en calcium et forte alcalinité). Les groupes IIB1 et IIB2 semblent eux principalement caractérisés par une alcalinité moyenne, bien que très variable dans le groupe IIB2 et une très faible altitude (communautés de plaine Enfin le groupe IIC montre des conditions de pH neutre (IIC1 et IIC2a) à acide (IIC2b), ainsi qu’une alcalinité faible et une conductivité particulièrement faible.

(26)

IA 1 IB IC IIA1 IA 2 IIA2 IIB1 IIB2 IIC 1 IIC2a IIC2b IA 1 IB IC IIA1 IA 2 IIA2 IIB1 IIB2 IIC 1 IIC2a IIC2b 20 40 60 80 100 120 140 Ca 20 40 60 80 100 120 140 Ca 20 40 60 80 100 120 140 Ca 200 400 600 800 1000 1200 1400 1600 ALTm 200 400 600 800 1000 1200 1400 1600 ALTm 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 TotalInorganicN 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 TotalInorganicN 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 TotalInorganicN 0 10 20 30 40 50 60 70 SuspMatters 0 10 20 30 40 50 60 70 SuspMatters 0 10 20 30 40 50 60 70 SuspMatters 5.5 6 6.5 7 7.5 8 8.5 PH 5.5 6 6.5 7 7.5 8 8.5 PH 5.5 6 6.5 7 7.5 8 8.5 PH 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Alkmeq 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Alkmeq 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Alkmeq 100 200 300 400 500 600 700 Cond20 100 200 300 400 500 600 700 Cond20 100 200 300 400 500 600 700 Cond20

Figure n° 8: Description des biotypes de la SOM de référence utilisant la distance de

euclidienne par les paramètres environnementaux. Pour chaque carte le gradient de couleur décrit les valeurs moyennes des variables au sein des cellules, la taille des cellules est

inversement proportionnelle à la variabilité de la variable au sein de celles-ci

Pour résumer, le gradient principal de cette carte est un gradient alcalinité/pH avec des pH neutres à acides sur le bas de la carte vers des alcalinités fortes sur le haut de la carte. Les autres gradients sont « effacés » par celui-ci et les différences physico-chimiques sont difficiles à établir entre tous les groupes

3.3.4 Projection des sites non-références sur les SOM de

référence

Les sites « non-références » sont projetés sur les SOM de référence afin de définir leur biotype de référence et de choisir à quels références ceux-ci doivent être comparés pour réduire l’influence des variations naturelles sur notre évaluation de la qualité des eaux et de l’intégrité des milieux aquatiques. La figure 9 est une représentation du nombre de sites qui sont projetés dans chacune des cellules des SOM, selon que l’on accepte ou pas la projection de sites non-référence dans les cellules qui ne contiennent pas de sites de référence.

Pour la SOM réalisées à l’aide de la distance de Bray-Curtis on peut voir dans les deux cas qu’aucun site n’est projeté dans la partie en haut à droite de la carte (sites de haute montagne) et qu’une grosse proportion des sites est projetée dans les cellules en bas à gauche de la carte (communautés de plaines avec des milieux faiblement alcalins à alcalins). Dans le cas où l’on accepte les projections dans des cellules vides une grosse partie des sites sont projetés Si l’on n’accepte uniquement les projections dans les cellules contenant des sites de

Références

Documents relatifs