Chapitre 3 : Etude de l’écologie des communautés
3 Les communautés
3.1 L’Arbre de Régression Multivariable (ARM)
Cette analyse est une généralisation de l’arbre univariable CART (Classification And
Regression Tree) (Breiman et al. 1984). L’ARM a été utilisé dans plusieurs domaines en
écologie (De’ath 2002, Larsen, 2004, Ouellette 2005, Gélinas 2008).
Cette méthode est non paramétrique et s’applique donc bien à des données non distribuées
normalement. C’est un type de groupement hiérarchique divisif comme celui de Ward. Pour
construire le groupement, deux matrices sont utilisées, la matrice des variables explicatives (la
matrice des données environnementales) et la matrice réponse (la matrice correspondant aux
inventaires réalisés). Le critère à minimiser est la somme des carrés des écarts intra-groupe
sur la matrice réponse, contrainte à laquelle est ajoutée celle des variables explicatives.
L’arbre de régression multivariable est donc un type de groupement sous contrainte.
78
3.1.1 La construction de l’arbre
Une succession de divisions binaires (bipartition) est réalisée en minimisant la somme
des carrés des écarts à la moyenne du groupe de la matrice réponse (formule 1), celle dont la
valeur est minimale l’emporte. Autrement dit, chaque coupure maximise la somme des carrés
des écarts intergroupe tout en minimisant la somme des carrés des écarts intragroupe.
Formule 1
−
k : le nombre de groupes ; i : le nombre d’éléments dans le groupe k ; j : le taxon ; : la
moyenne pour le taxon j dans le groupe k ; : l’abondance du taxon j dans le site i pour
chaque groupe k.
Deux groupes sont alors constitués avec la valeur explicative et son seuil permettant la
partition. Chaque partition est constituée d’une seule variable environnementale. La répétition
de cette étape s’effectue jusqu’à l’obtention d’un seul groupe avec un seul site. Une fois cet
arbre retenu, chaque partition est testée par validation croisée pour minimiser son erreur
relative (CVRE : Erreur Relative de la validation croisée).
= ∑ ∑ −
∑ ∑ −
: la valeur réelle ; : l’abondance estimée par le modèle ; : la moyenne sachant
que est le nombre d’objets dans l’ensemble test et est le nombre de taxon dans la
matrice réponse.
Cette phase d’apprentissage fait partie intégrante de la construction de l’arbre. Elle
varie de 0 (prédictions parfaites) à 1 (prédictions complètement erronées). Le processus sera
répété un certain nombre de fois et le modèle final choisi sera celui présentant la plus petite
erreur relative de validation croisée. L’arbre peut alors se décrire selon sa taille, c’est-à-dire le
nombre de groupes formés, et par rapport à son erreur. Cet arbre a alors un pouvoir de
prédiction dans les deux sens, cortège floristique selon les variables explicatives et
inversement. Les espèces dites discriminantes sont celles répondant au mieux aux variables
79
primaires de l’arbre définies à chaque nœud, c’est-à-dire qui contribuent le moins à l’erreur
relative et qui contribuent le plus à la variance expliquée. Ainsi les assemblages seront
délimités à chaque dimension ajoutée (variable environnementale et sa valeur seuil) par un
hypervolume physico-chimique. Ce résultat rejoint la théorie de la niche écologique
(Hutchinson 1957) qui s’applique à une espèce sauf que dans le cas présent il s’agit
d’assemblages d’espèces. (Ouellette, 2011)
3.1.2 Le choix des variables explicatives et la fabrication de l’arbre
A partir des données environnementales inventoriées (Chapitre 2, 5.3), seules les
stations ayant fait l’objet d’analyses physico-chimiques ont été sélectionnées, ce qui porte leur
nombre à 212. Plusieurs essais ont été conduits pour retenir l’arbre présentant la plus faible
erreur relative de validation croisée (CVRE) avec un compromis sur le nombre final de
groupes. Le tableau de synthèse des résultats obtenus est présenté dans le tableau 6.
80
Tableau 6. Résultats obtenus selon la matrice des variables explicatives retenues.
M : matrice des données environnementales (annexe) composée des variables suivantes (Alt : altitude, Ammonium,
NKJ : Azote Kjeldahl, Ca : Calcium, COD : Carbone Organique Dissous, Cl : Chlorure, Cond : conductivité, DCO,
DBO5, MES : matières en suspension, NO3 : Nitrates, NO2 : Nitrites, Oph : Orthophosphate, pH, Ptot : Phosphore
total, Na : Sodium, SO4 : Sulfates, O2 : Taux de saturation en oxygène, T : Température, TAC : Titre Alcalimétrique
Complet). M suivi de l’abréviation d’une variable indique la suppression de celle-ci de la matrice environnementale.
La plus faible erreur relative, ainsi que la plus faible CVRE, ont été obtenues sur une matrice
regroupant les variables abiotiques présentant les plus faibles corrélations, calculées par le tau
de Kendall, entre elles (Alt+TAC+NKJ+O2+NO3+COD). Néanmoins cet arbre n’a pas été
retenu car il présente un trop grand nombre de groupes finaux. La solution suivante a été
retenue, l’arbre est construit à partir de la matrice entière des paramètres environnementaux à
Matrice des variables explicatives
retenue Erreur relative
Erreur de prédiction = CVRE = Erreur Relative de la Validation Croisée
Erreur standard
Nombre de
groupe Paramètres retenus par l'ARM
Alt+TAC+NKJ+O2+NO3+COD 0,555 0,773 0,0275 18 Alt, TAC, NKJ, O2, NO3
M-Cond-Alt 0,639 0,778 0,0258 11 pH, TAC, Cl, Na, NKJ, Ca
M-Cond 0,639 0,781 0,0026 11 pH, TAC, Cl, Na, NKJ, Alt
M-Cond-Ca 0,639 0,786 0,0262 11 pH, TAC, Cl, Na, NKJ, Alt
M-Cond-TAC 0,641 0,786 0,0261 11 pH, Ca, Cl, Na, NKJ, Alt
Alt+TAC+NKJ+O2+NO3+COD
limitation à 11 groupes 0,650 0,786 0,0245 11 Alt, TAC, NKJ, O2
Alt+Cond+pH+NKJ+NO3+TAC 0,640 0,787 0,0271 11 pH, Cond, Cl, NKJ, Alt
M-Cond-Alt-Na 0,652 0,787 0,0268 10 pH, TAC, Cl, Ca, NKJ
M-cond-Alt-Ca 0,639 0,788 0,0265 11 pH, TAC, Cl, NKJ, Na
M-Alt 0,640 0,788 0,0266 11 pH, Cond, Cl, Na, NKJ, Ca
M-Cond-Alt-TAC 0,641 0,788 0,0261 11 pH, Ca, Cl, Na, NKJ
M-cond-Na 0,657 0,79 0,0263 10 pH, TAC, Ca, NKJ, Cl, Alt
M-cond-Alt-NKJ 0,659 0,793 0,0263 10 pH, TAC, Na, Cl, Ca
M-Ca 0,640 0,794 0,0272 11 pH, Cond, NKJ, Cl, Na, Alt
M 0,648 0,797 0,027 11 pH, Cond, Na, Cl, Na, NKJ, Alt
M-Na 0,656 0,797 0,0269 9 pH, Cond, NKJ, Alt, Cl
M-cond-Alt-Cl 0,658 0,799 0,0249 10 pH, TAC, Na, NKJ, Ca, COD
M-Cond-Cl 0,658 0,801 0,0252 10 pH,TAC, Na, NKJ, Alt, COD
M-NKJ 0,676 0,802 0,0262 9 pH, Cond, Na, Alt, Cl, Ca
M-pH 0,554 0,803 0,0307 17 Ca, Na, Cond, SO4, Alt, O2, NKJ, TAC,
NO3
M-Cond-pH 0,555 0,804 0,0305 17 Cl, Na, TAC, SO4, Alt, NKJ, O2, NO3
M-Cl 0,657 0,807 0,0259 10 pH, Cond, Na, NKJ, TAC, COD
M-Cond-pH 0,670 0,809 0,0265 10 Alt, Cond, pH
M-Na-Ca-Cl 0,662 0,813 0,0266 10 pH, Cond, NKJ, Alt, COD
M-Cond-Alt-pH 0,644 0,82 0,0281 11 Cl, Na, TAC, T, Ca, NKJ
81
l’exclusion des paramètres altitude et conductivité. Ce choix a été fait car il présente la CVRE
la plus faible avec 11 groupes finaux. Les paramètres retenus au niveau des différents nœuds
de l’arbre sont le pH, le Titre Alcalimétrique Complet, les ions chlorures, sodium et calcium
ainsi que l’azote Kjeldahl. Ces paramètres ont été choisis par l’analyse (figure 23), malgré
leurs fortes corrélations (figure 22). Le degré d’autocorrélation entre variables est inévitable
sur un territoire ilien et montagneux comme La Réunion. En effet, à l’exception des sources
thermales, les variables sont pratiquement toutes déterminées avec un accroissement
inévitable au long du continuum amont-aval. L’accroissement de la minéralisation de l’eau se
fait au fur à mesure des terrains traversés et la pression anthropique augmente avec la
diminution de l’altitude et des pentes.
L’ARM étant une méthode non paramétrique, le choix de garder les valeurs brutes des
variables est autorisé et a été fait. Cela permet notamment d’avoir directement le seuil de la
variable explicative en valeur réelle, parfaitement intelligible par les scientifiques écologues
et par les gestionnaires, à chaque nœud de l’arbre obtenu.
82
Figure 22. Matrice de corrélation de Kendall des paramètres retenus dans la fabrication de l’arbre. (NKJ : Azote Kjeldahl, Cl : Chlorure, Na :
Sodium, TAC : Titre Alcalimètrique Complet, Ca : Calcium)
83
3.1.3 La matrice réponse
Elle est composée par les inventaires des 212 stations retenues dans la matrice des
variables explicatives. Aucune sélection par abondance ou par occurrence n’a été faite pour
éliminer certains taxons. En effet, les essais conduits n’ont pas entrainé un pourcentage
d’explication supérieur par rapport à l’utilisation des données brutes (Tableau 7).
Tableau 7. Erreurs obtenues selon la matrice réponse utilisée et la transformation
appliquée aux données.
Pour appliquer la procédure de fabrication de l’ARM (Borcard 2011), une transformation a
été effectuée sur la matrice réponse. La transformation d’Hellinger (Legendre & Gallagher
2001) a été choisie. La transformation d’Hellinger est une mesure recommandée pour la
construction d’arbres (cluster) ou l’ordination des abondances d’espèces (Rao 1995).
Matrice réponses (transformation) Erreur
relative
Erreur de prédiction = CVRE =
Erreur de la Validation Croisée
Erreur
standard
Hellinger 0,639 0,778 0,0258
Chord 0,692 0,845 0,0300
log 0,634 0,798 0,0250
Matrice réponses (Hellinger) Erreur
relative
Erreur de prédiction = CVRE =
Erreur de la Validation Croisée
Erreur
standard
Ensemble des taxons 0,639 0,778 0,0258
Ensemble des taxons avec une
abondance d'au moins 1 % dans le 0,639 0,778 0,0258
Ensemble des taxons avec une
abondance d'au moins 2 % dans le 0,654 0,819 0,0274
Ensemble des taxons ayant au
moins une occurrence de 3 0,683 0,861 0,0184
84
!"## "$ %& ,& ( = ) *+
1-+ 1 1-+−
+
2-+ 2 2-+0
Table d’abondance de taille (nxp) : 1 = 2 3
Les sites en lignes 4 = 51 … 7, les taxons en colonnes - = 51 … 87
La somme d’une colonne est notée 1 +
3.1.4 Résultats de l’ARM
L’arbre définitif choisi a donc 11 groupes pour une valeur explicative de 36,1 %
(l’erreur est alors de 0,639) et une CVRE de 0,782. La représentation finale de l’arbre est
illustrée figure 22 avec pour chaque nœud le R2, le seuil retenu, le numéro de chaque groupe
final obtenu et le nombre de relevés dans chaque groupe. L’appartenance des stations à
chaque groupe est présentée dans le tableau 6.
85
Figure 23. Représentation de l’arbre de régression multivariable (R2 (en %) en rouge, seuil en bleu, n le nombre de relevés).
86
Tableau 8. Appartenance des stations aux différents groupes de l’ARM.
Oct/Nov 2008 Avr/Mai 2009 Oct/Nov 2009 Avr/Mai 2010 Oct/Nov 2010 Oct/Nov 2011
A B C D E F
MRA La Rivière des Marsouins à La
Plaine des Palmistes 15 15 15 15 15 15 5
ETA La Ravine de l'Etang de Grand
Etang 16 16 16 / 16 16 5
LNA Le Bras des Lianes à Bellevue
les Hauts 20 20 16 20 20 20 4
ROA La Rivière des Roches à Mon
Désir 8 21 16 21 21 21 5
ROB La Rivière des Roches à
Beauvallon (amont radier) / 21 21 21 21 21 5
SZC La Rivière Sainte-Suzanne au
Bassin Grondin 21 21 21 21 21 8 3
SZA La Rivière Sainte-Suzanne
aux Cascades (radier Niagara) 21 21 21 21 21 21 3
SJB La Grande Rivière Saint-Jean
à Bois Rouge 21 21 21 21 21 / 5
SJA La Grande Rivière Saint-Jean
aval Quartier Français 21 21 21 21 21 21 5
GJA Le Grand Bras de la Grande
Rivière Saint-Jean 21 21 / 21 / 21 5
BPA Le Bras Panon aux Avocatiers / 21 21 21 21 21 5 DNC La Rivière Saint-Denis au
pont Vihn San 8 8 8 21 21 8 3
SGA La Ravine Saint Gilles au
captage du verrou 8 21 8 8 8 8 1
SGB La Ravine Saint Gilles au pont
RN1 / / / / / 8 1
ESA La Rivière de l'Est aval 19 19 / 7 7 8 5
RPA La Rivière des Remparts Le
Butor 7 19 19 21 7 7 1
MRC La Rivière des Marsouins à
Bethléem 7 19 19 7 19 7 5
MRD La Rivière des Marsouins 50
m aval RN2 19 19 19 19 19 7 5
LGC La Rivière Langevin à la
Passerelle 7 19 19 19 7 7 4
LGD La Rivière Langevin à
Langevin (bassin Tamarin) 7 19 7 7 7 7 4
PNB Le Bras de la Plaine à l'Ilet du
Bras Sec (aval puits AEP) 7 19 7 19 7 7 2
BNA Le Bras de Benjoin à Cilaos 5 5 5 5 19 19 2
SEA La Rivière Saint-Etienne à la
Chapelle 7 8 5 5 7 7 2
DNA La Rivière Saint-Denis (amont
captage AEP) 7 8 7 7 7 7 3
PLA La Rivière des Pluies à l'Ilet
Quinquina 7 7 8 7 7 7 3
PLD La Rivière des Pluies au Pont
Neuf / / / / / 7 3
BSA Le Bras de Sainte-Suzanne à
Mafate (amont captage ILO) 7 / 7 / 7 7 2
GLC La Rivière des Galets à
Mafate (amont captage ILO) 5 5 4 5 5 4 2
GLD La Rivière des Galets à Ilet
Malidé 4 5 7 5 5 4 2
BCA Le Grand Bras de Cilaos au
Pavillon 4 5 5 5 5 4 2
BCB Le Bras de Cilaos à Ilet Furcy 5 5 4 5 4 4 2
MAA La Rivière du Mât à l'ilet à
Vidot 5 5 5 5 5 5 4
MAB La Rivière du Mât à Salazie
(amont barrage ILO) 5 5 5 5 5 5 4
FJB La Rivière Fleurs Jaunes à
Salazie (amont barrage ILO) 5 5 5 5 5 5 4
MAC La Rivière du Mât à l'Escalier 5 5 5 5 5 5 4
MAD La Rivière du Mât à
l'embouchure 5 / / / / / 4
GOA La Ravine du Gol à Bel Air / 12 12 11 12 / 1
CMA La Ravine du Cimetière à
Saint-Paul 12 12 11 12 12 / 1
SZD La Rivière Sainte-Suzanne au
Village Desprez 11 / / / / / 3
MNA La Ravine du Maniron au
Plateau du Gol / 11 11 11 11 / 1
ERA La Ravine de l'Ermitage à
l'Ermitage 11 11 11 11 11 11 1
HER Appartenance aux différents groupes de l'ARM / Campagnes de prélèvements Stations
Code stations