Chapitre 2 : Méthodologie générale
6. Traitement des données
6.1. Transformation des données microchimiques
Les données brutes issues de l’analyse ICP-MS sont exprimées en coups par seconde (cps) et doivent être transformées en concentrations exprimées en parties par millions (ppm). La méthode utilisée est celle de Longerich et al. (1996) et a été réalisée à l’aide d’un script élaboré sous le logiciel statistique R (R Development Core Team 2011). Pour chaque élément :
o Les données aberrantes (outliers ou données extrêmes), définies comme toutes valeurs supérieures à trois fois l’écart interquartile, ont été exclues (Tukey 1977). C’est une procédure classique en microchimie car les ICP-MS sont des appareils très sensibles qui produisent régulièrement des valeurs ponctuelles aberrantes appelées « spikes ». o Les concentrations et les limites de détection (LOD) ont été calculées suivant la
méthode de Longerich et al. (1996).
o Les éléments conservés pour les analyses statistiques ont été sélectionnés suivant deux critères : 1) les concentrations élémentaires dans les otolithes doivent être supérieure à la LOD dans 70% des analyses dans au moins un des habitats (ex. la mangrove) ou un des sites (ex. Ouano). 2) le coefficient de variation des concentrations mesurées au sein des standards externes (NIST 612) doit être inférieur à 10% pour chaque élément (Chittaro et al. 2004, Chittaro et al. 2006). Les quelques valeurs inférieures à la LOD et conservées dans les analyses ont été fixées à zéro.
o Dans le but de réduire les possibles variations causées par l’utilisation de deux ICP-MS différents, les concentrations élémentaires ont été standardisées par ligne (i.e. par échantillon) afin d’obtenir des compositions élémentaires relatives (en pourcentages de chaque élément dans l’échantillon).
6.2. Analyses statistiques
Les analyses statistiques utilisées sont adaptées à des données ne suivant pas les hypothèses de normalité et d’homoscédasticité, ainsi qu’à des plans d’échantillonnage non équilibrés. Toutes les analyses statistiques ont été réalisées à l’aide du logiciel R (R Development Core Team 2011).
6.2.1. Analyses descriptives
Des analyses de variances (ANOVA) à un et deux facteurs sont utilisées afin de tester les différences spatiales de compositions élémentaires (analyses multivariées MANOVA) et de concentrations élémentaires (analyses uni-variées ANOVA). Les ANOVA classiques exigent de respecter des conditions d’utilisation telles que la normalité des résidus et l’homogénéité des variances. Si les données ne répondent pas à ces postulats de base, elles sont en général transformées afin de ramener leur distribution à la normalité et d’homogénéiser la variation. A l’inverse, les méthodes d’ANOVA par permutations (PERMANOVA) permettent de se libérer de ces conditions d’utilisations. Elles construisent leur propre loi de distribution en utilisant
des permutations aléatoires du jeu de données (Legendre & Anderson 1999, Anderson 2001). La technique des PERMANOVA a été utilisée dans ce travail.
6.2.2. Discrimination spatiale
La méthode des Random Forest (forêts aléatoires en français) a été utilisée afin de discriminer les échantillons à différentes échelles spatiales à partir des compositions élémentaires des otolithes et de l’environnement. Il existe différentes méthodes de classification/prédiction utilisées dans les études de microchimie des otolithes : les Réseaux de Neurones (ANN) et les Analyses Discriminantes Linéaires (LDA) et Quadratiques (QDA). Dans une étude comparative, Mercier et al. (2011) ont cependant démontré que les Random Forest (RF) constituent la méthode statistique la plus adaptée aux données de microchimie des otolithes. Elle présente l’avantage de se libérer des conditions de normalité et d’homoscédasticité requises avec les autres méthodes statistiques. La pertinence de l’utilisation des RF a ensuite était démontrée au cours d’études de connectivité utilisant des jeux de données de microchimie des otolithes provenant des lagunes de la région du Golfe du Lion (Mercier et al. 2012, Tournois et al. 2013).
La méthode des Random Forest (RF) est basée sur la construction d’arbres de décision multiples. Chaque arbre de décision est construit à partir du tirage aléatoire d’un sous ensemble du jeu de données initial (classiquement les deux tiers), appelé « jeu de calibration ». Un arbre est constitué de nœuds correspondant à un partitionnement des observations en fonction de la valeur des variables. Pour les RF, la procédure de partitionnement aux nœuds est partiellement aléatoire. À chaque nœud, il y a un sous échantillonnage aléatoire des variables utilisées (ici les éléments chimiques) pour scinder les observations (ici les habitats ou les sites). Le tiers du jeu de données initial qui n’est pas utilisé pour la construction de l’arbre de décision est appelé « jeu test » car il est utilisé pour estimer la capacité de prédiction de cet arbre indépendamment du jeu de calibration utilisé pour le construire. Ainsi, la classe (i.e. habitat ou site) de chaque observation du jeu test est connue (i.e. lieu d’échantillonnage) et comparée à la classe prédite par l’arbre de classification compte tenu de la valeur des variables pour chaque observation. Ceci permet d’obtenir une valeur indépendante du taux d’erreur de l’arbre de classification des observations. Il y a donc deux procédures de tirage aléatoire dans les RF : chaque arbre est construit à partir d’un jeu aléatoire de calibration, et chaque nœud est calculé à partir d’un tirage aléatoire des variables
de partitionnement. Cette procédure est réalisée de manière itérative afin de construire une forêt d’arbres, le nombre d’arbres réalisés étant défini par l’utilisateur (dans ce travail, 5000 arbres sont construits à chaque RF). Cette construction d’arbres multiples permet de prédire la classe de chaque observation du jeu de données initial à plusieurs reprises, chaque arbre constituant un vote pour une classe donnée. La prédiction finale d’une observation correspond à la classe qui reçoit la majorité des votes sur le total des arbres de la forêt. De manière importante, le pourcentage de vote de cette prédiction est connu et constitue la probabilité associée à cette prédiction finale. Ainsi, les RF non seulement classifient les observations en fonction de la valeur des variables mais associent une probabilité (% vote) à chaque prédiction.
6.2.3. Echelles spatiales et organisationnelles
La méthode des RF a été utilisée afin de discriminer les échantillons à trois échelles spatiales à partir des compositions élémentaires des otolithes et de l’environnement. Dans un premier temps, les discriminations ont été réalisées à l’échelle globale. Cette échelle est constituée des données provenant des 11 sites autour de la Nouvelle-Calédonie et les différences ont été testées entre :
o Habitats (mangrove versus récif barrière interne).
o Sites pour un habitat donné (mangroves, récifs barrières internes).
Ensuite, les discriminations ont été réalisées à l’échelle régionale. Cette échelle comprend les données issues des 4 sites ateliers de la côte ouest et les différences ont été testées entre:
o Habitats (mangrove vs récifs frangeant, intermédiaire et barrière interne).
o Sites pour un habitat donné (mangroves, récifs frangeants, récifs intermédiaires, récifs barrières internes).
Enfin, les discriminations ont été réalisées à l’échelle locale définie comme l’échelle spatiale la plus fine. Cette échelle correspond à chaque site atelier et les différences ont été testées:
Ces analyses à différentes échelles spatiales ont été réalisées pour les niveaux organisationnels suivants :
o L’espèce.
o Multi-spécifique (toute espèce). o Groupe taxonomique (famille).
o Groupe fonctionnel (régime alimentaire).
Lors de la construction d’arbres de classification, certains éléments chimiques sont informatifs car ils apportent de l’information utile à la classification, et d’autres éléments n’apportent que du bruit. L’élimination de ces éléments non-informatifs permet d’augmenter la précision des classifications tout en réduisant le nombre d’éléments constituants les signatures chimiques (Mercier et al. 2011) . A chaque échelle spatiale et organisationnelle testée, les RF ont donc été réalisées avec toutes les combinaisons d’éléments possibles. La meilleure combinaison d’éléments retenue est celle qui correspond au meilleur taux de classification correcte avec le plus petit nombre d’éléments.