• Aucun résultat trouvé

Chapitre 2 : Méthodologie générale

6. Traitement des données

6.1. Transformation des données microchimiques

Les   données   brutes   issues   de   l’analyse   ICP-MS sont exprimées en coups par seconde (cps) et doivent être transformées en concentrations exprimées en parties par millions (ppm). La méthode utilisée est celle de Longerich et al. (1996) et  a  été  réalisée  à  l’aide  d’un  script   élaboré sous le logiciel statistique R (R Development Core Team 2011). Pour chaque élément :

o Les données aberrantes (outliers ou données extrêmes), définies comme toutes valeurs supérieures  à  trois   fois  l’écart  interquartile,  ont   été  exclues   (Tukey 1977). C’est   une   procédure classique en microchimie car les ICP-MS sont des appareils très sensibles qui produisent régulièrement des valeurs ponctuelles aberrantes appelées « spikes ». o Les concentrations et les limites de détection (LOD) ont été calculées suivant la

méthode de Longerich et al. (1996).

o Les éléments conservés pour les analyses statistiques ont été sélectionnés suivant deux critères : 1) les concentrations élémentaires dans les otolithes doivent être supérieure à la LOD dans 70% des analyses dans au moins un des habitats (ex. la mangrove) ou un des sites (ex. Ouano). 2) le coefficient de variation des concentrations mesurées au sein des standards externes (NIST 612) doit être inférieur à 10% pour chaque élément (Chittaro et al. 2004, Chittaro et al. 2006). Les quelques valeurs inférieures à la LOD et conservées dans les analyses ont été fixées à zéro.

o Dans le but de réduire les possibles variations  causées  par  l’utilisation  de  deux  ICP-MS différents, les concentrations élémentaires ont été standardisées par ligne (i.e. par échantillon)   afin   d’obtenir   des   compositions   élémentaires   relatives (en pourcentages de chaque élément dans  l’échantillon).

6.2. Analyses statistiques

Les analyses statistiques utilisées sont adaptées à des données ne suivant pas les hypothèses de normalité   et   d’homoscédasticité,   ainsi   qu’à   des   plans   d’échantillonnage   non   équilibrés. Toutes les analyses statistiques ont été réalisées   à   l’aide   du   logiciel   R   (R Development Core Team 2011).

6.2.1. Analyses descriptives

Des analyses de variances (ANOVA) à un et deux facteurs sont utilisées afin de tester les différences spatiales de compositions élémentaires (analyses multivariées MANOVA) et de concentrations élémentaires (analyses uni-variées ANOVA). Les ANOVA classiques exigent de  respecter  des  conditions  d’utilisation  telles  que  la  normalité  des  résidus  et  l’homogénéité   des variances. Si les données ne répondent pas à ces postulats de base, elles sont en général transformées  afin  de  ramener  leur  distribution  à  la  normalité  et  d’homogénéiser  la  variation.  A   l’inverse,  les  méthodes  d’ANOVA  par  permutations  (PERMANOVA)  permettent  de  se  libérer   de  ces  conditions  d’utilisations. Elles construisent leur propre loi de distribution en utilisant

des permutations aléatoires du jeu de données (Legendre & Anderson 1999, Anderson 2001). La technique des PERMANOVA a été utilisée dans ce travail.

6.2.2. Discrimination spatiale

La méthode des Random Forest (forêts aléatoires en français) a été utilisée afin de discriminer les échantillons à différentes échelles spatiales à partir des compositions élémentaires   des   otolithes   et   de   l’environnement. Il existe différentes méthodes de classification/prédiction utilisées dans les études de microchimie des otolithes : les Réseaux de Neurones (ANN) et les Analyses Discriminantes Linéaires (LDA) et Quadratiques (QDA). Dans une étude comparative, Mercier et al. (2011) ont cependant démontré que les Random Forest (RF) constituent la méthode statistique la plus adaptée aux données de microchimie des otolithes.   Elle   présente   l’avantage   de   se   libérer   des   conditions   de normalité et d’homoscédasticité   requises   avec   les   autres   méthodes   statistiques.   La   pertinence   de   l’utilisation  des  RF  a  ensuite  était  démontrée  au  cours  d’études  de  connectivité  utilisant  des   jeux de données de microchimie des otolithes provenant des lagunes de la région du Golfe du Lion (Mercier et al. 2012, Tournois et al. 2013).

La  méthode  des  Random   Forest   (RF)  est   basée  sur  la  construction  d’arbres  de  décision   multiples. Chaque arbre de décision est construit à partir du tirage aléatoire d’un   sous   ensemble du jeu de données initial (classiquement les deux tiers), appelé « jeu de calibration ».   Un   arbre   est   constitué   de   nœuds   correspondant   à   un   partitionnement   des observations en fonction de la valeur des variables. Pour les RF, la procédure de partitionnement aux nœuds   est   partiellement aléatoire. À   chaque   nœud,   il   y   a   un   sous   échantillonnage aléatoire des variables utilisées (ici les éléments chimiques) pour scinder les observations (ici les habitats ou les sites).   Le   tiers   du   jeu   de   données   initial   qui   n’est   pas   utilisé pour  la  construction  de  l’arbre  de  décision  est  appelé  « jeu test » car il est utilisé pour estimer la capacité de prédiction de cet arbre indépendamment du jeu de calibration utilisé pour le construire. Ainsi, la classe (i.e. habitat ou site) de chaque observation du jeu test est connue (i.e. lieu  d’échantillonnage)  et  comparée  à  la  classe  prédite  par  l’arbre  de  classification   compte tenu de la valeur des variables pour chaque observation. Ceci   permet   d’obtenir  une   valeur indépendante du taux  d’erreur  de  l’arbre  de  classification des observations. Il y a donc deux procédures de tirage aléatoire dans les RF : chaque arbre est construit à partir d’un  jeu   aléatoire de calibration,  et  chaque  nœud est  calculé  à  partir  d’un  tirage  aléatoire  des variables

de partitionnement. Cette procédure est réalisée de manière itérative afin de construire une forêt d’arbres,  le  nombre  d’arbres réalisés étant  défini  par  l’utilisateur  (dans  ce travail, 5000 arbres sont  construits  à  chaque  RF).  Cette  construction  d’arbres  multiples  permet  de prédire la classe de chaque observation du jeu de données initial à plusieurs reprises, chaque arbre constituant un vote pour une classe donnée. La prédiction finale d’une  observation correspond à la classe qui reçoit la majorité des votes sur le total des arbres de la forêt. De manière importante, le pourcentage de vote de cette prédiction est connu et constitue la probabilité associée à cette prédiction finale. Ainsi, les RF non seulement classifient les observations en fonction de la valeur des variables mais associent une probabilité (% vote) à chaque prédiction.

6.2.3. Echelles spatiales et organisationnelles

La méthode des RF a été utilisée afin de discriminer les échantillons à trois échelles spatiales  à  partir  des  compositions  élémentaires  des  otolithes  et  de  l’environnement.  Dans  un   premier   temps,   les   discriminations   ont   été   réalisées   à   l’échelle   globale. Cette échelle est constituée des données provenant des 11 sites autour de la Nouvelle-Calédonie et les différences ont été testées entre :

o Habitats (mangrove versus récif barrière interne).

o Sites pour un habitat donné (mangroves, récifs barrières internes).

Ensuite,   les   discriminations   ont   été   réalisées   à   l’échelle   régionale. Cette échelle comprend les données issues des 4 sites ateliers de la côte ouest et les différences ont été testées entre:

o Habitats (mangrove vs récifs frangeant, intermédiaire et barrière interne).

o Sites pour un habitat donné (mangroves, récifs frangeants, récifs intermédiaires, récifs barrières internes).

Enfin,   les   discriminations   ont   été   réalisées   à   l’échelle   locale définie comme   l’échelle   spatiale la plus fine. Cette échelle correspond à chaque site atelier et les différences ont été testées:

Ces analyses à différentes échelles spatiales ont été réalisées pour les niveaux organisationnels suivants :

o L’espèce.

o Multi-spécifique (toute espèce). o Groupe taxonomique (famille).

o Groupe fonctionnel (régime alimentaire).

Lors   de   la   construction   d’arbres   de   classification,   certains   éléments   chimiques   sont   informatifs   car   ils   apportent   de   l’information   utile   à   la   classification,   et   d’autres   éléments   n’apportent  que  du  bruit.  L’élimination de ces éléments non-informatifs  permet  d’augmenter   la précision des classifications tout   en   réduisant   le   nombre   d’éléments   constituants les signatures chimiques (Mercier et al. 2011) . A chaque échelle spatiale et organisationnelle testée, les RF ont donc été réalisées   avec   toutes   les   combinaisons   d’éléments   possibles.   La   meilleure   combinaison   d’éléments retenue est celle qui correspond au meilleur taux de classification correcte avec le plus petit nombre d’éléments.

Chapitre 3 : Quantification du pouvoir discriminant des