• Aucun résultat trouvé

3. Matériel et méthodes

3.5. Outils statistiques

Dans cette partie nous allons présenter les principales méthodes que nous utilisons pour analyser nos données.

3.5.1. Moyenne, variance et tests associés

Les mesures les plus utilisées en biologie pour décrire une population, ou un échantillon issu de cette population, sont :

- La moyenne ( pour un échantillon, μ pour une population) qui représente la somme des scores Xi d’une distribution divisée par le nombre n de scores

- La variance, σ2 pour une population et s2 pour un échantillon, qui quantifie la dispersion de l’échantillon autour de sa moyenne. C’est la somme des carrés des écarts à la moyenne.

1

Notons que la somme des carrés de l’échantillon est divisée par n – 1 plutôt que par n pour corriger une tendance à sous-estimer la variance de la population à partir de petits échantillons.

- L’écart type qui est la racine de la variance mais qui a l’avantage de s’exprimer dans la même unité que les données. L’écart type σ pour la population et s pour l’échantillon représente la déviation moyenne des observations par rapport à la moyenne.

Ces deux paramètres principaux, moyenne et écart type, reflètent en général bien la distribution d’une série d’observation.

Dans nos analyses nous allons être fréquemment amené à comparer les distributions de deux échantillons. Pour ce faire nous devons tester si les variances sont égales et ensuite si les moyennes sont égales.

Pour tester si il existe des différences entre les variances de deux échantillons, ou populations, nous utilisons le test F de Fisher. Le F de Fisher est le rapport entre la plus grande et la plus petite variance des deux populations. La valeur de la statistique obtenue est testée par rapport à la loi de Fisher de degrés de libertés nmax-1 et nmin-1, avec nmax la taille de l'échantillon ayant la plus grande variance et nmin la taille de l'échantillon ayant la plus petite variance. La table de Fisher associée nous renvoie une probabilité indiquant le seuil de rejet de l’hypothèse nulle où les deux variances sont égales.

Après avoir testé l’égalité, ou l’inégalité, des variances nous utilisons le test t de Student pour comparer les moyennes des échantillons. Ce test nous renvoie une probabilité correspondant à la probabilité que les deux échantillons aient une moyenne semblable. Lorsque la probabilité est faible (< à 0,05) ont peut considérer que les deux populations ont des moyennes significativement différentes. Le test t de Student classique nécessite l’égalité des variances. Dans le cas ou cette égalité

n’est pas avérée, d’après le test F, nous utilisons ce test t de Student avec la correction de Satterthwaite qui ne fait pas l’hypothèse d’égalité des variances. Nous utilisons également le test Z qui s'effectue par rapport à la loi normale centrée réduite et ne nécessite pas l'égalité des variances des populations dont sont prélevés les échantillons. Le test Z peut être utilisé dès que les effectifs des deux échantillons sont suffisamment élevés c'est-à-dire de l'ordre de 20 ou 30 observations au moins. Les tests sur des échantillons dont les variances sont différentes sont moins fiables que le test de Student et c’est pour cette raison que nous utilisons deux type de test différents, test t de Student avec correction de Satterthwaite et test Z.

3.5.2. L’indice de Horn

Lorsque l’on veut comparer les données floristiques de deux échantillons, deux relevés, il est nécessaire d’utiliser des méthodes adaptées aux particularités des données biologiques.

Les données biologiques ne respectent en général jamais la normalité, mis à part pour certains travaux sur les biomasses des populations, et lorsque l’on est confronté à une matrice d’espèces dans différents sites, la majeure partie de l’information mathématique brute, et cela est paradoxal, correspond à l’absence des espèces dans les sites. Afin de mesurer la similarité -ou la dissimilarité- existant entre nos différents sites d’études d’un point de vue de la distribution des espèces nous avons donc décidé d’utiliser l’indice Ro de Horn (Horn, 1966). Cet indice qui est une évolution de l’indice de ressemblance de Morisitia (Morisita 1959) nous permet d’obtenir des matrices de similarité entre nos différents sites. Comme la majorité des indices de ce type il varie de 0, pour une similarité parfaite, à 1 pour une dissimilarité complète.

Cet indice est très utile dans les cas des inventaires biologiques car il permet d’utiliser la distribution des individus de chaque espèces pour mesurer une ressemblance entre deux sites (Magurran 1988). De plus, cet indice de Horn est l’un des seuls parmi le large éventail existant à ne pas être influencé ni par la taille des échantillons ni par la richesse en espèces des sites (Wolda 1981).

Dans notre cas, où les surfaces échantillonnées ne sont pas toujours identiques, cette propriété est nécessaire pour ne pas biaiser les analyses.

3.5.3. Le test de corrélation Z de Mantel

Lorsque l’on dispose de différentes matrices de similarité, ou de distance, pour les mêmes objets, il est très utile d’utiliser la statistique Z de Mantel (Mantel 1967) afin de tester le lien entre ces deux jeux de données. Cette analyse est particulièrement intéressante lorsque l’une des matrice représente des données spatiales (Legendre & Legendre 1998). Le test de Mantel mesure une corrélation, r de Pearson, entre toutes les cases de deux matrices A et B. Par rapport à un test de corrélation classique la p-value est obtenue différemment. En effet, la p-value est calculée en considérant que l’hypothèse nulle H0 correspond à l’absence de corrélation entre les deux matrices. Pour mesurer le seuil de significativité de la corrélation observée on réalise un grand nombre de permutations des lignes et colonnes pour lesquelles un r est recalculé à chaque fois. C'est la position de la valeur observée (c'est-à-dire pour la permutation particulière correspondant aux données des matrices A et B) dans la distribution établie sous H0 qui définit la p-value. La valeur de la p-value est ainsi d’autant plus précise que le nombre de permutations est élevé.

3.5.4. Les analyses de variance à un et deux facteurs, Anovas

Lorsque l’on veut comparer simultanément les moyennes de plus de deux populations les analyses de variance (abrégé Anovas) peuvent être utilisées. Les analyses de variance permettent de tester les différences entre une ou plusieurs variables quantitatives pour au moins trois populations.

Avec deux populations de simples comparaisons des variances et moyennes sont suffisantes.

L’analyse de variance, comme son nom ne l’indique pas, teste en fait les différences entre les moyennes des différentes populations. Son nom provient du fait que l’Anova se base sur des mesures de variance pour tester la significativité des différences entre les moyennes des populations. Dans notre cas, où nous disposons de plusieurs échantillons pour chaque niveau des facteurs d’isolation, les Anovas sont donc très utiles.

Les Anovas, pour être fiables, doivent se baser sur des données linéaires, distribuées normalement et de variances équivalentes (homoscédascticité des populations). De plus, les groupes (les populations testées) doivent être indépendants. Ces préalables ne sont généralement jamais respectés par les données biologiques. Cependant les Anovas sont assez robustes pour supporter des données ne respectant pas totalement les préalables de normalité et de linéarité des données. Pour nos données, nous avons effectué des tests sur l’égalité des variances avant les analyses proprement dites.

Cela est possible en calculant un Fmax (variance maximale sur variance minimale des différents échantillons) qui est ensuite comparé, selon un seuil statistique choisi, à une valeur théorique d’une table avec le nombre de traitement (de populations) pour comme degrés de liberté et le nombre d’observation du plus grand échantillon moins 1 pour les lignes de cette table F. Cette table de référence est appelée table de Hartley ou table du Fmax.

L’analyse de variance se base sur les différentes populations que l’on cherche à comparer en les considérant comme autant de groupes différents. Pour nos données cela correspond par exemple aux trois classes, au trois groupes, de la variable Surface des fragments. Le modèle à un facteur, la surface, se décompose comme un modèle linéaire du type : Y = μ + βX + ε

Avec Y la variable à expliquer, μ une constante, β la variabilité expliquée par le modèle c'est-à-dire la différence entre l’estimation de la moyenne d’un groupe, d’une classe de surface, et la moyenne totale des observations qui est donc la variance inter-groupes et ε une variabilité résiduelle non expliquée par le modèle qui est la variance intra-groupes (la variance au sein de chacune de nos trois classes de surface).

La somme des carrés des écarts à la moyenne (SCE) est utilisée pour les calculs en décomposant de la sorte : SCE totale = SCE inter-groupe + SCE intra-groupe (résiduelle)

L’analyse de variance à un facteur (one-way Anova) va consister à chercher le rapport entre la variance des groupes (variance inter-groupe) et la variance non expliquée à l'intérieur des groupes (la variance intra-groupe résiduelle). La variance totale est la somme de la variance inter-groupe et de la variance intra-groupe. On connaît la variance totale et la variance intra-groupe et par soustraction on obtient la variance inter-groupe qui nous intéresse.

Les valeurs de variance inter et intra-groupes sont divisées par leur degré de liberté respectif, nombre de groupes (de classes) pour la variance inter et nombre d’observations total multiplié par le nombre de classes moins un pour la variance intra-groupe résiduelle. La valeur du rapport entre ces résultats est appelée F mais qui n’a rien à voir avec le F du test de l’homogénéité des variances. Ce F est comparée à celle d'une table de F Fisher de Snedecor. Le résultat nous renseigne si les groupes testés ont des moyennes différentes.

L’analyse de variance à deux facteurs (two way Anova) est la méthode que nous avons utilisé pour tester les influences simultanées de deux facteurs d’isolation sur nos données. Les Anovas à deux facteurs sont une extension de l’Anova à un facteur.

Avec i et j les deux facteurs que nous décidons d’analyser, le modèle se décompose de la sorte : Yij = μ + αi + βj + (αβ)ij + εij

La réponse Yij de la variable à expliquer est la somme d’une constante μ plus l’influence du premier facteur αi plus l’influence du second facteur βj plus l’influence de l’interaction des deux facteurs (αβ)ij plus une variabilité résiduelle εij. Dans ce type de modèle l’interaction entre les deux facteurs est prise en compte.

La variance totale, pour les groupes i et j, se décompose alors en : SCE totale = SCE inter-groupei + SCE inter-groupej + SCE inter-groupei*j + SCE intra-groupe (résiduelle)

Les différents degrés de liberté sont alors nombre de classe du groupe i moins un pour la variance inter-groupe de i, nombre de classes du groupe j moins un pour la variance inter-groupe de j, nombre de classe de i moins un multiplié par nombre de classe de j moins un pour la variance de l’interaction et nombre d’observations total moins nombre de classe de i multiplié par nombre de classe de j pour la variance résiduelle.

Nous pouvons alors calculer des rapports F de Fisher Snedecor entre les différentes variances inter-groupe et la variance résiduelle intra-groupe pour les deux groupes analysés et pour l’interaction.

Lorsque l’interaction n’est pas significative il est bon de recommencer l’analyse sans prendre en compte cette variance.

Les résultats obtenus nous indiquent si un ou les deux facteurs étudiés entraînent une variation significative de la variable dépendante et si l’interaction des deux facteurs a également une influence.

Les résultats expriment, par une probabilité, si un facteur est explicatif des variations de la variable dépendante, sans nous permettre de savoir si un des niveaux de ce facteur est responsable de cette relation.

Dans nos analyses nous utilisons alors des tests de Tukey et de Bonferroni sur les facteurs individuels et sur les interactions afin de savoir si les différences entre les classes de chacun des facteurs ou de l’interaction sont explicatifs des différences mises en avant par l’Anova à deux facteurs.

3.5.5. Les analyses de covariance, Ancovas

L’analyse de covariance est une extension de l’analyse de variance. Elle intègre, en plus de l’analyse de variance sur une variable qualitative, une analyse de régression sur une variable quantitative continue. Cela permet par exemple de tester l’influence de deux variables, l’une quantitative telle que la hauteur de la canopée et l’autre qualitative telle que l’origine des données (fragment ou témoin) sur la quantité de régénération par exemple. L’analyse de la covariance est fondée sur les mêmes hypothèses que l’analyse de variance. Cependant nous devons formuler d’autres hypothèses, notamment i) que la relation entre la variable dépendante (dans notre exemple la régénération) et la variable quantitative (la hauteur de la canopée) soit linéaire, ii) que l’importance de la relation entre les variations de la variable dépendante (la régénération) et la variable indépendante quantitative (la hauteur de la canopée) soit identique quelque soit le groupe de la variable qualitative (fragment ou témoin) et enfin iii) que la variation de la covariable quantitative indépendante (la hauteur de la canopée) ne résulte pas de différences internes aux groupes (fragments et témoins).

Les résultats nous renvoient des probabilités pour chacun des deux facteurs explicatifs, le qualitatif et le quantitatif, qui reflètent leur degré d’explication de la variation de la variable dépendante.

3.5.6. Les régressions linéaires simples

Lorsque l’on dispose de deux variables dont nous supposons que l’une varie en fonction de l’autre il est intéressant de chercher à savoir si il existe une liaison entre ces variables. Les régressions linéaires permettent alors de mesurer et de tester l'intensité d’une relation linéaire entre les deux

variables. Le principe est d’ajuster une droite entre la variable dépendante (à expliquer) en fonction des valeurs de la variable indépendante (explicative). Le critère le plus objectif pour définir au mieux la relation entre les deux variables est le critère des moindres carrés. La droite recherchée, une équation classique du type y=ax + b, est celle qui minimise la somme des carrés des écarts entre les valeurs réelles et les valeurs renvoyée par l’équation. Le rapport entre la variation expliquée par la régression et la variation totale est appelé coefficient de détermination (r2). Le coefficient de détermination varie de 0 à 1 et évalue la proportion de variabilité de la variable dépendante qui est expliquée par la variable indépendante. Le modèle est d'autant meilleur que cette valeur est proche de 1 et l’on converti souvent en % ce coefficient afin de montrer que, par exemple, la hauteur de la canopée explique 25% de la variabilité de la quantité de régénération. La racine du coefficient de détermination d’une régression donne le coefficient de corrélation, r, entre les deux séries de données.

Les corrélations varient dans l'intervalle [-1,+1], négatif pour une baisse des valeurs de la variable dépendante quand la variable indépendante augmente et positif pour le cas où les deux séries évoluent dans la même direction. Les coefficients de corrélation peuvent ensuite être testés par rapport à la table de Student afin de savoir si la corrélation est statistiquement significative.

3.5.7. Les régressions en modèles additifs généralisés, GAM

Les modèles additifs généralisés (Generalized Additive Models : GAM) sont des évolutions non-paramètriques des régressions linéaires multiples (GLM : Generalized Linear Models) et des modèles additifs. Ces méthodes ont été développées et popularisées par Hastie et Tibshirani (Hastie &

Tibshirani 1986 ; Hastie & Tibshirani 1990).

Dans les modèles linéaires généralisés, les valeurs de la variable dépendante sont prédites à partir d’une combinaison linéaire des différentes variables prédictives. Dans les modèles additifs généralisés, la fonction linéaire pour calculer la valeur prédictive est remplacée par une fonction non-paramétrique obtenue à partir d’un lissage du nuage de point des résidus partiels.

Soit, la formule classique des régressions linéaires multiples, avec E(Y) l’espérance de la variable dépendante, Xi la ième des n variables indépendantes, et βi les paramètres obtenus avec les méthodes des moindres carrés :

La formulation des GAM devient alors, avec f la fonction de lissage remplaçant les paramètres β:

Où β0 est la constante du modèle et les fiXi les fonctions non-paramétriques lissées à partir des données des résidus.

Les fonctions non-paramétriques fiXi permettent une meilleure modélisation des données que les autres méthodes. Un des avantages des GAM est de fournir une meilleure prédiction des données dépendantes, au détriment parfois de la facilité d’interprétation des résultats. Ces méthodes permettent d’approximer des formes de réponse aux variables explicatives qui sont directement dépendantes des données et non plus basées sur un modèle prédéfini de réponse (Bio et al. 1998 ; Wyler 2004). Les GAM sont capables de produire des courbes de réponse des variables dépendantes par rapport à un gradient écologique en fonction du type des données (binomial, Poisson, Gaussien…) tout en donnant la possibilité de combiner des variables continues et qualitatives. Une étape importante dans la mise en pratique des GAM est le choix d’un niveau approprié de lissage des fonctions du modèle. Un choix

raisonnable doit être fait entre le nombre d’observations et le nombre de degrés de liberté de chacune des variables prédictives (Guisan et al. 2002).

Pour notre étude nous avons utilisé l’application GRASP (Generalized Regression Analysis and Spatial Prediction) développé par Lehmann, Leathwick, Overton et F. Fivaz (Lehmann et al. 2002b ; Maggini et al. 2006). Cette application permet de mener les GAM en paramétrant le type de données dépendantes et en offrant de sélectionner différents modes de calculs. Durant nos analyses pour traiter les données d’abondance et de richesse nous avons choisi le mode Poisson et pour les données des indices de diversité le mode binomial. L’application GRASP permet, par une procédure itérative, de sélectionner le modèle qui explique le mieux la variable dépendante traitée. Chacune des variables indépendantes est successivement retirée du modèle testé afin de mesurer son importance dans l’explication de la variable dépendante. Le choix de conserver ou de retirer une variable explicative du modèle global est réalisé selon différentes méthodes de sélection : Akaike IC (AIC), Bayesien IC (BIC), F test, CHI test, Cross et Bruto. Ces différents critères de sélection des variables varient de très conservatif (AIC) à très sélectif (BIC) et influencent fortement la qualité et l’interprétation du modèle final. Pour nos analyses nous avons utilisé la méthode de sélection Cross, basée sur un critère BIC, qui mesure à chaque étape de sélection des variables une valeur de validation croisée afin de proposer, à la dernière itération, le modèle qui présente la plus haute valeur statistique de validation (Lehmann et al.

2005). Le critère de sélection Cross semble être le meilleur compromis entre stabilité du modèle et performance des prédictions (Maggini et al. 2006).

La validation teste la pertinence des modèles en prenant successivement 20% des données pour vérifier la qualité de l’ajustement des modèles testés. Concrètement, cinq sous-ensembles du jeu de données initial sont sélectionnés au hasard en contenant un nombre égal d’observations. A cinq reprises, un de ces sous-ensembles est soustrait des données et le modèle est recalculé sur la base des 80% de données restantes. Le modèle partiel obtenu nous permet d’établir des prévisions pour le sous-ensemble des 20% de données écartées. Les valeurs prédites sont alors comparées aux valeurs réelles du sous-ensemble pour mesurer la qualité de prédiction du modèle partiel par un indice de corrélation.

La validation finale correspond à la moyenne des cinq corrélations obtenues.

Ces modèles additifs sont très utilisés en écologie pour réaliser des études sur la végétation ou les programmes de conservation (Bio et al. 1998 ; Guisan et al. 2006 ; Lehmann et al. 2002a ; Zaniewski et al. 2002).

Dans notre travail, ils ont été utilisés pour traiter simultanément l’effet des variables continues (Surface des fragments, Shape Index, Distance aux massifs…) et de la variable qualitative de Durée d’isolation sur les différents paramètres de la fragmentation. Les résultats permettent de hiérarchiser,

Dans notre travail, ils ont été utilisés pour traiter simultanément l’effet des variables continues (Surface des fragments, Shape Index, Distance aux massifs…) et de la variable qualitative de Durée d’isolation sur les différents paramètres de la fragmentation. Les résultats permettent de hiérarchiser,