• Aucun résultat trouvé

3.1 Méthode explicative : la régression Partial Least Squares (PLS)

La méthode de modélisation la plus fréquemment utilisée en écologie est sans aucun doute la régression linéaire multiple. C’est une méthode qui permet de mettre à disposition un outil dont le pouvoir de représentation est extrêmement large. Ce type de modèle est utilisé pour rendre compte des relations linéaires simples existant entre une variable dépendante et des prédicteurs. La régression PLS (Wold et al. 2001) est une adaptation de ce modèle linéaire classique. Son objectif est de pallier le principal défaut de cette dernière : l’instabilité des coefficients de régression due à la colinéarité des prédicteurs. En effet, lorsque la colinéarité devient forte au sein du jeu de variables prédictives, les estimations des coefficients de régression fluctuent énormément d’un échantillon à l’autre (Cramer et al. 1988). Aussi, lorsque l’on utilise la régression multiple pour évaluer l’importance relative des prédicteurs, l’interprétation devient aussi délicate que dangereuse. En effet, plus les variables prédictives sont inter-reliées, moins les coefficients de régression seront fiables pour évaluer leur importance relative. La régression PLS permet d’obtenir des coefficients des prédicteurs interprétables même en cas de corrélation forte entre les prédicteurs. L’équation finale s’interprète comme une équation de régression linéaire, les coefficients reflètent bien l’effet d’un prédicteur relativement aux autres et le R2 est un bon estimateur de l’efficacité du modèle. La significativité des coefficients est ensuite validée en utilisant la méthode du jack-knife (Efron and Gong 1983; Martens and Martens 2000). Wasson et al. (2010) ont montré l’intérêt d’utiliser cette méthode en écologie lorsqu’on utilise des prédicteurs qui comme ici sont fortement corrélés les uns aux autres. Nous avons illustré cette multicollinéarité en calculant le coefficient de discrimination (R2) de chacune des variables avec l’ensemble des autres prédicteurs.

3.2 Méthode de modélisation prédictive : Les arbres d’inférence conditionnelle (CIT)

La méthode de modélisation utilisée est la méthode des arbres d'inférence conditionnelle (Hothorn et al. 2006). Par rapport à d'autres méthodes d'arbres de décision (comme les CART, (Breiman 1984) qui utilisent un critère d’inégalité), la méthode CIT

61

propose un test statistique (sur le principe des tests de permutations) permettant de sélectionner la variable la plus pertinente à chaque nœud et de définir un critère d'arrêt de la croissance de l'arbre. Cette méthode peut être décomposée en trois étapes : (1) l’hypothèse nulle d’indépendance entre chaque variable explicative et la variable dépendante est testée par un test de permutation, (2) si l'hypothèse nulle d'indépendance est rejetée, le groupe d'échantillons est divisé en deux sous-groupes définis par leurs valeurs pour la variable explicative assurant la meilleure discrimination en (1), (3) le processus est réitéré sur chacun des sous-groupes formés jusqu’à ce que l’hypothèse nulle d’indépendance ne puisse être rejetée.

L’évaluation de l’efficacité du modèle se fait à partir de la matrice de confusion entre les valeurs observées de la variable qualitative et les valeurs prédites par le modèle pour cette même variable. A partir de cette matrice, nous avons calculé le taux de mauvaise classification du modèle comme premier indicateur de l’efficacité du modèle. Nous avons ensuite calculé la sensibilité (proportion des vrais positifs parmi les sites en mauvais état) et la spécificité (proportion des vrais négatifs parmi les sites en bon état) afin d’évaluer la capacité du modèle à prédire à la fois les situations de bon et de mauvais état écologique. Enfin, nous avons calculé l’aire sous la courbe ROC (AUC) (Hanley and McNeil 1982) qui constitue un bon indicateur de l’efficacité prédictive du modèle (Swets 1988). Ces indicateurs ont été calculés à la fois pour les prédictions réalisées à partir du jeu de données d’apprentissage et à partir du jeu de données de test.

3.3 Méthode de modélisation : l’approche PLS

L'approche PLS (Wold 1982) est une méthode statistique permettant de modéliser des relations complexes entre des variables observées et des variables latentes. Ce type de modèles est généralement appelé modèle d'équations structurelles à variables latentes. Depuis quelques années, cette approche est de plus en plus populaire dans des communautés scientifiques très variées (Vinzi 2008). Les modèles d'équations structurelles (Structural Equation Models) comprennent un grand nombre de méthodologies statistiques (dont l'approche PLS fait partie) qui permettent l'estimation de relations de causalité complexes entre des variables latentes mesurées elles-mêmes par des variables observées dites manifestes.

62

Un modèle structurel PLS est décrit par deux sous-modèles : (1) le modèle de mesure (ou modèle externe) reliant les variables manifestes (observées) aux variables latentes qui leur sont associées et (2) le modèle structurel (ou modèle interne) reliant des variables latentes dites endogènes à d'autres variables latentes.

On estime tout d’abord les variables latentes (ξ) à partir du modèle externe. L’estimation externe Yj de la variable latente ξj est construite comme une combinaison linéaire des variables manifestes xjh :

Où wj est le vecteur colonne des coefficients wjh. On impose à la variable Yj d’être centrée-réduite. (Tenenhaus et al. 2005).

Puis on réalise l’estimation interne Zj des variables latentes à partir des estimations externes Yi des variables latentes ξi liées à ξj :

Où le signe ∝ signifie que la variable située à gauche de ce signe est obtenue par réduction de la variable située à droite. (Tenenhaus et al. 2005).

On répète ces deux étapes jusqu’à convergence, puis on estime les coefficients eji du modèle appelés « path coefficients » par des régressions PLS. L’hypothèse nulle de nullité de ces coefficients est ensuite testée en utilisant la méthode de ré-échantillonnage bootstrap.

Un avantage de cette méthode est de permettre d’évaluer les effets directs et indirects d’une variable latente A sur une autre variable latente B (Sanchez 2013). L’effet direct est donné par le « path coefficient » entre les deux variables A et B. L’effet indirect correspond à l’influence d’une variable latente A sur une variable latente B en utilisant un chemin indirect via une troisième variable C. L’effet indirect se calcule comme le produit des « path coefficients » entre les variables A et C et entre les variables C et B. L’effet total d’une

𝑌𝑗 = 𝑤𝑗ℎ𝑥𝑗ℎ

𝑍𝑗 ∝ 𝑒𝑗𝑖

63

variable latente A sur une variable latente B correspond à la somme des effets directs et indirects.

Pour une interprétation plus aisée du modèle structurel, les effets directs et totaux ont été calculés et transformés en pourcentage.

Le détail de l’algorithme développé par Wold figure dans de nombreux travaux comme ceux de Jakobowicz (2007) et Tenenhaus et al. (2005).

Le modèle structurel est évalué sur la base de la pertinence prédictive des variables latentes. Il convient d’analyser les R2 multiples. Selon Croutsche (2002), trois seuils de R2 multiple peuvent être pris en compte. Si le R2 est supérieur à 0,1, le modèle est significatif. S’il est compris entre 0,05 et 0,1, alors le modèle est tangent. S’il est inférieur à 0,05, alors le modèle n’est pas significatif.

65

Chapitre 3 - Relations large échelle

Documents relatifs