• Aucun résultat trouvé

1.4 Cadres méthodologiques

1.4.4 Réduction de dimension

L’un des enjeux actuels réside dans la capacité de choisir ou de combiner les facteurs biotiques ou abiotiques pour prédire la distribution des espèces, la dynamiques des écosystèmes ou la croissance des individus. Deux stra-tégies sont envisageables pour dénouer ces liens entre réponses et variables explicatives, selon que l’on cherche avant tout à expliquer un phénomène ou à le prédire. La première repose principalement sur des approches telles que la « sélection de variables » tandis que la seconde se fonde davantage sur des approches de types « compression d’information », la plus classique étant la régression sur composantes principales.

Approches par sélection de variables : les méthodes stepwise sont

lar-gement répandues et utilisées. Néanmoins, de nouvelles techniques de sélec-tion plus adaptées aux données actuelles, en particulier à leur abondance, ont vu le jour dès la fin des années 90. En particulier, celles basées sur des approches régularisées dont la méthode LASSO (least absolute shrinkage and selection operator) introduite par Tibshirani (1996). Celle-ci a pour objectif de chercher à maximiser la vraisemblance sous la contrainte que la norme L1 des paramètres soit plus petite qu’une constante à choisir :

arg max

β `(y, β) sous la contrainte ||β||1 < c

où ||x||1 est la norme L1 de x. Ce problème revient à maximiser la vraisem-blance des observations pénalisées :

arg max

β `(y, β) − λ||β||1.

Le choix de λ se fait classiquement par validation-croisée. L’intérêt de ces méthodes est qu’elles permettent simultanément d’estimer les paramètres et

d’éliminer les covariables xlnon pertinentes pour l’analyse en ramenant à zéro la valeur des coefficients associés (shrinkage). De façon générale le problème posé peut se représenter sous la forme suivante :

arg max

β `(y, β) − pen(β).

où pen est une pénalisation qui dépend de β. De nombreuses pénalisations ont par la suite été proposées qui assurent à ces méthodes des propriétés d’op-timalité. Parmi celles-ci on peut citer les pénalisations HARD ou SCAD (Fan and Jinchi, 2010) ou les pénalisation adaptatives (Zou,2006). Ces approches ont néanmoins l’inconvénient d’être mal adaptées lorsque les covariables pré-sentent de fortes collinéarités, à la différence des approches qui utilisent des pénalisations impliquant la norme L2 telle que la méthode Ridge (Hoerl and Kennard,1970). Pour remédier à ces difficultés,Zou and Hastie(2005) intro-duisent la régression appelée elastic net regression qui combine la méthode LASSO et Ridge. Le problème s’écrit alors :

arg max

β `(y, β) − λ1||β||1+ λ2||β||2 ou ||x||2 est la norme L2 de x.

D’un point de vue bayésien, la question de la sélection de variables est aussi un champ de recherche très actif et la littérature sur le sujet est as-sez conséquente (Marin and Robert, 2007; O’Hara and Sillanpää, 2009). La procédure consiste à rechercher les paramètres qui sont ou non égaux à zéro. L’approche proposée par George and McCulloch(1997) consiste à introduire une variable indicatrice γk qui indique si le paramètre est proche de zero ou non. Selon la façon dont est introduite cette variable indicatrice, le choix de la loi a priori des paramètres conduit à différentes méthodes. Initialement, l’approche développée parGeorge and McCulloch (1997), appelée Stochastic Search Variable Selection (SSVS) consiste à modéliser la loi a priori des pa-ramètres βk selon que l’indicatrice associée γk vaut un ou zéro (« slab and spike ») :

– si γk = 1 :

kk= 1] = N (0; τ ) – si γk = 0 :

kk= 0] = N (0; cτ )

où c est une constante "petite" qu’il faut régler "manuellement" et qui permet que la loi soit "piquée" autour de zéro.

Ainsi dans cette approche, la loi des paramètres est une loi de mélange : kk] = γkN (0; τ ) + (1 − γk)N (0; cτ )

D’autres alternatives ont été proposées comme celles de Kuo and Mallick (1998) ou de Dellaportas et al. (2000). Enfin, d’autres approches ont été développées récemment qui ne reposent pas sur l’utilisation de la variable indicatrice γ. Parmi celles-ci on peut citer les versions bayésiennes du LASSO (Park and Casella, 2008) et de l’elastic-net (Li and Lin,2010).

Les approches par composantes : de façon générale, l’ensemble des

mé-thodes de sélection ont pour objectif la recherche d’un compromis biais/variance. L’enjeu est de trouver un sous-ensemble de covariables suffisamment grand pour que le modèle ait de bonnes qualités de prédiction et soit suffisamment petit pour éviter les redondances, le sur-ajustement et les problèmes d’infé-rence. Une vision différente des approches par sélection sont les méthodes de régression sur composantes et en particulier les approches de type partial least squares (PLS).

La technique générale de la régression PLS a été mise au point parWold (1985) dans le but de décrire les relations entre des groupes de variables in-dépendantes et in-dépendantes dans des systèmes de type entrée-sortie compre-nant de nombreuses variables. Elle a été conçue pour faire face aux problèmes résultant de l’insuffisance de l’utilisation de la régression linéaire classique, qui trouve ses limites dès lors que l’on cherche à modéliser des relations entre des variables pour lesquelles il y a peu d’individus, ou beaucoup de variables explicatives en comparaison du nombre d’individus (le nombre de variables explicatives pouvant excéder très largement le nombre d’individus), ou encore lorsque les variables explicatives sont fortement corrélées entre elles. Dans la régression PLS, le calcul des composantes f se fait en tenant compte des variables à prédire Y . Le problème revient à optimiser la covariance entre X et Y et à chercher les vecteurs u et v de norme 1 qui sont les solutions du problème d’optimisation suivant :

max

u0u=1 ; v0v=1hXu|YviW

où W est une matrice de poids. Un des avantages de la régression PLS par rapport à des approches telles que la régression sur composantes principales est qu’elle prend en compte l’information contenue dans la réponse pour construire les composantes. En revanche il est fondamental d’utiliser un jeu de données exogène pour sélectionner le nombre d’axes pertinents pour l’ana-lyse. De plus, les approches PLS classiques sont mal adaptées aux données qualitatives telles que les données binaires (présence/absence d’espèces) ou de comptage (abondance des espèces).

Mes contributions La « sélection de variable » en tant qu’objet de re-cherche n’est pas directement au centre de mes thématiques. Néanmoins, j’ai été amené à m’y intéresser de près pour comprendre en particulier le rôle de l’environnement sur l’abondance ou la distribution des espèces forestières. Cela s’est concrétisé par deux publications (Flores et al.,2009;Mortier et al., 2015) que je présenterai dans le chapitre suivant. En ce qui concerne la ques-tion de la régression sur composante, cette nouvelle thématique est le fruit d’une nouvelle collaboration avec mes collègues de l’université de Montpellier X. Bry et C. Trottier et du CIRAD G. Cornu. Cette coopération fructueuse m’a donné l’occasion de publier deux articles (Bry et al., 2013, 2015) et de développer un « package » R (Cornu et al., 2015).

Documents relatifs