• Aucun résultat trouvé

Group-Lasso

Dans le document Statistique en grande dimension (Page 62-68)

4.4 Quelques généralisations des régressions Ridge et Lasso

4.4.5 Group-Lasso

Dans certains modèles, il peut être préférable de sélectionner les variables par groupe. Par exemple, une variable qualitative à k modalités est encodée dans un modèle de régression linéaire (ou logistique) par k − 1 variables indicatrices. Si l’on souhaite supprimer la variable qualitative du modèle, cela revient à supprimer le groupe desk−1variables indicatrices correspondantes.

En supposant qu’on a formé G groupes de variables, chacun contenant kg variables, la régression Group-Lasso pénalise les groupes de la manière suivante

βˆGroup−Lasso = argminβ∈RpkY −Xβk2

G

X

g=1

kggk

où βg désigne le sous-vecteur de β associé aux kg coefficients du groupe g et kβgk est sa norme euclidienne. La forme de la pénalité conduit ainsi à une solution qui annule certaines normes kβgk et donc tous les coefficients du groupe g.

Dans le cas particulier où tous les groupes sont de taille kg = 1, on retrouve le Lasso classique car alors kβgk=p

βg2 =|βg|.

La même idée se généralise à la régression logistique Lasso.

Mise en oeuvre sous R :

Fonctiongglassode la librairie du même nom. Elle permet une régression linéaire Group-Lasso par défaut, mais également une régression logistique

Group-Lasso avec l’option loss = "logit". Les groupes de variables sont spécifiés par l’optiongroupsous la forme d’un vecteur d’indices. Par exemple group=c(1,1,2,3,2) signifie que les deux premières variables forment un groupe, que la seconde et la dernière variable forment un autre groupe, et que la quatrième variable est seule.

Tests multiples

Lors d’une analyse statistique, il n’est pas rare d’effectuer de nombreux tests statistiques.

Exemple 1 : En génomique. On souhaite tester si l’expression d’un gêne est différent entre deux conditions expérimentales (en faisant typiquement un test d’égalité de moyennes). Cette procédure est effectuée pour tous les gênes mesurés, ce qui peut représenter des dizaines de milliers de tests. His-toriquement la génomique est le domaine dans lequel s’est le plus développé la théorie des tests multiples.

Exemple 2 : En régression linéaire lorsquepest grand. On est amené dans ce contexte à tester la significativité de chaque variable, ce qui représente p tests.

Exemple 3 : Corrélation fortuite. En présence de p variables, on peut tester la significativité des corrélations linéaires entre chaque variable. Cela représente p(p−1)/2 corrélations à tester. Certaines risquent à tort d’être considérées comme étant significatives, ce sont des corrélations fortuites.

Lorsqu’on effectue de nombreux tests statistiques, chacun étant associé à un risque de première espèce α, on peut s’attendre à détecter de nom-breux faux positifs. Ce chapitre expose en détail ce problème et les solutions courantes pour contrôler ce risque.

5.1 Présentation du problème et notations

On suppose qu’on a m tests à effectuer, chacun étant associé à une hy-pothèse nulle H0,i et une hypothèse alternative H1,i pour i = 1, . . . , m. On note I0 l’ensemble des indices ipour lesquelsH0,i est vrai et on note m0 son cardinal. Evidemment I0 etm0 ne sont pas connus en pratique.

Dans la plupart des cas, les hypothèses sont de la forme H0,ii = 0 contre H1,ii >0, ou H0,ii = 0 contre H1,ii 6= 0,

pour certains paramètres inconnus µ1, . . . , µm. Par exemple µi représente la différence d’expression d’un gêne entre deux conditions expérimentales, ou µi représente un paramètre dans une régression linéaire, ou µi représente une corrélation linéaire entre deux variables. Cela motive les terminologies suivantes :

• Les positifs P sont les indices i pour lesquels on a rejeté l’hypothèse nulleH0,i

• Les faux-positifs F P sont les indices i positifs à tort (autrement dit H0,i est rejeté alors que i∈I0).

• Les vrais-positifsV P sont les indicesipositifs à raison (autrement dit H0,i est rejeté et i /∈I0).

On a évidemment P =F P +V P.

Lors de la mise en oeuvre desm tests, on obtientm p-values pˆi. On fera l’hypothèse non restrictive suivante :

Hypothèse : Pour touti∈I0, pˆi ∼ U([0,1]).

Exemples : si la statistique de test admet une loi continue de fonction de répartition F et la région critique est de la forme

• RCα ={T > F−1(1−α)}, alors pˆ= 1−F(T)∼ U([0,1]).

• RCα ={T < F−1(α/2)}∪{T > F−1(1−α/2)}, alorspˆ= 2 min(F(T),1−

F(T))∼ U([0,1]).

Preuve des exemples. Pour le premier cas, en notant F−1 l’inverse de F : P(ˆp≤p) =P(1−F(T)≤p) =P(T ≥F−1(1−p)) = 1−F(F−1(1−p)) =p.

Pour le second cas,

On souhaite se donner une règle de décision sur les m p-values pˆi. On peut la construire de deux manières

• A partir de quel seuilτ (pour lespˆi) rejette-t-on les hypothèses nulles ? Cela aboutit à la règle : sipˆi < τ, on rejette H0,i.

• De façon alternative, si on ordonne les pˆi de pˆ(1) à pˆ(m) : à partir de quel rang ˆk considère-t-on que les p-values pˆ(1) à pˆk) conduisent à rejeter les hypothèses nulles correspondantes, tandis que pour pˆk+1) à pˆ(m) on ne les rejette pas ?

Ces deux points de vue diffèrent dans la mesure oùτ n’est pas aléatoire alors que ˆk oui. Le lien entre ces deux points de vue est illustré dans la figure 5.1.

L’objectif d’une bonne procédure de tests multiples est de trouver une règle de décision comme ci-dessus qui maximise le nombre de V P tout en minimisant les F P.

Si on se fixe un seuil τ indépendant de m, par exemple τ = 5%, on aura Par exemple, si on fait m = 1000 tests qui sont en théorie tous négatifs (m =m0) en utilisant le seuil τ = 5%, on obtient en moyenne 50 F P. Pour contrôler l’apparition des F P, il faut donc affiner la règle de décision en tenant compte de m.

5 10 15 20

0.000.150.30

τ

k ^

Figure 5.1 – Représentation de20 p-values ordonnées de la plus petitepˆ(1) à la plus grande pˆ(20). Si on se fixe un seuil τ > 0, on rejette tous les tests ayant une p-value inférieure à τ. De façon équivalente, on rejette les tests associés aux kˆ plus petites p-values. Ici ˆk= 8.

5.2 Principe des tests multiples : contrôler le

Dans le document Statistique en grande dimension (Page 62-68)

Documents relatifs