Statistiques en Grande Dimension - M2 MMA

(1)

Statistiques en Grande Dimension - M2 MMA

Etienne Birmelé

3 novembre 2019

(2)

Introduction

(3)

Grande dimension

I on considère une matrice de données X, et éventuellement un vecteur d’observations Y à expliquer. Les observations portent sur p variables, mesurées sur n individus

I on parle de grande dimension dès que p > n.

(4)

Problèmes liés à la grande dimension

I Problèmes théoriques: répartition de la masse contre-intuitive, points aléatoires équidistants . . .

I Problèmes pratiques: matrices non inversibles, notamment XX ^T .

I Problèmes d’interprétation en statistiques supervisées:

sur-apprentissage.

(5)

Données d’expression de gènes

Les données fil rouge de ce cours seront des données d’apprentissage supervisé en génomique:

I X ∈ M(p, n) désigne la mesure de l’expression de p gènes chez n individus. Typiquement, p est de plusieurs milliers alors que n est de quelques dizaines voire centaines.

I y ∈ R ⁿ est une variable phénotypique mesurée chez tous les individus, par exemple un indice de virulence de la tumeur.

Question principale: Peut-on correctement prédire y à l’aide de X?

(6)

Données d’expression de gènes

Exemple: 7129 gènes mesurées chez 72 patients ayant deux types différents de leucémie (AML et ALL).

ALL ALL ALL ALL ALL AML AML AML AML ALL ALL ALL ALL ALL ALL ALL AML AML

Conditions

AFFX−BioB−5_at D17525_at D64158_at HG1872−HT1907_at J03824_at L19063_at L48516_at M29550_at M68520_at S59184_at U09813_at U28811_at U47054_at U63825_at U80184_rna1_at X05615_at X60655_at X79353_at X98801_at Z49099_at V00536_rna1_at HG1471−HT3923_s_at J04046_s_at M27504_s_at U41068_cds2_s_at L49229_f_at M60750_f_at

Genes

(7)

Idées générales

I L’ensemble des méthodes visent à réduire la dimension. Cela peut par contre être fait préalablement à la résolution de la question (pré-traitement) ou en même temps (simultané).

I La question principale contient en fait deux sous-cas:

1. Prédiction: On cherche uniquement à prédire Y ,

indépendamment de l’interprétabilité des variables retenues 2. Sélection: On souhaite sélectionner un petit nombre de

variables pour réaliser la prédiction, ce qui permettra leur interprétation.

Remarque: la notion de prédiction est distincte de celle de causalité!

Un bon prédicteur n’est pas forcément la cause de Y , il peut par

exemple en être une conséquence.

(8)

Plan

I Sélection en pré-traitement: Tests mutiples

I Prédiction en pré-traitement: ACP et PLS

I Prédiction en simultané: Réseaux de neurones (cf cours d’Andrés Almansa)

I Sélection en simultané: Régressions Pénalisées

I (Réseaux de neurones en pré-traitement: les auto-encodeurs)

I (Inférence de réseaux: modèles graphiques gaussiens)

(9)

Rappels sur le modèle linéaire en petite

dimension

(10)

Modèle linéaire généralisé



 



 



Y ∼ f _θ , f _θ ∈ F (Θ) E (Y ) = µ

g (µ) = X β = β 0 + β 1 X 1 + . . . + β p X p . Pour que ce modèle soit bien défini, il faut choisir:

I La famille paramétrique F(Θ) à laquelle appartient la loi de Y . On choisira F(Θ) dans la famille exponentielle.

I La fonction de lien g qui relie E(Y ) et (X 1 , . . . , X K ).

(11)

Modèle linéaire gaussien

On choisit la famille des lois normales et la fonction de lien identité. En raison des propriétés des lois normales, le modèle peut s’écrire

Y = β 0 + β 1 X 1 + . . . + β p X p + , ∼ N (0, σ ² ) ou

y = Xβ +

où β ∈ R ^p est le vecteur des β i et ∈ R ⁿ est constitué de

réalisations indépendantes de .

(12)

Modèle linéaire gaussien

I Estimation: Formules closes pour le maximum de vraisemblance, notamment

β ˆ = (XX ^T ) ⁻¹ X ^T y

I Choix de modèle: Comparaisons via le R ² ajusté ou un critère de vraisemblance pénalisée. Par exemple l’AIC (Akaike Information Criterion)

AIC = −2 log L + 2k

où L désigne la vraisemblance et k le nombre de paramètre du

modèle (ici p + 1).

(13)

Modèle logistique

On choisit la famille binomiale et plus particulièrement une loi de Bernoulli, et la fonction de lien logistique g (x ) = log( _1−x ^x ). Le modèle devient

Y ∼ B(p ) log P (Y = 1)

P (Y = 0)

= X β

Remarque: On ne peut pas écrire Y = X β + erreur, en tous cas

pas avec une erreur de loi connue.

(14)

Modèle logistique

I Estimation: Les formules ne sont plus closes pour le

maximum de vraisemblance, il faut recourir à des algorithmes d’optimisation (Newton-Raphson par exemple) pour estimer les paramètres.

I Choix de modèle: Comparaisons via la déviance ou un critère

de vraisemblance pénalisée.

(15)

Sélection de variables par tests multiples

(16)

Principe

I Un bon prédicteur devrait avoir un comportement différent entre les deux conditions.

I Une manière de sélectionner les variables pour en réduire le nombre est de ne garder que celles qui montrent une différence significative d’expression moyenne entre les deux conditions (Test de Student, de Wilcoxon, bootstrap, procédure bayésienne du package limma. . . ).

I Si ce nombre est suffisamment faible, on peut alors utiliser les

statistiques en petite dimensions dans l’espace réduit à ces

variables.

(17)

p tests simultanés

H ₀ choisi H ₁ choisi

H ₀ vrai TN FP p ₀

H 1 vrai FN TP p − p 0

p − R R p

Si chaque test est fait à un niveau 1 − α, le nombre moyen de faux

positifs (FP) est p 0 α, ce qui peut être bien supérieur au nombre de

gènes vraiment différentiellement exprimés: la liste renvoyée risque

d’être essentiellement constituée d’erreurs.

(18)

Contrôles pour tests multiples

Contrôler le risque de première espèce n’est pas suffisant. On peut décider de contrôler plutôt:

I le Family Wise Error Rate: FWER = P(FP ≥ 1)

I le False Discovery Rate: FDR = E _FP+TP ^FP

Le contrôle du FWER est plus fort, il permet de s’assurer qu’avec forte probabilité, aucun faux positif n’est recruté.

Le contrôle du FDR est plus souple, il permet de moins rejeter de

positifs, au prix d’un plus fort taux de faux positifs.

(19)

Contrôle du FWER: Procédure de Bonferroni

I Les tests individuels (gène par gène) sont menés en remplaçant α par _m ^α .

I On a bien FWER ≤ α.

Exemple: On teste 2000 gènes simultanément. Pour obtenir une

FWER de 5%, on effectue chaque test avec un risque de première

espèce de α = ₂₀₀₀ ^.05 = 2.5 10 ⁻⁵ .

(20)

Contrôle de la FWER: procédure de Holm-Bonferroni

Les décisions ne sont pas prises indépendamment les unes des autres:

1. effectuer les p tests et ordonner les p p-valeurs obtenues p ₍₁₎ ≤ p ₍₂₎ ≤ . . . ≤ p _(m)

2. d’eterminer I = max{k | ∀i ≤ k, p _(i) ≤ _m−i+1 ^α } 3. on rejette les p-valeurs inf’erieures ‘a _m−I+1 ^α .

I On a alors FWER ≤ α.

I La méthode de Holm est systématiquement supérieure à celle

de Bonferroni.

(21)

Benjamini-Hochberg: Procédure de contrôle du FDR

Les décisions ne sont pas prises indépendamment les unes des autres:

1. effectuer les m test et ordonner les m p-valeurs obtenues p ₍₁₎ ≤ p ₍₂₎ ≤ . . . ≤ p _(m)

2. d’eterminer I = max{i | p _(i) ≤ α _m ⁱ }

3. on rejette les p-valeurs inf’erieures ‘a α _m ^I .

On a alors FDR ≤ α.

(22)

En pratique

I Pour l’application des gènes, le contrôle du FWER est trop conservatif (p est trop grand). Il est souvent nécessaire de se contenter de contrôler le FDR.

I Il existe des fonctions (p.adjust sous R) qui, étant donnée le vecteur des p-valeurs p initiales, les transforment en un vecteur de p-valeurs p ^∗ ajustées.

Elles sont telles que l’hypothèse i est rejeté après correction

pour test multiple si et seulement un test simple rejette

l’hypothèse i avec la p-valeur ajustée.

(23)

Réduction de dimension par combinaisons

linéaires de variables: ACP et PLS

(24)

Principe

Une manière de traiter le problème est de réduire la dimension, c’est-à-dire - chercher un sous-espace vectoriel de dimension plus petite que n - remplacer le nuage de point initial par sa projection orthogonale sur le sous-espace précédent.

Question: Comment choisir cet espace pour que le nouveau nuage

soit aussi représentatif que possible des données initiales.

(25)

Cadre mathématique

Il s’agit de construire

I une matrice A contenant en colonne les coefficients de combinaisons linéaires des anciennes variables (les vecteurs engendrant le nouvel espace):

I une matrice Z (n × r, r << n) contenant r nouvelles variables (le nouveau nuage). Il vérifie

Z = XA

(26)

Principe de construction

Les h − 1 premières variables (ou de façon équivalente les h − 1 premiers axes) étant déjà construites, on construit l’axe suivant en résolvant

a _h = argmax

a

C (a, X , Y ) sous les contraintes

I a ^T _h a h = 1

I et ∀l < h, cov(z _h , z _l ) = a ^T _h X ⁰ Xa _l = 0, où C (a, X , Y ) est une fonction critère à optimiser.

Les conditions assurent que les coefficient directeurs des axes sont

unitaires, et que les nouvelles variables sont décorrélées.

(27)

Transformations préliminaires

On se place dans un cadre centré: on soustrait leur moyenne à chaque variable. Cela revient à simplement changer l’origine de l’espace, sans modifier le nuage de points.

Il faut faire le choix de normer ou pas chaque variable (ramener sa variance à 1).

-Avantage: on peut comparer des variables dans des unités différentes

-Désavantage: dans le cas de variables comparables, on lisse le

signal.

(28)

Analyse en Composantes Prinipales

L’ACP réduit la dimension en cherchant des axes qui expliquent le mieux possible la variance du nuage des X (indépendamment de Y ).

Le critère est alors

C (a, X ) = a ⁰ X ⁰ Xa = a ^T Σa

où Σ est la matrice de covariance empirique. Cela revient à chercher

l’axe suivant lequel la variance est la plus grande.

(29)

ACP en pratique

D’un point de vue algorithmique:

I soit on trouve a ₁ , puis on projette tous les individus (qui sont des points de R ^p ) sur (a ₁ ) ^⊥ . On lance à nouveau

l’optimisation de C pour trouver a 2 etc. . .

I soit on peut démontrer que les a _i correspondent aux vecteurs propres de Σ (qui est diagonalisable car symétrique) et on les obtient tous d’un coup.

Il est à noter que ce sont aussi les vecteurs propres de la

décomposition en valeurs singulières de X.

(30)

PLS: principe pour Y unidimensionnel

La PLS peut être vue comme une généralisation de l’ACP où on cherche à faire la même chose à part que ce qu’on appelle le meilleur axe n’est plus celui selon laquelle la variance est la plus grande, mais celui qui explique le mieux Y .

On peut utiliser comme critère le carré de la covariance entre Y et l’axe candidat:

C (a, X , Y ) = cov (Y , Xa) ² = a ⁰ X ⁰ YY ⁰ Xa

(31)

PLS en pratique

I on peut à nouveau chercher pas à pas en projetant à chaque fois sur l’orthogonal des axes déjà définis.

I ou déterminer la décomposition en valeurs singulières de

X ⁰ YY ⁰ X .

(32)

PLS avec Y multidimensionnel

A chaque pas, on cherche la meilleure covariance entre une combinaison linéaire des X et une combinaison linéaire des Y :

(u 1 , v 1 ) = argmax

u,v cov (Xu, Yv ) sous la contrainte u ⁰ u = 1 et v ⁰ v = 1.

On projette ensuite X et Y suivant les vecteurs choisis (déflation) et

on recommence.

(33)

Prédiction après réduction de dimension

On peut utiliser l’ACP ou la PLS comme une étape préliminaire à la régression (ou tout autre algorithme de prédiction):

1. on se place dans l’espace des nouvelles variables

2. on fait une régression sur ces nouvelles variables (et c’est bien défini car r < n)

3. dans le cas de la régression, on peut reécrire les z _j en fonction des x i dans le modèle linéaire pour obtenir une régression portant sur les variables initiales.

Cf fonctions pcr et plsr du package pls ou la fonction pls.regression

du package pls.genomics.

(34)

Exemple: Données gasoline

Chargement des données library(pls)

data(gasoline)

Séparation en Jeu d’appentissage/Jeu test

learn <- sample(1:dim(gasoline)[1],50,replace=FALSE) test <- which(!(1:dim(gasoline)[1]) %in% learn) gasolinelearn <- gasoline[learn,]

gasolinetest <- gasoline[test,]

(35)

Exemple: régression après ACP

pcrgasoline <- pcr(octane~NIR,ncomp=10,data=gasolinelearn,scale=TRUE,validation="CV",segments=5) summary(pcrgasoline)

## Data: X dimension: 50 401

## Y dimension: 50 1

## Fit method: svdpc

## Number of components considered: 10

##

## VALIDATION: RMSEP

## Cross-validated using 5 random segments.

## (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps

## CV 1.631 1.625 1.558 0.4529 0.2909 0.2523 0.2581

## adjCV 1.631 1.613 1.542 0.3335 0.2877 0.2473 0.2566

## 7 comps 8 comps 9 comps 10 comps

## CV 0.2228 0.2198 0.2198 0.2236

## adjCV 0.2170 0.2193 0.2101 0.2143

##

## TRAINING: % variance explained

## 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps

## X 71.453 88.57 93.78 97.53 98.35 98.72 99.03

## octane 9.519 23.42 96.55 97.43 98.31 98.36 98.87

## 8 comps 9 comps 10 comps

## X 99.22 99.38 99.50

## octane 98.90 99.11 99.11

(36)

Exemple: Régression après PLS

plsgasoline <- plsr(octane ~ NIR, ncomp = 10, data = gasolinelearn, validation = "CV",segments=5) summary(plsgasoline)

## Data: X dimension: 50 401

## Y dimension: 50 1

## Fit method: kernelpls

## Number of components considered: 10

##

## VALIDATION: RMSEP

## Cross-validated using 5 random segments.

## (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps

## CV 1.631 1.443 0.4586 0.2716 0.2917 0.2753 0.2378

## adjCV 1.631 1.429 0.4361 0.2707 0.2824 0.2512 0.2224

## 7 comps 8 comps 9 comps 10 comps

## CV 0.2255 0.2209 0.2295 0.2444

## adjCV 0.2118 0.2088 0.2145 0.2279

##

## TRAINING: % variance explained

## 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps

## X 71.99 79.53 86.70 95.71 96.14 96.97 97.51

## octane 32.48 94.51 97.72 98.12 99.08 99.27 99.41

## 8 comps 9 comps 10 comps

## X 98.25 98.42 98.75

## octane 99.46 99.56 99.59

(37)

Exemple: Erreur de prédiction sur jeu d’apprentissage

0 2 4 6 8 10

0.20.40.60.81.01.21.41.6

octane

number of components

RMSEP

CV adjCV

(38)

Exemple: Interprétation des coefficients ACP

1000 1200 1400 1600

−0.20−0.15−0.10−0.050.000.050.100.15

nm

loading value

Comp 1 (71.5 %) Comp 2 (17.1 %) Comp 3 (5.2 %)

(39)

Exemple: Interprétation des coefficients PLS

1000 1200 1400 1600

−0.4−0.20.00.2

nm

loading value

Comp 1 (72.0 %) Comp 2 (7.5 %) Comp 3 (7.2 %)

(40)

Exemple: Erreur d’apprentissage sur jeu test

## , , 2 comps

##

## octane

## 6 85.36811

## 8 88.33678

## 9 88.55386

## 10 88.27596

## 13 87.40934

## 21 86.96273

## 27 86.54938

## 47 88.91762

## 51 87.50581

## 52 87.04008

## (Intercept) 1 comps 2 comps 3 comps 4 comps

## 1.0356 0.9154 0.3994 0.1743 0.1741

## 5 comps 6 comps 7 comps 8 comps 9 comps

## 0.2404 0.2637 0.3152 0.3389 0.3693

## 10 comps

## 0.3668

## , , 3 comps

##

## octane

## 6 85.35790

## 8 88.44883

## 9 88.80326

## 10 88.40937

## 13 87.36828

## 21 86.60393

## 27 86.39561

## 47 88.20584

## 51 88.17540

## 52 87.56793

## (Intercept) 1 comps 2 comps 3 comps 4 comps

## 1.0356 1.0426 0.9592 0.1752 0.2070

## 5 comps 6 comps 7 comps 8 comps 9 comps

## 0.1775 0.1858 0.2664 0.2521 0.2586

## 10 comps

## 0.2589

(41)

Sélection de variables par pénalisation: Lasso,

Ridge et consorts

(42)

Question

Est-il possible d’adapter la régression linéaire (gaussienne ou logistique) en grande dimension de façon à

I limiter les effets des corrélations

I avoir un nombre restreint de variables (gènes) qui ont un

coefficient non nul.

(43)

Principe

Soit `(β, X) la vraisemblance d’un modèle de régression évaluée en une valeur β des paramètres au vu des données X et Y .

Afin de favoriser un certain comportement de la solution, on peut remplacer l’estimateur du maximum de vraisemblance

β ˆ = argmax(`(β, X , Y )) par

β ˆ = argmax(`(β, X , Y )) − λpen(β)

où pen(beta) est une fonction de pénalité à choisir. La valeur de λ

fixe le degré de pénalité que l’on veut considérer.

(44)

Régression Ridge

β ˆ _Ridge = argmax (`(β, X, Y ) − λ||β || ² ₂ ) ou de façon équivalente dans le cas gaussien,

β ˆ _Ridge = argmin(kY − X βk ² + λ||β|| ² ₂ )

La pénalité Ridge est utilisée pour diminuer la grande variance induite sur β par la présence de variables corrélées.

I

β ˆ _Ridge = (X ⁰ X + λI) ⁻¹ X ⁰ Y

I β ˆ _Ridge est un estimateur biaisé contrairement à celui des

moindres carrés dans le cas gaussien, mais sa variance est

moindre.

(45)

Problème dual et interprétation géométrique

Le problème

β ˆ _Ridge = argmax(`(β, X , Y )−λ||β|| ² ₂ ) est équivalent à un problème dual de la forme

β ˆ _Ridge = argmax (`(β, X , Y )) sous la contrainte

X

i

β _i ² ≤ c (λ)

(46)

Régression Lasso

β ˆ _Lasso = argmax(l (β, X, Y ) − λ||β || ₁ ) ou, de façon équivalente dans le cas gaussien,

β ˆ _Lasso = argmin(kY − Xβ k ² + λ||β|| ₁ ) La pénalité Lasso est utilisée pour obtenir des régressions

parcimonieuses, c’est-à-dire tel que beaucoup de coefficients sont nuls.

I Plus λ est grand, plus les solutions sont parcimonieuses

I Il n’y a pas de formule close pour ˆ β Lasso , il faut le déterminer par un algorithme d’optimimsation.

I β ˆ _Lasso est en général un estimateur de grande variance:

problèmes de stabilité de la solution, notamment en présence

de variables corrélées.

(47)

Problème dual et interprétation géométrique

Le problème

β ˆ _Lasso = argmax(`(β, X , Y )−λ||β|| ₁ ) est équivalent à un problème dual de la forme

β ˆ _Ridge = argmax (`(β, X , Y )) sous la contrainte

X

i

|β _i | ≤ c (λ)

3.2. Régularisations !

p

23

β^ls

β^!¹ β1 β2

β^ls β^!²

β1 β2

Fig. 3.2 – Comparaisons des solutions de problèmes régularisés par une norme !

₁

et !

₂

. À gauche de la figure 3.2, β

^!¹

est l’estimateur du problème (3.2) régularisé par une norme !

1

. La deuxième composante de β

^!¹

est annulée, car l’ellipse atteint la région admissible sur l’angle situé sur l’axe β

2

= 0. À droite de la figure 3.2, β

^!²

est l’estimateur du problème (3.2) régularisé par une norme

!

2

. La forme circulaire de la région admissible n’incite pas les coefficients à atteindre des valeurs nulles.

Afin de poursuivre cette discussion avec des arguments à la fois simples et formels, on peut donner l’expression d’un coefficient des estimateurs β

^!¹

et β

^!²

, lorsque la matrice X est orthogonale (ce qui correspond à des contours circulaires pour la fonction de perte quadratique). Pour β

^!²

, nous avons

β

^!_m²

= ¹ 1 + λ β

^ls_m

.

Les coefficients subissent un rétrécissement

²

proportionnel par le biais du facteur 1 / ( 1 + λ ) . En particulier, β

^!m²

ne peut être nul que si le coefficient β

^ls_m

est lui même exactement nul. Pour β

^!¹

, nous avons

β

^!_m¹

= sign ! β

^ls_m

" !

| β

^ls_m

| − λ "

+

,

où [ u ]

+

= max ( 0, u ) . On obtient ainsi un seuillage « doux » : les compo- santes des coefficients des moindres carrés sont rétrécies d’une constante λ lorsque | β

^ls_m

| > λ , et sont annulés sinon.

Stabilité

Définition 3.2 Stabilité — Selon Breiman [1996], un problème est instable si pour des ensembles d’apprentissage similaires mais pas identiques (petites perturbations), on obtient des prédictions ou des estimateurs très différents (grande perturbation).

Remarque 3.5 — Bousquet et Elisseeff [2002] ont défini de façon formelle différentes notions de stabilité, basées sur le comportement des estima- teurs quand l’échantillon d’apprentissage est perturbé par le retrait ou le

remplacement d’un exemple. "

2Shrinkage, en anglais.

(48)

Variante: Elastic-Net

β ˆ _EN = argmax(`(β, X , Y ) − λ(α||β|| ₁ + (1 − α)||β|| ² ₂ ))

I Avantage: ‘juste milieu’ entre Lasso et Ridge.

I Inconvénient: deux paramètres à régler.

(49)

Variante: Group-Lasso

On considère que les variables sont réparties dans L groupes prédéfinies, et soit β _l les coordonnées du vecteur β correspondant aux variables du groupe l.

β ˆ _GL = argmax (`(β, X, Y ) −

L

X

l=1

λ _l ||β _l || ₂ )

I Avantage: autre moyen d’obtenir un ‘juste milieu’ entre Lasso et Ridge. Les corrélations sont prises à l’intérieur des groupes, et de nombreux groupes sont annulés entièrement.

Statistiques en Grande Dimension - M2 MMA