• Aucun résultat trouvé

Parcimonie par intervalle pour la régression inverse par tranche fonctionnelle

N/A
N/A
Protected

Academic year: 2021

Partager "Parcimonie par intervalle pour la régression inverse par tranche fonctionnelle"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-01325538

https://hal.archives-ouvertes.fr/hal-01325538

Submitted on 2 Jun 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Parcimonie par intervalle pour la régression inverse par tranche fonctionnelle

Victor Picheny, Rémi Servien, Nathalie Vialaneix

To cite this version:

Victor Picheny, Rémi Servien, Nathalie Vialaneix. Parcimonie par intervalle pour la régression inverse par tranche fonctionnelle. 48e Journées de Statistique de la SFdS, May 2016, Montpellier, France.

pp.6. �hal-01325538�

(2)

Parcimonie par intervalle pour la r´ egression inverse par tranche fonctionnelle

Victor Picheny 1 , R´ emi Servien 2 & Nathalie Villa-Vialaneix 1

1 INRA, UR 0875 MIAT, 31326 Castanet Tolosan cedex, France {victor.picheny,nathalie.villa}@toulouse.inra.fr

2 INRA - ENVT, Universit´ e de Toulouse, UMR1331 Toxalim, Research Centre in Food Toxicology, F-31027 Toulouse, France [email protected]

R´ esum´ e. Dans cette proposition de communication, nous pr´ esentons une approche de s´ election de variables par intervalle dans le cadre d’un mod` ele semi-param´ etrique de r´ egression fonctionnelle. L’objectif est de d´ etecter dans un cadre de r´ eduction de dimen- sion, par exemple pour des s´ eries temporelles de grande taille, les intervalles temporels explicatifs pour la variable ` a r´ egresser. Nous montrons que ce probl` eme revient ` a r´ esoudre cons´ ecutivement deux probl` emes de r´ egression p´ enalis´ ee. Notre approche est illustr´ ee sur un probl` eme jouet.

Mots-cl´ es. r´ egression fonctionnelle, SIR, lasso, r´ egression r´ egularis´ ee

Abstract. In this proposal, a semi-parametric functional model is described which aims at selecting relevant intervals for the prediction in a functional regression frame- work. For the case of large time series, the purpose is to detect temporal intervals in the predictors for a dimension reduction method which explains a given variable. Our approch is illustrated on a toy example.

Keywords. functional regression, SIR, lasso, ridge regression

1 Introduction

Dans de nombreuses applications, les donn´ ees, qui se pr´ esentent sous la forme de vec- teurs de grande dimension, sont en fait des enregistrements en divers points d’´ evaluation de ph´ enom` enes continus. On peut citer, comme exemple de donn´ ees de ce type, les donn´ ees m´ et´ eorologiques (courbes de temp´ erature et pr´ ecipitation), les s´ eries temporelles financi` eres, les donn´ ees spectrom´ etriques en chimiom´ etrie ou diverses donn´ ees issues du s´ equen¸cage haut d´ ebit en biologie. Une introduction ` a l’analyse de donn´ ees fonctionnelle peut ˆ etre trouv´ ee dans [Ramsay and Silverman, 1997, Ferraty and Vieu, 2006].

Un probl` eme complexe avec ce type de donn´ ees est que leur dimension (c’est-` a-dire

le nombre de points d’´ echantillonnage, p) est souvent tr` es sup´ erieure au nombre d’ob-

servations (c’est-` a-dire le nombre de courbes, n) disponibles. Dans cette proposition de

communication, nous nous int´ eressons ` a un mod` ele de r´ egression fonctionnelle dans lequel

(3)

une variable r´ eelle, Y , doit ˆ etre pr´ edite ` a partir d’une variable explicative fonctionnelle, X. Le mod` ele que nous ´ etudions est un mod` ele semi-param´ etrique qui est une exten- sion de la m´ ethode SIR (Sliced Inverse Regression, [Li, 1991]) au cadre fonctionnel. Le principe de SIR est de trouver un espace de faible dimension pour la projection de X qui explique au mieux Y . SIR n´ ecessite d’inverser la matrice de variance de X, ce qui est impossible en grande dimension (n < p) ou dans le cadre fonctionnel, et des adapta- tions de l’approche initiale, par r´ egularisation ou p´ enalisation, ont donc ´ et´ e propos´ ees afin de pallier ce probl` eme [Zhong et al., 2005, Li and Yin, 2008, Bernard-Michel et al., 2008, Li and Nachtsheim, 2008, Coudret et al., 2014, Ferr´ e and Yao, 2003].

Ici, nous pr´ esentons une approche de s´ election de variables pour la SIR qui est adapt´ ee au cadre fonctionnel. En effet, les approches multi-dimensionnelles usuelles de s´ election de variables ne sont pas toujours pertinentes dans le cadre fonctionnel : dans la plupart des situations, la variable Y est intrins` equement d´ ependante d’un ou plusieurs intervalles (et non pas de points de mesure isol´ es) bien plus petit que l’ensemble du temps d’en- registrement de la variable X. De plus, des d´ ecalages entre courbes font que les parties permettant d’expliquer la variable Y ne peuvent pas ˆ etre des points de mesure isol´ es mais des sous-intervalles entiers de l’intervalle de d´ efinition des variables fonctionnelles X. Nous proposons ici une approche bas´ ee sur une p´ enalit´ e L 1 qui permet d’identifier de tels intervalles.

2 Description de la m´ ethode Sparse Interval-SIR (SI- SIR)

2.1 Contexte et notations

Dans cette partie, on notera (X, Y ) une paire de variables al´ eatoires telle que X est une variable al´ eatoire fonctionnelle observ´ ees ` a des points τ = {t 1 , . . . , t p } suppos´ es donn´ es et d´ eterministes et Y est une variable al´ eatoire r´ eelle. n i.i.d. observations de (X, Y ), (x i , y i ) i=1,...,n sont connues sur τ. On note ´ egalement x i = (x i (t j )) j=1,...,p ∈ R p la i-` eme observation, x j = (x i (t j )) i=1,...,n ∈ R n la j-` eme variable et x ij l’observation x i (t j ). Enfin, la matrice n × p, (x 1 , . . . , x n ) T , est not´ ee X.

Notre objectif est d’estimer un

espace central

, S Y |X , qui est le plus petit sous-espace de R p tel que la projection de X sur S Y |X contient toute l’information sur Y disponible dans X. De mani` ere plus pr´ ecise, on se place dans le cadre du mod` ele

Y = F (a T 1 X, . . . , a T d X, ),

avec (a j ) j=1,...,d ∈ R p , d < p, F : R p+1 → R est une fonction inconnue et est un terme d’erreur ind´ ependant de X. On d´ efinit alors S Y |X = {a 1 , . . . , a d }.

Nous supposons de plus que seuls certains intervalles temporels sont utiles pour la

pr´ ediction, ce qui revient ` a faire l’hypoth` ese qu’un grand nombre de valeurs cons´ ecutives

(4)

des vecteurs a j sont nulles. De mani` ere plus pr´ ecise, on consid` ere que l’intervalle de d´ efinition de X est d´ ecoup´ e en D sous-intervalles, (τ k ) k=1,...,D , de telle sorte qu’il existe un nombre restreint d’indices k tels quel a j (t) 6= 0 si et seulement si t ∈ τ k .

[Li, 1991] montre que les (a j ) j peuvent ˆ etre estim´ es par une d´ ecomposition spec- trale qui fait intervenir l’esp´ erance conditionnelle E (X|Y ). Cette derni` ere est estim´ ee en d´ ecoupant le support de Y en H tranches qui sont des intervalles disjoints et cons´ ecutifs, (S h ) h=1,...,H . Dans [Chen and Li, 1998], les auteurs proposent diff´ erentes reformulations de la SIR, comme des probl` emes de r´ egression ou de d´ ecompositions spectrales qui peuvent ˆ etre utilis´ ees comme base pour r´ egulariser ou p´ enaliser le probl` eme dans le cadre de la grande dimension.

La m´ ethode que nous proposons se d´ eroule en deux ´ etapes : une premi` ere est une proc´ edure de pr´ e-estimation r´ egularis´ ee qui est adapt´ ee ` a la grande dimension. La deuxi` eme est une ´ etape de s´ election de variables par intervalles qui est effectu´ ee par introduction de coefficients de r´ etr´ ecissement (shrinkage).

2.2 SIR r´ egularis´ ee

Dans une premi` ere ´ etape, nous utilisons l’approche r´ egularis´ ee introduite dans [Bernard-Michel et al., 2008], qui est une correction de la m´ ethode propos´ ee par [Li and Yin, 2008]. Un estimateur de la matrice A = (a 1 , . . . , a d ) est obtenu par r´ esolution du probl` eme d’estimation r´ egularis´ e (ridge) qui s’exprime comme la minimisation de

E r,1 (A, C) =

H

X

h=1

ˆ p h

X h − X

− ΣAC b h

2 Σ b

−1

+ µ 2

H

X

h=1

ˆ

p h kAC h k 2 , (1) dans lequel ˆ p h = n n

h

, o` u n h est le nombre d’observations dans S h , la tranche num´ ero h, X h est la moyenne des observations x i dans la tranche S h , X est la moyenne empirique des observations x i , Σ est la matrice de variance empirique des b x i , C = (C 1 , . . . , C H ) et les C h sont des vecteurs de dimension d. [Bernard-Michel et al., 2008] montrent que la solution, en A, de l’´ equation (1) est obtenue par d´ ecomposition spectrale de la matrice

Σ + b µ 2 I p

−1

Γ, avec b I p la matrice identit´ e de taille p et Γ l’estimateur SIR de la variance b de E (X|Y ), b Γ = P H

h=1 p ˆ h X h − X

X h − X T

.

2.3 SI-SIR

Dans une seconde ´ etape, de mani` ere similaire ` a [Li and Nachtsheim, 2008, Li and Yin, 2008], nous utilisons l’estimation ridge obtenue ` a l’´ etape pr´ ec´ edente pour proposer un espace central parcimonieux par intervalle.

Ainsi, si ˆ A est l’estimateur obtenu par optimisation de l’´ equation (1), on peut d´ efinir

(5)

des estimations de la projection de (b E (X|Y = y i )) i=1,...,n dans l’espace central par : P A ˆ (b E (X|Y = y i )) = (X h − X) T A ˆ avec h tel que y i ∈ S h ,

o` u E b (X|Y = y i ) = X h pour h tel que y i ∈ S h . Dans la suite, on notera P i = (P i 1 , . . . , P i d ) T ∈ R d cette quantit´ e. On notera ´ egalement P j (pour j = 1, . . . , d) les obser- vations des j-` emes coefficients pour toutes les projections : P j = (P 1 j , . . . , P n j ) T ∈ R n .

Dans l’esprit de [Li and Nachtsheim, 2008], nous proposons une estimation bas´ ee sur une reformulation en probl` eme de r´ egression lin´ eaire multiple de la SIR qui est donn´ ee par le fait que les vecteurs a j peuvent aussi ˆ etre vus comme minimisant

E (a j ) =

n

X

i=1

P a

j

(X|y i ) − (a j ) T x i

,

o` u P a

j

(X|y i ) est la projection de E (X|Y = y i ) sur a j . Une estimation parcimonieuse des a j peut ˆ etre obtenue en r´ esolvant d probl` emes lasso ind´ ependants (min a

j

E (a j ) + µ 1 kak L

1

, pour j = 1, . . . , d).

Cependant, cette approche ne permet pas d’obtenir une parcimonie identique pour toutes les dimensions de l’espace central estim´ e, ni de g´ erer une parcimonie

par inter- valle

. Nous lui pr´ ef´ erons donc une id´ ee proche de celle pr´ esent´ ee dans [Li and Yin, 2008]

qui introduit la contrainte de parcimonie via des coefficients de r´ etr´ ecissement.

En s’appuyant sur les D intervalles (τ k ) k=1,...,D qui partitionnent l’intervalle de d´ efinition de X, on introduit α ∈ R D . On cherche alors ` a r´ esoudre :

arg min

α∈ R

D

d

X

j=1

kP j − (X∆(ˆ a j )) αk 2 + µ 1 kαk L

1

,

avec ∆(ˆ a j ) la matrice (p × D) telle que ∆ kl (ˆ a j ) = ˆ a jl si t l ∈ τ k et 0 sinon. Or, ce probl` eme peut s’´ ecrire sous la forme p´ enalis´ ee de type lasso suivante

arg min

α∈ R

D

kP −

X∆( ˆ A)

αk 2 + µ 1 kαk L

1

avec P =

 P 1

.. . P d

 , un vecteur de taille dp et ∆( ˆ A) =

∆(ˆ a 1 ) .. .

∆(ˆ a p )

 , une matrice de dimension (dp) × D.

On pose enfin ˜ a j = Λˆ a j , o` u Λ = Diag α 1 I

1

| , . . . , α D I

D

|

∈ M p×p . Une fois les

vecteurs (˜ a j ) j=1,...,d obtenus, une orthonormalisation de Hilbert-Schmidt est appliqu´ ee

pour les rendre Σ-orthonormaux. b

(6)

3 Illustration

Le mod` ele utilis´ e pour g´ en´ erer les donn´ ees est Y = log |hX, a 1 i| + ε

o` u X ∼ GP (m(.), c(., .)) est un processus gaussien de moyenne m(t) = −5 + 4t − 4t 2 et de covariance c(t, t 0 ) = 10 1 (1+15|t −t 0 |+exp(−15|t − t 0 |)) (covariance de Mat´ ern de param` etre ν = 3/2) et o` u a 1 (t) = sin 3πt 2

I [0.1,0.2] (voir Figure 1, a-c). La taille de l’´ echantillon est n = 100 et les fonctions sont observ´ ees en p = 300 points r´ epartis sur une grille uniforme dans [0, 1].

a) b)

c) d)

Figure 1 – a) n = 100 observations de X. Les intervalles (τ k ) k=1,...,D sont mis en valeur par l’alternance des couleurs (noir, rouge, gris) avec D = 7. Le seul intervalle actif pour la pr´ ediction de Y est l’intervalle rouge ; b) a 1 ; c) Distribution de Y et tranches pour l’estimation de l’esp´ erance conditionnelle E (X|Y ) ; d) ˜ a 1 . L’intervalle cible r´ eel, utile pour la pr´ ediction, est en rouge.

SI-SIR est mis en œuvre sur ces donn´ ees avec H = 10 et p = 1 en utilisant le package

R glmnet. L’intervalle de d´ efinition [0, 1] est d´ ecoup´ e en 7 intervalles [0, 0.1], [0.1, 0.2],

(7)

[0.2, 0.5], [0.5, 0.65], [0.65, 0.78], [0.78, 0.9] et [0.9, 1], parmi lesquels se trouve le seul inter- valle actif [0.1, 0.2]. Enfin, les param` etres µ 1 et µ 2 sont s´ electionn´ es par validation crois´ ee.

Les r´ esultats obtenus pour l’estimation du coefficient ˜ a i sont donn´ es dans la figure 1, d.

L’intervalle cible, utile pour la pr´ ediction est bien d´ etect´ e par la m´ ethode et les inter- valles inactifs sont ´ egalement correctement d´ etect´ es comme tels. Les valeurs de ˜ a 1 ont ´ et´ e Σ-norm´ es donc ne sont pas directement comparables aux valeurs de a 1 mais la forme de la fonction de projection est raisonnable. Les perspectives de ce travail sont, actuellement, la mise au point d’une m´ ethode it´ erative permettant d’identifier les intervalles pertinents sans a priori sur leur nombre ou leur forme ainsi que l’utilisation de l’estimation de la projection de X sur l’espace central dans un objectif de pr´ ediction.

R´ ef´ erences

[Bernard-Michel et al., 2008] Bernard-Michel, C., Gardes, L., and Girard, S. (2008). A note on sliced inverse regression with regularizations. Biometrics, 64(3) :982–986.

[Chen and Li, 1998] Chen, C. and Li, K. (1998). Can SIR be as popular as multiple linear regression ? Statistica Sinica, 8 :289–316.

[Coudret et al., 2014] Coudret, R., Liquet, B., and Saracco, J. (2014). Comparison of sliced inverse regression aproaches for undetermined cases. Journal de la Soci´ et´ e Fran¸ caise de Statistique, 155(2) :72–

96.

[Ferraty and Vieu, 2006] Ferraty, F. and Vieu, P. (2006). NonParametric Functional Data Analysis.

Springer.

[Ferr´ e and Yao, 2003] Ferr´ e, L. and Yao, A. (2003). Functional sliced inverse regression analysis. Statis- tics, 37(6) :475–488.

[Li, 1991] Li, K. (1991). Sliced inverse regression for dimension reduction. Journal of the American Statistical Association, 86(414) :316–342.

[Li and Nachtsheim, 2008] Li, L. and Nachtsheim, C. (2008). Sparse sliced inverse regression. Techno- metrics, 48(4) :503–510.

[Li and Yin, 2008] Li, L. and Yin, X. (2008). Sliced inverse regression with regularizations. Biometrics, 64 :124–131.

[Ramsay and Silverman, 1997] Ramsay, J. and Silverman, B. (1997). Functional Data Analysis. Springer Verlag, New York.

[Zhong et al., 2005] Zhong, W., Zeng, P., Ma, P., Liu, J., and Zhu, Y. (2005). RSIR : regularized sliced

inverse regression for motif discovery. Bioinformatics, 21 :4169–4175.

Références

Documents relatifs

Dans le Chapitre 2 , on propose une m´ ethode non param´ etrique bas´ ee sur la vraisemblance empirique pour tester la pr´ esence de changement dans les param` etres de mod` ele de

Dans la section 2 nous d´ecrivons comment le mod`ele de r´egression `a processus latent peut ˆetre exploit´e dans le cadre de la r´egression non lin´eaire.. La section 3 pr´esente

Dans ce travail, nous nous int´ eressons ` a l’estimation de la fonction de va- riance en r´ egression par agr´ egation de type s´ election mod` ele (MS).. Le but de la proc´ edure

- Param` etres du mod` ele g´ eom´ etrique - Souplesse des articulations et des bras - D´ efinition de l’organe terminal - D´ efauts de transmission dans les syst` emes.. - Offset

– Normalit´e asymptotique de l’estimateur `a noyau pour des mod`eles non- param´etriques de r´egression avec donn´ees m´elangantes (in French) [Asymptotic normality of the

Nous d´ emontrons la propri´ et´ e de normalit´ e asymptotique locale uniforme (propri´ et´ e ULAN) pour le mod` ele param´ etrique constitu´ e par les lois d’´ echantillons iid

`a 0.99. Le cosinus carr´e pour la m´ethode “homo” n’est que de 0.84, ce qui ´etait attendu vu que l’on s’est plac´e dans le cadre d’un mod`ele h´et´erosc´edastique.

Pour estimer les param` etres de r´ egression des covariables dans un mod` ele de fragilit´ e, on peut choisir une mod´ elisation param´ etrique pour le risque de base et consid´