HAL Id: hal-02500605
https://hal-cnam.archives-ouvertes.fr/hal-02500605
Submitted on 6 Mar 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de
Prédiction en régression clusterwise PLS
Ndèye Niang, Stéphanie Bougeard, Gilbert Saporta
To cite this version:
Ndèye Niang, Stéphanie Bougeard, Gilbert Saporta. Prédiction en régression clusterwise PLS. 48 èmes
Journées de Statistique, May 2016, Montpellier, France. �hal-02500605�
Pr´ ediction en r´ egression clusterwise PLS
ND` eye Niang
1St´ ephanie Bougeard
2& Gilbert Saporta
11
CNAM-CEDRIC, Paris, ndeye.niang keita@cnam.fr, gilbert.saporta@cnam.fr
2
Anses, Ploufragan, France, stephanie.bougeard@anses.fr
R´ esum´ e. En r´ egression, lorsque les individus pr´ esentent une structure en groupes inconnus a priori, les m´ ethodes de r´ egression typologique ou clusterwise permettent d’ap- porter une r´ eponse ` a travers la recherche simultan´ ee d’une partition des donn´ ees en un nombre fix´ e de classes et le mod` ele de r´ egression local associ´ e ` a ces classes. La r´ egression clusterwise PLS permet une extension au cas de donn´ ees de grande dimension et/ou forte- ment corr´ el´ ees ` a travers la d´ etermination de combinaisons lin´ eaires des variables initiales.
Se pose alors le probl` eme de la pr´ ediction ` a partir des mod` eles locaux en particulier en cas de grande dimension. En effet les composantes PLS sont diff´ erentes d’une classe ` a l’autre et ne peuvent donc ˆ etre utilis´ ees directement pour d´ eterminer la classe d’appartenance d’un nouvel individu. Nous proposons pour cela d’effectuer une analyse discriminante sur une s´ election de composantes principales issues d’une ACP sur les pr´ edicteurs. La m´ ethode propos´ ee est illustr´ ee sur des donn´ ees simul´ ees.
Mots-cl´ es. R´ egression PLS, r´ egression clusterwise, classification, discrimination.
Abstract. Clusterwise linear regression aims at partitioning data sets into clusters characterized by their specific coefficients in a linear regression model. High dimensional data and/or the case of multicollinearity can be handled using clusterwise PLS regression based on components which are linear combinations of the initial predictors. The corres- ponding local PLS models can be used for prediction purpose once the cluster membership of a future observation is determined. The PLS components are related to the clusters and then may differ from one cluster to another. Therefore they cannot be directly used for the cluster membership determination. We propose to use a discriminant analysis on a selected set of principal components from the PCA of the predictors. The method is illustrated on synthetic data.
Keywords. PLS regression, Clustering, Clusterwise regression, Discriminant analysis
1 Introduction
Les m´ ethodes de r´ egression r´ egularis´ ee telles que la r´ egression sur composantes prin-
cipales, la r´ egression ridge ou la r´ egression PLS permettent de lever les limitations de la
r´ egression lin´ eaire classique notamment en cas de multicolin´ earit´ e ou lorsque le nombre
de variables est inf´ erieur ` a celui des individus. Tout comme la r´ egression multiple, ces
m´ ethodes fournissent un seul ensemble de coefficients de r´ egression pour tous les indivi- dus. Cependant, dans un grand nombre d’applications en sciences sociales, en environne- ment ou en marketing par exemple, cet unique ensemble de coefficients peut parfois ne pas convenir et conduire ` a des estimations erron´ ees. C’est en particulier le cas lorsque les individus pr´ esentent une structure de groupes sous-jacente mais inconnue. Les m´ ethodes de r´ egression typologique ou clusterwise permettent alors d’apporter une solution ` a tra- vers la recherche simultan´ ee d’une partition des donn´ ees en un nombre fix´ e de classes et le mod` ele de r´ egression local associ´ e ` a ces classes. Tout se passe comme en classification mais ici les classes sont g´ en´ er´ ees en minimisant un crit` ere bas´ e sur les r´ esidus de r´ egression plutˆ ot que selon le crit` ere classique utilisant les distances entre observations. On note X la matrice des donn´ ees associ´ ee aux variables explicatives et y la variable ` a expliquer. La r´ egression clusterwise revient ` a supposer l’existence d’une variable latente qualitative C
`
a K modalit´ es telle que E(y|x) = b
k0+ b
k1x
1+ . . . + b
kPx
po` u les b
kjsont les coefficients de la r´ egression de y sur les x
jrestreintes aux n
kobservations de la classe k d´ ecrites par y
ket X
kavec (n
k> p) pour garantir l’existence d’une solution pour les b
kj. Cela revient donc
`
a chercher simultan´ ement une partition en K classes et le vecteur b
kdes coefficients b
kjcorrespondant minimisant le crit` ere (1).
K
X
k=1