Prédiction en régression clusterwise PLS

(1)

HAL Id: hal-02500605

https://hal-cnam.archives-ouvertes.fr/hal-02500605

Submitted on 6 Mar 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Prédiction en régression clusterwise PLS

Ndèye Niang, Stéphanie Bougeard, Gilbert Saporta

To cite this version:

Ndèye Niang, Stéphanie Bougeard, Gilbert Saporta. Prédiction en régression clusterwise PLS. 48 èmes

Journées de Statistique, May 2016, Montpellier, France. �hal-02500605�

(2)

Pr´ ediction en r´ egression clusterwise PLS

ND` eye Niang

¹

St´ ephanie Bougeard

²

& Gilbert Saporta

¹

1

CNAM-CEDRIC, Paris, ndeye.niang keita@cnam.fr, gilbert.saporta@cnam.fr

2

Anses, Ploufragan, France, stephanie.bougeard@anses.fr

R´ esum´ e. En r´ egression, lorsque les individus pr´ esentent une structure en groupes inconnus a priori, les m´ ethodes de r´ egression typologique ou clusterwise permettent d’ap- porter une r´ eponse ` a travers la recherche simultan´ ee d’une partition des donn´ ees en un nombre fix´ e de classes et le mod` ele de r´ egression local associ´ e ` a ces classes. La r´ egression clusterwise PLS permet une extension au cas de donn´ ees de grande dimension et/ou forte- ment corr´ el´ ees ` a travers la d´ etermination de combinaisons lin´ eaires des variables initiales.

Se pose alors le probl` eme de la pr´ ediction ` a partir des mod` eles locaux en particulier en cas de grande dimension. En effet les composantes PLS sont diff´ erentes d’une classe ` a l’autre et ne peuvent donc ˆ etre utilis´ ees directement pour d´ eterminer la classe d’appartenance d’un nouvel individu. Nous proposons pour cela d’effectuer une analyse discriminante sur une s´ election de composantes principales issues d’une ACP sur les pr´ edicteurs. La m´ ethode propos´ ee est illustr´ ee sur des donn´ ees simul´ ees.

Mots-cl´ es. R´ egression PLS, r´ egression clusterwise, classification, discrimination.

Abstract. Clusterwise linear regression aims at partitioning data sets into clusters characterized by their specific coefficients in a linear regression model. High dimensional data and/or the case of multicollinearity can be handled using clusterwise PLS regression based on components which are linear combinations of the initial predictors. The corres- ponding local PLS models can be used for prediction purpose once the cluster membership of a future observation is determined. The PLS components are related to the clusters and then may differ from one cluster to another. Therefore they cannot be directly used for the cluster membership determination. We propose to use a discriminant analysis on a selected set of principal components from the PCA of the predictors. The method is illustrated on synthetic data.

Keywords. PLS regression, Clustering, Clusterwise regression, Discriminant analysis

1 Introduction

Les m´ ethodes de r´ egression r´ egularis´ ee telles que la r´ egression sur composantes prin-

cipales, la r´ egression ridge ou la r´ egression PLS permettent de lever les limitations de la

r´ egression lin´ eaire classique notamment en cas de multicolin´ earit´ e ou lorsque le nombre

de variables est inf´ erieur ` a celui des individus. Tout comme la r´ egression multiple, ces

(3)

m´ ethodes fournissent un seul ensemble de coefficients de r´ egression pour tous les indivi- dus. Cependant, dans un grand nombre d’applications en sciences sociales, en environne- ment ou en marketing par exemple, cet unique ensemble de coefficients peut parfois ne pas convenir et conduire ` a des estimations erron´ ees. C’est en particulier le cas lorsque les individus pr´ esentent une structure de groupes sous-jacente mais inconnue. Les m´ ethodes de r´ egression typologique ou clusterwise permettent alors d’apporter une solution ` a tra- vers la recherche simultan´ ee d’une partition des donn´ ees en un nombre fix´ e de classes et le mod` ele de r´ egression local associ´ e ` a ces classes. Tout se passe comme en classification mais ici les classes sont g´ en´ er´ ees en minimisant un crit` ere bas´ e sur les r´ esidus de r´ egression plutˆ ot que selon le crit` ere classique utilisant les distances entre observations. On note X la matrice des donn´ ees associ´ ee aux variables explicatives et y la variable ` a expliquer. La r´ egression clusterwise revient ` a supposer l’existence d’une variable latente qualitative C

`

a K modalit´ es telle que E(y|x) = b

^k₀

+ b

^k₁

x

₁

+ . . . + b

^k_P

x

_p

o` u les b

^k_j

sont les coefficients de la r´ egression de y sur les x

_j

restreintes aux n

_k

observations de la classe k d´ ecrites par y

^k

et X

^k

avec (n

k

> p) pour garantir l’existence d’une solution pour les b

^k_j

. Cela revient donc

`

a chercher simultan´ ement une partition en K classes et le vecteur b

^k

des coefficients b

^k_j

correspondant minimisant le crit` ere (1).

K

X

k=1

kX

^k

b

^k

− y

^k

k

²

(1)

Diverses m´ ethodes et algorithmes ont ´ et´ e propos´ es pour l’estimation des coefficients. Bock (1969), Diday (1976) et Sp¨ ath (1979) proposent une approche g´ eom´ etrique bas´ ee sur un algorithme de type K-moyennes pour minimiser le crit` ere (1). Le nombre de classes est choisi par validation crois´ ee. De Sarbo et Cron (1988) utilisent une m´ ethode du maximum de vraisemblance et l’algorithme EM pour estimer les param` etres du mod` ele en supposant que les (y

_i

, x

_ij

), i = (1, . . . , n), j = (1, . . . , p) constituent un ´ echantillon d’observations ind´ ependantes issues d’un mod` ele de m´ elange gaussien. La d´ etermination du nombre de classes repose sur une utilisation exclusive de l’un des crit` eres BIC ou AIC. La r´ egression clusterwise a ´ et´ e ´ etendue ` a la r´ egression sur composantes principales par Charles (1977) et ` a la r´ egression PLS par Esposito Vinzi et al. (2005). Plus r´ ecemment Preda et Saporta (2005) l’ont utilis´ ee dans le cadre de la r´ egression PLS sur donn´ ees fonctionnelles. Des extensions ` a des donn´ ees multiblocs ont ´ et´ e propos´ ees par Niang et Saporta (2014) puis Niang et al. (2015) en particulier dans le cadre de la r´ egression PLS. Ces extensions ` a la r´ egression sur composantes permettent de lever la contrainte sur la taille des classes (n

_k

> p), l’´ etude de donn´ ees de grandes dimensions et le traitement de la multicolin´ earit´ e.

Une fois les classes et leur mod` ele de r´ egression associ´ e obtenus, la phase suivante consiste ` a

utiliser ces mod` eles locaux pour la pr´ ediction de futures observations apr` es avoir d´ etermin´ e

la classe d’appartenance de l’observation. Notons que les m´ ethodes bas´ ees sur le maximum

de vraisemblance telles que propos´ ees par exemple dans le package Flexmix de R ne

permettent pas cette pr´ ediction, le calcul des probabilit´ es d’appartenance aux classes

n´ ecessitant la connaissance de la valeur observ´ ee de y. Ces m´ ethodes mettent l’accent sur

(4)

l’ajustement dans l’objectif de trouver le mod` ele le plus adapt´ e ` a chaque classe.

D’une mani` ere g´ en´ erale, la phase de pr´ ediction n’est pas souvent trait´ ee explicitement.

G´ en´ eralement, sans donner de d´ etails, les auteurs proposent de d´ eterminer la classe d’ap- partenance de l’observation ` a travers une analyse discriminante par exemple et d’utiliser le mod` ele de r´ egression local associ´ e ` a cette classe. Nous nous int´ eressons dans cette com- munication ` a cette phase de pr´ ediction dans la r´ egression clusterwise PLS d’une seule variable sur un ensemble de variables explicatives. Les composantes clusterwise PLS is- sues de r´ egressions PLS locales aux classes sont diff´ erentes d’une classe ` a l’autre : ce sont des combinaisons lin´ eaires diff´ erentes des variables initiales. De plus, les nombres (H

₁

, H

₂

, . . . , H

_K

) de composantes clusterwise PLS peuvent diff´ erer d’une classe ` a l’autre.

Se pose alors le probl` eme de leur utilisation dans la pr´ ediction ` a partir des mod` eles lo- caux. Esposito Vinzi et al. (2005) proposent une proc´ edure it´ erative complexe bas´ ee sur la recherche d’un mod` ele compromis ` a partir d’une r´ egression PLS avec H

_max

composantes clusterwise PLS o` u H

_max

est le nombre maximal de composantes PLS locales. A notre connaissance ce probl` eme n’a pas ´ et´ e beaucoup abord´ e dans la litt´ erature. Plusieurs so- lutions plus simples bas´ ees sur des m´ ethodes factorielles de r´ eduction de la dimension de l’espace des pr´ edicteurs sont envisageables pour la recherche d’un espace compromis. Par ailleurs, une approche de type agr´ egation de mod` eles pour combiner de fa¸con optimale les pr´ edictions issues des mod` eles locaux plutˆ ot que l’utilisation d’un seul mod` ele local pourrait ˆ etre pertinente. Nous le d´ etaillons en section 2. La section 3 est consacr´ ee ` a une br` eve illustration sur des donn´ ees simul´ ees.

2 Pr´ ediction en r´ egression clusterwise PLS

La r´ egression clusterwise PLS consiste ` a appliquer une r´ egression PLS plutˆ ot qu’une r´ egression standard dans l’algorithme de la r´ egression clusterwise. Elle revient donc re- chercher simultan´ ement une partition des individus en K classes obtenues en minimisant la somme des r´ esidus des r´ egressions PLS locales aux classes de la partition. Le crit` ere ` a minimiser est donc identique au crit` ere (1) dans lequel X

^k

est remplac´ e par la composante PLS t

^k

, combinaison lin´ eaire des variables de X

^k

ayant la covariance maximale avec y

^k

, repr´ esentant la variable ` a expliquer restreinte ` a la classe k. Elle fournit pour chaque classe de la partition optimale un ensemble des composantes PLS et les coefficients de r´ egression associ´ es. Il est alors possible d’obtenir l’´ equation de r´ egression en fonction des variables initiales pour chaque classe k : ˆ y

^k

= b

^k₀

+b

^k₁

x

^k₁

+. . .+b

^k_p

x

^k_p

. Ces mod` eles de r´ egression locaux sont ensuite utilis´ es pour pr´ edire la valeur de y pour de futures observations. Mais il est n´ ecessaire au pr´ ealable de d´ eterminer la classe d’appartenance des nouvelles observations.

Affectation d’une nouvelle observation aux classes L’affectation d’une nouvelle

observation aux classes revient ` a consid´ erer la variable latente qualitative C ` a K mo-

dalit´ es repr´ esentant la partition des individus comme une variable ` a pr´ edire ` a partir des

(5)

pr´ edicteurs initiaux X. Nous proposons d’utiliser une analyse discriminante bay´ esienne pa- ram´ etrique sous hypoth` ese de normalit´ e pour obtenir un mod` ele explicite. Plus pr´ ecis´ ement on suppose que les K classes sont en proportion (p

1

, p

2

, . . . , p

K

) dans la population totale et que la distribution d’un vecteur d’observation x = (x

₁

, x

₂

, . . . , x

_p

) est donn´ ee pour chaque groupe k par une densit´ e f

_k

(x). Dans le cas classique, cette densit´ e est celle d’une loi normale et les probabilit´ es a priori p

k

sont estim´ ees par les fr´ equences empiriques des classes C

_k

. La probabilit´ e qu’une nouvelle observation x

₀

appartienne ` a la classe k est donn´ ee par la formule de Bayes P (C

_k

|x

₀

) = p

_k

f

_k

(x

₀

)/ ^P

^K_k=1

p

_k

f

_k

(x

₀

). La r` egle de dis- crimination bay´ esienne consiste alors ` a affecter l’observation x

0

` a la classe k

0

ayant la probabilit´ e a posteriori maximale : P (C

_k0

|x

₀

) = max

^K_k=1

P (C

_k

|x

₀

). Il est aussi possible d’utiliser une estimation non param´ etrique pour les probabilit´ es a posteriori. Nous propo- sons la m´ ethode des k plus proches voisins dans laquelle la matrice de variance intra-classe est utilis´ ee pour le calcul des distances de Mahalanobis entre individus. Dans le cas d’un tr` es grand nombre de pr´ edicteurs ou en cas de multicolin´ earit´ e, nous proposons d’effec- tuer l’analyse discriminante sur une s´ election (par une m´ ethode pas ` a pas par exemple) de composantes principales de l’ACP des pr´ edicteurs X.

Pr´ ediction d’une nouvelle observation Pour une nouvelle observation ` a pr´ edire, l’analyse discriminante fournit les probabilit´ es d’appartenance aux diff´ erentes classes de la partition associ´ ee ` a la r´ egression clusterwise. Deux solutions sont alors possibles : (i) Le mod` ele correspondant est appliqu´ e ` a la classe C

_k₀

la plus probable. La pr´ ediction de la valeur pour l’observation x

0

= (x

1

, x

2

, . . . , x

p

) est donc ˆ y

0

= b

^k₀⁰

+ b

^k₁⁰

x

^k₁⁰

+ . . . + b

^k_p⁰

x

^k_p⁰

que nous notons ˆ y

^k₀⁰

. (ii) Les pr´ edictions des K mod` eles sont combin´ ees en les pond´ erant par les probabilit´ es a posteriori d’appartenance aux diff´ erentes classes : ˆ y

₀

= ^P

^K_k=1

P (C

_k

|x

₀

)ˆ y

₀^k

.

3 Application

Les donn´ ees sont simul´ ees pour le cas de (K = 2) classes. Les variables explicatives sont positivement li´ ees ` a Y dans la premi` ere classe (b = 1) et n´ egativement dans la deuxi` eme (b = −1). Les centres de gravit´ e des deux classes sont bien s´ epar´ es et les classes ne pr´ esentent pas de chevauchement. Les proportions attendues d’individus dans chacune des classes sont ´ egales. Ces donn´ ees pr´ esentent deux profils marqu´ es : (Cas 1) Les donn´ ees ayant un profil de multicolin´ earit´ e comportent (N = 100) observations, (P = 7) variables explicatives dont six sont corr´ el´ ees les unes avec les autres ` a la valeur 0, 9 et la septi` eme est totalement redondante avec la sixi` eme, et (Cas 2) Les donn´ ees ayant un profil o` u le nombre de variables est plus grand que celui des observations par classe comportent (N = 50) observations, (P = 30) variables explicatives ayant une corr´ elation les unes avec les autres de 0, 7. De plus, les r´ esidus par classe de ces donn´ ees sont soit des lois normales, soit des lois uniformes. Par la suite, des donn´ ees ayant quatre types de profil sont donc ´ etudi´ ees.

La m´ ethode de r´ egression PLS1 clusterwise (associ´ ee ` a une seule dimension) est appliqu´ ee.

(6)

Vingt initiations al´ eatoires sont appliqu´ ees pour ´ eviter les optima locaux. Deux m´ ethodes d’affectation, i.e., k plus proches voisins (kNN) et analyse discriminante bay´ esienne (DA), associ´ ees ` a deux m´ ethodes pr´ ediction, i.e., affectation directe ou pond´ er´ ee, sont illustr´ ees sur les donn´ ees simul´ ees. La comparaison des performances des m´ ethodes d’affectation et de pr´ ediction est ´ evalu´ ee par l’erreur de pr´ ediction moyenne (RM SE.p) calcul´ ee par validation crois´ ee 10-folds. Les performances sont donn´ ees pour diff´ erents nombres de classes : (K = 1) soit une r´ egression PLS1 standard, (K = 2) associ´ e au vrai nombre de classes simul´ ees et (K = 5). Les r´ esultats dont donn´ es dans la Table 1.

Cas 1 : MULTICOL Cas 2 : p > n

_k

Affectation Pr´ ediction Loi r´ esidu K RM SE.p RM SE.p

KNN - Normale 1 9,62 43,29

KNN Directe Normale 2 0,65 0,97

KNN Pond´ er´ ee Normale 2 0,95 1,14

KNN Directe Normale 5 0,46 0,40

KNN Pond´ er´ ee Normale 5 0,79 0,52

DA - Normale 1 9,62 43,29

DA Directe Normale 2 1,88 4,39

DA Pond´ er´ ee Normale 2 1,99 5,10

DA Directe Normale 5 1,42 1,33

DA Pond´ er´ ee Normale 5 1,49 0,52

KNN - Uniforme 1 8,78 33,28

KNN Directe Uniforme 2 0,95 1,55

KNN Pond´ er´ ee Uniforme 2 1,04 1,39

KNN Directe Uniforme 5 0,77 1,06

KNN Pond´ er´ ee Uniforme 5 0,94 1,30

DA - Uniforme 1 8,78 33,28

DA Directe Uniforme 2 1,86 5,83

DA Pond´ er´ ee Uniforme 2 1,79 7,16

DA Directe Uniforme 5 1,64 2,23

DA Pond´ er´ ee Uniforme 5 1,63 2,39

Table 1 – Erreurs moyennes de pr´ ediction (RM SE.p) de la PLS1 clusterwise issues d’une validation crois´ ee 10-folds pour le cas o` u les donn´ ees sont fortement multicolin´ eaires (Cas 1) ou le nombre de variables est plus grand que celui des observations (Cas 2).

Il convient tout d’abord de noter que l’utilisation de la r´ egression PLS clusterwise

plutˆ ot que standard am´ eliore tr` es nettement l’erreur de pr´ ediction. Ce r´ esultat est at-

tendu car (K = 2) classes distinctes d’individus ont ´ et´ e simul´ ees. On peut aussi noter

que l’augmentation du nombre de classes am´ eliore l´ eg` erement l’erreur de pr´ ediction dont

il conviendra d’´ etudier la d´ ecroissance (plutˆ ot que la minimisation) pour s´ electionner le

nombre optimal de classes. Par ailleurs, l’affectation de nouveaux individus est plus per-

formante par la m´ ethode des k plus proches voisins (non param´ etrique) plutˆ ot que par

analyse discriminante, mˆ eme sur composantes s´ electionn´ ees d’ACP. Ce r´ esultat n’est pas

surprenant ` a la vue des profils de donn´ ees simul´ es (multicolin´ earit´ e ou nombre de variables

(7)

plus grand que le nombre d’observations). Les donn´ ees dont les r´ esidus pr´ esentent une loi normale plutˆ ot qu’uniforme pr´ esentent de meilleures performances de pr´ ediction pour le cas o` u le nombre de variables est plus grand que le nombre d’observations par classe ; leurs performances sont comparables pour le cas de donn´ ees fortement multicolin´ eaires.

La diff´ erence de performance de pr´ ediction entre pr´ ediction directe et pond´ er´ ee semble peu importante et l´ eg` erement en faveur de la pr´ ediction directe. Cela est certainement li´ e

`

a la parfaite s´ eparation des classes.

4 Conclusion

Nous avons propos´ e une m´ ethode de r´ egression clusterwise PLS adapt´ ee aux donn´ ees de grande dimension ou multicolin´ eaires en mettant l’accent sur la pr´ ediction. Les r´ esultats obtenus sur des donn´ ees simul´ ees montrent la pertinence de la d´ emarche en termes de qua- lit´ e des pr´ evisions. Cependant, des ´ evaluations plus formelles notamment sur diff´ erents cas de donn´ ees simul´ ees sont n´ ecessaires de mˆ eme que des applications sur des donn´ ees r´ eelles.

Nous poursuivons nos travaux sur la pr´ ediction avec des approches de type agr´ egation de mod` eles et des extensions aux r´ egressions clusterwise multiblocs.

Bibliographie

[1] Bock, H.H. (1969) The equivalence of two extremal problems and its application to the iterative classification of multivariate data, Vortragsausarbeitung, Tagung. Mathema- tisches Forschungsinstitut Oberwolfach

[2] Charles, C. (1977) R´ egression typologique et reconnaissance des formes. Th` ese. Uni- versit´ e Paris IX.

[3] DeSarbo, W.S. et Cron, W.L. (1988) A maximum likelihood methodology for cluster- wise linear regression. Journal of Classification, 5, 249-282.

[4] Diday, D. (1976) Classification et s´ election de param` etres sous contraintes, Rapport de recherche INRIA-LABORIA, 188.

[5] Niang, N. et Saporta, G. (2014) R´ egression typologique pour donn´ ees multi-blocs, 46i` emes journ´ ees de statistique, juin 2014, Rennes, France.