• Aucun résultat trouvé

Actualisation en ligne d'un score d'ensemble

N/A
N/A
Protected

Academic year: 2021

Partager "Actualisation en ligne d'un score d'ensemble"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-02152352

https://hal.archives-ouvertes.fr/hal-02152352

Submitted on 11 Jun 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Actualisation en ligne d’un score d’ensemble

Benoît Lalloué, Jean-Marie Monnez, Eliane Albuisson

To cite this version:

Benoît Lalloué, Jean-Marie Monnez, Eliane Albuisson. Actualisation en ligne d’un score d’ensemble.

51e Journées de Statistique, Société Française de Statistique, Jun 2019, Nancy, France. �hal-02152352�

(2)

Actualisation en ligne d’un score d’ensemble

Benoˆıt Lallou´ e

1,3,∗

, Jean-Marie Monnez

1,3,†

, ´ Eliane Albuisson

2,4,5,‡

1

Universit´ e de Lorraine, CNRS, Inria

?

, IECL

??

, F-54000 Nancy, France

?

Inria, Project-Team BIGS

??

Institut Elie Cartan de Lorraine, Vandoeuvre-l` es-Nancy, France

2

Universit´ e de Lorraine, CNRS, IECL

??

, F-54000 Nancy, France

3

Inserm U1116, Centre d’Investigation Clinique Plurith´ ematique 1433, Universit´ e de Lorraine, Nancy, France

4

BIOBASE, Pˆ ole S2R, CHRU de Nancy, Vandoeuvre-l` es-Nancy, France

5

Facult´ e de M´ edecine, InSciDenS, Vandoeuvre-l` es-Nancy, France

∗ benoit.lalloue@univ-lorraine.fr; † jean-marie.monnez@univ-lorraine.fr;

‡ eliane.albuisson@univ-lorraine.fr

Financement : Programme Investissement d’Avenir ANR-15-RHU-0004

R´ esum´ e. En construisant une collection de pr´ edicteurs (en faisant varier les ´ echantillons utilis´ es, les variables retenues, les r` egles d’apprentissage, ...) dont les pr´ edictions sont en- suite agr´ eg´ ees, les m´ ethodes d’ensemble permettent d’obtenir de meilleurs r´ esultats que les pr´ edicteurs individuels. Dans un contexte en ligne o` u des donn´ ees arrivent de fa¸con con- tinue, on souhaite actualiser les param` etres d’un score construit ` a l’aide d’une m´ ethode d’ensemble. On consid` ere le cas o` u il est impossible de conserver toutes les donn´ ees obtenues pr´ ec´ edemment et de recalculer les param` etres sur l’ensemble des donn´ ees ` a chaque nouvelle observation. Nous proposons une m´ ethode d’actualisation en ligne d’un score d’ensemble ` a l’aide de bootstrap Poisson et d’algorithmes stochastiques.

Mots-cl´ es. Algorithmes stochastiques, apprentissage pour les donn´ ees massives, m´ edecine, m´ ethode d’ensemble, score en ligne.

Abstract. By constructing a collection of predictors (by varying samples, selection of variables, learning rules, etc.) whose predictions are then aggregated, ensemble methods obtain better results than individual predictors. In an online setting, where data arrives continuously, we want to update the parameters of a score constructed with an ensemble method. We consider the case where it is impossible to keep all the data obtained pre- viously and to compute again the parameters on all the data at each new observation.

We propose a method for updating an ensemble score online using Poisson bootstrap and stochastic algorithms.

Keywords. Stochastic algorithms, learning for big data, medicine, ensemble method,

online score.

(3)

1 Introduction

Consid´ erons le probl` eme de pr´ ediction des valeurs d’une variable d´ ependante y continue (dans le cas de la r´ egression) ou cat´ egorielle (dans le cas de la classification) ` a partir de variables observ´ ees x

1

, ..., x

p

continues ou cat´ egorielles.

De nombreux pr´ edicteurs diff´ erents peuvent ˆ etre construits pour r´ epondre ` a ce probl` eme.

Le principe des m´ ethodes d’ensemble est de construire une collection de N pr´ edicteurs

“de base” (` a l’aide de m´ ethodes classiques) dont les pr´ edictions sont ensuite agr´ eg´ ees par moyenne ou par vote. On s’attend ` a ce que le pr´ edicteur d’ensemble soit meilleur que chacun des pr´ edicteurs de base, si toutefois ces pr´ edicteurs de base sont relativement bons et s’ils sont suffisamment diff´ erents les uns des autres (Genuer et Poggi 2017).

L’ensemble de pr´ edicteurs peut ˆ etre construit suivant diff´ erentes variantes, utilis´ ees s´ epar´ ement ou associ´ ees :

• avec diff´ erentes types de r´ egressions ou diff´ erentes r` egles de classification

• avec diff´ erents ´ echantillons (obtenus par bootstrap, par exemple)

• avec diff´ erentes m´ ethodes de s´ election de variables (al´ eatoire, stepwise, p´ enalis´ ee, ...)

• plus g´ en´ eralement, en introduisant un al´ ea dans la construction des pr´ edicteurs Le bagging (Breiman 1996), le boosting (Freund et Schapire 1996), les forˆ ets d’arbres al´ eatoires (Genuer et Poggi 2017) ou les mod` eles lin´ eaires g´ en´ eralis´ es al´ eatoires (Ran- dom Generalized Linear Model, RGLM)(Song et al. 2013) sont des exemples de m´ ethodes d’ensemble. Duarte, Monnez et Albuisson (2018a) ont propos´ e une m´ ethode d’ensemble pour la construction d’un score combinant ces diff´ erentes variantes en sept ´ etapes :

1. S´ election de n

1

r` egles de classifications.

2. Pour chaque r` egle, g´ en´ eration de n

2

´ echantillons bootstrap. Les n

2

´ echantillons bootstrap sont les mˆ emes pour les n

2

r` egles.

3. Choix de n

3

modalit´ es de s´ election al´ eatoire de variables, identiques pour chaque

´ echantillon bootstrap.

4. S´ election de m

variables par une m´ ethode de s´ election (stepwise, p´ enalisation, ...).

5. Pour chaque r` egle de classification, construction des n

2

× n

3

pr´ edicteurs selon les modalit´ es pr´ ec´ edentes.

6. Agr´ egation des pr´ edicteurs en un score synth´ etique pour chaque r` egle de classifica- tion.

7. Agr´ egation des scores synth´ etiques construits ` a l’´ etape pr´ ec´ edente.

Dans un contexte de donn´ ees en ligne, c’est ` a dire d’un flux de donn´ ees arrivant de fa¸con continue, on souhaite pouvoir actualiser un tel score d’ensemble sans avoir ` a stocker ou ` a r´ eutiliser l’ensemble des donn´ ees obtenues lorsque de nouvelles donn´ ees sont disponibles.

Nous pr´ esentons dans la suite une m´ ethode d’actualisation en ligne de ce score d’ensemble.

(4)

2 Actualisation en ligne d’un score d’ensemble

Afin de pouvoir actualiser en ligne le score d’ensemble, il faut pouvoir actualiser chaque

´ echantillon bootstrap et chaque pr´ edicteur lors de l’arriv´ ee de nouvelles donn´ ees d’ap- prentissage.

A partir d’un ´ ` echantillon de taille n, la construction classique d’un ´ echantillon boot- strap consiste ` a effectuer n tirages al´ eatoires avec remise. Dans le cas d’un flux de donn´ ees, le bootstrap Poisson propos´ e par Oza et Russel (2001) peut ˆ etre utilis´ e pour actualiser un ´ echantillon bootstrap : pour toute nouvelle donn´ ee d’apprentissage, pour chaque ´ echantillon bootstrap b

i

, on simule une r´ ealisation k

i

d’une variable al´ eatoire de loi de Poisson de param` etre 1 et on ajoute k

i

fois la nouvelle donn´ ee ` a l’´ echantillon b

i

. Ces nouvelles donn´ ees peuvent alors ˆ etre utilis´ ees pour actualiser le pr´ edicteur d´ efini ` a partir de l’´ echantillon b

i

.

Cette actualisation peut ˆ etre effectu´ ee ` a l’aide d’algorithmes stochastiques r´ ecursifs prenant en compte un lot de nouvelles donn´ ees ` a chaque ´ etape. De tels algorithmes ont

´ et´ e d´ evelopp´ es pour estimer des param` etres de r´ egression lin´ eaire (Duarte et al. 2018b) ou non lin´ eaire, ou encore pour estimer des centres de classes en classification non supervis´ ee (Cardot et al. 2012) ou des composantes principales d’une analyse factorielle (Monnez et Skiredj, 2018). Ils ne n´ ecessitent pas de stocker les donn´ ees et peuvent, dans un temps fix´ e, traiter davantage de donn´ ees que les m´ ethodes classiques.

Une fois les pr´ edicteurs mis ` a jour, les scores composites par r` egle de classification puis le score d’ensemble final sont obtenus en utilisant les mˆ emes r` egles d’agr´ egation que pour la m´ ethode d’ensemble classique.

3 Actualisation d’un score d’ensemble bas´ e sur l’analyse discriminante lin´ eaire et la r´ egression logistique

Duarte et al. (2018a) ont appliqu´ e la m´ ethode d’ensemble expos´ ee pr´ ec´ edemment ` a la construction d’un score de risque ` a court terme de d´ ec` es ou d’hospitalisation pour les patients souffrant d’insuffisance cardiaque avec les param` etres suivants :

• n

1

= 2 r` egles de classification : l’analyse discriminante lin´ eaire et la r´ egression logistique.

• n

2

= 1000 ´ echantillons bootstrap pour chaque r` egle.

• n

3

= 3 modalit´ es de s´ election al´ eatoire ont ´ et´ e retenues : tirage au sort d’un nombre fix´ e de variables ou tirage au sort d’un nombre fix´ e de groupes pr´ ed´ efinis de variables corr´ el´ ees puis tirage au sort d’une variable par groupe retenu (avec deux d´ efinitions des groupes).

• L’´ etape de s´ election de variables stepwise ou p´ enalis´ ee n’a pas ´ et´ e retenue car elle

n’am´ eliorait pas la pr´ ecision des pr´ edictions.

(5)

leur moyenne arithm´ etique.

• L’agr´ egation entre les deux scores synth´ etiques S

1

et S

2

a ´ et´ e faite par combinaison convexe : λS

1

+ (1 − λ)S

2

avec 0 ≤ λ ≤ 1.

Il est possible d’actualiser ce score en ligne en utilisant des processus de gradient stochastique adapt´ es ` a l’estimation des param` etres de l’analyse discriminante lin´ eaire et de la r´ egression logistique.

3.1 Actualisation de l’analyse discriminante lin´ eaire

On peut noter que l’analyse discriminante lin´ eaire est ´ equivalente ` a une r´ egression lin´ eaire avec une variable d´ ependante binaire.

Soit R(p, 1) et S(q, 1) deux vecteurs al´ eatoires. Supposons qu’un lot de m

n

nouvelles donn´ ees (R

i

, S

i

) constituant un ´ echantillon i.i.d de (R, S ) arrive ` a l’´ etape n. On note M

n

= P

n

i=1

m

i

et I

n

= {M

n−1

+ 1, ..., M

n

}

On se place dans le cadre de la r´ egression lin´ eaire multidimensionnelle. On cherche ` a d´ eterminer θ(p, q ) et η(q, 1) qui minimisent E

kS − θ

0

R − ηk

2

. Pour ´ eviter des explosions num´ eriques, on propose dans Duarte et al. (2018b) d’utiliser des donn´ ees centr´ ees-r´ eduites.

Soit E [R] (respectivement E [S]) le vecteur esp´ erance-math´ ematique de R (respectivement S), Γ (respectivement Γ

1

) la matrice diagonale des inverses des ´ ecarts-types des com- posantes de R (resp. S). On note R

1

= Γ(R − E [R]) et S

1

= Γ

1

(S − E [S]) les vecteurs standardis´ es. On cherche alors ` a d´ eterminer θ

1

= Γ

−1

θΓ

1

tel que E

kS

1

− θ

10

R

1

k

2

est minimale. θ

1

est solution de :

θ1

E

h kS

1

− θ

01

R

1

k

2

i

= 0 ⇔ E [R

1

R

01

] θ

1

= E [R

1

S

10

]

On peut donc utiliser un processus de gradient stochastique pour estimer en ligne θ

1

. Soit ` a r´ esoudre de fa¸con g´ en´ erale un syst` eme Bθ = F . On d´ efinit de fa¸con r´ ecursive le processus de gradient stochastique classique (SGD) (X

n

) convergeant vers θ par :

X

n+1

= X

n

− a

n

(B

n

X

n

− F

n

) avec :

E [B

n

|T

n

] = B, E [F

n

|T

n

] = F (T

n

tribu du pass´ e au temps n), a

n

> 0,

X

n=1

a

n

= ∞,

X

n=1

a

2n

< ∞ Toutefois, un mauvais choix du pas d’apprentissage a

n

ou la pr´ esence de donn´ ees extrˆ emes peuvent conduire ` a des probl` emes d’explosion num´ erique lors des applications pratiques.

Dans le cas d’un flux de donn´ ees, on ne connaˆıt pas a priori les moments de R et de

S. On peut les estimer en ligne pour effectuer la standardisation. On ne dispose alors

plus d’un ´ echantillon i.i.d de (R

1

, S

1

) et la convergence du gradient stochastique n’est pas

(6)

Posons :

B

n

= Γ

Mn

1 M

n

n

X

i=1

X

j∈Ii

R

j

R

0j

− R ¯

Mn

R ¯

0Mn

! Γ

Mn

F

n

= Γ

Mn

1 M

n

n

X

i=1

X

j∈Ii

R

j

S

j0

− R ¯

Mn

S ¯

M0 n

! Γ

1Mn

avec ¯ R

Mn

=

M1

n

P

Mn

i=1

R

i

, ¯ S

Mn

=

M1

n

P

Mn

i=1

S

i

et Γ

n

(respectivement Γ

1n

) la matrice diago- nale des inverses des estimations des ´ ecarts-types des composantes de R (resp. S) calcul´ ee r´ ecursivement ` a partir des donn´ ees (R

i

, S

i

), i ≤ n.

La convergence du processus utilisant les matrices B

n

et F

n

d´ efinies ci-dessus et de deux autres processus avec standardisation des donn´ ees en ligne est ´ etablie dans Duarte et al. (2018b). Ces processus sont compar´ es ` a d’autres (avec ou sans standardisation en ligne, avec ou sans moyennisation, avec ou sans prise en compte de l’ensemble des donn´ ees jusqu’` a l’observation courante) sur des donn´ ees r´ eelles ou simul´ ees. Les meilleurs r´ esultats ont ´ et´ e obtenus avec le processus pr´ esent´ e ici.

Il est donc possible d’utiliser ce processus pour actualiser les pr´ edicteurs par analyse discriminante lin´ eaire dans le score d’ensemble en utilisant pour chaque pr´ edicteur ` a chaque ´ etape l’´ echantillon de nouvelles donn´ ees g´ en´ er´ e par le bootstrap Poisson.

3.2 Actualisation de la r´ egression logistique binaire

Pla¸cons nous maintenant dans le cas de la r´ egression logistique binaire. Soit S une variable al´ eatoire prenant ses valeurs dans {0, 1} et R = (R

1

, ...R

p

, 1)

0

avec R

1

, ..., R

p

des variables al´ eatoires r´ eelles.

Notons R

c

le vecteur R centr´ e, σ

k

l’´ ecart-type de R

k

, Γ la matrice carr´ ee de diagonale

1

σ1

, ...,

σ1p

, 1, Z = ΓR

c

le vecteur R standardis´ e (centr´ e-r´ eduit), θ(p + 1, 1) le vecteur des param` etres et h(u) =

1+eeuu

.

θ est solution du syst` eme d’´ equations E h

x

ln

eZ0xS 1+eZ0xS

i

= 0, et donc de E [Z (S − h(Z

0

x))] = 0

Soit (R

n

), n ≥ 1 (respectivement (S

n

)) un ´ echantillon i.i.d de R (resp. S). On note ¯ R

kn

la moyenne de l’´ echantillon (R

k1

, ..., R

kn

) de R

k

et (V

nk

)

2

=

1n

P

n

i=1

R

ki

− R ¯

kn

2

sa variance (toutes deux calcul´ ees r´ ecursivement), ¯ R

n

le vecteur ( ¯ R

1n

, ..., R ¯

pn

, 0)

0

et Γ

n

la matrice de diagonale √

n1

n−1Vn1

, ..., √

n1

n−1Vnp

, 1.

On d´ efinit ˜ Z

j

= Γ

Mn−1

R

j

− R ¯

Mn−1

(j ∈ I

n

) le vecteur R

j

standardis´ e ` a l’aide des

moyennes et variances estim´ ees ` a l’´ etape n − 1 (M

n

et I

n

ont ´ et´ e d´ efinis dans le paragraphe

pr´ ec´ edent).

(7)

X

n+1

= X

n

− a

n

1 m

n

X

j∈In

Z ˜

j

h( ˜ Z

j0

X

n

) − S

j

Monnez (2018) a montr´ e la convergence de ce processus vers θ sous certaines condi- tions. On peut utiliser ce processus pour actualiser les pr´ edicteurs par r´ egression logis- tique.

4 Conclusion

En combinant le bootstrap Poisson ` a des processus de gradient stochastique adapt´ es avec donn´ ees standardis´ ees, il est possible d’effectuer une actualisation du score d’ensemble propos´ e par Duarte et al. (2018a) au fur et ` a mesure de l’arriv´ ee de nouvelles donn´ ees.

Des r´ esultats d’application seront pr´ esent´ es.

Bibliographie

Breiman, L. (1996). Bias, variance, and arcing classifiers. Technical Report 460, Departe- ment of Statistics, University of California, Berkeley.

Cardot, H., C´ enac, P. and Monnez, J.-M. (2012). A fast and recursive algorithm for clustering large datasets with k-medians. Comput Stat Data Anal. 56(6):1434-49.

Duarte, K., Monnez J.-M. and Albuisson E. (2018a). Methodology for Constructing a Short-Term Event Risk Score in Heart Failure Patients. Appl Math, 09(08):954-74.

Duarte, K., Monnez, J.M. and Albuisson, E. (2018b). Sequential linear regression with online standardized data, PloS One, 13 (1) e0191186.

Freund, Y. and Schapire, R.E. (1996). Experiments with a New Boosting Algorithm. In:

Proceedings of the 13th International Conference on Machine Learning.

Genuer, R. and Poggi, J.-M. (2017). Arbres CART et Forˆ ets al´ eatoires, Importance et s´ election de variables, hal-01387654.

Monnez, J.-M. (2018). Online constrained binary logistic regression process with online standardized data, Working paper.

Monnez, J.-M. and Skiredj, A. (2018). Convergence of a normed eigenvector stochastic approximation process and application to online principal component analysis of a data stream, hal-01844419.

Oza, N.C. and Russell, S.J. (2001). Online Bagging and Boosting. In: Proceedings of the Eighth International Workshop on Artificial Intelligence and Statistics, AISTATS 2001.

Song, L., Langfelder, P. and Horvath, S. (2013). Random generalized linear model: a

highly accurate and interpretable ensemble predictor. BMC Bioinformatics. 14:5.

Références

Documents relatifs

[r]

[r]

consigne: repasse le titre puis essaie de l' repasse le titre puis essaie de l' repasse le titre puis essaie de l' repasse le titre puis essaie de l'éééécrire tout seul dans le

Pour chaque ensemble, écris le nombre d'objets.. Pour chaque ensemble, écris le nombre

boucle d'or fait des rencontres dans la for boucle d'or fait des rencontres dans la for t, retrouve dans quel ordre.. t, retrouve dans

consigne: relie chaque couronne relie chaque couronne relie chaque couronne relie chaque couronne à à à à son ombre (avec le doigt puis avec un feutre) son ombre (avec

[r]

consigne: retrouve les moiti retrouve les moiti retrouve les moiti retrouve les moitiéééés de couronnes s de couronnes s de couronnes s de couronnes ---- attention