HAL Id: hal-02894908
https://hal.archives-ouvertes.fr/hal-02894908
Submitted on 9 Jul 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Convergence d’un score d’ensemble en ligne : étude empirique
Benoît Lalloué, Jean-Marie Monnez, Eliane Albuisson
To cite this version:
Benoît Lalloué, Jean-Marie Monnez, Eliane Albuisson. Convergence d’un score d’ensemble en ligne : étude empirique. 52e Journées de Statistique, Société Française de Statistique, Jul 2020, Nice, France.
�hal-02894908�
Convergence d’un score d’ensemble en ligne :
´ etude empirique
Benoˆıt Lallou´ e
1,3,∗, Jean-Marie Monnez
1,3,†, ´ Eliane Albuisson
2,4,5,‡1
Universit´ e de Lorraine, CNRS, Inria
?, IECL
??, F-54000 Nancy, France
?
Inria, Project-Team BIGS
??
Institut Elie Cartan de Lorraine, Vandoeuvre-l` es-Nancy, France
2
Universit´ e de Lorraine, CNRS, IECL
??, F-54000 Nancy, France
3
Inserm U1116, Centre d’Investigation Clinique Plurith´ ematique 1433, Universit´ e de Lorraine, Nancy, France
4
BIOBASE, Pˆ ole S2R, CHRU de Nancy, Vandoeuvre-l` es-Nancy, France
5
Facult´ e de M´ edecine, InSciDenS, Vandoeuvre-l` es-Nancy, France
∗ benoit.lalloue@univ-lorraine.fr; † jean-marie.monnez@univ-lorraine.fr;
‡ eliane.albuisson@univ-lorraine.fr
Financement : Programme Investissement d’Avenir ANR-15-RHU-0004
R´ esum´ e. Dans un contexte en ligne o` u des donn´ ees arrivent de fa¸con continue, on souhaite actualiser les param` etres d’un score “batch” construit ` a l’aide d’une m´ ethode d’ensemble. On utilise pour cela des processus d’approximation stochastique, dont la convergence a ´ et´ e ´ etablie th´ eoriquement par les auteurs, permettant d’actualiser les esti- mations des param` etres lors de la prise en compte de nouvelles observations sans avoir ` a conserver toutes les donn´ ees obtenues pr´ ec´ edemment. Nous ´ etudions ici empiriquement la convergence du score en ligne vers le score “batch”, en utilisant diff´ erents jeux de donn´ ees
`
a partir desquels on simule des flux de donn´ ees et diff´ erents types de processus.
Mots-cl´ es. Apprentissage pour les donn´ ees massives, approximation stochastique, m´ edecine, m´ ethode d’ensemble, score en ligne.
Abstract. In an online setting, where data arrives continuously, we want to update the parameters of a “batch” score constructed with an ensemble method. To do so, we use stochastic approximation processes, the convergence of which has been theoretically established by the authors, so that parameter estimates can be updated when new obser- vations are taken into account without the need to store all the data obtained previously.
Here we study empirically the convergence of the online score to the “batch” score, us- ing different datasets from which data streams are simulated and using different types of processes.
Keywords. Learning for big data, stochastic approximation, medicine, ensemble
method, online score.
1 Introduction
Afin d’´ etablir un score d’´ ev´ enement en ligne actualis´ e lors de l’arriv´ ee de nouvelles donn´ ees d’apprentissage sans avoir ` a stocker l’ensemble des donn´ ees obtenues, nous avons entrepris une ´ etude en plusieurs ´ etapes.
Pour cela, deux classifieurs ont ´ et´ e utilis´ es, l’analyse discriminante lin´ eaire et la r´ egres- sion logistique, ainsi qu’une m´ ethode de construction d’un score d’ensemble qui a ´ et´ e d´ efinie dans Duarte et al (2018a). Les m´ ethodes d’ensemble, en construisant une collection de pr´ edicteurs “de base” (en faisant varier l’´ echantillon initial, les variables s´ electionn´ ees, la m´ ethode de r´ egression ou de classification utilis´ ee...) puis en agr´ egeant leurs pr´ edictions, permettent souvent d’obtenir de meilleurs r´ esultats que les pr´ edicteurs individuels (si ceux-ci sont relativement bons et suffisamment diff´ erents, Genuer et Poggi 2017).
Nous avons tout d’abord d´ efini et d´ emontr´ e la convergence de plusieurs types de pro- cessus d’approximation stochastique pour actualiser en ligne les param` etres d’une fonction de r´ egression lin´ eaire (Duarte et al. 2018b) ou logistique (Lallou´ e et al. 2019b) et montr´ e l’int´ erˆ et d’utiliser des donn´ ees standardis´ ees en ligne plutˆ ot que des donn´ ees brutes, en particulier pour ´ eviter une explosion num´ erique.
Le principe g´ en´ eral de construction d’un score en ligne a ensuite ´ et´ e pr´ esent´ e dans Lallou´ e et al. (2019a).
Pour terminer cette ´ etude, nous avons impl´ ement´ e en R la construction de ce score en ligne et en avons test´ e empiriquement la convergence sur plusieurs jeux de donn´ ees, en utilisant pour chaque classifieur plusieurs processus d’approximation stochastique et en comparant la pr´ ecision des estimations obtenues. Nous pr´ esentons ici certains de ces r´ esultats empiriques.
2 Exp´ erimentations
2.1 Donn´ ees et score “batch” de r´ ef´ erence
Cinq jeux de donn´ ees ont ´ et´ e utilis´ es : quatre disponibles sur Internet et un d´ eriv´ e de l’´ etude EPHESUS (Pitt 2003), tous d´ ej` a utilis´ es pour tester les performances de processus de gradient stochastique (Duarte et al. 2018b, Lallou´ e et al. 2019b). Twonorm et Ringnorm sont des jeux de donn´ ees simul´ ees avec des variables homog` enes (Breiman 1996). Quantum contient des donn´ ees observ´ ees r´ eelles, sans valeurs aberrantes et dont la plupart des vari- ables sont sur la mˆ eme ´ echelle. Adult2 et HOSPHF30D contiennent des donn´ ees observ´ ees r´ eelles, avec des valeurs aberrantes et des variables de diff´ erents types et sur diff´ erentes
´ echelles. La table 1 r´ esume ces donn´ ees. Les d´ etails des pr´ e-traitements sont donn´ es dans Lallou´ e et al. (2019b)
Pour chaque jeu de donn´ ees, on construit un score d’ensemble de r´ ef´ erence en utilisant
la m´ ethode d´ efinie dans Duarte et al. (2018a) avec les param` etres suivants :
Table 1: Description of the datasets.
Dataset name N
aN p
ap Source
Twonorm 7400 7400 20 20 www.cs.toronto.edu/ delve/data/datasets.html Ringnorm 7400 7400 20 20 www.cs.toronto.edu/ delve/data/datasets.html Quantum 50000 15798 78 12 d´ eriv´ e de www.osmot.cs.cornell.edu/kddcup
Adult2 45222 45222 14 38 d´ eriv´ e de www.cs.toronto.edu/ delve/data/datasets.html HOSPHF30D 21382 21382 29 13 d´ eriv´ e de EPHESUS study
N
a: nombre d’observations disponibles; N: nombre d’observations s´ electionn´ ees; p
a: nombre de param` etres disponibles; p: nombre de param` etres s´ electionn´ es.
• Deux r` egles de classification sont utilis´ ees : analyse discriminante lin´ eaire (LDA) et r´ egression logistique (LR).
• 100 ´ echantillons bootstrap sont g´ en´ er´ es pour les deux r` egles.
• Toutes les variables disponibles sont incluses (des exp´ erimentations avec des modalit´ es de s´ election et des nombres diff´ erents de variables tir´ ees au sort sont en cours).
• Pour chaque r` egle de classification, les 100 pr´ edicteurs associ´ es sont agr´ eg´ es par moyenne arithm´ etique puis les coefficients sont normalis´ es de mani` ere ` a ce que le score varie entre 0 et 100.
• L’agr´ egation entre les deux scores synth´ etiques S
1(LDA) et S
2(LR) est faite par combinaison convexe : S = λS
1+ (1 − λ)S
2avec ici λ = 0.5 (ult´ erieurement, une valeur optimale de λ pourra ˆ etre d´ etermin´ ee).
Le score ainsi obtenu pour chaque jeu de donn´ ees est utilis´ e comme “gold standard”
pour ´ evaluer la convergence des processus en ligne test´ es.
A partir de chaque jeu de donn´ ees, un flux de donn´ ees est simul´ e en effectuant ` a chaque
´ etape un tirage au hasard avec remise de 100 nouvelles observations. Les scores en ligne sont alors construits et mis ` a jour ` a partir de ces flux.
2.2 Processus
Types de processus
Les processus stochastiques (X
n) utilis´ es sont de trois types diff´ erents :
• gradient stochastique “classique” (notation C ). ` A l’´ etape n, card I
n= m
nob- servations (Z
j, S
j) sont prises en compte et on calcule r´ ecursivement :
X
n+1= X
n− a
n1 m
nX
j∈In
Z
jh(Z
j0X
n) − S
j;
avec Z
jvecteur des variables explicatives ; S
j∈ {0, 1} ; h(u) = u pour la LDA,
h(u) =
1+eeuupour la LR.
• gradient stochastique “moyennis´ e” (notation A ) : X
n+1=
n+11P
n+1 i=1X
i.
• uniquement dans le cas de la LDA : processus prenant en compte ` a chaque ´ etape toutes les observations (Z
j, S
j) jusqu’` a cette ´ etape, j ∈ I
1∪ ... ∪ I
n(mention finale
“all”)(Duarte et al. 2018b).
Dans tous les cas, les variables explicatives sont standardis´ ees en ligne (notation S ) : le principe et l’int´ erˆ et pratique de cette m´ ethode pour ´ eviter des explosions num´ eriques ont ´ et´ e montr´ es dans Duarte et al. (2018b) et dans Lallou´ e et al. (2019b). En effet, pour certains jeux de donn´ ees (Adult2, HOSPHF30D) les processus avec donn´ ees brutes conduisent ` a une explosion num´ erique, contrairement ` a ceux avec donn´ ees standardis´ ees en ligne.
Choix du pas
Le pas a
npeut ˆ etre :
• continˆ ument d´ ecroissant : a
n=
(b+ncα)(notation V).
• constant : a
n= 1/p (avec p le nombre de variables explicatives) (notation C).
• constant par paliers (Bach 2014) : a
n=
(b+bcnτc)α
(b.c est la partie enti` ere, τ la taille des paliers) (notation P).
On prend dans tous les cas α = 2/3, b = 1 et c = 1.
Notation des processus
Dans un couple de processus, le premier est celui utilis´ e pour la LDA, le second celui pour la LR.
Par exemple, AS100Call AS100P200 d´ esigne le couple form´ e pour la LDA d’un pro- cessus moyennis´ e (A) avec donn´ ees standardis´ ees en ligne (S), 100 nouvelles observations par ´ etape (100), ` a pas constant(C) et prenant en compte toutes les observations jusqu’` a l’´ etape en cours (all) ; et pour la LR d’un processus moyennis´ e (A) avec donn´ ees stan- dardis´ ees en ligne (S), 100 nouvelles observations par ´ etape (100) et ` a pas constant par paliers de taille 200 (P200).
Processus test´ es
Les six couples de processus test´ es font partie de ceux ayant eu les meilleures perfor- mances lors des ´ etudes d´ edi´ ees ` a la LDA en ligne (Duarte et al. 2018b) et ` a la r´ egression logistique en ligne (Lallou´ e et al. 2019b), ou sont des processus “classiques” habituellement utilis´ es (mis ` a part la standardisation en ligne des donn´ ees).
On utilise 100 nouvelles observations par ´ etape. Chaque processus a ´ et´ e appliqu´ e sur chacun des flux issus des jeux de donn´ ees, avec un nombre d’observations utilis´ ees de 100N , correspondant ` a N it´ erations.
Crit` ere de convergence
On a utilis´ e comme crit` ere de convergence la diff´ erence relative des normes
kθbkθ−bθˆkNkentre le vecteur θ
bdes coefficients obtenus pour le score “batch” et le vecteur ˆ θ
Ndes coef-
ficients estim´ es par un processus apr` es N it´ erations. On consid` ere qu’il y a eu convergence
lorsque la valeur de ce crit` ere est inf´ erieure au seuil arbitraire de 0.05.
2.3 R´ esultats
Trois r´ esultats sont compar´ es pour chaque couple de processus : la valeur du crit` ere sur les coefficients normalis´ es (modifi´ es pour que le score varie entre 0 et 100) et stan- dardis´ es (divis´ es par l’´ ecart-type de la variable associ´ ee) pour le score synth´ etique S
1obtenu par l’agr´ egation des LDA, celle pour le score synth´ etique S
2obtenu par agr´ egation des r´ egressions logistiques, et celle pour le score final S (table 2).
Table 2: Diff´ erences relatives des normes apr` es 100N observations utilis´ ees
Processus Twonorm Ringnorm Quantum Adult2 HOSPHF30D CS100V
CS100V
S
10.0010
∗0.0020
∗0.0073
∗0.0076
∗0.0165
∗S
20.0033
∗0.0009
∗0.0168
∗0.1002 0.0566
S 0.0015
∗0.0014
∗0.0083
∗0.0414
∗0.0289
∗AS100P50
AS100P50
S
10.0006
∗0.0007
∗0.0027
∗2.7560 0.0176
∗S
20.0006
∗0.0007
∗0.0032
∗0.0346
∗0.0203
∗S 0.0005
∗0.0007
∗0.0029
∗1.6968 0.0192
∗AS100C
AS100P200
S
10.0006
∗0.0007
∗0.0028
∗0.0066
∗0.0165
∗S
20.0007
∗0.0007
∗0.0033
∗0.0069
∗0.0206
∗S 0.0006
∗0.0007
∗0.0030
∗0.0067
∗0.0190
∗CS100Vall
CS100V
S
10.0005
∗0.0006
∗0.0033
∗0.0287
∗0.0153
∗S
20.0033
∗0.0009
∗0.0168
∗0.1002 0.0566
S 0.0017
∗0.0007
∗0.0090
∗0.0281
∗0.0290
∗AS100P50all
AS100P50
S
10.0006
∗0.0007
∗0.0046
∗0.0100
∗0.0060
∗S
20.0006
∗0.0007
∗0.0032
∗0.0346
∗0.0203
∗S 0.0005
∗0.0007
∗0.0039
∗0.0193
∗0.0147
∗AS100Call
AS100P200
S
10.0006
∗0.0007
∗0.0046
∗0.0153
∗0.0060
∗S
20.0007
∗0.0007
∗0.0033
∗0.0069
∗0.0206
∗S 0.0005
∗0.0007
∗0.0039
∗0.0120
∗0.0149
∗∗