Data Science en pratique Optimisation de mod`eles

(1)

Data Science en pratique Optimisation de mod` eles

Maxime Jumelle ESLSCA Big Data - MBA 2

2019 - 2020

(2)

Ce cours fait suite au module de Machine Learning du premier semestre.

Il s’inscrit dans la continuité, et aborde notamment des aspects plus pratiques que l’on rencontre en entreprise. En particulier, nous aborderons trois phrases chronologiques d’un projet Data Science, survenant pendant et après la partie de modélisation.

I Optimisation de modèle: nous verrons quelles méthodes utiliser pour déterminer les hyper-paramètres optimaux des modèles.

I Validation de mod`ele: nous appliquerons des m´ethodes

d’échantillonnage pour vérifier le bon comportement des modèles.

I Interprétabilité: une dernière partie sera consacrée à

l’interprétabilité et à la transparence des algorithmes pour expliquer le comportement des modèles.

(3)

Hyper-param` etres

Dans un modèle, nous devons différencier deux types de paramètres.

I En statistique paramétrique, le modèle est une fonction de paramètreθ∈Θ: les composantes deθ représentent doncles paramètres du modèle. Ils sont estimés par des algorithmes d’optimisation numérique.

I Les hyper-paramètres sont des valeurs d’ajustement du modèle qui sont fixes et qui ne sont pas estimés par les algorithmes

d’optimisation, mais utilis´es par ces derniers.

Le choix des hyper-paramètres aura donc une influence sur la fa¸con dont le modèle est entraˆıné et automatiquement sur ses performances.

(4)

Hyper-param` etres

La difficult´e des hyper-param`etres, c’est que contrairement aux

paramètres du modèle estimés, il n’y a aucun moyen de savoir si un jeu d’hyper-paramètres est optimal ou non.

Pour cela, une solution consiste `a tester plusieurs jeux

d’hyper-paramètres et de choisir celui qui maximise, à ensemble d’entraˆınement et de test égaux, les performances.

Il y a autant d’entraˆınement de modèle à effectuer qu’il y a de jeux d’hyper-paramètres. Ainsi, une question se pose : comment déterminer le jeu d’hyper-paramètre optimal le plus rapidement ?

(5)

Sommaire

Recherche par grille Grid Search Random Search Hypercube Latin

Optimisation bay´esienne

Approche par processus Gaussien Tree-structured Parzen Estimator

(6)

Grid Search

Les méthodes Grid Search (ou recherche par grille) vont construire un espace des hyper-paramètres possibles à partir du produit cartésien des contraintes des hyper-paramètres. PourLhyper-paramètres dont les valeurs possibles sontC_lpour lel-ème paramètres alors la grille de recherche exhaustive est

L

Y

l−1

Cl

Par exemple, dans un arbre de décision, en définissant les hyper-paramètresT ∈ {4,8,12}la profondeur de l’arbre,

min leaf∈ {2,4,6}le nombre d’observations minimum dans une feuille etcriterion∈ {gini,entropy} le crit`ere d’impuret´e, il y a

3×3×2 = 18mod`eles `a entrainer.

(7)

Grid Search

La procédure d’un Grid Search est entièrement déterministe et ne repose que sur deux étapes à chaque itérationt.

1. Entraˆınement d’un modèlefâvec le jeu d’hyper-paramètres du t-ème point de la grille.

2. Calcul d’une métrique d’évaluation (score, perte, ...) surfˆ. Dans les faits, l’étape d’entraˆınement doit être réalisé sur plusieurs sous-échantillons de la base d’entraˆınement et de fournir une évaluation moyenne avec l’écart-type associé (voir techniques d’échantillonnage du chapitre 2).

Attention

Pendant l’optimisation, il ne faut pas changer les bases d’entraˆınement et de test, sauf cas tr`es particuliers.

(8)

Grid Search

Le principal défaut de cette méthode est letemps de calcul extrêmement coûteux. Plus il y a d’hyper-paramètres et de valeurs possibles, plus le nombre d’itérations accroit exponentiellement. En pratique, il est donc impensable d’optimiser 10 hyper-paramètres ayant chacun 4 valeurs différents (4¹⁰ itérations, à raison d’une seconde d’entraˆınement par modèle nécessiterait12jours et3h27de calculs).

En revanche, il est possible deparall´eliser le calculpuisque chaque

élément de la grille est indépendant des autres.

(9)

Figure–Recherche par grille `a 2 hyper-param`etres.

(10)

Figure–Recherche par grille à 3 hyper-paramètres. Une autre composante importante à prendre en compte est également le temps de calcul d’une prédiction.

(11)

Random Search

Dans la recherche aléatoire, la grille n’est plus définie à l’avance puisque les points sont choisiesselon une distribution jointe.

Le jeu d’hyper-param`etres optimalSOpt est donc celui qui maximise le score parmi une collection de tirages al´eatoires d’une loi jointe S= (S1, . . . ,SL).

(12)

Random Search

La procédure Random Search est très similaire à Grid Search, mais disposant d’une étape supplémentaire pour le choix des

hyper-param`etres.

1. Tirage al´eatoire des hyper-param`etresS∼ S.

2. Entraˆınement d’un modèlefâvec le jeu d’hyper-paramètresS tiré aléatoirement.

3. Calcul d’une m´etrique d’´evaluation (score, perte, ...) surfˆ.

(13)

Figure–Source : Qualcomm Developer Network.

(14)

Hypercube Latin Sampling (HLS)

Cette approche se base sur l’échantillonnage par hypercube latin, qui est une méthode pseudo-aléatoire. Contrairement à Grid Search et Random Search, la méthode HLS utilise les observations précédemment tirées pour en obtenir une nouvelle.

Dans un cas purement aléatoire, il est possible que certaines zones de l’espace de probabilité deS ne soit pasrecouvertespar certains tirages aléatoires. Dans ce cas, la méthode HLS permet de subdiviser cet espace en quadrillage de sorte à pouvoir convenablement couvrir toutes les zones de cet espace de probabilité.

(15)

Figure–Source : SAS Institute.

(16)

Sommaire

Recherche par grille Grid Search Random Search Hypercube Latin

Optimisation bay´esienne

Approche par processus Gaussien Tree-structured Parzen Estimator

(17)

Approche bay´ esienne

Dans l’approche bayésienne, nous allonscapitalisersur les résultats obtenus aux précédents jeux d’hyper-paramètres. Autrement dit, à chaque jeu d’hyper-paramètres, on cherche à calculer le prochain score à partir des hyper-paramètres.

τ(Hyper-param`etres)=^∆P(Score|Hyper-param`etres)

En pratique, nous ne pouvons pas calculer cette loi bayésienne. Pour cela, nous introduisons une fonction moins complexe mais suffisamment similaire que l’on cherchera à optimiser. Cette fonction est appelée substitut(ousurrogate).

(18)

Figure–Estimation du maximum de la distribution log-normale par SMBO GP `a deux points initiaux.

(19)

Figure–Avec 4 points, on remarque que la m´ethode SMBO GP ne permet pas encore d’estimer efficacement le maximum global.

(20)

Figure–En seulement 7 points, la m´ethode SMBO GP permet de trouver rapidement un maximum global.

(21)

Le fait de rajouter un substitut fait que les calculs pour trouver le prochainS_Opt^(t) (jeu d’hyper-paramètres) à tester sur un modèlesont assez importants. Mais ces temps de calculs sont compensés par une recherche d’un jeu d’hyper-paramètres optimal en un nombre d’itérations inférieurs que pour les méthodes de recherche par grille.

L’optimisation bayésienne prend tout son sens dans la recherche des hyper-paramètres optimaux, puisque les temps de calcul deτ(S_Opt^(t))sont déjà considérables. En revanche, cette méthode n’aurait aucun intérêt dans un cadre classique d’optimisation numérique ou de nombreuses itérations sont nécessaires pour s’approcher d’un éventuel extremum global.

(22)

Sequential Model-Based Optimization (SMBO)

Il existe plusieurs algorithmes bayésiens qui permettent d’estimer un jeu d’hyper-paramètres optimal. L’algorithme SMBO [1] pour Sequential Model-Based Optimization est un des plus utilisés en Machine Learning.

(23)

Algorithme SMBO

Tout d’abord, la base de connaissanceHdes hyper-paramètres pour le substitutτ est initialisé à l’ensemble vide. Il est également nécessaire de fournir un nombre d’itérations maximaleT ainsi qu’un modèle initialM0

pour le substitut. La méthode SMBO s’exécute ensuite de la fa¸con suivante à chaque itérationt.

1. Estimer S_Opt^(t) = argmin_Sτ(S, M_t−1)

2. Calculer le score Rd’un modèlefêntraˆıné avec le jeu d’hyper-paramètresS_Opt^(t)

3. Mettre à jour la base de connaissances :H=H ∪(S_Opt^(t), R) 4. Estimer un nouveau modèleMtpour le substitut à partir de H.

(24)

Fonction de s´ election

La fonction de sélection (ou d’acquisition) fournit un critère quantitatif dans l’algorithme SMBO : c’est elle qui permet de choisir le prochain jeu d’hyper-paramètres à tester (étape 1). Une fonction de sélection

particuli`erement utilis´ee est l’Expected Improvement : EIy^∗(u) =

Z y^∗

−∞

(y^∗−y)p(y|u)dy

oùy^∗est un seuil maximal etp(y|u)ladensité du modèle substitut

évalué eny sachantu. L’objectif est donc de maximiser EI_y^∗ sachantu, qui dans SMBO représenteraS^(t)_Opt.

(25)

Fonction de s´ election

Intuitivement, sip(y|u) = 0pour touty < y^∗, alors le jeu

d’hyper-paramètresu:=S_Opt^(t) est considéré comme optimal puisque aucune amélioration sur le score ne peut être apporté.

A l’inverse, si EI` y^∗(u)>0, c’est qu’il existe un meilleur jeu

d’hyper-paramètresupouvant amener à une augmentation du score par rapport au jeu actuel. Sans une introduction d’un nombre d’itérations maximale, les temps de calcul pourraient être bien trop élevés, non seulement parce qu’il est rare d’obtenir une valeur exacte en optimisation, mais également parce que l’entraˆınement du modèlefˆpeut lui aussi dépendre de variations aléatoires (propre à ce dernier) et toujours engendrer des variations de scores pour un mêmeu.

(26)

Approche par processus Gaussien

Cette approche consiste `a utiliser unprocessus Gaussiencomme fonction substitut `a la fonction de score.

Un processus Gaussien [2] est une collection de variables al´eatoires dont la loi jointe est une gaussienne. Dans ce contexte, pour un processus f(x), nous d´efinissons la fonction moyennemet la fonction de covariancekpar

m(x) = E[f(x)]

k(x,x⁰) = E[(f(x)−m(x))(f(x⁰)−m(x⁰))]

En chaque pointxdu processus, une distribution gaussienne permet d’obtenir la prédiction ainsi que l’intervalle de confiance associé. Le processusf(x)s’écrit

f(x)∼ GP(m(x), k(x,x⁰))

(27)

Le processus gaussien peut ˆetre vu comme un conditionnement en un pointxdu processusf (ce qui n’est pas une marginale).

Figure–Source : 10.23915/distill.00017

(28)

Figure–M´ethode SMBO GP avec fonction d’utilit´e en dimension1.

(29)

(30)

Approche par TPE

L’approche par Tree-structure Parzen Estimator (TPE) utilise la règle de Bayes plutôt que de chercher à modéliser directement l’a posteriori p(y|u).

p(y|u) = p(u|y)p(y) p(u) Cette approche pose la loia priori suivante :

p(u|y) =l(u)1_{y<y^∗_}+g(u)1_{y≥y^∗_}

A chaque it´` eration, l’algorithme va construireletg en fonction deH(la base de connaissances).

(31)

Expected Improvement dans l’approche TPE

EI_y^∗(u) = Z y^∗

−∞

(y^∗−y)p(u|y)p(y) p(u) dy

= l(u) p(u)

Z y^∗

−∞

(y^∗−y)p(y)dy

= l(u)

p(u) γy^∗− Z y^∗

−∞

yp(y)dy

!

orp(u) =R

p(u|y)p(y)dy=γl(u) + (1−γ)g(u)donc

EI_y∗(u) = γy^∗l(u)−l(u)Ry^∗

−∞yp(y)dy γl(u) + (1−γ)g(u)

∝

g(u)

− −1

(32)

Expected Improvement dans l’approche TPE

Pour maximiser l’EI, nous aurions intérêt à trouver des pointsuavec un forte probabilité sousl(u)et une faible probabilité sousg(u), puisque le terme de droite nous indique que l’EI est proportionnel au ratio _g(u)^l(u) et que c’est ce dernier qui doit être maximisé.

(33)

R´ ef´ erences I

James S. Bergstra, Rémi Bardenet, Yoshua Bengio, and Balázs Kégl.

Algorithms for hyper-parameter optimization.

In J. Shawe-Taylor, R. S. Zemel, P. L. Bartlett, F. Pereira, and K. Q.

Weinberger, editors,Advances in Neural Information Processing Systems 24, pages 2546–2554. Curran Associates, Inc., 2011.

Carl Edward Rasmussen and Christopher K. I. Williams.

Gaussian Processes for Machine Learning (Adaptive Computation and Machine Learning).

The MIT Press, 2005.