Apprentissage Statistique - d’apprentissage statistique pour la construction de modèles de

d’apprentissage statistique pour la construction de modèles de

3.1 Apprentissage Statistique

L’apprentissage statistique ne sert pas uniquement à faire de la régression. En effet, [Hastie et al., 2009], [Vapnik, 1998] détaillent la théorie complète en expliquant également son aptitude à la classification. Appliquée à la réduction de modèles, elle consiste à appro-cher un modèle f(x) uniquement à partir de simulations provenant de ce dernier. Ces simu-lations constituent l’ensemble d’apprentissage DOE = {(X, Y )} avec X = xi

i∈[1,NDOE]

et Y = yi = f(xi)

i∈[1,NDOE] aussi appelé plan d’expériences (ou Design Of Experiment (DOE) en anglais). Afin de générer ce DOE, il est nécessaire de choisir l’ensemble des entréesn

(xi)i∈[1,NDOE] o

sur lesquels le modèle à approcher doit être estimé. Le choix du DOE générant les entrées est détaillé à la section 3.1.3. Une fois que ce DOE est généré, il permet par la suite de construire le modèle de substitution, qui est un modèle analytique à temps de réponse rapide ˆf(x; w), paramétré par des variables w ∈ RNw, qui permettent d’ajuster le modèle aux sorties.

f(•; w) : Dx ⊂ RNx −→ RNy

x 7−→ ˆf(x; w) =_fˆ₁(x; w) , · · · , ˆfNy(x; w)

Ce type de modèle est communément appelé modèle de substitution, métamodèle ou encore surface de réponse, cette dernière appellation provenant plutôt du domaine de l’optimisa-tion. En ce qui concerne les variables w, elles dépendent de la forme analytique choisie, c’est-à-dire du type de modèle de substitution choisi. La dimension de ces paramètres,

Nw, dépend de la complexité du modèle C ∈ N :

Nw =C (C, Nx, Ny) avec C : N × N × N −→ N

C, N_x, N_y 7−→ C (C, Nx, N_y) ^(3.1) Cette complexité se traduit différemment selon la famille de fonction paramétrique choisie. Par exemple dans le cas d’une régression polynomiale, elle correspond au degré du poly-nôme. Le choix de cette complexité est l’une des difficulté de l’apprentissage statistique. Ce problème est d’ailleurs traité en section 3.1.2.

En ce qui concerne les modèles de substitution, on peut notamment les classer en deux types :

— Interpolants. Ce qui signifie que le modèle de substitution est exact aux points du DOE fourni, donc ˆf(xi; w) = f(xi) si (xi, f(xi)) ∈ DOE.

— Régressants. Ce sont les modèles non-interpolants donc commettant une erreur sur les points du DOE.

Afin d’ajuster le modèle de substitution au modèle de référence f à partir des points du DOE, il est nécessaire, quelle que soit la forme du modèle de substitution choisi, de rechercher les paramètres w optimaux solutions du problème d’optimisation de l’équation (3.2).

w= argmin

v∈RNw E( ˆf(•; v) ; DOE) (3.2) E correspond à la fonction à minimiser pour construire le modèle ˆf(•; v) à partir du plan d’expériences DOE. Si le modèle est régressant, on peut par exemple minimiser l’erreur quadratique moyenne (RMSE) commise sur le DOE :

E( ˆf(•; w) , DOE) = _N¹ DOE X xi∈DOE _fˆ_(xi; w) − f(xi) 2 2 (3.3)

En revanche, si le modèle est interpolant l’erreur commise sur les points du DOE est forcément nulle et la fonction objectif à optimiser a une forme différente. C’est par exemple le cas du krigeage pour lequel les paramètres sont choisis en calculant le maximum de vraisemblance, qui peut être écrit sous la forme de l’équation (3.2). Cette question est traitée plus en détail en section 3.2.3.

3.1.1 Compromis biais-variance pour la sélection de modèle

Afin de construire le modèle commettant l’erreur de prédiction la plus faible, il ne suffit pas de fixer la complexité et de résoudre l’équation (3.3). En effet, l’erreur de prédiction commise par le modèle dépend très fortement de sa complexité, ce qui rend le choix de cette complexité crucial. Afin d’illustrer cela, plaçons nous dans le cas d’un modèle à une seule sortie pour simplifier les écritures et détaillons l’erreur de prédiction commise en n’importe quel point du domaine x ∈ Dx ⊂ RNx par un modèle de substitution à complexité fixée

C : EP (x) = E_fˆ(x; w) − f(x)2 DOE

Or f(x) est la cible, considérée sans bruit. On a donc un problème du type, avec a ∈ R : E h (Z − a)2i = Eh (Z − E [Z] + E [Z] − a)2i = Eh (Z − E [Z])2i + (a − E [Z])2

Comme E [Z] et a sont des constantes, on a donc : E [(Z − E [Z]) (a − E [Z])] = 0. Ce qui donne l’équation (3.4), en omettant le DOE, sur lequel porte l’aléa, pour simplifier l’écriture. E_P(x) = _E h ˆ f (x; w) − Ef (x; w)^ˆ ² i | {z } Variance + E_{f (x; w)}ˆ − f (x)² | {z } Biais2 (3.4) 0 5 10 15 20 25

Complexity (for instance degree for a polynomial)

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

High Bias/Low Variance

Low Bias/High Variance

Learning Error Prediction Error

Figure 3.2 – Représentation de l’erreur de prédiction et de l’erreur d’apprentissage en fonction de la complexité

0 5 10 15 20 25

Complexity (for instance degree for a polynomial)

0.0 0.2 0.4 0.6 0.8 1.0 Bias2 Variance

Figure 3.3 – Représentation du biais et de la variance en fonction de la complexité

0 1 2 3 4 5 6 7 x −0.5 0.0 0.5 1.0 1.5 2.0 Reference model DOE Degree 1 Degree 7 Degree 25

Figure 3.4 – Représentation de la fonc-tion à approcher et de différentes régres-sions polynomiales avec le degré variant Par exemple, le cas d’un polynôme en 1D est illustré en figure 3.4, donc avec ˆ

f(x; w) = w0 +PNx

i=1w_ix_i et les paramètres w choisis en résolvant l’équation (3.3). Sur la figure 3.3, on remarque que le biais est important lorsque le degré du polynôme est petit puisque l’erreur commise par le prédicteur est grande, même sur les points d’ap-prentissage. Par ailleurs, la variance est faible puisqu’il y a peu de degrés de liberté dans sa construction. En revanche, il n’est pas bon d’utiliser une complexité trop grande pour représenter une fonction puisque cela augmente la variance de la prédiction et l’on aboutit ainsi à un sur-apprentissage de la fonction, c’est-à-dire que le modèle de substitution va trop « coller » aux données du DOE. Ceci réduit sa capacité de généralisation. Les figures 3.2 et 3.4 illustrent ce phénomène. On voit que lorsque le polynôme utilisé a un degré trop élevé par rapport à la fonction à prédire, même si l’erreur d’apprentissage continue de décroître, l’erreur de prédiction grandit.

En fait, ceci traduit le fait que la complexité du modèle de substitution doit être adaptée à la complexité de la fonction à prédire et à la taille de l’échantillon d’apprentissage disponible. En effet, si la complexité du modèle réduit est trop faible, il y a un

sous-apprentissage, caractérisé par un biais élevé et une variance faible. En revanche, si elle est trop importante, il y a un sur-apprentissage des données du DOE avec un biais faible mais une variance importante.

Une problématique cruciale en réduction de modèle par apprentissage statistique ap-paraît ici : comment détecter la complexité optimale sachant que la seule erreur d’appren-tissage ne mesure pas la capacité de généralisation du modèle ?

3.1.2 Présentation des méthodes de sélection de modèle

Afin de trouver le meilleur compromis entre le biais et la variance du modèle obtenu en faisant varier la complexité C ∈JCmin, CmaxK, il est nécessaire d’avoir une mesure de l’erreur de généralisation assignée à chaque valeur de complexité. Par exemple dans la figure 3.3, cette erreur était estimée sur une base de test annexe.

Il existe notamment deux types de stratégies pour y parvenir :

1. Diviser le DOE en sous-ensembles disjoints DOE = T ⊕ A et A ∩ T = ∅. L’un sert à tester (ensemble de test T ) les modèles construits à partir des échantillons de l’autre (ensemble d’apprentissage A).

2. Pénaliser l’erreur d’apprentissage en faisant intervenir la complexité du modèle. La première ne fait aucune hypothèse sur la complexité et ne regarde que l’effet de cette dernière sur la prédiction. En revanche, la division du DOE en sous-ensembles nécessite la présence de nombreux échantillons. En effet, si tel n’est pas le cas, alors le cardinal de A et de T est réduit. Or, un faible cardinal de A implique un biais élevé étant donné que peu d’échantillons d’apprentissage sont utilisés, et un faible cardinal de T implique une erreur de généralisation mal estimée ce qui implique que la complexité de la vraie fonction risque de ne pas être captée. À l’aide de simulations statistiques telles que la validation croisée [Efron, 1983] ou le bootstrap [Efron, 1979], il est possible d’estimer l’erreur de généralisation en gardant l’idée précédente mais avec un DOE de cardinal plus réduit.

Le second point consiste à rajouter un terme dans l’erreur de l’équation (3.3) de sorte à pénaliser la complexité du modèle, synonyme de variance élevée. Or ceci nécessite de pouvoir quantifier l’effet de la complexité sur la variance. Cette quantification repose sur l’introduction d’hypothèses, ce qui se traduit par l’existence de différents critères, chacun ayant un effet différent sur les paramètres w.

3.1.2.1 Sélection par simulation de l’erreur de généralisation

La première manière de faire est de calculer, parallèlement à la minimisation de l’erreur d’apprentissage, une estimation de l’erreur de généralisation à l’aide d’échantillons écartés de l’étape de minimisation des paramètres w.

Estimateur hold-out : Une première manière d’approcher cette erreur est de diviser le DOE en deux sous-ensembles DOE = T ⊕ A et A ∩ T = ∅. L’ensemble A permet de minimiser l’erreur d’apprentissage RMSE 3.3 et l’ensemble T permet quant à lui d’estimer l’erreur de généralisation. L’estimateur induit, appelé estimateur hold-out, est calculé par la RMSE commise sur les points de T :

EP(C) = E( ˆf(•; w) , T ) = X xi∈T _fˆ_(xi; w) − f(xi) 2 avec Nw = C (C, Nx, Ny) (3.5)

Algorithme 3.1 Sélection de modèle par estimateur hold-out

Dans le document Optimisation multi-objectif sous incertitudes de phénomènes de thermique transitoire (Page 46-50)