Chap2 Regression linéaire et VC (Partie III)

(1)

Master 2 Recherche SES-IES Analyse de données

Ana Karina Fermin

Université Paris Nanterre

http://fermin.perso.math.cnrs.fr/

(2)

1 Régression linéaire simple

2 Modèles

3 Sélection de modèles

(3)

Modèle de régression

On dispose den observations(x1,y1),(x2,y2), . . . ,(x_n,y_n) du couple(X,Y). On suppose que

y_i =f^?(x_i) +ε_i pour tout i =1, . . . ,n

les x_i son des valeurs connues non aléatoires f^? est une fonction inconnue

ε_i sont des réalisations inconnues d’une variable aléatoire.

Pour chaque individui, la variable aléatoireε_i représente l’erreur commise. Généralement pour étudier le modèle "le statisticien"

formule des hypothèses sur la loi des erreursε_i.

Fermin Régression linéaire Chap. Régression 3 / 17

(4)

Objectif

On souhaite “expliquer” une variableY à partir deX.

Nous allons chercher une fonctionf telle que Y ≈f(X).

Pour définir≈il faut donner un critère quantifiant la qualité de l’ajustement de la fonctionf aux données:

(Y −f(X))²

La vraie fonctionf^? minimise en moyenne cette erreur... mais elle est inconnue!

(5)

En pratique

On va choisirf dans une classe de fonctionsS.

On va minimiser une erreur moyennesur les données:

fb=argmin

f∈S

1 n

n

X

i=1

(f(x_i)−y_i)²

La régression linéaire correspond àS ={x7→x^tβ}.

Attention:

Il faut choisir S (le modèle) fb6=f^?

On est même pas sûr que (Y −fb(X))² (ou (f^?(X)−fb(X)²) soit petit en moyenne...

(6)

Exemple : Pollution l’ozone X : température à midi

Y : concentration maximale en ozone

mesurés en un lieu donné et une journée donnée pendantn jours.

40 80 120 160

15 20 25 30

T12

maxO3

(7)

Régression polynomiale

f est choisie dans une classe des fonctions S polynomiales Modèles obtenus par des polynôme du degré 3, 4, 5, 6 et 7 Pb : Choisir "le bon" degré !

40 80 120 160

15 20 25 30

T12

maxO3

Modèle polynomial: f_β(X_i) =Pd l=0β_lX^l_i Linéaire enβ!

IciX⁰_i = (1,X_i, . . . ,X^d_i)^t

Problème d’estimation de MC facile!

(8)

Exemple Jouet

Nous commencerons avec un exemple artificiel ! Nous voulons estimer les valeurs de

f^?(x) =1−x+2x²−0.8x³+0.6x⁴−x⁵

(9)

Modélisation

Design fixé : x_k =k/n, with 16k 6n

Nous observons les valeurs def^? dansx_k contaminées par un bruit Gaussien

Y_k =f^?(k/n) +_k

Ici, _k sont des réalisations i.i.d. centrées d’une v.a.

Gaussienne of variance σ².

(10)

Quel degré?

(11)

Compromis Biais-Variance

Cadre général:

F : Famille de toutes les fonctions Meilleur solution dansF: f^∗ Sous-FamilleS ⊂ F de functions Meilleure solution dansS: f_S^∗

EstiméeS: fb_S obtenue par moindre carré.

Erreur d’approximation et erreur d’estimation (Biais/Variance)

kfbS−f^?k²= kf_S^∗−f^?k²

| {z }

Erreur d’approximation

+ kfbS−f_S^∗k²

| {z }

Erreur d’estimation

L’erreur d’approximation peut être grande si le modèleS n’est pas adapté.

L’erreur d’estimation est grande lorsque le modèle est complexe.

(12)

(13)

Quel degré?

(14)

Sur-Apprentissage

(15)

Validation croisée

Idée très simple: conserve une partie pour vérifier l’erreur.

Suffisent pour éviter un sur-apprentissage!

Cross Validation

Utiliser ^V_V⁻¹n observations pour apprendre et _V¹n pour vérifier!

Variantes Classiques : Leave One Out,

V-fold validation croisée.

Souvent on choisi: V =5 ouV =10!

(16)

Sur-apprentissage / sous-apprentissage

Différents comportements pour des complexités de modèles différentes

Compromis Bias-variance ⇐⇒ eviter sur-app. andsous-app.

(17)

fb

mb : régression avec un polynôme de degré 4