• Aucun résultat trouvé

Machine Learning avanc´e Mod`eles lin´eaires

N/A
N/A
Protected

Academic year: 2022

Partager "Machine Learning avanc´e Mod`eles lin´eaires"

Copied!
46
0
0

Texte intégral

(1)

Machine Learning avanc´ e Mod` eles lin´ eaires

Maxime Jumelle ESLSCA Big Data - MBA 2

2019 - 2020

(2)

Sommaire

R´egression lin´eaire R´egression simple R´egression multiple Cas pratique

Aller plus loin : r´egression p´enalis´ee

Mod`ele binomial R´egression logistique Cas pratique

(3)

Fonctions affines

Consid´erons la cas classique d’une fonction affine : y=ax+b

Ici,aetbsont des r´eels. Ces deux nombres d´efinissent enti`erement la courbe et permet donc d’obtenir une relationaffineentrexety. En statistique, cette relation est `a la base des mod`eles ditslin´eaires, o`u une variable r´eponse se d´efinit comme une somme de variables explicatives o`u chacune de ces derni`eres sont multipli´es par un coefficient.

(4)

Fonctions affines

(5)

Exemple

Hauteury (en m) d’eucalyptus en fonction de leur circonf´erencex(en m).

(6)

Mod` ele lin´ eaire simple

Dans le mod`ele lin´eaire simple (une seule variable explicative), on suppose que la variable r´eponse suit le mod`ele suivant :

yi01xii

On remarque la ressemblance avec la fonction affine pr´esent´ee ci-dessus.

La diff´erence r´eside dans l’existence du terme al´eatoire (appel´e bruit)εi. Afin de consid´erer le mod`ele, il est n´ecessaire de se placer sous les hypoth`eses suivantes.

(H) :

E[εi] = 0 Cov(εi, εj) =δijσ2 La classe de fonctions candidates est

(7)

Mod` ele lin´ eaire simple

Les diff´erents ´el´ements qui interviennent sont : I β0 : l’ordonn´ee `a l’origine (nomm´eeintercept) I β1 : le coefficient directeur

I xi : l’observationi I yi : lei-`eme label observ´e

I εi : le bruit al´eatoire li´e `a lai-`eme observation

Pour un probl`eme de r´egression, une bonne fonction de perte est la perte quadratique. Puisque nous sommes qu’`a une seule dimension, cela revient

`a calculer le carr´e de la diff´erence entre la label observ´e et la pr´ediction l(yi,yˆi) = (yi−yˆi)2

dans l’optique d’estimer le mod`ele

f(x) = ˆˆ β0+ ˆβ1x

(8)

Mod` ele lin´ eaire simple

Ainsi, la fonction objectif est naturellement d´efini comme la somme des erreurs quadratiques :

L(y,y) =ˆ

n

X

i=1

(yi−yˆi)2

Analytiquement, cela revient `a r´esoudre le probl`eme d’optimisation suivant

min

01)∈R n

X

i=1

(yi−fˆ(xi))2= min

01)∈R n

X

i=1

(yi−β0−β1xi)2

La solution peut se calculer facilement via les formules ferm´ees suivantes : βˆ1=

Pn

i=1(xi−x)(y¯ i−y)¯ Pn

(xi−x)¯ 2

βˆ0= ¯y−βˆ1¯x

(9)

Estimateurs

Attention

βˆ0 etβˆ1 sont desestimateursdeβ0 etβ1: on ne pourra jamais connaˆıtre la valeur des coefficients, on pourra seulement fournir des estimateurs !

I β0 etβ1 : variables al´eatoires

I βˆ0 etβˆ1 : param`etres estim´ees du mod`ele On d´efini ainsi les labels pr´editsyˆ1, . . . ,yˆn par fˆ(xi) = ˆyi= ˆβ0+ ˆβ1xi

(10)

Bruits et r´ esidus

Comment comparer les labels observ´es et pr´edits ? Dans le mod`ele, nous avons vu la pr´esence de bruit al´eatoireεi. N´eanmoins, pour pr´edire une observation, ce bruit n’intervient pas. Comment pouvons-nous ainsi estimer ce bruit ?

R´esidus :εˆi=yi−yˆi

Ces r´esidus permettent d’estimer la variance des bruits, et donc de pouvoir les caract´eriser :

ˆ

σ2= kεkˆ 2 n−2 = 1

n−2

n

X

i=1

ˆ ε2i

(11)

Objectifs

Le mod`ele lin´eaire simple doit apprendre sur les donn´ees afin de d´eterminer des estimateursβˆ0 etβˆ1en minimisant la fonction de perte.

Tr`es souvent en r´egression, on minimise la perte quadratique moyenne (RMSE en anglais).

RM SE(Y,Yˆ) = v u u t 1 n

n

X

i=1

(yi−yˆi)2= 1

√nkY −Yˆk2

La RMSE mesure l’´ecart global entre les pr´edictions et les observations.

Plus la RMSE est proche de0, mieux le mod`ele pr´edit correctement les donn´ees conform´ement aux observations.

Exercice

Montrer que

RM SE2(Y,Yˆ) = kˆεk2 n

(12)

Score

Pour le mod`ele lin´eaire simple, une ´etude visuelle nous permet d’´etablir plus ou moins la performance du mod`ele.

En utilisant la d´efinition des r´esidus, on peut d´efinir le coefficient de d´etermination R2∈[0,1].

R2= 1− Pn

i=1(yi−yˆi)2 Pn

i=1(yi−y)¯ 2 = 1− Pn

i=1εˆ2i Pn

i=1(yi−y)¯ 2 I R2 proche de1 : fort pouvoir explicatif

I R2 proche de0 : faible pouvoir explicatif

(13)

Exemple

Consid´erons des fleurs d’iris. On souhaite mod´eliser une relation lin´eaire entre les longueur des p´etales et les largeurs des p´etales.

(14)

Exemple

R2= 92.7%

(15)

Exemple

La relation lin´eaire obtenue par le mod`ele empirique est : y=−0.36 + 0.42x

(16)

Exemple

(17)

Mod` ele lin´ eaire multiple

Dans le cas multiple (pourpvariables explicatives), pour lai-`eme observation, le mod`ele s’´ecrit :

yi0+

p

X

j=1

βjxiji

Ainsi, une observationxi n’est plus une valeur, mais un vecteur

(xi1, . . . ,xip). Il est plus commode de regrouper les labels observ´esyi et ces vecteurs d’observationsxi dans des matrices :

Y =Xβ+ε

Sous les hypoth`eses ´equivalentes du mod`ele simple en plus grande dimension

(H) :

rank(X) =p

E[ε] = 0et Var(ε) =σ2Ip

(18)

Mod` ele lin´ eaire multiple

La classe de fonctions candidates est F =

x7→β0+

p

X

j=1

βjx•j : (β0, . . . , βp)∈Rp+1

 Les diff´erents ´el´ements qui interviennent sont :

I β : le vecteur directeur

I X : la matrice des observations I Y : le vecteur des labels observ´es I ε: le vecteur de bruit

AvecX= (1, X1, . . . , Xn),Y = (y1, . . . , yn)> etε= (ε1, . . . , εn)>. La solution des MCO (Moindres Carr´es Ordinaires) est alors :

(19)

Mod` ele lin´ eaire multiple

Preuve

Soit la fonction de coˆut `a minimiser s’´ecrit S(β) =1

2kY −Xβk22

S´etant quadratique (donc convexe et diff´erentiable), la solution existe et est unique.

∇S(β) =−X>(Y −Xβ) =−X>Y +X>Xβ La solutionβˆannule le gradient de la fonction de coˆut, ce qui nous am`ene `a r´esoudre une ´equation lin´eaire.

βˆ=argmin∇S(β)⇔X>Xβˆ=X>Y

Or la matriceX>X est inversible sous l’hypoth`ese(H)d’o`u la formule ferm´ee

ˆ

(20)

Bruits et r´ esidus

Les r´esidus s’obtiennent par le mˆeme calcul que pour la r´egression lin´eaire simple.

R´esidus :εˆi=yi−yˆi

En revanche, l’estimateur de la variance d´epends cette fois-ci du nombre de variablesp:

ˆ

σ2= kεkˆ 2 n−p= 1

n−p

n

X

i=1

ˆ ε2i

(21)

Score

Pour g´en´eraliser la notion de coefficient de d´eterminationR2`a une plus grande dimension, on introduit les quantit´es suivantes :

I SCT =kY −y1k¯ 2est la somme des carr´es totaux I SCE=kYˆ −y1k¯ 2est la somme des carr´es expliqu´es I SCR=kˆεk2 est la somme des carr´es r´esiduels

R2= 1−SCR

SCT = SCE SCT

Exercice

Retrouver la formule duR2 dans le cas de la r´egression simple `a partir de la formule ci-dessus.

(22)

Interpr´ etation g´ eom´ etrique

(23)

R´ egression p´ enalis´ ee

Lorsque la dimension (le nombre de variables) devient important par rapport aux donn´ees, l’hypoth`ese fondamentalen > p n’est plus v´erifi´ee.

Dans ce cas, il existe plusieurs approches pour effectuer une r´egression lin´eaire sur ces donn´ees :

I Effectuer une r´eduction de dimension sur les donn´ees : en pratique, d’importantes conditions sur les donn´ees sont requises ou bien les temps de calculs sont trop importants.

I S´electionner au pr´ealable un sous-ensemble des variables.

Cette s´election de variable peut se faire par l’utilisateur, ou alors

”automatiquement” en agissant directement sur la fonction de perte : c’est lar´egularisation.

(24)

Ridge

L’estimateur RidgeβˆRidge est la quantit´e qui minimise la fonction suivante :

1

2kY −Xβk22+λkβk22 Avecλ≥0.

Il existe une solution au probl`eme pr´ec´edent : l’estimateur Ridge existe et vaut

βˆRidge= (X>X+λI)−1X>Y

(25)

LASSO

L’estimateur LASSOβˆLASSO est la quantit´e qui minimise la fonction suivante :

1

2kY −Xβk22+λkβk1

Avecλ≥0.

Attention

La fonction `a minimiser n’est plus diff´erentiable !

(26)

LASSO

Exercice

Montrer l’´equivalence des deux probl`emes d’optimisation : (P1) βˆ∈min

β

1

2kY −Xβk22+λkβk1

(P2) βˆ∈ min

kβk1≤t

1

2kY −Xβk22

Pour un certaintd´ependant deλ(indice : utiliser les conditions de Karush-Kuhn-Tucker).

(27)

LASSO

L’estimateur LASSO est difficile `a calculer par rapport `a l’estimateur Ridge. De plus, du fait de la non diff´erentiabilit´e de la fonction de perte, l’unicit´e de la solution n’existe que sous certaines conditions.

On montre que l’algorithme de descente du gradient n’est pas optimal dans ce cas. On utilise alors plus souventCoordinate Descent (impl´ement´e sous scikit-learn).

(28)

Une solution exacte

Supposons que les colonnes deX soient orthonormales (hxi, Xji=δij).

Alors on peut trouver une formule ferm´ee pourβˆLASSO `a partir de la solution des MCOβˆ:

βˆjLASSO=sgn( ˆβj) max(|βˆj| −λ,0)

(29)

Sommaire

R´egression lin´eaire R´egression simple R´egression multiple Cas pratique

Aller plus loin : r´egression p´enalis´ee

Mod`ele binomial R´egression logistique Cas pratique

(30)

D´ efinition

La r´egression logistique (oumod`ele binomial) est un cas particulier de mod`ele lin´eaire g´en´eralis´e (GLM).

Bien qu’il s’agisse d’une r´egression, la tˆache effectu´ee est en r´ealit´e une classification.

(31)

Formalisme

On dispose denobservations `apvariables continues ou binaires, et l’objectif est de pr´edire la variable r´eponseY ∈ {0,1}. On note X= (X1, . . . , Xp)ces variables, ainsi quexj,1≤j≤p:

I `a valeurs dans Rsi Xj est continue.

I `a valeurs dans {0,1}si Xj est binaire.

Notation

Comme convenu, on utilisera

I xj pour d´esigner la valeur de laj-`eme d’un individu quelconque I xi le vecteur de taille p+ 1associ´e aui-`eme individuavec un

premier coefficient ´egal `a1.

(32)

Formalisme

La similitude avec le mod`ele lin´eaire se situe dans la relation entre la probabilit´e et les variables. N´eanmoins, l`a o`u pour la r´egression lin´eaire, la variable r´eponseY ´etait `a valeurs dans R, le mod`ele ici est diff´erent

´etant donn´e que les probabilit´es sont born´ees entre 0et1. Il n’est donc pas possible de lier directement la probabilit´e au variables par une relation lin´eaire.

Afin demapper la r´eponse sur l’intervalle[0,1], on utilise la fonction logit, qui poss`ede les bonnes propri´et´es de bijectivit´e et d´erivabilit´e.

logit(x) = log x

1−x

(33)

Formalisme

On souhaite mod´eliser la distributiona posteriori Y|X =xd’une observationx. Notons que la loiY ´etant binaire, connaˆıtre l’´ev´enement {Y = 1|X=x} revient `a connaˆıtre enti`erement la distribution de la loi a posteriori.

Le mod`elelogit´etablit la relation suivante entre la loi a posteriori et une combinaison lin´eaire des observations.

log P(Y = 1|X =x)

1−P(Y = 1|X =x) =β0+

p

X

j=1

βjxj>x

Exercice

Montrer que

P(Y = 1|X =x) = exp(β>x) 1 + exp(β>x)

(34)

Estimation

Attention

Tout comme pour la r´egression multiple, le coefficientintercept β0 est implicitement inclu dans l’observationx, mais qui n’est `a consid´erer uniquement dans le cas de l’estimation!

On cherche `a estimer les coefficientsβ. La solution exacte consiste `a utiliser l’estimateur du maximum de vraisemblance :

L(X;Y, β) =

n

Y

i=1

P(Y = 1|X =xi)yiP(Y = 0|X=xi)1−yi Souvent, on pr´ef`ere minimiser la log-vraisemblance, car plus simple num´eriquement :

logL(X;Y, β) =

n

XyilogP(Y = 1|X=xi)+(1−yi) logP(Y = 0|X=xi)

(35)

Descente de gradient appliqu´ ee

On rappelle que L(X;Y, β) =

n

Y

i=1

exp(β>xi) 1 + exp(β>xi)

yi 1 1 + exp(β>xi)

1−yi

Exercice

1. Montrer que

logL(X;Y, β) =

n

X

i=1

yiβ>xi−log(1 + exp(β>xi))

2. Calculer le gradient∇βlogL(X;Y, β)de la log-vraisemblance.

3. En d´eduire un algorithme de descente de gradient pour la r´egression logistique.

(36)

Pr´ ediction

Une fois lesβ estim´es, comment pr´edire une nouvelle observationx? Rappelons que nous disposons de la probabilit´e suivante :

P(Y = 1|X =x) = 1−P(Y = 0|X =x)

Grˆace `a la r`egle de Bayes, on peut construire le classifieurˆgsuivant : ˆ

g(x) =

1 si P(Y = 1|X =x)>P(Y = 0|X=x)

0 sinon

Par calcul de la loi a posteriori, on obtient le classifieur suivant.

ˆ g(x) =

1 exp(β>x)>1

0 sinon

Exercice

D´eterminer la fronti`ere du classifieur :

(37)

Interpr´ etation

Contraitement au mod`ele lin´eaire, il ne suffit pas de multiplier les valeurs par les coefficients pour obtenir une interpr´etation : en effet, la lin´earit´e est effectivepar transformation logistique du rapport des

probabilit´es.

Il est donc n´ecessaire de calculer convenablement ces coefficients en prenant en compte la transformation logistique que l’on a appliqu´e.

Rappelons le mod`ele :

log P(Y = 1|X =x)

1−P(Y = 1|X =x) =β0+

p

X

j=1

βjxj>x

Un simple passage par l’exponentielle nous donne

ratio= P(Y = 1|X =x)

1−P(Y = 1|X =x) = exp

 β0+

p

X

j=1

βjxj

(38)

Interpr´ etation

Que se passe-t-il au niveau du ratio si l’on ajoute une unit´e sur la variable j?

ratioxj+1

ratio = expn

β0+Pp

j=1βjxjj

o

expn

β0+Pp j=1βjxj

o = exp(βj)

En r´esum´e, chaque variable agit exponentiellement sur le rapport des probabilit´es : une augmentation d’une unit´e sur la variable xj augmente exponentiellement le rapport des probabilit´es en le coefficient associ´e.

Par exemple, siβj = 0.8, alors une augmentation d’une unit´e entraˆıne le rapport suivant :

(39)

Cas pratique

R´ealisons une r´egression logistique sur un jeu de donn´ees. Supposons que l’on souhaite ´evaluer la qualit´e d’un mod`ele de voiture en fonction de ses caract´eristiques. On dispose de deux classes : 0pour une qualit´e basse `a moyenne, et1pour une qualit´e de bonne `a excellente. Les informations sur le jeu de donn´ees sont :

I 1727mod`eles de voitures.

I 6 variables explicatives, dont2quantitatives et4 qualitatives.

I On dispose de1209voitures de qualit´e basse/moyenne et 518 voitures de qualit´e bonne/excellente.

(40)

Variables explicatives

Les variables explicatives sont :

I buying(qualitative) : un prix d’achat (bas, moyen, haut et tr`es haut).

I maint(qualitative) : entretien n´ecessaire pour le fonctionnement (bas, moyen, haut et tr`es haut).

I doors(quantitative) : le nombre de portes.

I persons (quantitative) : le nombre de personnes.

I lug boot (qualitative) : la taille du coffre (petit, moyen et grand).

I safety(qualitative) : le niveau de s´ecurit´e (faible, mod´er´e et fort).

La variable que l’on souhaite mod´eliser (i.e. la variabler´eponse) est nomm´ee eval.

(41)

Tableau de donn´ ees

(42)

Donn´ ees encod´ ees

Dans la pratique, le mod`ele n’est pas capable d’effectuer des calculs avec des cat´egories :il est n´ecessaire d’encoder les donn´ees. Ici, on a fait correspondre, pour chaque modalit´e, un nombre associ´e qui permet de les distinguer lors de l’optimisation du mod`ele.

(43)

Interpr´ etation

Le F1 score obtenu est de77%, ce qui est acceptable. Le coefficient interceptestim´e vaut−8.24et les coefficientsβˆestim´es sont :

−0.89 −0.79 0.27 1.12 0.76 2.58

Pr´ecedemment, nous avons vu que c’´etait l’exponentielle des coefficients qui impactaient directement les ratios de probabilit´e :

ratioxj+1

ratio = exp(βj)

Pour pouvoir correctement interpr´eter, il faut donc composer par une exponentielle le vecteur :

0.41 0.45 1.31 3.07 2.13 13.18

(44)

Interpr´ etation

Rapports de ratio : I 0.41: buying I 0.45: maint I 1.31: doors I 3.07: persons I 2.13: lug boot I 13.18: safety

(45)

Interpr´ etation

Un des crit`eres les plus discriminants est sans doute le niveau de s´ecurit´e de la voiture. Ensuite, le nombre de personnes est le second crit`ere le plus important dans la pr´ediction de la qualit´e d’une voiture.

En revanche, le prix d’achat poss`ede un effet inverse : il semblerait que le prix d’une voiture joue dans le sens inverse sur la qualit´e d’une voiture, de mˆeme que la maintenance/entretien n´ecessaire. Cela peut s’expliquer par desbiais humains: on est beaucoup plus attentif et s´electif sur une voiture dont le prix de vente est ´elev´e.

(46)

Interpr´ etation

De mˆeme, il est important de s’interroger sur l’origine de la variable safety. En effet il est probable que cette derni`ere ait ´et´e cr´ee par une personne interm´ediaire entre le constructeur et l’acheteur

(potentiellement un revendeur), ce qui peut fausser son interpr´etation car :

I On ne sait pas quelles ont ´et´e les r`egles permettant de choisir le niveau de s´ecurit´e.

I Un biais humain peut ´egalement exister lors de la cr´eation de ces r`egles et/ou lors de l’attribution des niveaux de s´ecurit´e.

Références

Documents relatifs

Calculer l’esp´ erance et la variance de Y..

Analyse de la variance ` a deux facteurs... Le probl` eme qui se pose fr´ equemment en agronomie est l’utilisation de certains engrais suivant la nature du terrain. si les diff´

MASTER 1 SIDE Pˆ ole Lamartine - ULCO INFORMATIQUE ET MOD` ELES LIN´ EAIRES Novembre 2010 - Contrˆ ole Continu, Semestre 1 Dur´ee de l’´epreuve : 2h00 Documents

Pour chaque paire, on appelle x i le score de l’aˆın´e et y i la diff´erence (alg´ebrique) des scores entre l’aˆın´e et le cadet6. Calculer le coefficient de corr´elation R

On a observ´e la relation suivante entre les ventes dans le circuit classique de distribution en librairie et les ventes de Livclub : le coefficient de corr´elation lin´eaire entre

Repr´ esentez graphiquement ` a l’aide du graphique ad´ equat les variables qualitatives de la table dans une mˆ eme fenˆ etre graphique.. Retrouvez les informations contenues

Un chercheur ´ elabore une ´ echelle d’ind´ ependance en 25 points et proc` ede ` a l’´ evaluation de 20 aˆın´ es et du fr` ere ou de la sœur qui suit directement chacun

Mass transportation methods] [Cordero-Erausquin, Gangbo, Houdr´ e], [Cordero-Erausquin, Nazaret, Villani], [Agueh, Ghoussoub, Kang].. Existence and