A2DI: Régression logistique

(1)

A2DI: Régression logistique

John Klein

Université de Lille - CRIStAL UMR CNRS 9189

John Klein (Lille1) A2DI 1 / 50

(2)

dévie pas deErresp.

Les solutions minimisantErrtrain au sens de la théorie de la décision pour desfonctions de perte classiques tournent autour desolutions probabilistes reposant sur la connaissance de la distributionp_Y_|X Si, on cherche directement p_Y_|X, on parle de modèlediscriminatif.

(3)

En théorie on veut minimiser Erresp.

En pratique on minimiseraErrtrain tout en s’assurant que Errtrain ne dévie pas deErresp.

Les solutions minimisantErrtrain au sens de la théorie de la décision pour desfonctions de perte classiques tournent autour desolutions probabilistes reposant sur la connaissance de la distributionp_Y_|X Si, on cherche directement p_Y_|X, on parle de modèlediscriminatif.

La régression logistiqueoffre une solution de cette nature pour un problème de classification.

(4)

1 Origines du modèle

2 Descente de gradient

3 Descente de gradient stochastique

4 Conclusions

(5)

Reprenons un exemplehabituel :

Soit un problème de classification avecY={0; 1}où 0 représente l’hypothèse qu’uncrédit n’est pas accordé et 1 qu’un crédit est accordé.

(6)

l’hypothèse qu’uncrédit n’est pas accordé et 1 qu’un crédit est accordé.

Soit Xl’espace des attributs brutes où chaque dimensionx_j est un nombre réel représentant un information du style : salaire,découvert max,endettement, etc.

(7)

Reprenons un exemplehabituel :

Soit un problème de classification avecY={0; 1}où 0 représente l’hypothèse qu’uncrédit n’est pas accordé et 1 qu’un crédit est accordé.

On se doute qu’un scoredu style :

score=w₁×salaire+w₂×decouvert+w₃×endettement+b est pertinent pour décider de l’attribution du crédit..

(8)

l’hypothèse qu’uncrédit n’est pas accordé et 1 qu’un crédit est accordé.

On se doute qu’un scoredu style :

score=w₁×salaire+w₂×decouvert+w₃×endettement+b est pertinent pour décider de l’attribution du crédit.. à condition que les paramètresw₁,w₂,w₃, et b soient bien réglés !

(9)

Partir sur cette idée revient à choisir unmodèle linéaire.

.. mais, lescore n’est ni uneclasse, ni une probabilité d’appartenance à une classe.

Avec le perceptron, on avait décidé d’appliquer la fonctionsignau score :

(10)

repose sur l’hypothèse deséparabilité linéairequi n’est pas réaliste en pratique.

(11)

Adoptons une solution plus réaliste :

y n’est pas directement déductible de score(x).

On autorise donc des réponsesbruitées et on cherchep_Y|score(x). CommeY|X=xest binaire, on sait queY|X=x∼Ber(µ(x)) avec µ∈[0; 1].

Pourquoi ne pas faire en sorte que le scoresoit la probabilité d’appartenance à la classe 1 ?

score(x) =µ(x). (1)

Il suffit de faire en sorte que score(x)∈[0; 1] !

(12)

(13)

Une fonction qui permet d’obtenir cela est la fonction sigmoïde.

La fonctionsigmoïde sgmest une fonction continue de R dans [0; 1], telle que

sgm(z) = 1

1 +e^−z. (2)

(14)

telle que

sgm(z) = 1

1 +e^−z. (2)

Voici le graphe de la fonctionsigmoïde :

-1 1

1

z sgm(z)

(15)

Le modèle complet de la régression logistiqueest :

Y|X=x ∼ Ber(sgm(score(x))), (3)

⇔Y|X=x ∼ Bersgmw^T·x+b (4)

(16)

θ=



 w1

... w_d

b





(5)

(17)

Soit θ le vecteur qui contienttous les paramètresdu modèle :

θ=





 w1

... w_d

b







(5)

Selon le modèle de la régression logistique, quelle valeur deθexplique le mieux l’observation d’un couple x⁽ⁱ⁾,c⁽ⁱ⁾?

(18)

θ=



 w1

... w_d

b





(5)

Selon le modèle de la régression logistique, quelle valeur deθexplique le mieux l’observation d’un couple x⁽ⁱ⁾,c⁽ⁱ⁾?

−→ Celle qui maximise p_Y_|X=x(i);θ

c⁽ⁱ⁾=







sgmw^T ·x+b sic⁽ⁱ⁾= 1

1−sgmw^T ·x+b sic⁽ⁱ⁾= 0. (6)

(19)

Reformulons sous une forme plus compacte : p_Y_|X=x(i);θ

c⁽ⁱ⁾=sgmw^T ·x⁽ⁱ⁾+b^c

(i)

×1−sgmw^T·x⁽ⁱ⁾+b^1−c

(i)

. (7)

(20)

p_Y_|X=x(i);θ c⁽ⁱ⁾ =sgm w^T ·x⁽ⁱ⁾+b × 1−sgm w^T·x⁽ⁱ⁾+b . (7)

Selon le modèle de la régression logistique, quelle valeur deθexplique le mieux tout mon ensemble d’apprentissage ?

(21)

Reformulons sous une forme plus compacte : p_Y_|X=x(i);θ

c⁽ⁱ⁾=sgmw^T ·x⁽ⁱ⁾+b^c

(i)

×1−sgmw^T·x⁽ⁱ⁾+b^1−c

(i)

. (7)

−→ Celle qui maximise la vraisemblance :

(22)

p_Y_|X=x(i);θ c⁽ⁱ⁾ =sgm w^T ·x⁽ⁱ⁾+b × 1−sgm w^T·x⁽ⁱ⁾+b . (7)

−→ Celle qui maximise la vraisemblance : L(θ) =

n

Y

i=1

sgmw^T·x⁽ⁱ⁾+b^c

(i)

×1−sgmw^T ·x⁽ⁱ⁾+b^1−c

(i)

(8)

(23)

Passons à la NLL(θ) =

−

n

X

i=1

c⁽ⁱ⁾logsgmw^T·x⁽ⁱ⁾+b+1−c⁽ⁱ⁾log1−sgmw^T ·x⁽ⁱ⁾+b. (9)

(24)

−^X

i=1

c⁽ⁱ⁾logsgmw^T·x⁽ⁱ⁾+b+1−c⁽ⁱ⁾log1−sgmw^T ·x⁽ⁱ⁾+b. (9) Cette équation peut s’interprêter comme l’entropie croiséemoyenne entre :

la distribution empirique des classes pour le seul échantillon c⁽ⁱ⁾ : ˆ

p⁽ⁱ⁾(c) =I_c⁽ⁱ⁾(c) et

(25)

−

n

X

i=1

la distributionprédite par notre modèle p_Y_|X=x(i);θ(c) =Berf_θx⁽ⁱ⁾.

(26)

−^X

i=1

la distributionprédite par notre modèle p_Y_|X=x(i);θ(c) =Berf_θx⁽ⁱ⁾.

NLL(θ) =

n

X

i=1

Hpˆ⁽ⁱ⁾, p_Y_|X=x(i);θ

, (10)

= n×Err_train (11)

(27)

−

n

X

i=1

c⁽ⁱ⁾logsgmw^T·x⁽ⁱ⁾+b+1−c⁽ⁱ⁾log1−sgmw^T ·x⁽ⁱ⁾+b. (12) Posons :

x⁽ⁱ⁾₊ =





 x₁⁽ⁱ⁾

... x_d⁽ⁱ⁾

1







(13)

On a NLL(θ)

=−

n

X

i=1

c⁽ⁱ⁾log 1 1 +e^−θ^T^·x⁽ⁱ⁾⁺

!

+1−c⁽ⁱ⁾log 1− 1 1 +e^−θ^T^·x⁽ⁱ⁾⁺

! . (14)

(28)

n

X

i=1

c⁽ⁱ⁾log

1 +e^−θ^T^·x⁽ⁱ⁾⁺

−1−c⁽ⁱ⁾log

e^−θ ^·x⁺ 1 +e^−θ^T^·x⁽ⁱ⁺⁾

. (15)

(29)

Au final,

NLL(θ) =

n

X

i=1

1−c⁽ⁱ⁾ θ^T ·x⁽ⁱ⁾₊−logsgmθ^T·x⁽ⁱ⁾₊. (16)

(30)

NLL(θ) =^X

i=1

1−c⁽ⁱ⁾ θ^T ·x⁽ⁱ⁾₊−logsgmθ^T·x⁽ⁱ⁾₊. (16) Cette fonction estconvexemais il n’y pas de solution explicite au problème de minimisation :

arg min

θ

NLL(θ).

(31)

Au final,

NLL(θ) =

n

X

i=1

1−c⁽ⁱ⁾ θ^T ·x⁽ⁱ⁾₊−logsgmθ^T·x⁽ⁱ⁾₊. (16) Cette fonction estconvexemais il n’y pas de solution explicite au problème de minimisation :

arg min

θ

NLL(θ).

On va donc devoir utiliser unalgorithme d’optimisation.

(32)

(33)

Modèles linéaires :bilan

Régression Linéaire Perceptron Régression Logistique

(34)

Régression Linéaire Perceptron Régression Logistique f_θ(x) w^T·x+b signw^T·x+b sgmw^Tvx+b Pred.

(35)

Régression Linéaire Perceptron Régression Logistique f_θ(x) w^T ·x+b signw^T ·x+b sgmw^Tvx+b Pred.

Tâche Régression Classification Classification

(36)

Sortie valeur classe proba de classe

(37)

Sortie valeur classe proba de classe

Perte Quadratique 0-1 Entropie croisée

(38)

Régression Linéaire Perceptron Régression Logistique

(39)

Plan du chapitre

4 Conclusions

(40)

Impossible de calculer le MLE analytiquement.

(41)

Retour à larégression logistique : Prochain défi :minimiser la NLL

Impossible de calculer le MLE analytiquement.

On va utiliser unedescente de gradient.

(42)

Pause Optim!

(43)

Minimisation de la NLL pardescente de gradient

Pause Optim!

Cet algorithme repose sur une mise à jouritérative deθ selon : θ_t+1 ←−θ_t−η× d

dθNLL(θ),

(44)

Pause Optim!

Cet algorithme repose sur une mise à jouritérative deθ selon : θ_t+1 ←−θ_t−η× d

dθNLL(θ), avecη un paramètre de convergence, appelélearning rate.

(45)

Minimisation de la NLL pardescente de gradient : principe graphique

Pause Optim!

(46)

Pause Optim!

Quand η est bien choisi, l’algorithme fonctionne ainsi :

(47)

Pause Optim!

Quand η est bien choisi, l’algorithme fonctionne ainsi :

(48)

Pause Optim!

(49)

Pause Optim!

Quand η est choisitrop petit:

(50)

Pause Optim!

Quand η est choisitrop petit:

(51)

Pause Optim!

(52)

Pause Optim!

Quand η est choisitrop grand :

(53)

Pause Optim!

Quand η est choisitrop grand :

(54)

Pause Optim! Même explication en2D

(55)

Pause Optim!

(56)

Pause Optim!

N’y a-t-il pas un moyen intelligent de choisirη?

(57)

Pause Optim!

N’y a-t-il pas un moyen intelligent de choisirη? Oui, en le rendant itératif selon :

η_t = η

d²

dθ²NLL(θ_t) (17)

(58)

Pause Optim!

ηt=η× d²

dθ²NLL(θt)

!−1

(18)

(59)

Pause Optim!

Cette façon de calculer ηt est appeléeméthode de Newton.

(60)

Pause Optim!

Le scalaireη est en général fixé à 1.

(61)

Pause Optim!

d²

dθ²NLL(θ_t) est en général une matrice dite Hessienne.

(62)

Pause Optim!

d²

Elle peut converger vers un max si la fonction n’estpas convexe.

(63)

Pause Optim!

d²

L’inversion et le calcul du Hessien peut êtrecouteux.

(64)

Pause Optim!

d²

L’inversion et le calcul du Hessien peut êtrecouteux.

Ca peut déraper si les dérivées secondes sont trop approximatives (matrice non définie).

(65)

Retour à larégression logistique :minimisationla NLL par la méthode de Newton

La logregest le cas idéal pour Newton :

Les dérivées1ères et 2ndes sontfaciles à calculer. item La NLL est convexedonc la convergence est assurée.

(66)

On avait obtenu NLL(θ) =

n

X

i=1

1−c⁽ⁱ⁾ θ^T ·x⁽ⁱ⁾₊−logsgmθ^T·x⁽ⁱ⁾₊. (19) On montre alors que

∂

∂wj

NLL(θ) = −

n

X

i=1

x_j⁽ⁱ⁾c⁽ⁱ⁾−sgmθ^T·x⁽ⁱ⁾₊, (20)

∂

∂bNLL(θ) = −

n

X

i=1

c⁽ⁱ⁾−sgmθ^T·x⁽ⁱ⁾₊ (21)

(67)

Régression logistique :minimisationla NLL par la méthode de Newton Calcul des dérivées1ères (gradient) sous forme matricielle:

(68)

Soit errle vecteur rassemblant les écarts entre prédiction et réalité pour tous les éléments de D:

err=







sgmθ^T ·x⁽¹⁾₊ −c⁽¹⁾ ...

sgmθ^T ·x⁽ⁿ⁾₊ −c⁽ⁿ⁾







. (22)

(69)

Soit errle vecteur rassemblant les écarts entre prédiction et réalité pour tous les éléments de D:

err=







sgmθ^T ·x⁽¹⁾₊ −c⁽¹⁾ ...

sgmθ^T ·x⁽ⁿ⁾₊ −c⁽ⁿ⁾







. (22)

Introduisons également une matriceX qui aggrègetous les vecteurs d’exemple d’apprentissage en y ajoutant une ligne de ”1“ à la fin :

X=











x⁽¹⁾





 · · ·





x⁽ⁿ⁾







1 · · · 1







. (23)

(70)

d

dθNLL(θ) =X·err. (24)

(71)

d

Pour les dérivées2ndes, on a : d²

dθ²NLL(θ) =X·S·X^T , (25)

(72)

d

Pour les dérivées2ndes, on a : d²

dθ²NLL(θ) =X·S·X^T , (25) avec

S=







f_θx⁽¹⁾ 1−f_θx⁽¹⁾ 0 . ..

0 fθ

x⁽ⁿ⁾ 1−fθ

x⁽ⁿ⁾





 (26)

(73)

Régression logistique :minimisationla NLL par la méthode de Newton Bilan sous forme matricielle: la màj se fait selon

θ_t+1←−θ_t−XSX^T⁻¹X·err. (27)

(74)

Bilan sous forme matricielle: la màj se fait selon

θ_t+1←−θ_t−XSX^T⁻¹X·err. (27)

Cette approche est équivalente à une autre appelée IRLS (iteratively reweighted least squares).

(75)

Régression logistique : extensionmulti-classes

Supposons à présent un problème à plus de 2 classes :]C=`≥3.

(76)

Exemple : autorisation de carte bancaire

C={refus,electron,standard,gold}

(77)

Le modèle Y|X =x∼Ber(score(x)) ne convient plus !

(78)

Le modèle Y|X =x∼Ber(score(x)) ne convient plus ! On doit passer àY|X =x∼Cat(π(x)) avec

π(x) =F













score₁(x) ... score_`(x)











 (28)

(79)

Le modèle Y|X =x∼Ber(score(x)) ne convient plus ! On doit passer àY|X =x∼Cat(π(x)) avec

π(x) =F













score₁(x) ... score_`(x)











 (28) et

score_i(x) =w^T_i ·x+bi. (29)

(80)

i

π contenant des probabilités?

(81)

Quelle fonctionF peut envoyer les scoresw^T_i ·x+b_i vers un vecteur π contenant des probabilités?

→ la fonctionsmaxsoftmax peut faire cela :

smax(x;Θ) =







expw^T₁·x+b1

P`

k=1exp(^w^T_k^·x+bk) ...

expw^T_`·x+b_`

P`

k=1exp(^w^Tk·x+b_k)







(30)

(82)

i

smax(x;Θ) =







expw^T₁·x+b1

P`

k=1exp(^w^T_k^·x+bk) ...

expw^T_`·x+b_`

P`







(30)

Θ est une matrice rassemblant tous lesparamètres.

(83)

Quelle fonctionF peut envoyer les scoresw^T_i ·x+b_i vers un vecteur π contenant des probabilités?

smax(x;Θ) =







expw^T₁·x+b1

P`

k=1exp(^w^T_k^·x+bk) ...

expw^T_`·x+b_`

P`







(30)

Elle généralise lasigmoïde.

(84)

i

smax(x;Θ) =







expw^T₁·x+b1

P`

k=1exp(^w^T_k^·x+bk) ...

expw^T_`·x+b_`

P`







(30)

Elle généralise lasigmoïde.

Elle appartient à la famille des distributions de Boltzmann.

(85)

Régression logistique : extensionmulti-classes D’où vient le nom softmax?

(86)

Supposons `= 3 et

w^T₁ ·x+b1 = 0.1 (31) w^T₂ ·x+b2 = 0.1 (32) w^T₃ ·x+b₃ = 100 (33)

(87)

Régression logistique : extensionmulti-classes D’où vient le nom softmax?

Supposons `= 3 et

w^T₁ ·x+b1 = 0.1 (31) w^T₂ ·x+b2 = 0.1 (32) w^T₃ ·x+b₃ = 100 (33) On aurait alors :

smax(x;W)≈





 0 0 1





 (34)

(88)

Supposons `= 3 et

w^T₁ ·x+b1 = 0.1 (31) w^T₂ ·x+b2 = 0.1 (32) w^T₃ ·x+b₃ = 100 (33) On aurait alors :

smax(x;W)≈





 0 0 1





 (34)

En conclusion, quand une classei a un gros score pour l’exemplex la proba quey =i est proche de 1.

(89)

Régression logistique : extensionmulti-classes Schématiquement, ça donne :

(90)

(91)

Régression logistique : extensionmulti-classes Qu’advient-il des paramètres?

(92)

(93)

(94)

(95)

DoncΘ=

(96)

(97)

Qu’advient-il des paramètres? Regardons de plus près ...

(98)

C’est comme si une des sorties du softmax de servait à rien !

(99)

On peut montrer que pour tout vecteurψ de même taille que les θ_i, si la matriceΘ^∗ minimise la NLL alors, la matrice suivant aussi :

Θ^∗−











 ψ





. . .





 ψ











 (35)

Par convention, on choisit ψ=θ_` et on supprime la dernière colonne deΘ dans le problème de minimisation de la NLL.

(100)

Θ^∗−











 ψ





. . .





 ψ











 (35) Par convention, on choisit ψ=θ_` et on supprime la dernière colonne deΘ dans le problème de minimisation de la NLL.

(101)

Θ^∗−











 ψ





. . .





 ψ











 (35) Par convention, on choisit ψ=θ_` et on supprime la dernière colonne deΘ dans le problème de minimisation de la NLL.

(102)

(103)

Régression logistique : extensionmulti-classes Qu’advient-il de la descente de gradient?

La même approche reste valable, mais les dérivées sont plus nombreuses.

(104)

La même approche reste valable, mais les dérivées sont plus nombreuses.

Le plus simple est de calculer à chaque itération t, les dérivées séparemment pour chaque vecteurθi selon :

∂

∂θi

NLL(Θ) =−

n

X

j=1

x^(j)Ii

y^(j)−π_i (36)

(105)

Plan du chapitre

4 Conclusions

(106)

(107)

Régression logistique etBig Data

Imaginons que n=10⁹ (ex : nombre d’utilisateurs de Facebook).

(108)

Pour une itération de ladescente de gradient, je dois calculer : d

(109)

Régression logistique etBig Data

Imaginons que n=10⁹ (ex : nombre d’utilisateurs de Facebook).

Pour une itération de ladescente de gradient, je dois calculer : d

Problème : la matriceX ne tient pas sur ma mémoire :

X=











 x⁽¹⁾





. . . .





 x⁽¹⁰⁹⁾













(38)

(110)

d

dθNLL(θ) =X·err=

n

X

i=1

err_i ×x⁽ⁱ⁾. (39)

(111)

Régression logistique etBig Data Reformulons ce calcul matriciel :

d

n

X

i=1

err_i ×x⁽ⁱ⁾. (39) Bonne nouvelle: je n’ai pas besoinde charger en mémoiretous mes exemples d’un coup !

(112)

d

n

X

i=1

mais finalement... pourquoi attendred’avoir vu tous mes exemples pour mettre à jourθ?

(113)

Régression logistique etBig Data Reformulons ce calcul matriciel :

d

n

X

i=1

Peut on faire la màj exemple par exemple selon :

θ_t+1←−θ_t−η_t×err_i ×x⁽ⁱ⁾? (40)

(114)

d

n

X

i=1

Peut on faire la màj exemple par exemple selon :

θ_t+1←−θ_t−η_t×err_i ×x⁽ⁱ⁾? (40)

→ Oui, ça s’appelle faire unedescente de gradient stochastique.

(115)

Régression logistique etBig Data :gradient stochastique Pourquoi stochastique?

(116)

Imaginons tirerU ∼ U_{1;n} uniformément afin de choisir au hasard une de nos donnéesx^(U).

(117)

Le gradient de l’erreur pour cet exemple est donc

g(U) =err_U×x^(U). (41)

(118)

g(U) =err_U×x^(U). (41)

Prenons l’espérance sous la loi de U : EU[g] =

n

X

u=1

erru×x^(u)pU(u), (42)

=

(119)

g(U) =err_U×x^(U). (41)

Prenons l’espérance sous la loi de U : EU[g] =

n

X

u=1

erru×x^(u)pU(u), (42)

=

Le gradientqu’on cherche est l’espérance de celui pris sur un exemple au hasard.

(120)

θ