Perceptron

(1)

Introduction à Machine Learning

Massih-Reza Amini

UniversitéGrenobleAlpes(UGA) Laboratoired’InformatiquedeGrenoble(LIG)

(2)

Qu’allez vous apprendre dans ce cours?

q Fondement des premiers modèles réseaux de neurones artificiels:

q Modèle Formel de neurone naturel, q Premiers modèles de prédictions

q Implémentation de ces modèles et leur évaluation (projet sous forme de TPs)

Massih- [email protected] Informatique et aléatoire

(3)

Premières tentatives pour construire un neurone artificiel

Tout a débuté à la fin du 19^eme siècle avec les travaux de Santiago Ramón y Cajal qui a représenté le

neurone naturel

(4)

Qu’est ce qu’un neurone?

(5)

MuCulloch & Pitts formal neuron (1943)

x1

x2

xd

b w1

b w2

b wd

Σ

^H(.)^¯

w₀

Output Signals

synaptic weights

q Fonction calculée par le neurone artificiel hw:R^d → R

x 7→ ⟨w,¯ x⟩+w0

(6)

Perceptron, Rosenblatt (1958)

(7)

Perceptron, Rosenblatt (1958)

x1

x2

xd

b w1

b w2

b wd

Σ

^H(.)^¯

w₀

Output Signals

synaptic weights

q Fonction de sortie

h_w :R^d → R

x 7→ ⟨w¯,x⟩+w₀

(8)

Perceptron, Rosenblatt (1958)

q Fonction de prédiction linéaire h_w :R^d → R

x 7→ ⟨w¯,x⟩+w₀

q Trouve les paramètres w = ( ¯w,w0) en minimisant la distance d’un exemple mal-classé à la frontière de décision.

¯ w hw(x)

=⟨w¯ ,x⟩+

w 0=

0

b

|hw(x)|

||w¯||

x

x_p

(9)

Trouver les paramètres du modèle

q La fonction objectif: minimiser la distance d’un exemple mal classé (x,y) par rapport à l’hyperplan séparateur

Lˆ(w) =−y(⟨w,¯ x⟩+w₀)

q Les dérivées de Lˆ(w) par rapport aux paramètres

∂Lˆ(w)

∂w0

= −y,

∇Lˆ( ¯w) = −yx

q Perceptron: Mise à jour en-ligne des paramètres

∀(x,y), si y(⟨w,¯ x⟩+w₀)≤0 alors (w₀

¯ w

)

← (w₀

¯ w

) +η

(y yx

)

(10)

Trouver les paramètres du modèle

b(x1,+1)

b(x2,+1)

w^(t)

rs(x3,−1)

rs(x4,−1)

b

w^(t) w^(t+1)

−x3

rs

(11)

Perceptron (algorithme)

Algorithm 1 L’algorithme de perceptron

1: Base d’apprentissageS={(x_i,y_i)|i∈ {1, . . . ,m}}

2: Initialiser les poidsw⁽⁰⁾←0 3: t←0

4: Pas d’apprentissage η >0 5: repeat

6: Choisir aléatoire un exemple(x^(t),y^(t))∈S 7: ify⟨

w^(t),x^(t)⟩

<0 then 8: w₀^(t+1)←w₀^(t)+η×y^(t) 9: w^(t+1)←w^(t)+η×y^(t)×x^(t) 10: end if

11: t←t+1 12: until t>T

+ Est-ce que cet algorithme converge?