7 Younès BENNANI

(1)

Université Paris 13/Younès Bennani Traitement Informatique des Données 1

7 Younès BENNANI

ILOG 3

Traitement

Informatique des

Données

(2)

Plan du cours

- Éléments de base - le neurone - architectures - paramètres

- Critères et algorithmes d'apprentissage - Modèles connexionnistes supervisés

- Perceptron multicouches - Réseaux à fonctions radiales - Learning Vector quantization - Modèles Connexionnistes non supervisés

- Les cartes topologiques de Kohonen - ART

- Liens avec les statistiques

- Extraction et sélection de caractéristiques - Fusion de données et de décisions - Heuristiques pour la généralisation

- régularisation structurelle

- régularisation explicite et pénalisation - Applications

Livres

Neural Networks for Pattern Recognition Christopher M. Bishop

Clarendon Press - Oxford (1995)

Neural Smithing

Supervised Learning in Feedforward Artificial Neural Networks Russell D. Reed & Robert J. Marks

Massachusetts Institute of Technology Press (1999)

Pattern Recognition and Neural Networks B.D. Ripley

Cambridge University Press (1996)

Neural Networks

James A. Freeman & David M. Skapura Addison-Wesley Publishing Compagny (1991)

Adaptive Pattern Recognition and Neural Networks Yoh-Han Pao

Addison-Wesley Publishing Compagny (1989)

Neural Networks in Computer Intelligence LiMin Fu

Massachusetts Institute of Technology Press (1994)

(3)

Le Neurone Formel

1943, Mc Culloch & Pitts

Un modèle et non une copie du neurone biologique

= un processeur élémentaire caractérisé par :

• signaux d’entrée

• poids des connexions

• fonction d’activation

• état interne d’activation

• fonction de transition

• état de sortie

x

₀

, x

₁

, K , x

_n

w

_i0

, w

_i1

, K , w

_{i n}

F(x

_j

,w

_ij

)

a

_i

= F(x

_j

, w

_ij

) f (a

_i

)

z

_i

= f ( a

_i

)

x0

wi0

ai y_i

x1

xn

M

F(xj,wij) f(ai) wi1

wi n

Le Neurone Formel

x

₀

!

w

_j₀

!

z

_j

x

₁

x

_n

M

!

F( x

_i

,w

_{j i}

)

!

f (a

_j

)

!

w

_j1

!

w

_{j n}

!

a

_j

(4)

Le Neurone Produit Scalaire

x

₀

x

₁

x

_n

M

!

w

_{j i}

x

_i

i=0 n

"

ƒ ( ) x ⁼ ^e

x ! e ^! ^x e ^x + e ^! ^x

!

z

_j

!

a

_j

!

w

_j₀

!

w

_j1

!

w

_{j n}

Le Neurone Distance

x

₀

x

₁

x

_n

M ^!

w

_{j i}

" x

_i

( )

²

i=0 n

#

!

z

_j

!

a

_j

!

w

_j₀

!

w

_j1

!

w

_{j n}

(5)

Réseau Connexionniste

x

₀

x

₁

x

_n

M

z = ! ⁽ ^x, ^w)

- Architecture massivement parallèles composées d’un grand nombre de simples composants similaires, utilisés pour l’apprentissage.

- Système basé sur la coopération de plusieurs unités simples (neurones formels).

- Ce sont des unités de traitement qui reçoivent des données x en entrée et produisent une sortie y

- Un réseau se caractérise par : - son architecture

- les fonctions de ses éléments

!

z

₁

!

z

_p

M

Fonctions d’un réseau connexionniste

Le Mode Apprentissage :

Le réseau est modifié en fonction des exemples d ’apprentissage On peut modifier :

- les poids de ses connexions - son architecture

- les fonctions de transition des unités

Il existe essentiellement deux sortes d ’algorithmes d ’apprentissage : - l ’apprentissage supervisé

- l ’apprentissage non supervisé

(6)

Apprentissage Supervisé

On se donne :

- N exemples étiquetés - une architecture de réseau - des poids initiaux

On cherche, au moyen de l’algorithme

d’apprentissage à trouver des poids tels que : - les exemples sont reconnus :

- on obtient une bonne généralisation : est une réponse raisonnable pour l’entrée

x y

D

_N

= { ( x

¹

, y

¹

) ^, ( ^x

²

^,y

²

) ^, ^K ^, ( ^x

^N

^, ^y

^N

) } ^x

^k

^!"

ⁿ

^y

^k

^!"

^p

A w ₀

w ^*

y ^k = ! ( x ^k , w) y = ! ( x, w)

x

entrée sortie

! ( x, w)

Professeur

z

Sortie désirée

Sortie calculée

Apprentissage Non Supervisé

On se donne :

- N exemples non étiquetés - une architecture de réseau - des poids initiaux

D

_N

= { x

¹

, x

²

, K , x

^N

}

A w ₀

On cherche à trouver des poids tels que : - les exemples sont correctement regroupés - on obtient une bonne généralisation

w ^*

! ( x, w)

x

(7)

Mode Reconnaissance

Le réseau est utilisé pour traiter des données

- les poids et l ’architecture du réseau sont fixés

- on lui présente un exemple en entrée et le réseau calcule une sortie qui dépend de l’architecture et des poids appris.

A w ^*

z = ! ( x, w) x

La sortie peut être :

- l’étiquette de la classe (identité) Classement/Discrimination - le N° du cluster Classification/Quantification

- la valeur à prévoir Prévision

- un vecteur du même type que l’entrée Codage/Compaction

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue

Taille

Poids

Danceur de Ballet Joueur de Rugby Frontière de

décision

Classement

Taille Poids

Ballet Rugby

x

y

(8)

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue Compression

décodage

codage

x 1 x 2 x 3

x x

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue

x t-2 x t-1 x t

x t+1

Régression

(9)

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue Classification

Quantification

x x x

x

x x x

x x

x

x x

x

x x x x

x x

x

x x x

x x

x

x x

x

x x x x

x

Clustering

Apprentissage à partir d’exemples

Connaissances :

• données

• domaine But :

• Construire un système qui explique des données ou une relation pertinente liant ces données

• Estimer un modèle statistique qui a généré les données

Démarche :

• Choisir un système possédant une bonne capacité de généralisation

• Agir sur la complexité effective des modèles

(10)

Formalisme

D = { ( x

¹

, y

¹

) ^, ( ^x

²

^, ^y

²

) ^,..., ( ^x

^N

^, ^y

^N

) } ^/ ^p(x, ^y) ⁼ ^p(x ^)p(y ^/ ^x)

Données :

F = { ! ( x, w) / w "# }

Problème :

Trouver dans une famille :

Procédure :

C(w) = " L y, [ ! ( x, w) ] ^dp(x, ^y)

Risque théorique

(Erreur de généralisation)

! (x, w

^*

) =

!(x,w)

Arg min ^C(w)

Choix :

Formalisme

! ( x, w

⁺

) =

!(x,w)

Arg min ^C

emp

(w) Choix :

C

_emp

(w) = 1

N L y [

^k

, ! ( x

^k

, w) ]

k=1 N

"

Risque empirique

(Erreur d ’apprentissage)

C( w)

Le risque théorique n’est pas calculable (p(x,y) est inconnue) On ne peut pas minimiser , on utilise alors un principe d’induction.

Le plus courant = minimisation du risque empirique (MRE) :

(11)

Critères d’Optimalité

C

_emp

(w) = 1

N ( y

^k

! " ( x

^k

, w ) )

²

k=1 N

#

Mean Squarred Error : (MSE)

L ’apprentissage consiste à apprendre une association entre des vecteurs d ’entrée et des vecteurs de sortie, en minimisant l ’écart entre la sortie désirée et la sortie du réseau.

Critères d’Optimalité

P(D / M) Maximum Likelihood Estimation :

(MLE)

Il s ’agit du maximum de vraisemblance, utilisé pour les HMMs par exemple.

Il consiste à estimer la densité de probabilité d ’une distribution à partir d ’exemples.

Le critère d ’optimalité est de la forme :

Données Modèle

(12)

Critères d’Optimalité

P(D/ M) = P(x

^k

/ M)

!

k

Maximum Likelihood Estimation : (MLE)

Ce critère est non discriminant.

Sous l ’hypothèse d ’indépendance des exemples :

Max P( x

^k

/ M )

!

k

^" ^Max ^log ( ^P(x

^k

^/ ^M) ) ^" ^Min

#

k

^$ ^log ( ^P(x

^k

^/ ^M ⁾ )

#

k

Critères d’Optimalité

Maximum Mutual Information : (MMI)

MMI consiste en la maximisation de l ’information mutuelle entre les données et les différents modèles (classes)

L ’information mutuelle entre un modèle M et une donnée x est :

log P( M / x)

P(M ) = log P(x / M) P(M

_i

)P(x / M

_i

)

!

i

Ce critère est discriminant.

(13)

Critères d’Optimalité

Minimum Error : (ME)

ME consiste à minimiser directement la probabilité d ’erreur de discrimination.

L ’estimation de cette probabilité se fait d ’une manière empirique à partir d ’exemples.

Algorithmes d’Optimisation

À partir d'une configuration initiale des poids (les paramètres du modèle), une procédure de gradient modifie les valeurs de ces paramètres par des ajustements successifs qui visent à

minimiser le critère d'erreur .

La version la plus simple utilise pour cela les dérivées

premières de , c'est le cas de l'algorithme dit de la plus grande pente.

La règle d'adaptation : C

_emp

(w)

w

_ji

(t + 1) = w

_ji

(t) ! 1

N " (t) # C

_emp^k

(w)

# w

_ji

(t)

k=1 N

$ ^w

^ji

^(t ⁺ ¹⁾ ⁼ ^w

^ji

^(t) ^! ^"(t) ^# ^C

^emp

k

(w )

# w

_ji

(t)

C_emp^k (w)=

(

y^y!

"

(x^k,w)

)

²

(14)

Systèmes d’Apprentissage Supervisé

Système d!’Apprentissage Supervisé

Exemples d’apprentissage

Algorithme d ’apprentissage (Méthode d ’optimisation)

Fonction de coût

Entrée Sortie désirée

Entrée Sortie

calculée

+

-

^erreur

Adaptation des poids

x

₀

x

1

x

n

z = ! (x, w)

! y

! x

M

! z

₁

! z

_p

M

(15)

Adaline : Adaptive Linear Element

Stanford, 1960, Bernard Widrow*

x

₀

= 1 ^w

⁰

a x

₁

x

_n

M

w

_i

x

_i

i=0 n

!

w

₁

w

_n

C’est un élément linéaire adaptatif : z = w _i x _i

i =0 n

!

L ’unité x₀, dont l ’activation fixée à 1, est dite unité de biais.

Elle permet d'introduire les termes de biais dans le réseau.

* Widrow B., Hoff M.E. (1960) : « Adaptive switching circuits », IRE WESCON Conv. Record, part 4, pp. 96-104.

z = ! (x, w) = w ₀ + w _i x _i

i=1 n

"

z

f (x) =

1 si x > 0

!1 si x < 0

"

#

$

% $

Adaline : Adaptive Linear Element

z = w _i x _i

i =0 n

! ⁼ ^{w x} ^cos ^"

w

x

(16)

Adaline : Adaptive Linear Element

z = ! ( x, w) = w ₀ + w _i x _i

i=1 n

"

z = ! ( x, w) = w ₀ + w ^T x

w x ₂

x ₁ w ₀ + w ^T x = 0

l = w

^T

x w = ! w

₀

w

Adaline : Adaptive Linear Element

Sans unité de biais

x x x

x x

x x x x

x

o o o

o o

o o o

o o o x x

x x x

x x x x

x

o o o

o o

o o o

Avec unité de biais

(17)

Adaline : Adaptive Linear Element

On peut l’utiliser en discrimination (classement) entre 2 classes :

x x x

x x

x x x x

x

o o o

o o

o o o

x

ⁱ

C

₂

C

₁

!(x,w)=0

! (x,w)> 0)

! (x,w)< 0

! (x, w) = w

₀

+ w

^T

x

> 0 si x " C

₁

< 0 si x "C

2

#

$

%

&

%

Adaline : Adaptive Linear Element

Si l ’on appelle la forme prise en compte à l’itération k,

On définit le carré de l’erreur instantanée associée à la forme par : C

_Adaline^k

(w) = ( y

^k

! wx

^k

)

²

x

^k

, y

^k

( )

Sortie désirée

L’erreur quadratique globale ou (MSE) est définie comme la moyenne observée des carrés des erreurs instantanées sur l’ensemble de toutes les formes :

x

^k

, y

^k

( )

Sortie calculée : z

C

_Adaline

(w ) = 1

N C

_Adaline^k

(w)

k=1 N

!

Il existe plusieurs algorithmes d’apprentissage.

(18)

Adaline : Adaptive Linear Element

Techniques de descente de gradient (la plus grande pente) : supposons qu ’à l’instant , les poids de l ’Adaline soient et qu ’on présente la forme ,

alors les poids seront modifiés par :

Cette règle est appelée règle du gradient stochastique ou règle de Widrow-Hoff

ou règle du delta de Widrow-Hoff ou règle !-LMS (Least Mean Square)

!

w

( C

_Adaline^k

(w) ) ⁼ ^" ^C

^Adaline^k

^(w)

" w = #2 ( y

^k

# wx

^k

) ^x

^k

w(t + 1) = w(t) ! " (t)#

_w

( C

_Adaline^k

(w) )

t

Le pas du gradient Le gradient instantané

w t ( )

x

^k

, y

^k

( )

Adaline : Adaptive Linear Element

1- Tirer au hasard 2- Présenter une forme

3- Déterminer la valeur de l’écart

4- Calculer une approximation du gradient

5- Adapter les poids

Où est le pas du gradient.

6- Répéter de 2 à 4 jusqu’à l’obtention d’une valeur acceptable de l’erreur

w

₀

w t ( )

! ( ) t

e

^k

( ) t = ( y

^k

! wx

^k

)

!

w

( C

_Adaline^k

(w) ) ⁼ ^"2e

^k

^{( )} ^t ^x

^k

x

^k

, y

^k

( )

w(t + 1) = w(t) ! " (t)#

_w

( C

_Adaline^k

(w) )

(19)

Adaline : Exemples

Données : Table de vérité d ’une fonction booléenne de 2 variables

Problème :

Trouver un Adaline capable d ’apprendre la table de vérité d’une fonction booléenne de 2 variables

x

1

1 1

x

2

1 -1

y

1 1

-1 1 1

-1 -1 -1

Fonction : !(x,w)= (x

₁

ou x

₂

)

Adaline : Exemples

x

1

1 1

x

2

1 -1

y

1 1

-1 1 1

-1 -1 -1

Fonction : !(x,w)= (x

₁

ou x

₂

)

x ₂

x ₁

(20)

Adaline : Exemples

D = { ( x

¹

, y

¹

) ^, ( ^x

²

^, ^y

²

) ^,..., ( ^x

^N

^, ^y

^N

) }

x

1

1 1

x

2

1 -1

y

1 1

x

0

1 1

-1 1 1

1 -1 -1 -1

1 x

₀

= 1 ^w

⁰

a y

x

₁

x

₂

w

_i

x

_i

i=0 n

w

₁

!

w

₂

! ( x, w ) = x

₁

" x

₂

Adaline : Exemples

x

₀

= 1 ^w

⁰

a y

x

₁

x

_n

w

_i

x

_i

i=0 n

w

₁

!

w

₂

! ( x, w ) = x

₁

" x

₂

x ₂

x ₁

w ₁ x ₁ + w ₂ x ₂ + w ₀ = 0

(21)

Adaline : Exemples

x

₀

= 1 ^w

⁰

a y

x

₁

x

₂

w

_i

x

_i

i=0 n

w

₁

!

w

₂

! ( x, w ) = x

₁

" x

₂

x ₂

x ₁

w

₁

x

₁

+ w

₂

x

₂

+ w

₀

= 0

x

1

1 1

x

2

1 -1

y

1 -1

x

0

1 1

-1 1 -1

1 -1 -1 -1

1 Exercice à faire

x₀ 0.3

a

y

x1

x₂

w_ix_i

i=0 n

0.8 !

0.4

!

(

x,w

)

D = 1 1 1

!

"

# #

$

%

&

& ,1

!

"

# #

$

%

&

& ;

1 1 '1

!

"

# #

$

%

&

& , '1

!

"

# #

$

%

&

& ; 1 '1

1 !

"

# #

$

%

&

& ,1

!

"

# #

$

%

&

& ;

1 '1 '1

!

"

# #

$

%

&

& ,1

!

"

# #

$

%

&

( )

* + *

, -

* . *

Représenter dans un repère orthogonal l’ensemble des échantillons.

Utiliser l ’algorithme Adaline pour adapter les poids du modèle ("=0.1).

Donner l ’équation de l ’hyperplan séparant les deux classes.

Représenter l ’hyperplan dans le même repère orthogonal

f (x) =

1 si x > 0

!1 si x < 0

"

#

$

% $

! ( x, w ) = x

₁

" x

₂

7 Younès BENNANI