• Aucun résultat trouvé

7 Younès BENNANI

N/A
N/A
Protected

Academic year: 2022

Partager "7 Younès BENNANI "

Copied!
21
0
0

Texte intégral

(1)

Université Paris 13/Younès Bennani Traitement Informatique des Données 1

7 Younès BENNANI

ILOG 3

Traitement

Informatique des

Données

(2)

Université Paris 13/Younès Bennani Traitement Informatique des Données 3

Plan du cours

- Éléments de base - le neurone - architectures - paramètres

- Critères et algorithmes d'apprentissage - Modèles connexionnistes supervisés

- Perceptron multicouches - Réseaux à fonctions radiales - Learning Vector quantization - Modèles Connexionnistes non supervisés

- Les cartes topologiques de Kohonen - ART

- Liens avec les statistiques

- Extraction et sélection de caractéristiques - Fusion de données et de décisions - Heuristiques pour la généralisation

- régularisation structurelle

- régularisation explicite et pénalisation - Applications

Livres

Neural Networks for Pattern Recognition Christopher M. Bishop

Clarendon Press - Oxford (1995)

Neural Smithing

Supervised Learning in Feedforward Artificial Neural Networks Russell D. Reed & Robert J. Marks

Massachusetts Institute of Technology Press (1999)

Pattern Recognition and Neural Networks B.D. Ripley

Cambridge University Press (1996)

Neural Networks

James A. Freeman & David M. Skapura Addison-Wesley Publishing Compagny (1991)

Adaptive Pattern Recognition and Neural Networks Yoh-Han Pao

Addison-Wesley Publishing Compagny (1989)

Neural Networks in Computer Intelligence LiMin Fu

Massachusetts Institute of Technology Press (1994)

(3)

Université Paris 13/Younès Bennani Traitement Informatique des Données 5

Le Neurone Formel

1943, Mc Culloch & Pitts

Un modèle et non une copie du neurone biologique

= un processeur élémentaire caractérisé par :

• signaux d’entrée

• poids des connexions

• fonction d’activation

• état interne d’activation

• fonction de transition

• état de sortie

x

0

, x

1

, K , x

n

w

i0

, w

i1

, K , w

i n

F(x

j

,w

ij

)

a

i

= F(x

j

, w

ij

) f (a

i

)

z

i

= f ( a

i

)

x0

wi0

ai yi

x1

xn

M

F(xj,wij) f(ai) wi1

wi n

Le Neurone Formel

x

0

!

w

j0

!

z

j

x

1

x

n

M

!

F( x

i

,w

j i

)

!

f (a

j

)

!

w

j1

!

w

j n

!

a

j

(4)

Université Paris 13/Younès Bennani Traitement Informatique des Données 7

Le Neurone Produit Scalaire

x

0

x

1

x

n

M

!

w

j i

x

i

i=0 n

"

ƒ ( ) x = e

x ! e ! x e x + e ! x

!

z

j

!

a

j

!

w

j0

!

w

j1

!

w

j n

Le Neurone Distance

x

0

x

1

x

n

M !

w

j i

" x

i

( )

2

i=0 n

#

!

z

j

!

a

j

!

w

j0

!

w

j1

!

w

j n

(5)

Université Paris 13/Younès Bennani Traitement Informatique des Données 9

Réseau Connexionniste

x

0

x

1

x

n

M

z = ! ( x, w)

- Architecture massivement parallèles composées d’un grand nombre de simples composants similaires, utilisés pour l’apprentissage.

- Système basé sur la coopération de plusieurs unités simples (neurones formels).

- Ce sont des unités de traitement qui reçoivent des données x en entrée et produisent une sortie y

- Un réseau se caractérise par : - son architecture

- les fonctions de ses éléments

!

z

1

!

z

p

M

M

Fonctions d’un réseau connexionniste

Le Mode Apprentissage :

Le réseau est modifié en fonction des exemples d ’apprentissage On peut modifier :

- les poids de ses connexions - son architecture

- les fonctions de transition des unités

Il existe essentiellement deux sortes d ’algorithmes d ’apprentissage : - l ’apprentissage supervisé

- l ’apprentissage non supervisé

(6)

Université Paris 13/Younès Bennani Traitement Informatique des Données 11

Apprentissage Supervisé

On se donne :

- N exemples étiquetés - une architecture de réseau - des poids initiaux

On cherche, au moyen de l’algorithme

d’apprentissage à trouver des poids tels que : - les exemples sont reconnus :

- on obtient une bonne généralisation : est une réponse raisonnable pour l’entrée

x y

D

N

= { ( x

1

, y

1

) , ( x

2

,y

2

) , K , ( x

N

, y

N

) } x

k

!"

n

y

k

!"

p

A w 0

w *

y k = ! ( x k , w) y = ! ( x, w)

x

entrée sortie

! ( x, w)

Professeur

z

Sortie désirée

Sortie calculée

Apprentissage Non Supervisé

On se donne :

- N exemples non étiquetés - une architecture de réseau - des poids initiaux

D

N

= { x

1

, x

2

, K , x

N

}

A w 0

On cherche à trouver des poids tels que : - les exemples sont correctement regroupés - on obtient une bonne généralisation

w *

! ( x, w)

x

(7)

Université Paris 13/Younès Bennani Traitement Informatique des Données 13

Mode Reconnaissance

Le réseau est utilisé pour traiter des données

- les poids et l ’architecture du réseau sont fixés

- on lui présente un exemple en entrée et le réseau calcule une sortie qui dépend de l’architecture et des poids appris.

A w *

z = ! ( x, w) x

La sortie peut être :

- l’étiquette de la classe (identité) Classement/Discrimination - le N° du cluster Classification/Quantification

- la valeur à prévoir Prévision

- un vecteur du même type que l’entrée Codage/Compaction

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue

Taille

Poids

Danceur de Ballet Joueur de Rugby Frontière de

décision

Classement

Taille Poids

Ballet Rugby

x

y

(8)

Université Paris 13/Younès Bennani Traitement Informatique des Données 15

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue Compression

décodage

codage

x 1 x 2 x 3

x 1 x 2 x 3

x x

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue

x t-2 x t-1 x t

x t+1

Régression

(9)

Université Paris 13/Younès Bennani Traitement Informatique des Données 17

Utilisation des modèles connexionnistes

Grand nombre de mesures + Loi sous-jacente inconnue Classification

Quantification

x x x

x

x

x x x

x x

x

x x

x

x x x x

x x

x x

x

x

x x x

x x

x

x x

x

x x x x

x

Clustering

Apprentissage à partir d’exemples

Connaissances :

• données

• domaine But :

• Construire un système qui explique des données ou une relation pertinente liant ces données

• Estimer un modèle statistique qui a généré les données

Démarche :

• Choisir un système possédant une bonne capacité de généralisation

• Agir sur la complexité effective des modèles

(10)

Université Paris 13/Younès Bennani Traitement Informatique des Données 19

Formalisme

D = { ( x

1

, y

1

) , ( x

2

, y

2

) ,..., ( x

N

, y

N

) } / p(x, y) = p(x )p(y / x)

Données :

F = { ! ( x, w) / w "# }

Problème :

Trouver dans une famille :

Procédure :

C(w) = " L y, [ ! ( x, w) ] dp(x, y)

Risque théorique

(Erreur de généralisation)

! (x, w

*

) =

!(x,w)

Arg min C(w)

Choix :

Formalisme

! ( x, w

+

) =

!(x,w)

Arg min C

emp

(w) Choix :

C

emp

(w) = 1

N L y [

k

, ! ( x

k

, w) ]

k=1 N

"

Risque empirique

(Erreur d ’apprentissage)

C( w)

Le risque théorique n’est pas calculable (p(x,y) est inconnue) On ne peut pas minimiser , on utilise alors un principe d’induction.

Le plus courant = minimisation du risque empirique (MRE) :

(11)

Université Paris 13/Younès Bennani Traitement Informatique des Données 21

Critères d’Optimalité

C

emp

(w) = 1

N ( y

k

! " ( x

k

, w ) )

2

k=1 N

#

Mean Squarred Error : (MSE)

L ’apprentissage consiste à apprendre une association entre des vecteurs d ’entrée et des vecteurs de sortie, en minimisant l ’écart entre la sortie désirée et la sortie du réseau.

Critères d’Optimalité

P(D / M) Maximum Likelihood Estimation :

(MLE)

Il s ’agit du maximum de vraisemblance, utilisé pour les HMMs par exemple.

Il consiste à estimer la densité de probabilité d ’une distribution à partir d ’exemples.

Le critère d ’optimalité est de la forme :

Données Modèle

(12)

Université Paris 13/Younès Bennani Traitement Informatique des Données 23

Critères d’Optimalité

P(D/ M) = P(x

k

/ M)

!

k

Maximum Likelihood Estimation : (MLE)

Ce critère est non discriminant.

Sous l ’hypothèse d ’indépendance des exemples :

Max P( x

k

/ M )

!

k

" Max log ( P(x

k

/ M) ) " Min

#

k

$ log ( P(x

k

/ M ) )

#

k

Critères d’Optimalité

Maximum Mutual Information : (MMI)

MMI consiste en la maximisation de l ’information mutuelle entre les données et les différents modèles (classes)

L ’information mutuelle entre un modèle M et une donnée x est :

log P( M / x)

P(M ) = log P(x / M) P(M

i

)P(x / M

i

)

!

i

Ce critère est discriminant.

(13)

Université Paris 13/Younès Bennani Traitement Informatique des Données 25

Critères d’Optimalité

Minimum Error : (ME)

ME consiste à minimiser directement la probabilité d ’erreur de discrimination.

L ’estimation de cette probabilité se fait d ’une manière empirique à partir d ’exemples.

Algorithmes d’Optimisation

À partir d'une configuration initiale des poids (les paramètres du modèle), une procédure de gradient modifie les valeurs de ces paramètres par des ajustements successifs qui visent à

minimiser le critère d'erreur .

La version la plus simple utilise pour cela les dérivées

premières de , c'est le cas de l'algorithme dit de la plus grande pente.

La règle d'adaptation : C

emp

(w)

w

ji

(t + 1) = w

ji

(t) ! 1

N " (t) # C

empk

(w)

# w

ji

(t)

k=1 N

$ w

ji

(t + 1) = w

ji

(t) ! "(t) # C

emp

k

(w )

# w

ji

(t)

Cempk (w)=

(

yy!

"

(xk,w)

)

2

(14)

Université Paris 13/Younès Bennani Traitement Informatique des Données 27

Systèmes d’Apprentissage Supervisé

Système d!’Apprentissage Supervisé

Exemples d’apprentissage

Algorithme d ’apprentissage (Méthode d ’optimisation)

Fonction de coût

Entrée Sortie désirée

Entrée Sortie

calculée

+

-

erreur

Adaptation des poids

x

0

x

1

x

n

z = ! (x, w)

! y

! x

M

! z

1

! z

p

M

(15)

Université Paris 13/Younès Bennani Traitement Informatique des Données 29

Adaline : Adaptive Linear Element

Stanford, 1960, Bernard Widrow*

x

0

= 1 w

0

a x

1

x

n

M

w

i

x

i

i=0 n

!

w

1

w

n

C’est un élément linéaire adaptatif : z = w i x i

i =0 n

!

L ’unité x0, dont l ’activation fixée à 1, est dite unité de biais.

Elle permet d'introduire les termes de biais dans le réseau.

* Widrow B., Hoff M.E. (1960) : « Adaptive switching circuits », IRE WESCON Conv. Record, part 4, pp. 96-104.

z = ! (x, w) = w 0 + w i x i

i=1 n

"

z

f (x) =

1 si x > 0

!1 si x < 0

"

#

$

% $

Adaline : Adaptive Linear Element

z = w i x i

i =0 n

! = w x cos "

w

x

(16)

Université Paris 13/Younès Bennani Traitement Informatique des Données 31

Adaline : Adaptive Linear Element

z = ! ( x, w) = w 0 + w i x i

i=1 n

"

z = ! ( x, w) = w 0 + w T x

w x 2

x 1 w 0 + w T x = 0

l = w

T

x w = ! w

0

w

Adaline : Adaptive Linear Element

Sans unité de biais

x x x

x x

x x x x

x

o o o

o o

o o o

o o o x x

x x x

x x x x

x

o o o

o o

o o o

o o o

Avec unité de biais

(17)

Université Paris 13/Younès Bennani Traitement Informatique des Données 33

Adaline : Adaptive Linear Element

On peut l’utiliser en discrimination (classement) entre 2 classes :

x x x

x x

x x x x

x

o o o

o o

o o o

o o o

x

i

C

2

C

1

!(x,w)=0

! (x,w)> 0)

! (x,w)< 0

! (x, w) = w

0

+ w

T

x

> 0 si x " C

1

< 0 si x "C

2

#

$

%

&

%

Adaline : Adaptive Linear Element

Si l ’on appelle la forme prise en compte à l’itération k,

On définit le carré de l’erreur instantanée associée à la forme par : C

Adalinek

(w) = ( y

k

! wx

k

)

2

x

k

, y

k

( )

Sortie désirée

L’erreur quadratique globale ou (MSE) est définie comme la moyenne observée des carrés des erreurs instantanées sur l’ensemble de toutes les formes :

x

k

, y

k

( )

Sortie calculée : z

C

Adaline

(w ) = 1

N C

Adalinek

(w)

k=1 N

!

Il existe plusieurs algorithmes d’apprentissage.

(18)

Université Paris 13/Younès Bennani Traitement Informatique des Données 35

Adaline : Adaptive Linear Element

Techniques de descente de gradient (la plus grande pente) : supposons qu ’à l’instant , les poids de l ’Adaline soient et qu ’on présente la forme ,

alors les poids seront modifiés par :

Cette règle est appelée règle du gradient stochastique ou règle de Widrow-Hoff

ou règle du delta de Widrow-Hoff ou règle !-LMS (Least Mean Square)

!

w

( C

Adalinek

(w) ) = " C

Adalinek

(w)

" w = #2 ( y

k

# wx

k

) x

k

w(t + 1) = w(t) ! " (t)#

w

( C

Adalinek

(w) )

t

Le pas du gradient Le gradient instantané

w t ( )

x

k

, y

k

( )

Adaline : Adaptive Linear Element

1- Tirer au hasard 2- Présenter une forme

3- Déterminer la valeur de l’écart

4- Calculer une approximation du gradient

5- Adapter les poids

Où est le pas du gradient.

6- Répéter de 2 à 4 jusqu’à l’obtention d’une valeur acceptable de l’erreur

w

0

w t ( )

! ( ) t

e

k

( ) t = ( y

k

! wx

k

)

!

w

( C

Adalinek

(w) ) = "2e

k

( ) t x

k

x

k

, y

k

( )

w(t + 1) = w(t) ! " (t)#

w

( C

Adalinek

(w) )

(19)

Université Paris 13/Younès Bennani Traitement Informatique des Données 37

Adaline : Exemples

Données : Table de vérité d ’une fonction booléenne de 2 variables

Problème :

Trouver un Adaline capable d ’apprendre la table de vérité d’une fonction booléenne de 2 variables

x

1

1 1

x

2

1 -1

y

1 1

-1 1 1

-1 -1 -1

Fonction : !(x,w)= (x

1

ou x

2

)

Adaline : Exemples

x

1

1 1

x

2

1 -1

y

1 1

-1 1 1

-1 -1 -1

Fonction : !(x,w)= (x

1

ou x

2

)

x 2

x 1

(20)

Université Paris 13/Younès Bennani Traitement Informatique des Données 39

Adaline : Exemples

D = { ( x

1

, y

1

) , ( x

2

, y

2

) ,..., ( x

N

, y

N

) }

x

1

1 1

x

2

1 -1

y

1 1

x

0

1 1

-1 1 1

1

-1 -1 -1

1

x

0

= 1 w

0

a y

x

1

x

2

w

i

x

i

i=0 n

w

1

!

w

2

! ( x, w ) = x

1

" x

2

Adaline : Exemples

x

0

= 1 w

0

a y

x

1

x

n

w

i

x

i

i=0 n

w

1

!

w

2

! ( x, w ) = x

1

" x

2

x 2

x 1

w 1 x 1 + w 2 x 2 + w 0 = 0

(21)

Université Paris 13/Younès Bennani Traitement Informatique des Données 41

Adaline : Exemples

x

0

= 1 w

0

a y

x

1

x

2

w

i

x

i

i=0 n

w

1

!

w

2

! ( x, w ) = x

1

" x

2

x 2

x 1

w

1

x

1

+ w

2

x

2

+ w

0

= 0

x

1

1 1

x

2

1 -1

y

1 -1

x

0

1 1

-1 1 -1

1

-1 -1 -1

1

Exercice à faire

x0 0.3

a

y

x1

x2

wixi

i=0 n

0.8 !

0.4

!

(

x,w

)

D = 1 1 1

!

"

# #

$

%

&

& ,1

!

"

# #

$

%

&

& ;

1 1 '1

!

"

# #

$

%

&

& , '1

!

"

# #

$

%

&

& ; 1 '1

1

!

"

# #

$

%

&

& ,1

!

"

# #

$

%

&

& ;

1 '1 '1

!

"

# #

$

%

&

& ,1

!

"

# #

$

%

&

&

( )

* + *

, -

* . *

Représenter dans un repère orthogonal l’ensemble des échantillons.

Utiliser l ’algorithme Adaline pour adapter les poids du modèle ("=0.1).

Donner l ’équation de l ’hyperplan séparant les deux classes.

Représenter l ’hyperplan dans le même repère orthogonal

f (x) =

1 si x > 0

!1 si x < 0

"

#

$

% $

! ( x, w ) = x

1

" x

2

Références

Documents relatifs

L'existence d'une fonction entrée-sortie pour un tourbillon est un phénomène remarquable de «déterminisme macroscopique» et on se propose, dans le paragraphe suivant, de montrer

L'existence d'une fonction entrée-sortie pour un tourbillon est un phénomène remarquable de «déterminisme macroscopique» et on se propose, dans le paragraphe suivant, de montrer

□ Vrai : la pesanteur g dépend du lieu où l’on se trouve, donc le poids aussi (puisque que la masse est la même partout dans l’univers). 2/ Comment nomme-t-on la

Quand les espaces des entrées et des sorties sont multidimensionnels, la réalisation obtenue avec les invariants de Vapplication n'est pas minimale ; on donne un algorithme pour

La pente indique les distributions de classes et les coûts de faux classement pour lesquels le classificateur rouge est le même que le bleu... Université Paris 13/Younès

Université Paris 13/Younès Bennani Traitement Informatique des Données 7. Formes

« Si un ensemble de formes est linéairement séparable, alors l’algorithme d’apprentissage du Perceptron converge vers une solution correcte en un nombre fini

Université Paris 13/Younès Bennani Traitement Informatique des Données 1.. 9