• Aucun résultat trouvé

i Critère global

On s’intéresse maintenant aux critères globaux de la forme [1] suivante :

C = E

x

( J(x

,

w ) ) (3.1)

x

est un vecteur représentant les conditions extérieures ou les exemples, et

w

, un vecteur de paramètres qui doivent être adaptés.

On note

E

x

(•)

l’espérance mathématique associée à la variable aléatoire

x

. Cette formule peut s’écrire sous forme intégrale en introduisant la densité

p(x)

de probabilité associée à la variable aléatoire

x

.

C = ∫ ˚J(x

,

w

˚

)p(x)dx (3.2)

La fonction

J(x,w)

est le critère local, c’est à dire la mesure peu fiable du critère global sur un seul exemple. Notons également que l’on connait analytiquement

J(x,w),

mais que la densité

p(x)

est habituellement inconnue.

i i Illustration.

Prenons le cas d’un perceptron multi-couches comportant une seule sortie, chargée de classer les entrées en deux classes. Les vecteurs

x

auront donc la forme

(X, C)

X

est un vecteur d’entrée et

C

un nombre

-1

ou

+1

représentant la classe.

Si on note

ƒ( X ,w)

la sortie du perceptron multi-couches en fonction de l’entrée

X

et des poids

w

, on a

1 Tsypkin Ya.: Foundations of the Theory of Learning Systems - Mathematics in science and engineering, vol 101, Academic Press, (1973)

C = E

(X,C)

( ˚( C -ƒ( X ,w))

2

˚ ˚ = ˚ ) ∫ ˚( C -ƒ( X ,w))

P( C|X )p( X )˚d C d X ˚(3.3)

ce qui est bien de la forme (3.1).

On remarquera également que l’information “

X

˚appartient˚à˚la˚classe

C

” est exprimée uniquement par la probabilité

P

(

C

|

X

) qui multipliée par

p

(

X

) représente la densité des couples

(X, C).

Il est donc essentiel de considérer que

p(x)

est inconnue.

Il suffit de consulter les dizaines d’algorithmes proposés dans [1] pour se persuader de la généralité de ce formalisme.

3.1.2.2 Descente stochastique de gradient.

On se propose maintenant d’optimiser (3.2)

Inf

w

˚J(x

,

w

˚

)p(x)dx (3.4)

L’algorithme classique de descente de gradient pour (3.4), que l’on nomme ici gradient total ou gradient déterministe, consiste à itérer

w

t

= w

t-1

- ε

t

∇C(w

t-1

) = w

t-1

- ε

t

∇ ( ˚˚J(x

,

w

t-1˚

)p(x)dx˚ ) (3.5)

en notant le gradient par rapport aux paramètres

w

à l’aide de l’opérateur nabla “

.

Dans cette équation, le gain

ε

t peut être soit un réel positif, soit une matrice symétrique définie positive.

Cependant, nous avons déjà souligné que

p(x

) est inconnue. On souhaite donc approcher (3.5) en estimant le gradient à l’aide d’un échantillon d’exemples

{x

k

}

indépendants.

w

t

= w

t-1

- ε

t

∇C(w

t

) ≈ w

t-1

- ε

t N

k=1 N

˚ ∇J(x

k,

w

t-1˚

) (3.5’)

En effet, si

∇J(x,•)

est intégrable, la loi des grands nombres nous apprend que la moyenne empirique des gradients de

J

converge vers leur espérance mathématique. En outre, lorsque

J

est différentiable, et que son gradient est intégrable, l’espérance du gradient est égal au gradient de l’espérance.

1 N

k=1 N

∇J(x

k,

w

t-1

p.s.

N→∞

˚E

x

(∇J(x

,

w

t-1

)) = ∇E

x

(J(x

,

w

t-1

)) = ∇ ∫ ˚J(x

,

w

t-1

)p(x)dx

1 Tsypkin Ya.: Adaptation and Learning in Automatic systems - Mathematics in science and engineering, vol 73, Academic Press, (1971)

L’algorithme de descente de gradient stochastique˚est une simplification de (3.5’). Il consiste à tirer, à chaque étape, un exemple

x

t, et à appliquer

w

t

= w

t-1

- ε

t

∇J(x

t,

w

t-1

) (3.6)

L’algorithme de gradient stochastique présente un grand avantage: Il ne requiert ni de connaître

p(x)

, ni de l’évaluer sur un échantillon. C’est le comportement moyen de l’algorithme qui tient lieu d’évaluation de

p(x)

.

Cependant, rien n’assure a priori que la procédure (3.6) converge vers un minimum de

C

. Chaque pas de gradient, lorsque

ε

t est assez petit, a pour effet de réduire la valeur de

J(x

t

,w)

pour une situation

x

t donnée. Cela ne réduit pas en général

J(x,w)

pour toutes les situations

x

, et donc ne réduit pas nécessairement l’erreur globale

C

.

On distinguera deux cas concernant le paramètre εt, dit pas de gradient:

Le cas à pas fixe. Le pas de gradient possède une norme faible, mais reste constant. C’est le cas privilégié pour les algorithmes d’adaptation, qui doivent conserver une capacité à suivre de lentes évolutions des conditions extérieures.

Le cas à pas décroissant. La norme du pas de gradient εt˚décroît au fur et à mesure de l’apprentissage, et tend vers 0. On dispose dans ce cas de théorèmes généraux de convergence.

C’est le cas des algorithmes d’apprentissage, pour lesquels on désire obtenir la meilleure solution.

On considère souvent des pas décroissants satisfaisant les conditions

t=0 +∞

˚ | ε

t

|˚= + ∞ , ˚ ˚ ˚ ˚ ˚ ∑

t=0 +∞

˚| ε

t

|

2˚

< + ∞ (3.7)

qui (cf.˚§3.3), constituent une hypothèse fréquente dans les théorèmes de convergence.

3.1.2.3 Problèmes de régularité.

Il est fréquent en pratique que

J(x,•)

soit non différentiable sur un ensemble de mesure nulle. Or, il n’est pas nécéssaire que

∇J

soit strictement le gradient de

J

. Il suffit en effet dans les théorèmes de convergence (3.36) et (3.46), que

∇J

vérifie la condition ci-dessous

∀w, E

x

(∇J(x

,

w)) = ∇E

x

(J(x

,

w)) = ∇C (3.8)

Lorsque

J

possède une différentielle intégrable, les propriétés générales des intégrales de Lebèsgue assurent que (3.8) est vérifiée.

Si

J

est non différentiable sur un ensemble de mesure nulle, le théorème de la convergence dominée fournit une condition suffisante pour (3.8): Il suffit que les accroissements de

J

soient majorés au voisinage de tout point

(x,w)

par une fonction intégrable

Θ(x,w)

:

∀x,w, ∀h∈ V (0) 1

|h| ( J(x,w+h) - J(x,w) ) < Θ(x,w)

intégrable

(3.9)

Cette condition suffisante permet de conclure dans la plupart des cas.

3.1.3 Hypothèses asymptotiques et généralisation.

L’étude d’un tel algorithme n’est pas séparée du problème de généralisation. On peut distinguer au moins trois façons d’étudier cette convergence:

Dans l’étude ordinaire de la convergence, on suppose que l’on dispose d’un nombre

K

fini d’exemples

x

k. On applique alors l’algorithme (3.6) à des exemples tirés au hasard dans cet ensemble.

On étudie en fait la convergence de l’algorithme, appliqué à la minimisation d’une fonctionnelle empirique

C ~

En fait, on désire seulement prouver que notre algorithme peut apprendre les

K

exemples dont on disposait.

Dans l’étude asymptotique, qui est l’objet de ce chapitre, on suppose que l’on tire chaque fois un exemple issu d’une distribution de probabilité inconnue

p(x)

. On désire alors montrer que l’algorithme (3.6) converge vers un minimum de la fonctionnelle réelle

C

définie sur cette distribution sous-jacente inconnue (3.2).

Dans l’étude de la généralisation, on suppose que l’on tire par avance un ensemble fini d’exemples, et que l’on applique à nouveau l’algorithme (3.6) à des exemples tirés au hasard dans cet ensemble. On souhaite alors montrer que la convergence de l’algorithme (3.6) vers un minimum de la fonctionnelle empirique

C ~

, s’accompagne de la convergence de

C

vers une valeur proche de son minimum.

Dans l’étude asymptotique, comme dans l’étude de la généralisation, on étudie la convergence de l’algorithme vers un système ayant un comportement optimal pour l’ensemble des nouvelles situations pouvant apparaître selon la distribution

p(x)

.

L’étude asymptotique permet d’appliquer élégamment des raisonnements statistiques, pour déterminer les propriétés de ces systèmes [1]. Malheureusement, les hypothèses asymptotiques sont éloignées de la réalité: on ne dispose ni d’un temps infini ni d’un nombre d’exemples pléthorique. L’étude de la généralisation consiste à tenir compte de ces limitations de ressources.

3.2 Exemples.

Un grand nombre d’algorithmes connexionnistes (cf chp. 2) ou statistiques entrent dans le cadre général de l’algorithme stochastique décrit dans la section précédente. On retrouve ainsi des algorithmes connus, comme l’adaline, le perceptron ordinaire ou multi-couches, ou l’algorithme “k-means”.

3.2.1 Régressions et algorithmes connexionnistes.

Les algorithmes d’apprentissage de l’adaline et du perceptron multi-couches constituent deux illustrations typiques d’algorithmes du type (3.6).

Les vecteurs

x

, représentant les interactions du réseau avec l’extérieur, y ont la forme

(X, Y)

X

est un vecteur d’entrées du réseau et

Y

, le vecteur des sorties désirées associées à ces entrées.

Le réseau, adaline ou perceptron multi-couches, peut donc être représenté par une fonction

ƒ( X ,w)

, qui associe aux entrées un vecteur de sorties. On cherche alors à effectuer une régression, c’est à dire trouver la fonction

ƒ( X ,w

*

)

de

X

qui approche le plus fidèlement

Y

, selon une distance à définir.

i Adaline.

Dans le cas de l’adaline,

ƒ

possède la forme

ƒ( X ,w) = 1 1

+

(w

T

X ) (3.11)

et on se propose de minimiser

1 Le Cam L.: Asymptotic Methods in Statistical Decision Theory - Springer Series in Statistics, Springer Verlag (1986)

C = ∫ ˚( −˚w

T

X )

p( Y | X )p( X )d Y d = ˚( ˚w

T

X )

p(x )dx

(3.12)

L’algorithme stochastique correspondant est donc la règle du Delta, comparable aux la formules (2.15) et (2.21).

w

t

= w

t-1

- ε

t

∇( Y − w

t-1T

X )

2

= w

t-1

+ 2ε

t

( Y − w

t-1T

X ) X (3.13)

Remarque sur les notations: un exposant

T

représente la transposition. Un indice t représente l’indice temporel des itérations de l’algorithme.

w

t-1Test donc le transposé du vecteur de poids à l’itération précédente.