Physique statistique des réseaux de neurones et de l'optimisation combinatoire

(1)

HAL Id: tel-00011866

https://tel.archives-ouvertes.fr/tel-00011866

Submitted on 9 Mar 2006

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Werner Krauth

To cite this version:

Werner Krauth. Physique statistique des réseaux de neurones et de l’optimisation combinatoire. Analyse de données, Statistiques et Probabilités [physics.data-an]. Université Paris Sud - Paris XI, 1989. Français. �tel-00011866�

(2)

DE

L’ECOLE NORMALE

SUPERIEURE

UNIVERSITE DE

PARIS-SUD

CENTRE

D’ORSAY

THESE

présentée

Pour

obtenir

Le

Titre

de

DOCTEUR

EN

SCIENCE

par

M. Wemer KRAUTH

SUJET :

_Physique

_statistique

des

réseaux

de neurones et

de

_{l’optimisation}

combinatoire

Soutenue

le 14

_juin

1989

devant la

Commission d’examen

M. Gérard TOULOUSE Président

M. Bernard DERRIDA

_Rapporteur

M.

Nicolas SOURLAS

_Rapporteur

M. Hendrik Jan HILHORST

(3)

UNIVERSITE

DE

PARIS-SUD

CENTRE

D’ORSAY

THESE

présentée

Pour

obtenir

Le Titre de DOCTEUR

EN

SCIENCE

par

M. Werner KRAUTH

SUJET :

_{Physique statistique}

des réseaux de

neurones et

de

_{l’optimisation}

combinatoire

Soutenue le

14

_juin

1989 devant la Commission d’examen

M. Gérard TOULOUSE Président M. Bernard DERRIDA

_Rapporteur

M. Nicolas SOURLAS

_Rapporteur

M. Hendrik Jan HILHORST

(4)

REMERCIEMENTS

Cette thèse a été

_effectuée

au

_Département

de

Physique

de l’Ecole

Normale

_Supérieure,

dont

_je

voudrais remercier le

directeur,

Edouard

Brézin,

et l’ensemble de ses membres. J’ai

fait

_partie

du Laboratoire de

Physique Statistique

dès son début en

1988,

et j’ai

bénéficié d’échanges

fructueux

avec le

directeur,

Pierre

Lallemand,

et la

plupart

de ses

membres.

Mon

_premier

contact avec l’ENS date du mois

_{de juin}

_1986,

à l’occasion

de la

_conférence

de

_Heidelberg

sur les verres de

spin.

Là,

j’ai

osé

parler

à

Gérard Toulouse de mon

projet

de

faire

une thèse en France. Je lui suis

profondément

reconnaissant de m’avoir

écouté,

et ensuite d’avoir

_accepté

d’être mon Directeur de thèse au

_Département

de

Physique

de l’ENS.

Tout au

long

de mon _parcours

j’ai beaucoup

estimé sa

confiance

et ses

conseils.

Si

_j’ai

eu la rare chance de _progresser

pendant

mes années de thèse à

un

rythme

égal

à celui de mes

premières

années de

physique

à

l’Université, je

le dois en

_premier

lieu à Marc Mézard. C’est lui

qui

a eu

la

_charge

de

_guider

mes recherches et de m’initier aux

problèmes

de la

physique

des

_systèmes

désordonnés. J’ai

_toujours

estimé son

grand

talent,

sa

gentillesse

et sa

patience.

J’ai

_également

entretenu les relations

_fructueuses

et amicales avec

Jean-Pierre

_Nadal,

avec

lequel

j’ai

eu des discussions

quotidiennes

pendant

une

longue

période.

Tous les travaux

_présentés

dans cette thèse sont les

_fruits

de collaborations avec M.

Mézard,

J.-P. Nadal et M.

_Opper.

Un

_grand

nombre de

résultats,

auxquels

je

me

refère

dans la thèse comme ’nos

résultats’,

sont l’aboutissement de leurs idées.

_Qu’ils

voient dans cette

thèse un

signe

de ma reconnaissance _pourleur

_{apport -}

souvent

_décisif.

(5)

scientifiques

avec B.

Derrida,

E.

Gardner,

H.

Gutfreund,

D.

d’Humières,

N.

Sourlas,

J.

_Vannimenus,

G. Weisbuch et J. Yedidia. Je remercie

H. J. Hilhorst _pouravoir

_accepté

de

_{faire partie}

de mon

jury

de thèse et

B. Derrida et N. Sourlas _pourm’avoir

_fait

l’honneur d’en être les

rapporteurs.

Je tiens aussi à remercier Cécile

Combier,

la

_responsable

du centre de calcul du

_Département

de

_Physique,

_pourdes relations sans

faille,

et pour ses conseils

toujours

bénéfiques.

Je salue ici la _sagessedu

Département

de

_Physique

de s’être doté de _moyensconsidérables _pourle calcul vectoriel.

Enfin,

je

voudrais remercier J. Vannimenus _pourson aide dans la

recherche d’un

_logement,

S.

_Großmann

_pourses bons

offices auprès

de

l’ENS et les

_{organisations}

de

_bourse,

I. Gazan et M. Manceau _pourle

tirage

de cette

_thèse,

et les

_fondations

C.

_{Duisberg Stiftung}

et

Studienstiftung

des Deutschen

Volkes,

pour m’avoir

permis

de

poursuivre

mes études.

(6)

AVANT-PROPOS

Cette thèse s’inscrit dans le cadre d’une ’industrie de

_pointe’

_essayant

de _pousser

_plus

loin les limites de la

_physique

_statistique.

En

_physique

_statistique,

les modèles abondent. Ils sont

_parfois

assez

réalistes

(comme

le modèle de

_Heisenberg

_pourles

_aimants),

_parfois

caricaturaux

_(comme

le modèle

_d’Ising),

souvent très loin de lâ réalité

physique

(caricatures

de

caricatures).

Un

_exemple

de la dernière classe

est le modèle

_gaussien

de Berlin et Kac

[1].

Les auteurs en disent: ’It is

irrelevant that the models _maybe

_far

removed

_{from physical}

_reality

_if

they

can illuminate some

of

the

complexities of

the transition

phenomena’[1].

Une universalité

_sous-jacente

_(une

sorte de continuité

dans un _espace

hypothétique

de

modèles)

lie les modèles entre _{eux ;}elle

rend

_pertinente

l’étude des

_systèmes

_simples.

Dans le cas du modèle de

Berlin et

Kac, d’ailleurs,

la

_{compréhension spectaculaire}

de cette

universalité est venue d’une révolution bien

_{postérieure,}

la théorie du

groupe de renormalisation.

Ces dernières années un

grand

intérêt a été

porté

à des modèles

collectifs dans d’autres sciences _quela

_physique,

notamment en

économie,

en

_{neurobiologie,}

ou en

informatique.

Nous _{avons, pour cette}

(7)

peuvent

être vus comme des modèles

simples

du

_comportement

du

cerveau, ou comme modèles d’une classe d’ordinateurs

parallèles.

Le

_{système particulier}

_quenous

appellerons

’modèle de

Hopfield’

consiste en un

_grand

nombre de _processeursextrêmement

simplifiés

sans mémoire et avec une seule instruction.

Chaque

_processeur

interagit

avec les autres _pardes

couplages plus

ou moins forts et se met à

jour

en

fonction de la somme de tous les

signaux

_reçus.Le modèle a surtout été

étudié comme modèle d’une mémoire associative

[2].

Par des

modifications successives des

_couplages

il est

_possible

(dans

un sens

_qui

sera défini _parla

suite)

de stocker un certain nombre de

’patterns’

dans

le réseau.

_Après

cet

_{apprentissage,}

le réseau se

rappelle

les

’patterns’

et

leur associe des états du réseau

_qui

_{sont peu}différents de l’un d’entre

eux.

Ce

_{modèle, qui}

_{est par}nature collectif et

_parallèle,

offre une vue d’un

processus de calcul

antithétique

de celle de la célèbre machine de

Turing

[3]

_qui,

elle,

est par construction

_{séquentielle.}

Cette vue est aussi

beaucoup plus

proche

de ce _quenous

imaginons

être le fonctionnement

de notre cerveau.

S’il existe une

correspondance

exacte entre la machine de

_Turing

et tout ordinateur sériel

[4],

les réseaux de neurones de nos

jours

sont

davantage

des modèles dans le sens de la

_physique

_statistique

indiqué

au

début,

c’est-à-dire

_{allégoriques, potentiellement}

_capables

d’éclaircir les

complexités

du cerveau ou d’un futur ordinateur

cellulaire,

capables

de

nous faire concevoir de nouvelles idées

_générales.

_J’espère

_quele lecteur

(8)

Pour ce texte

_j’ai

essentiellement

_reproduit

les

_{publications auxquelles}

j’ai

été associé durant mon travail de

thèse ; je

les ai en outre

_augmentées

d’introductions et de commentaires.

Le texte est

_organisé

en deux

chapitres

de volumes

inégaux,

dont le

premier

regroupe les travaux sur les réseaux de neurones, le deuxième les

_quelques

travaux sur des

problèmes

_provenant

de

l’optimisation

(9)

(10)

CHAPITRE I

RESEAUX

DE

NEURONES

1. Introduction

Le

_système

modèle

_(fig.

1)

d’une mémoire associative _quenous

étudions est constitué d’un nombre N de _{processeurs que,}suivant

_l’usage,

nous

appellerons

’neurones’.

_Chaque

neurone i

_peut

prendre

deux valeurs

03C3

i

=+1

(neurone

’actif)

ou

03C3

i

=-1

(neurone

’inactif).

Le neurone i

_peut

communiquer

son état à chacun des autres

_{neurones j}

_parun

couplage

’synaptique’

de

_poids

_Jji.

fig. 1

Système

modèle d’un

réseau de neurones, constitué de neurones

_{i=1,...,N (ici}

_N=6).

Le neurone i

_peut

communi-quer son état

_03C3

_i

_=±1

au neurone

j

par un

couplage

’synaptique’

J

(11)

Les deux

_régimes

du

_système,

_{l’apprentissage}

et le

_rappel,

sont

séparés

l’un de l’autre

(c’est-à-dire

que les échelles de

temps

de leurs

dynamiques

sont

_supposées

différentes).

Dans le

_régime

de

_rappel,

la matrice des

_couplages

est

_figée.

L’état du réseau

_pendant

la

_phase

de

rappel

est donc décrit _parle vecteur à N dimensions 03C3 donnant les états de

tous les neurones

La

_{configuration}

03C3=

03C3(t)

du réseau évolue aux intervalles de

_temps

discrets

t=0,1,...,

selon la

_dynamique

suivante:

Ceci est une

dynamique (parallèle)

de Monte Carlo à

température zéro,

qui

se

généralise

facilement à des

_{températures}

non-nulles

_[2].

Pendant

_{l’apprentissage,}

un nombre _pde

’patterns’ 03BE03BC,03BC=1,...,p

sont

présentés

au réseau. Les

_patterns

sont des

_{configurations possibles}

du

système (correspondant

à un état donné

(actif

ou

inactif)

de

chaque

neurone):

(12)

dans la

_phase

de

_rappel.

Par définition le

_{pattern 03BE03BC}

est mémorisé _parle réseau

_quand

il est un

_point

fixe de la

dynamique

_éq.

(1.2):

mémoire:

On dit _quela mémoire est en

plus

associative,

si un état initial 03C3

proche

de

_03BE03BC

(dans

un sens

_qui

sera

_précisé

_parla

suite),

est ramené vers

le

_{pattern 03BE03BC}

associativité:

c’est-à-dire si le

_{pattern 03BE03BC}

_peut

être

_récupéré

à

_partir

de données

( 03C3(t=0))

incomplètes.

Les

_paradigmes

(1.4)

et

(1.5)

sont essentiellement dus a

Hopfield

[2].

Evidemment,

les définitions de la mémoire

_peuvent

facilement être

_{généralisées}

_pourtenir

_compte

d’un taux d’erreur dans le

_rappel.

Afin de

_quantifier

les

_{possibilités}

de ces réseaux et de _comparer diverses

_{règles d’apprentissage,}

un cas d’étude extrêmement

_important

est celui des

patterns

aléatoires. Les

_patterns

_03BE03BC

sont dits

_aléatoires,

si

leurs

_composantes

sont tirées au hasard

le

_paramètre

m est le biais des

_patterns.

L’introduction d’une distribution de

_probabilité

_pourles

patterns

rend

_possible

l’étude des réseaux de

(13)

neurones dans la limite

N~~,

la limite

thermodynamique.

La

_{règle d’apprentissage}

est choisie afin de mémoriser

(c’est-à-dire

stabiliser)

les

_patterns

_03BE03BC,

et afin de les entourer de bassins d’attraction

aussi

_grands

_que

_possibles

_{(c’est-à-dire}

de

ramener

le

_plus

de

configurations

vers les

_patterns

03BE03BC).

L’analyse

que nous

présentons

dans ce

chapitre s’appuie

en

grande

partie

sur la notion de la stabilité. Cette

notion,

qui

sera introduite dans

la section suivante

_{(I.2), permet}

une discussion unifiée de la

mémorisation et de l’associativité dans le réseau de

_Hopfield.

Plus encore, la stabilité donne un critère à la fois clair et

simple

_pour

construire des

_{algorithmes d’apprentissage}

avec de très bonnes

propriétés

associatives.

_Toujours

dans la section

I.2,

un

algorithme

de

stabilité

_{optimale -}

le ’minover’ - sera

présenté.

Nous discuterons les

liens de ce nouvel

_algorithme

avec

l’algorithme

du

_perceptron

(de

vingt

ans son

aîné).

La stabilité donne un

critère,

une fonction de

_coût,

qui

_peut

être

attribuée à toute

_{règle d’apprentissage possible.}

Ceci est

_l’origine

d’une

approche

due à E.

_{Gardner, qui}

a introduit des calculs

analytiques

sur

l’espace

des

_{règles d’apprentissage.}

La section I.3 est une introduction à

cette

_approche

_{propre à}la

_{physique statistique.}

Les calculs à la Gardner

permettent

en

particulier

de déterminer

analytiquement

les

performances

de

_{l’algorithme}

’minover’. La section I.4 sera consacrée à

l’étude

_(numérique

et

_analytique)

du

_régime

de

_rappel.

Nous tâcherons

surtout

_{d’étayer l’hypothèse}

initiale selon

_laquelle

la stabilité doit être

optimisée

afin

_{d’optimiser}

les

_propriétés

associatives du réseau.

(14)

l’apprentissage,

mais cette fois-ci dans le cas où les efficacités

synaptiques

sont contraintes à

_prendre

deux valeurs

_J

_ij

_=±1.

Pour ce

système,

le rôle de la stabilité reste

_inchangé

_par

_rapport

aux

systèmes

à

couplages

_J

_ij

continus. Les

_analyses

sur la

phase

de

rappel

dans la

section I.4 restent donc valables. En

_revanche,

le calcul de la stabilité

optimale

est

_{profondément}

_changé.

D’une

_part,

le

_problème

de

l’algorithme qui

cherche un réseau de stabilité

optimale

(résolu

_parle

’minover’ dans le cas

continu)

est à ce

jour

sans solution véritable : nous

utilisons un

algorithme

d’énumération _pourestimer les valeurs de la

stabilité

_optimale

dans la limite

_{thermodynamique.}

D’autre

_part,

le

calcul à la Gardner sur

l’espace

des

règles

d’apprentissage

discrètes se

complique

nettement _parl’existence d’une

_phase

verre de

spin.

Celle-ci

nécessite l’inclusion d’effets dits de brisure de la

_symétrie

des

_répliques.

Néanmoins la double

_{approche numérique}

et

_analytique

fournit des résultats

_précis

et cohérents.

(15)

2. _{Règles d’apprentissage}

Pour les

_patterns

aléatoires non-biaisés

_(m=0),

_Hopfield

[2]

a

_proposé

un

_{algorithme d’apprentissage}

selon la

règle

de Hebb

[5]:

Il se trouve

qu’avec

cette

règle,

_pourle cas de

_{patterns aléatoires,}

on

arrive à mémoriser un nombre considérable de

_patterns

p=0.14

N avec

un très faible nombre d’erreurs.

Depuis

la

_proposition

de

_Hopfield,

ce

modèle,

utilisant des

patterns

aléatoires,

a été étudié en

grand

détail

[6].

Cette étude est facilitée _parle

fait

_qu’avec

le choix de la

_règle

de Hebb

_{éq. (1.7),}

la matrice

_(J

_ij

₎

des

connections

_synaptiques

est

_symétrique.

En

_{conséquence,}

la

_dynamique

de Monte-Carlo

_{éq. (1.2) peut}

s’écrire comme une

dynamique

de

relaxation à la

_température

_{T pour}un

système

décrit _parun

Hamiltonien;

le réseau de neurones devient alors un ’vrai’

système

physique.

Toujours

à propos de ce

problème

_{d’apprentissage,}

un

grand

nombre

d’algorithmes

différents ont été

_{proposés [7,8,9,10]}

afin d’améliorer à la fois le nombre de

_patterns

_quele modèle est

_capable

de mémoriser et les

propriétés

associatives du réseau.

Finalement,

la connexion

_profonde

du

_{problème d’apprentissage}

sur le

(16)

été révélée. En

_fait,

la condition de stabilité des

_{patterns (voir}

_éqs.

(1.2)

et

(1.4))

s’écrit comme

(la

notation

_03A3

_j(~i)

_indique

une sommation

uniquement

sur l’indice

j,

excluant le terme

_{j=i). L’équation}

_(1.8)

_équivaut

à

Dans la formule

_(1.9)

les

_patterns

_03BE

_i

_03BC

sont des

_paramètres,

tandis _queles

poids

synaptiques

_J

_ij

sont les variables

_dynamiques

de

_{l’apprentissage.}

Pour

_chaque

neurone

i,

la condition de stabilité de tous les

patterns

ne fait

intervenir _queles connexions

_J

_ij

_,

_j=1,...,N,

c’est-à-dire le vecteur de la

ième

_ligne

de la matrice

_(J

_ij

_).

Les conditions de stabilité

_éq.(1.9)

sur la

matrice

_(J

_ij

₎

se

découplent

donc en N

_systèmes

autonomes

(à

l’intérieur

des

_parenthèses

_{})

si les différentes

_lignes

de la matrice

_(J

_ij

₎

sont

indépendantes

(voir

l’article

_[I]).

Ainsi,

le

_{problème complet}

_éq.

(1.9)

de

_{l’apprentissage}

se

décompose

en

N

_systèmes

avec N-1 unités d’entrée et une seule unité de

sortie,

c’est-à-dire N

_systèmes

du

_{type perceptron :}

L’éq.

(1.10)

peut

s’écrire comme

équation

vectorielle entre le vecteur de

ligne

J =

(J

i1

,J

i2

,...,J

iN

(17)

Il est

_important

de réaliser _que

_l’éq.

(1.11)

offre une formulation

géométrique

de la mémoire

_équivalente

à la définition

_dynamique

initiale

(éq

.(1.4)) :

un vecteur J mémorise

_(au

neurone

i)

tous les

patterns 03BE03BC

si et

seulement s’il a un recouvrement

_positif

avec les

_patterns

’auxiliaires’

~03BC

(voir

fig.

2).

fig.2

L’image

géométrique

de

l’apprentissage

(voir éq. (1.11)).

Un

pattern

03BE03BC

est

_appris

_parle vecteur J si le recouvrement de J avec le

pattern

’auxiliaire’

~03BC

est

_positif.

En termes

_{géométriques}

l’apprentis-sage consiste à trouver un vecteur J

ayant

un recouvrement

_positif

avec

tous les vecteurs

_{~03BC. J}

₁

est un tel

vecteur,

_J

₂

ne l’est _pas.

Si elle

_existe,

une telle solution J

peut

être trouvée _parle célèbre

algorithme

du

_perceptron

_{[11] :}

_commençant

_parun vecteur J =

J(t=O) =

(0,0,...,0)

on

cherche,

à

chaque

instant du

_temps

d’apprentissage

t=0,1,...,

un

_pattern

~03BC qui

n’est _pasencore

appris

J(t) ·

~03BC

< 0 et on

l’ajoute

à la

solution du _pasde

_temps

_{précédent: J(t+1)=J(t)+~03BC.}

_{L’apprentissage}

est terminé

(t=M)

s’il n’existe

_plus

de

_patterns

avec recouvrement

_négatif,

le

(18)

problème

(1.11)

étant alors résolu. Le théorème de convergence du

perceptron [11]

assure _quele

_temps

_{d’apprentissage}

avec

l’algorithme

du

perceptron

est fini si et seulement si le

_problème

_(1.11)

a une solution J.

(Il

existe des méthodes basées sur la

programmation

linéaire

([12],

I)

qui

permettent

de décider en un

_temps

fini

(qui

croît comme une fonction

polynomiale

de la taille N du

_système)

si le

_problème

de

_{l’apprentissage}

n’a aucune

solution).

En

_{conséquence,}

_{l’algorithme}

du

_perceptron

serait une bonne

extension de la

_règle

de Hebb dans le modèle de

_Hopfield

[8], [13] :

pour un

problème donné,

il est

_possible

de déterminer une matrice

_(J

_ij

₎

(par

N

applications

de

_{l’algorithme}

du

_{perceptron) qui,}

stabilise tous les

patterns,

à condition

_qu’il

existe au moins une telle solution. Cet

algorithme

(comme

ses

variantes)

_convergeen

général

vers des matrices

non-symétriques

_(J

_ij

_~J

_ji

_).

Un

_signe

de sa robustesse est

_qu’il

_peut

être

modifié _pour

_préserver

la

_symétrie

de la matrice

_(J

_ij

₎

_[8]

(à

condition

_qu’il

existe une matrice

_symétrique

stabilisant tous les

_patterns).

Si les méthodes

_classiques

_permettent

_déjà

de donner une

_réponse

algorithmique

au

problème

de la

_{mémorisation,}

la

_{transcription}

d’un

autre résultat connu

depuis

les années 60

_{[14] permet}

d’établir un

résultat d’une

_{grande importance}

_{théorique :}

le nombre maximal de

patterns

aléatoires et sans biais

qui

_peuvent

être mémorisés sans erreurs

dans le modèle de

_Hopfield

se

_comporte

dans la limite N~~ comme

p~2N.

Ce résultat est

_important

en ce

qu’il

fournit une valeur de la

capacité

de mémorisation de

_patterns

aléatoires dans le modèle de

_Hopfield,

(19)

règles

ont des

_performances

restant très en

deçà

de cette

limite,

les

_règles

élaborées à

_partir

de

_{l’algorithme}

du

_perceptron

_permettent

d’atteindre la limite

_théorique

de Cover

(car

elles

_convergent

à condition

_qu’il

existe une

solution).

Notons

_enfin,

_quela limite de mémorisation de Cover

s’applique

à la mémorisation des

_patterns

stricto sensu, la limite de

mémorisation avec un faible taux d’erreurs n’étant _pasconnue.

Jusqu’ici

nous nous sommes

_préoccupés

du

problème

de la

mémorisation

_(éq.

(1.4))

des

_patterns

_03BE03BC,

laissant de côté la condition de

l’associativité

_{(éq. (1.5)), qui}

est d’une

_égale

_importance.

A

_première

vue, ceci semble être un

problème beaucoup plus compliqué.

La mémorisation

(éq.

(1.4))

des _p

_{patterns 03BE03BC}

_implique

(sur

chaque

neurone)

p conditions

sur la

_dynamique

à un _pasde

_temps

à

partir

de ces

_patterns

(ceci

est le

contenu de

_{l’équation}

(1.8)).

L’associativité

_{éq. (1.5),}

au

contraire,

correspond

à un

grand

nombre de conditions sur la

dynamique

à

plusieurs

pas de

temps

à

_partir

de toute

_{configuration}

03C3

proche

d’un des

patterns.

Nous avons

proposé

dans

ce contexte

[15],

[I]

de

considérer

des

vecteurs J dé norme fixée

(comme

|J

ij

| ~

1,

j=1,...,N;

ou

03A3

j

J

ij

2 ~

N)

vérifiant les conditions :

avec une stabilité 03BA aussi

grande

_que

_possible

_(pour

des vecteurs J de

norme

bornée):

_pourla norme du maximum

(

|J

ij

| ~

_1,

_j=1,...,N)

on voit

facilement

_[I]

_que

_{chaque configuration}

initiale 03C3

_qui

diffère du

_pattern

03BE03BC

en moins de

03BA~N/2

_positions

est ramenée vers ce

_pattern

en un _pasde

(20)

temps.

Regardons

sans restriction de

généralité

le cas où seuls les s

premiers

éléments

de 03C3 diffèrent de

03BE03BC (03C3

i

= -

,

03BC

i

03BE

i=1,...,m ;

_03C3_i₌

03BE

i

03BC

,

i=m+1,...,N).

La condition de _convergenceen un _pasde

_temps

est

(voir

éqs. (1.8), (1.9))

(à

cause de la

condition

|J

ij

|

~1).

Pour assurer la _convergenceon a donc

la condition m <

03BA~N/2.

A

_partir

d’un tel

_argument

on est conduit à rechercher des

_{algorithmes d’apprentissage optimisant}

la

stabilité,

pour

l’une ou l’autre définition de la norme du vecteur J.

L’algorithme

’minover’ _quenous _proposonsdans

[I]

est

capable

de

déterminer la solution

_J

_opt

avec stabilité

optimale

03BA

opt

parmi

tous les

vecteur J de norme euclidienne fixée

03A3

j

J

ij

2

=

N ,

c’est-à-dire de trouver

un vecteur maximisant une stabilité renormalisée

où

|J | est

la norme euclidienne de J. Cet

algorithme

est d’une certaine

importance,

car il se trouve que la stabilité

039403BC’ = J·~03BC / |J|

correspondant

à la norme euclidienne est le

_paramètre

_pertinent

_pourla

dynamique

du réseau

_proche

d’un

_{pattern 03BE03BC}

(voir

la section

1.4)

L’algorithme

’minover’ _convergevers la solution

optimale

(c’est-à-dire

un vecteur de stabilité minimale

optimale)

_{pour tout}ensemble de

(21)

fig.

3

_{L’algorithme}

’minover’ en action. A

chaque

itération t, on

ajoute

au vecteur

J(t)

le

_pattern

auxiliaire

_~03BC

ayant

un recouvrement

(22)

patterns

pour

lequel

une solution avec stabilité

positive

existe. Il est relié

à

_{l’algorithme}

du

_perceptron

en ce

qu’il

est de nature itératif

(voir

fig.

3).

A

_chaque

instant du

_temps

_{d’apprentissage}

le vecteur

J(t)

est mis à

_jour

où

~03BC(t)

est le

_{pattern ayant}

un recouvrement

minimal avec la solution

J(t) (dans

le

_perceptron

~03BC(t)

était un

_pattern

quelconque

ayant

un recouvrement inférieur à

zéro).

Le critère d’arrêt

est aussi différent de celui du

_{perceptron (voir I).}

Comme nous le verrons

plus

loin,

l’algorithme

’minover’ donne une

réponse

satisfaisante au

problème

d’une

règle d’apprentissage

créant des

(23)

3. _{Apprentissage :}

Calculs

_{analytiques d’après}

Gardner

L’algorithme

’minover’ est une

généralisation

directe

(algorithmique)

du

_perceptron.

Il est

_{également possible}

[15,16,17],

sur le

plan

théorique,

de

_{généraliser}

d’une manière substantielle les résultats

_{’classiques’}

de Cover

_[14]

sur le

_perceptron,

utilisant des méthodes _{propres à}la

physique

statistique.

La voie menant vers ces calculs

aujourd’hui

assez

répandus

a été ouverte _parE. Gardner

[15].

Nous traitons dans cette section-ci les idées

_principales

de ce calcul et de ses

_{généralisations,}

_{qui permettent}

de

déterminer _pourdes

_patterns

aléatoires

(même

biaisés)

la valeur de la

stabilité

_optimale

_03BA

_opt

_(03B1)

_[15],

la distribution des

_champs

039403BC=J

_~03BC

/

|J|

[III,18],

ainsi que le

temps

de _convergencede

_{l’algorithme}

[19].

Dans la

prochaine

section

(I.4)

nous traiterons du rôle exact de la stabilité dans

la

_dynamique.

La solution

_J

_opt

_,

_qui

se calcule avec

l’algorithme

’minover’ a, en

effet,

deux

_{propriétés :}

a)

sa stabilité est la stabilité

optimale 03BA

_opt

b)

c’est la seule solution de stabilité

_03BA

_opt

Nous nous sommes

_appuyés

sur la

première

de ces

propriétés

_pour

construire le vecteur

_J

_opt

_,

en

_proposant

des

changements

successifs

qui

faisaient

_augmenter

la stabilité.

Dans un travail tout à fait

_remarquable,

E. Gardner montre _quele

deuxième critère

(b))

peut

être utilisé _pourcalculer

_{analytiquement}

la

stabilité _pourle cas des

_patterns

aléatoires. Plus

_{précisément,}

le travail

(24)

fig. 4 L’espace f(03BA)

sur

_{l’hypersphère}

03A3

j

J

ij

2 =N

_pour_03BA=0

_(a).

_f(03BA)

_est un domaine connexe

_{(03BA>0),}

étendu sur la

surface

de la

_{sphère ;}

le

recouvrement de

deux

solutions

_J

_03B1

et

_J

_03B2

est

_{petit. L’espace}

_f(03BA)

se

rétrécit comme 03BA

_{augmente (b).}

f(03BA

opt

)

n’est

_qu’un

_point,

le recouvrement entre deux solutions est 1

_(solution

_unique)

_(c).

(25)

03A3

j

J

jj

2 =N,

c’est-à-dire

_l’espace

de tous les vecteurs J avec

|J

|

2 =N.

Dans

cet espace, le _sous-espace

_f(03BA)

de vecteurs J

_qui

stabilisent tous les

patterns

avec une stabilité ~ 03BA

_(voir

_l’éq.

(1.12) )

est connexe. Pour une

valeur de 03BA en dessous de la stabilité

optimale,

le

_{rapport V(03BA)}

entre le volume du _sous-espace

_f(03BA)

et le volume de

_{l’hypersphère}

est fini

(v.

fig.

4a).

En

_{conséquence,}

le recouvrement

_typique

de deux solutions

_J

_03B1

et

_Jp

vérifiant tous les deux cette condition

(1.12)

est

_plus

_petit

_que1

(c’est-à-dire

que

J

03B1

et

Jp

ne sont _pas

identiques,

voir

fig.

4a).

Le recouvrement

_typique

entre deux solutions se

rapproche

de 1

quand

la stabilité 03BA se

_rapproche

de la stabilité

optimale

_03BA

_opt

(v.

_fig.

4b).

Pour un ensemble de

_patterns,

comme des

_patterns

aléatoires

(éq.

(1.6)),

il est intéressant de connaître les valeurs

_typiques

du volume de

f(03BA).

Un résultat fondamental de la

_{physique statistique}

[20,

21]

prescrit

dans ce cas de _moyennersur des

_quantités

extensives du

_système.

Ici il

faut donc calculer la _moyennedu

_logarithme

de

_V(03BA)

sur un ensemble de

patterns.

(log

V(03BA)

a la dimension d’une

entropie;

en

physique statistique

c’est

_{l’entropie qui}

est une

quantité thermodynamique

extensive. Nous

reviendrons sur cette

question

à la fin de cette

section.)

Pour le calcul de la _moyenne< > du

logarithme

de

V(03BA)

sur les

_patterns

(26)

avec

où l’indice a varie de 1 à _{n ;}dans la limite N~~ on trouve

avec

Dans

_l’éq.

(1.19)

_{l’hypothèse}

de la

_symétrie

des

_répliques

est

_prise,

c’est-à-dire

_{que tous}les

_paramètres

d’ordre

_q03B103B2

sont

_supposés

_égaux

q03B103B2=q

[15]

(voir

plus

loin).

Le résultat du calcul donne dans la limite _q~1

(solution

_unique)

_pourla

_{capacité optimale}

(27)

Le calcul de Gardner

_qui

vient d’être

_présenté

en

quelques

mots

_permet

donc de

_déterminer,

_pourdes

_patterns

_aléatoires,

le

_volume

_typique

des

sous-ensembles

_f(03BA)

comme fonction de _03BA,ou

03BA

opt

,

dans la limite N~~.

Le _passagede

_{l’équation}

_(1.17)

à

_{l’équation}

(1.20)

est loin d’être

_trivial,

et

s’appuie

en

_{grande partie}

sur les

progrès

des dix

dernières

années en

physique statistique

des

_systèmes

désordonnés : la méthode des

_répliques

[22] (ici

le désordre est réalisé _parles

patterns

03BE03BC,

qui

sont différents d’un

système

à

_l’autre,

mais

_qui

sont

_engendrés

à

_partir

de la même

distribution de

_{probabilité).}

Ce sont des

_{développements}

assez récents

qui

ont

_permis

de contrôler les

_hypothèses

contenues dans la méthode des

répliques,

surtout l’ansatz de la

_symétrie

des

_répliques.

Dans le calcul de Gardner cette

_hypothèse

est cohérente

[15]

et le résultat sans doute exact

(dans

la limite

_{thermodynamique).}

fig. 5

Stabilité

_optimale

_pourdes

_patterns

aléatoires non-biaisés. Ici

on _comparela solution

_analytique

de Gardner

_(éq.

_(1.20))

avec des

(28)

Dans la

_fig.

5 nous montrons le résultat

_théorique

_(éq.

_(1.20))

et celui

des simulations

_numériques.

Les deux

_approches

sont en

bon

accord. La

stabilité minimale devient zéro à la valeur de la

_{capacité 03B1=p/N=2 prédite}

par Cover

[14].

La valeur de 03BA sera reliée à la taille

(minimale)

des

bassins d’attraction dans la section I.4.

Si

_l’éq.

_(1.20)

détermine la valeur de la stabilité

_{optimale 03BA}

_opt

_,

c’est-à-dire du

_plus

_petit

des

_champs,

_03BA=min

_03BC

₍

039403BC = J

~03BC/|J|),

la

distribution de

_probabilité

des

_champs

039403BC

_peut,

elle

_aussi,

être déterminé

par un calcul de

répliques

[III, éq. (4.10)],

[18] .

Cette distribution est

importante

car elle _gouverneles

propriétés

d’associativité

(l’attractivité

près

du

_{pattern 03BE03BC}

étant déterminée _parla stabilité

039403BC).

Un autre résultat

concerne la durée de

l’apprentissage,

c’est-à-dire le nombre d’itération de

l’algorithme

à une certaine

_précision

du résultat. La durée de

l’apprentissage

utilisant

_{l’algorithme}

’minover’ a été calculée _par

Opper

[19]

pour un échantillon

_typique,

améliorant la borne valable _pour

chaque

échantillon

_[I,

_éq.(A1.5)]

_parun facteur

numérique.

Même si la méthode des

_répliques

_permet

de calculer un certain

nombre de

_propriétés

de la matrice de

_couplages

_ayant

la meilleure

stabilité,

les

_quantités

se

_rapportant

à

plusieurs lignes

de la matrice

_(J

_ij

₎

en même

_temps

restent hors de

_portée.

Une des

_plus

élémentaires de ces

(29)

Cette

_symétrie

de la matrice

_optimale

doit donc en

général

être

déterminée

_{numériquement,}

a

_partir

de simulations utilisant

l’algorithme

’minover’. Pour des valeurs faibles de la

_capacité

03B1, on

démontre facilement

_{(III, éq.}

₁₈₎

_que

_{l’algorithme}

’minover’ donne la même solution

_qu’une

autre

_règle

_{d’apprentissage,}

où la matrice

_(Jij)

est

symétrique :

la

_{pseudo-inverse}

_[9,10].

Dans la limite

03B1~0,

la matrice

_(J

_ij

₎

de

_{l’algorithme}

_optimal

est

_donc,

elle

_aussi,

_symétrique.

Pour des valeurs

de a

s’approchant

de la valeur

critique

on trouve

numériquement

que la

symétrie ~

reste élevée

(voir

la

_fig.

_{6 pour}le résultat

_numérique).

fig.6

La valeur de la

symétrie ~

de la matrice

(J

ij

)

calculée avec

l’algorithme

’minover’ en

fonction

de la

_capacité

a

pour des

patterns

aléatoires.

Notons enfin _quela valeur de la

capacité

optimale,

elle

_aussi,

est une

quantité

se

_rapportant

à toutes les

_lignes

de la matrice

_(Jij)

en même

temps

et ,

à cet

_égard,

la seule telle

_quantité

facilement accessible. En toute

_rigueur,

il aurait fallu définir le volume V sur toutes les

_{lignes :}

(30)

donc on aurait

avec

La _moyenne< > sur les

patterns 03BE03BC

donne alors

puisque

le volume

_<log

_Vi>

ne

dépend plus

de l’indice i. De ce fait

(sous

condition _quele volume

_{typique puisse}

s’obtenir en

_moyennant

le

logarithme

du

_volume)

la

_capacité

03B1 _pourune

ligne

est

égale

à la

capacité

pour toute la matrice

_(Jij),

même si les vecteurs

_~

_03BC

_=03BE

_i

_03BC

_03BE

_03BC

ne _{sont pas}

indépendants

d’une

_ligne

à l’autre.

(31)

4. Dynamique

du réseau

dans le

_régime

_{de rappel}

La

_dynamique

dans la

_phase

de

_rappel

(l’évolution

au cours du

_temps

d’un état

03C3)

est au coeur des réseaux de neurones, pour

lesquels

il

s’agit

de modéliser un _processusde calcul comme

dynamique

d’un

système

physique

[2].

D’habitude,

les

_systèmes

considérés en

physique statistique

sont dotés d’une fonction

_d’énergie

(car

les

_couplages

sont

_{symétriques).}

Pour ces

_systèmes,

l’étude des

_{propriétés d’équilibre}

est

_primordiale.

Leur

_dynamique

est fortement contrainte _parle fait

_qu’elle

est

une

dynamique

de relaxation. Par

_contre,

les

_systèmes

_quenous considérons

sont en

général privés

de

propriétés

d’équilibre

(la

matrice

(Jij)

n’étant

pas

symétrique),

et ne sont définis _{que par}

leurdynamique.

On

_pourrait

donc s’attendre _quela

_dynamique

des réseaux de

neurones

(asymétriques)

soit très

compliquée.

Nous

_montrons,

toutefois,

que ceci n’est pas le cas, au moins

près

d’un

_pattern.

Naturellement,

la

_dynamique

du

_rappel

est étroitement liée à celle de

l’apprentissage.

Nous avions

_indiqué

_quele lien le

_{plus important}

était donné _parla

stabilité,

qui à

la fois ’ancre’ les

_patterns

_03BE03BC

dans le réseau

et ’creuse’ de

_grands

bassins d’attraction. C’est cette

_{hypothèse qui}

était à

la base de la

_partie

sur

l’apprentissage,

et

_qui

sera au centre de notre intérêt dans la

_présente

section.

Une démonstration très claire du rôle de la stabilité dans le réseau de

Hopfield

a été obtenue dans des simulations

_numériques

de Forrest

[23].

Dans ces simulations on

_regarde

l’évolution au cours du

_temps

d’états

(32)

et on s’intéresse

principalement

à leur

probabilité

de _convergervers ce

pattern.

Forrest a

comparé,

_pourun réseau et un ensemble de

_patterns

donné

_03BE03BC,

_03BC=1,...p,

la

_règle

de Hebb avec un

algorithme

du

_type

perceptron [8]

pour deux valeurs différentes de la stabilité.

fig. 7

Bassins d’attraction

pour trois

règles

d’appren-tissage

(schématiquement,

après

Forrest

[23]).

La

_fig.

7 est basée sur les résultats

numériques

de

Forrest,

_quenous

retraçons

schématiquement.

Il se trouve que les bassins d’attraction _pour

la

_règle

de Hebb sont très

_petits.

Pour les

_règles

à stabilité

_non-nulle,

la

taille du bassin d’attraction est d’autant

_{plus grande}

_quela stabilité est

grande. L’analyse

de taille finie de Forrest

_indique

_quedans la limite

thermodynamique

N~~ la

_probabilité

_P(q

₀

₎

de _convergervers le

_pattern

03BE03B3

devient une fonction en escalier : _pourtout recouvrement _q₀_inférieurà une valeur

_critique

_q_c_la

probabilité

_P(q

₀

₎

est

_zéro,

tandis _{que pour}_q₀

dépassant

qc,

P(q

0 )

est

égal

à 1 : le

pattern

03BE03B3 est

reconnu avec

probabilité

(33)

d’attraction,

puisque

ceux-ci sont essentiellement

_sphériques.

La valeur de _q_c ne tend _pasvers 1 dans la limite N ~ ~. Ce dernier résultat est très

surprenant :

il contraste avec

l’analyse

de la section I.2

(voir

éq. 1.13)

où

la _convergence

_après

un _pasde

_temps

n’était assurée _{que pour}des

configurations

ayant

un recouvrement initial de l’ordre de 1 -

O(1/~N).

Bien

entendu,

la _convergenceconsidéré ici est une _convergence

qui

n’est

pas

sûre,

même si elle a lieu avec une

probabilité

1.

Le modèle de

_Hopfield

_apparaît

donc comme un

simple

discriminateur

de distances

(recouvrements).

Ceci est une force - le

_système

reconnaît avec

probabilité

1 un état 03C3 suffisamment

proche

du

pattern 03BE03BC -

et en

même

_temps

une faiblesse : la

dynamique

du modèle semble assez

rigide,

elle

_permet

_peude structure.

Nous étudieons ensuite l’évolution au cours du

_temps

de

configurations

initiales 03C3 tirées au sort à

partir

d’un

pattern 03BE03BC

de la

manière

_{suivante :}

(Dans

la limite N~~ le recouvrement _q₀

_(éq.(1.26))

est alors

_égal

au biais

q vers le

_pattern

_(éq.

_{(1.27)) -}

à un terme de l’ordre de

1/~N

_près.

Pour N

fini,

comme dans toute simulation

_numérique,

il est

_préférable

de

(34)

apporte

moins de

_bruit

_{statistique.)}

Il se _{trouve que}la

dynamique

à un _pasde

_temps

est soluble exactement

dans le modèle

(1.27)

[III].

Prenons un état initial 03C3 selon

_l’éq.

(1.27).

Pour une _convergencevers le

_pattern

nous cherchons à satisfaire à la

condition

pour ramener la

configuration

03C3 vers le

_pattern

(voir

l’éq.

(1.8)).

Ceci

n’est en

général

_pas

possible

(en

un _pasde

temps), puisque

l’information

que

porte

le vecteur 03C3 sur le

_pattern

est

_trop

faible. Nous _pouvons

cependant

[III]

déterminer la distribution de

_probabilité

_par

_rapport

aux

conditions initiales du

_champ

sans avoir à moyenner sur les matrices

(Jij)

ou les

_patterns

03BE03BC.

De cette

distribution nous allons ensuite calculer la

probabilité

_que

l’éq.

(1.28)

soit

vérifiée,

et en déduire le recouvrement à l’instant t=1.

Le

_champ

h* est une somme de variables

_{indépendantes.}

A condition

que tous les éléments de la matrice

_(J

_ij

₎

soient du même

ordre,

le

théorème de la limite centrale montre _queh* est une variable

gaussienne

(35)

et d’écart

_quadratique

_moyen

voir

_fig.

8

(les

moyennes < > sont

_prises

_par

_rapport

à la distribution

éq.(20)). Puisque

l’échelle des

_J

_ij

_,

donc celle des

_{champs h*,}

est sans

importance

pour la

dynamique

éq. (1.2),

le

_{paramètre pertinent}

_pourla

dynamique

est le

_rapport

de la _moyennede la distribution de h* à sa

largeur

fig.8

Distribution de

probabilité

du

_champ

h*=

03BE

i

03BC

03A3

j

J

ij

03C3

j

(t=0).

Au

_premier

pas de

temps

h* est une

gaussienne

dont le

_rapport

moyenne

/ largeur dépend

de

la stabilité et de la norme

euclidienne du vecteur J.

(36)

où

_q’

est donné _par

fig.9

Recouvrement au

pas de

temps

t=1 comme

fonction

du recouvrement

q=q(t=0)

pour deux valeurs de

la stabilité 03BA. Une

configuration

s(t=0) ayant

un

recouvrement

_supérieur

à

q

c

(t=0)

se

rapproche

du

pattern

au

premier

_pasde

temps

avec

probabilité

1

(q

c

(t=0)=0

pour 03BA >

~2/03C0).

L’éq.

(1.32)

est d’une

_importance

fondamentale

_puisque

nous _y

retrouvons la stabilité

_039403BC

_i

_,

avec une normalisation euclidienne du

vecteur J. Le recouvrement

_q’

à t=1 est une fonction croissante de 03BA et de _q

(voir

_fig.

9).

Comme nous l’avons vu c’est avec

l’algorithme

’minover’ _que nous _pouvons

_optimiser

la

_{plus petite}

de ces stabilités

₀₃₉₄

_i

_03BC.

Cependant,

(37)

l’approche

qui

vient d’être

_présentée

n’est valable

_{qu’au premier}

_pasde

temps,

et elle ne

_peut

_pasêtre réutilisée aux _pasde

_temps

suivants. La

raison en _{est que}les activités des neurones

03C3

i

(t>0)

et

_03C3

_j

_(t>0)

sont en

général corrélées,

et non _pas

indépendantes ;

donc la distribution du

champ

h* ne sera

plus gaussienne.

Nous ne _pouvonsdonc _pasitérer

l’équation

(1.34)

et l’intersection de la fonction

_q’(q)

avec la

diagonale q’=q

(le

point

_q

_c

_{(t=0 )}

dans la

_fig.

9)

ne nous donnera

qu’une

première

approximation

pour la valeur du recouvrement

critique

qc. Ceci est dû

aux corrélations des

lignes

de la matrice

(Jij)

_et,comme nous l’avons vu,

nous ne savons _pasdéterminer

analytiquement

ces corrélations dans le

cadre d’un calcul à la Gardner

_{(c’est-à-dire}

_pour

_{l’algorithme}

’minover’).

Dans

_{l’impossibilité}

_apparente

de faire des

_progrès

décisifs sur ce

_point

du calcul du _rayondes bassins

d’attraction,

plusieurs

démarches restent

toutefois

_{possibles :}

D’une

_part

il est

_possible

de calculer

_{explicitement}

l’évolution

_temporelle

_pourdes

_{règles d’apprentissage}

pour

lesquelles

une formule

explicite

des

_Jij

est connue. Un tel calcul a été fait _pourla

règle

de

Hebb,

où la

_dynamique

des deux

_premiers

_pasa été déterminée

par Gardner et al

[24].

D’autre

_part

on a

essayé

de considérer des réseaux

modifiés,

_pour

lesquels (après

moyenne sur les

patterns)

l’indépendance

des états

03C3

i

(t)

reste valable : ceci est le réseau dit ’fortement dilué’ de Derrida et al

[25].

Cette

_{indépendance}

est aussi assurée _pourun réseau où les corrélations

des

_lignes

de la matrice ont été détruites ’à la main’

[II].

Enfin on a

essayé

de trouver des

_{stratégies approximatives,}

voire

phénoménologiques

[18],

qui

permettent

de donner des formules

(38)

II nous

_poursuivons

une telle

approche :

nous considérons les

lignes

de

la matrice

_(Jij)

comme

indépendantes

et y introduisons les corrélations à

la main _parle

_paramètre

de

_{symétrie ~ qui}

doit être déterminé

indépendamment.

Ceci est une méthode

_{plutôt simple}

_qui

nous a

permis

toutefois de donner une bonne formule

_approchée

de la taille des bassins

(39)

5. Le

modèle de

_couplages

binaires

_Jij=

±

1

Les

_{développements précédents}

ont été

_{généralisés}

en

plusieurs

directions : d’une

_part,

des ensembles différents

_d’objets

à mémoriser

(patterns)

ont été

_étudiés,

comme des

_patterns

biaisés

[15],

hiérarchiques

[26],

ou des

_patterns

à

plusieurs

états. D’autre

_part

on s’est intéressé aux

cas où les

couplages

synaptiques

_(Jij)

sont contraints. Nous avons

déjà

fait allusion aux réseaux dilués

(où

la

plupart

des

couplages

sont mis à

zéro),

ou à un autre cas où seulement la normalisation est

différente,

comme _par

exemple

|J

ij

| ~

1,

j=1,...,N.

Ce dernier

problème

[KrM]

ne

donne _pasvraiment lieu à des effets très nouveaux : le calcul à la

Gardner donne une fonction

_03B1

_crit

_(03BA)

légèrement

différente de

l’éq.(1.20)

(03B1

crit

(0)

vaut évidemment

_toujours

2) ;

la

_symétrie

des

_répliques

est

vérifiée et les résultats

_théoriques

sont en bon accord avec les simulations

[I],

qui

utilisent un

algorithme

de

programmation

linéaire.

Une extension bien différente est celle des

_couplages

discrets,

binaires

Jij=±1.

Ce cas est le

_prototype

même des réseaux où la

précision

des

_Jij

est

fixée,

et ne croît _pasavec la taille du

système.

Pour les

_patterns

aléatoires,

le formalisme de

Gardner,

ou les

algorithmes

du

_type

perceptron

ne

s’appliquent

_quesi on s’autorise de coder

chaque

couplage

Jij

avec un nombre de bits m

_qui

_augmente

avec la taille N du réseau

comme m ~

_O(logN).

Ceci est une

_conséquence

du fait _que,dans ce _cas,la

complexité

de

_{l’algorithme}

_pourun échantillon

typique

est une fonction

polynomiale

de

N).

Le modèle

_J

_ij

_=±1

pose donc le

problème

de la

mémorisation

_économique.

(40)

d’algorithme

d’apprentissage

et de calcul

_théorique

de la

_capacité.

Premièrement,

les

_algorithmes

du

_{type perceptron}

ne semblent _pas

s’appliquer

dans le cas des

couplages

binaires ;

tous ces

algorithmes

sont

de nature

_itératifs,

car une solution initiale est améliorée au cours de

l’apprentissage.

Cette amélioration successive de la valeur des

_J

_ij

n’est pas

possible

si les

couplages

ne

_peuvent

prendre

_quedeux valeurs. Le

problème

d’apprentissage,

à ce

jour,

n’a _pasété résolu d’une manière

satisfaisante. Un

_algorithme

itératif

_permettrait

d’établir facilement la

capacité optimale

du réseau ou la fonction

03B1

crit

(03BA)

de manière

numérique.

fig.10 Algorithme

élémentaire

(énumération

complète)

pour le

calcul de la stabilité

_optimale

du modèle

_J

_ij

_=±1.

Cet

_algorithme

est

d’une

_complexité

03B1N

2

2 N

(l’évaluation

des 039403BC en

ligne

3 nécessite

p·N

opérations)

Dans

_{l’impossibilité}

d’utiliser un

algorithme

polynomial,

nous avons eu recours à la

plus

élémentaire des méthodes

_{numériques :}

l’énumération exhaustive

_(pour

une autre méthode voir

[28]).

Le