Le Calcul du Gradient d'Erreur dans les Réseaux de Neurones : Applications aux Telecom et aux Sciences Environnementales

(1)

HAL Id: tel-00395549

https://tel.archives-ouvertes.fr/tel-00395549

Submitted on 15 Jun 2009

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Neurones : Applications aux Telecom et aux Sciences

Environnementales

Alexandre Aussem

To cite this version:

Alexandre Aussem. Le Calcul du Gradient d’Erreur dans les Réseaux de Neurones : Applications aux

Telecom et aux Sciences Environnementales. Modélisation et simulation. Université Blaise Pascal

-Clermont-Ferrand II, 2002. �tel-00395549�

(2)

CLERMONT-FERRAND II

Laboratoired'Informatique,deModélisation

etd'OptimisationdesSystèmes,

LIMOS(UMR6158,CNRS)

T H E S E

présentéepar

Alexandre Aussem

pourobtenirlediplme:

HABILITATION A DIRIGER DES

RECHERCHES

Spé ialité:Informatique

Le Cal ul du Gradient d'Erreur

dans les Réseaux de Neurones Dis rets

Bou lés à Délais : Appli ations aux

Télé om et aux S ien es Environnementales

Soutenuele19Dé embre2002devantlejury omposéde:

Président, AlainQuilliot, Professeur, Univ.BlaisePas al.

Rapporteurs, YoshuaBengio, Professeur, Univ.deMontréal.

YounèsBennani, Professeur, Univ.Paris13.

Patri kGallinari, Professeur, Univ.Paris6.

ErolGelenbe, Professeur, Univ.Center Florida.

Examinateurs, StéphaneCanu, Professeur, INSARouen.

PhilippeMahey, Professeur, Univ.BlaisePas al.

FionnMurtagh, Professeur, Queen'sUniv.Belfast.

(3)

Table des matières

1 INTRODUCTION 7

1.1. Cadrede etteétude . . . 7

1.2. Présentationdestravauxdere her hes . . . 8

1.3. Organisationet ontenudumémoire . . . 9

1.4. Avisaule teur . . . 13

2 APPRENTISSAGEDESRESEAUX BOUCLESSTANDARDS 15 2.1. Introdu tion. . . 15

2.2. Notationsetrappels . . . 17

2.3. Un adreuni ateur . . . 19

2.4. Lapropagationenavant(FP) . . . 21

2.5. Larétro-propagationdansletemps(BPTT) . . . 22

2.6. Lapropagationenavantrapide(FFP) . . . 23

2.7. L'appro heparfon tiondeGreen(GF) . . . 24

2.8. L'appro heparblo s(BU). . . 25

2.9. Apprentissagedesdélais . . . 27

2.10.Synthèse et on lusion . . . 31

3 APPRENTISSAGEDESRESEAUX BOUCLESADELAIS 33 3.1. Introdu tion. . . 33

3.2. Lesmodèlesin lusdansleformalismeDRNN . . . 35

3.3. Existen e, uni itéetstabilitédupointxe. . . 36

3.4. Cal uldugradient . . . 41

3.5. Lapropagationenavant(FP) . . . 42

3.6. Larétro-progationdansletemps(BPTT) . . . 44

3.7. Con lusion . . . 46

4 L'EVANOUISSEMENTDUGRADIENT 47 4.1. Introdu tion. . . 47

(4)

4.3.1. ComplexitédeBPTT tronqué. . . 55

4.3.2. Appli ationsnumériques . . . 57

4.4. Expérimentations . . . 57

4.4.1. Dé lindugradient . . . 58

4.4.2. Erreurdetron aturedeBPTT . . . 60

4.5. Quelquesalternativesàlades entedugradient . . . 64

4.6. Quelquesproblèmestypesdedépendan e àlongueportée . . . 67

4.7. Versdesmodèlesd'ordresupérieur . . . 69

4.8. Con lusion . . . 70

5 PREDICTIONSENVIRONNEMENTALES 73 5.1. Introdu tion. . . 73

5.2. Régressionlinéaire/non-linéaire:quelquesrappels . . . 74

5.2.1. QuelquespropriétésduMLP . . . 76

5.2.2. Lamodélisationdynamique boîte noire. . . 78

5.2.3. Quelquesproblèmesouverts . . . 79

5.3. Modeopératoire . . . 80

5.4. Lamodélisation despro essus haotiques . . . 81

5.4.1. LasuitedeMa key-Glass . . . 83

5.4.2. LasuitedeHénon . . . 86

5.4.3. LeséquationsdeLorenz . . . 90

5.4.4. Lasuited'Ikeda . . . 92

5.5. Prédi tions detempératureàlasurfa edelamer . . . 99

5.5.1. LesdonnéesdeSST . . . 100

5.5.2. Résultats . . . 101

5.5.3. Re onstru tionde artesmétéorologiques . . . 102

5.6. Prédi tiondesu tuationsduseeingastronomique . . . 107

5.6.1. Variabilitéduseeing . . . 108

5.6.2. Apprentissageentemps réel . . . 108

5.7. Leprin ipedelaméta-modélisation . . . 112

5.7.1. Con lusionetperspe tives. . . 112

6 PREVISIONDUTRAFICTELECOMPARANALYSE MULTIRESO-LUTION 115 6.1. Introdu tion. . . 115

6.2. Analysemultirésolution . . . 116

6.3. Algorithmeàtrous . . . 119

6.4. Appli ation:Prédi tiondutra Web . . . 124

6.4.1. Dépendan esàlongue portée . . . 125

6.4.2. Analysedesdonnées . . . 126

(5)

7 PREVISIONDE LAQUALITEDESERVICEDANSLESRESEAUX

TELECOM 139

7.1. Introdu tion. . . 139

7.2. Lesdes ripteursdetra . . . 140

7.3. Réseauxdeneuronesdistribués . . . 143

7.4. Expérimentations . . . 144

7.4.1. Fileunique . . . 145

7.4.2. Filesentandem . . . 146

7.4.3. Deuxlesenparallèlealimentantunetroisième . . . 149

7.5. Dis ussionet perspe tives . . . 150

7.6. Con lusion . . . 151

8 MODELEHYBRIDECHAINEDE MARKOVCACHEE &MLP 153 8.1. Introdu tion. . . 153

8.2. Expertsprédi teurs. . . 154

8.3. L'apprentissagedesexperts . . . 156

8.4. Cal uldelapseudo-log-vraisemblan e . . . 156

8.5. Maximisationdelapseudo-log-vraisemblan e . . . 158

8.6. Segmentation . . . 158

8.7. Estimationdire tedesparamètres . . . 160

8.8. Simulations . . . 160 8.8.1. Fon tion logistique . . . 161 8.8.2. Hénon-Logistique . . . 162 8.8.3. Ma key-Glass . . . 162 8.8.4. Donnéesréelles . . . 162 8.9. Con lusionetPerspe tives. . . 166 9 PERSPECTIVES 169

(6)

Jesouhaite exprimermaprofonde gratitudeauxmembresdujurypourla

onan equ'ilsm'onttémoignéeetletravail onsidérablequ'ilsont onsa réà

la le tureexhaustivede e longmémoirede synthèse, et e malgrélesbrefs

délaisimpartisen ettepériodedesur hargenotoire.

Je tiens également à adresser mes plus vifs remer iements au Professeur

AlainQuilliot,Dire teurduLIMOSetdel'ISIMA,pouravoir ontribuéà réer

des onditionshumainesetmatériellesstimulantes,propi esàl'exer i edemes

a tivités d'enseignant- her heur, dansunesprit deliberté et de onan e. Sa

grandesagesseet sesqualitéshumainesontété lesmeilleursatoutsdurant es

années.

Je tiens ennà adresser ma profonde sympathie à tous mes ollègues de

l'ISIMA et du LIMOS,qui ontsu instaurer et préserverl'atmosphère

(7)

(8)

INTRODUCTION

1.1. Cadre de ette étude

Cedo umentdesynthèse intitulé-Cal ulduGradientd'Erreurdansles

Réseaux de Neurones Dis rets Bou lés à Délais : Appli ations aux Télé om

et aux S ien es Environnementales - dresse un panorama de mes travaux de

re her he,entamés au ours de ma dernièreannée de thèse en 1995 et

pour-suivisdepuismonarrivéeen1996enqualitédeMaîtredeConféren es,jusqu'à

aujourd'hui àl'InstitutSupérieurd'Informatique, deModélisationet de leurs

Appli ations (ISIMA),é ole d'ingénieur ratta héeàl'université BlaisePas al

(Clermont-Ferrand II). Mes re her hes s'ins riventdans le thème

Modélisa-tion, Prévision et Dé ision des systèmes biologiques, é ologiques et

environ-nementaux,auseindel'axeInformatique etCal uldel'AideàlaDé isionet

Re her heOpérationnelle duLaboratoired'Informatique, deModélisationet

d'Optimisation desSystèmes(LIMOS,UMR6158CNRS).

Audelàdelades riptiondes ontextess ientiquesdanslesquels estravaux

ontété onduits, etteprésentation tente derestituer e qui a onstituél'une

desmotivations essentiellesdemona tivitéd'enseignant- her heur: travailler

àl'interfa eentredesdis iplines onnexes(traitementdusignal,fouillede

don-nées,apprentissagestatistique,algorithmique,ltrageadaptatif,ingénieriedes

réseaux télé om,et .), s'enri hiret faire oopérerdes savoirs,des

personnali-tés, des ompéten eset des démar hesdistin tes.C'est dans et espritqu'est

organisé edo ument.Aprèsquelques hapitresrelativementthéoriquessurle

al ulalgorithmiquedugradientd'erreurdanslesréseauxbou lés,letexte

s'ef-for e,nonpasderestituerlesdétailsdemiseenoeuvredesdiérentesméthodes

(9)

en lin àsepen hersurlespremiers hapitreste hniques peutdire tement

a - éderaux hapitresappli atifs,etpasserdel'unàl'autreàsa guise.

1.2. Présentationdes travaux de re her hes

Ilest ommunémentadmisdepuisla ontributionmajeuredeHebben1949

[HEB 49℄ que l'apprentissagedans les systèmes biologiques résulte de la

mo-di ation progressivedessynapses. Ces modi ationssontle résultat de

mé- anismes éle tro himiques dans l'environnementimmédiat de la synapse; les

opérationssontlo ales.Lamodi ationsynaptiqueetle omportement olle tif

quel'onsouhaiteenseignerauréseausontdeuxpro essusquiopèrentàdes

ni-veauxhiérar hiquesdistin ts.Lamodi ationsynaptiquen'apas onnaissan e

de la tâ he globale quele système her heà apprendre.Dés lors,selon quels

prin ipesfaut-il régir lesmodi ationssynaptique lo ales pourfaire émerger

olle tivement le omportement omplexe que l'on souhaite enseigner au

ré-seau? La questiontaraude depuis es vingtdernièreannées l'esprit des

her- heursdansla ommunauté onnexioniste.Deux éléments omplémentairesde

réponseontvulejourdanslalittérature.

L'idéedeHebbestlasuivante:lorsquel'a tivitédedeuxneurones onne tés

est orréléepositivementdansletemps,lepoidsdelasynapsequilesunitdoit

êtrerenfor éetvi e-versa.Endépitdelasingulièresimpli itéde ettevague

for-mulationetsesmultiplesdé linaisons[OJA82,SAN89℄,denombreuxtravaux

ont montré les orrespondan es fé ondes de e prin ipe d'auto-organisation

ave l'analyse(statistique)en orrespondan esprin ipales(PCA)[HAY94℄et

lathéoriedel'information[LIN89℄.

Lades ente dugradient est lase ondeidéemajeurequi sus itaune

extra-ordinairerésurgen edesréseauxdeneuronessurlas ènedel'intelligen e

arti- ielle,enproposantunprin ipepourguiderl'organisationglobaledes

modi- ations synaptiques.L'implémentation algorithmiqueparti uliérement

attra -tivede e prin ipeauxréseauxde neuronesmulti- ou hes est l'algorithme de

rétro-propagationdugradient(ba kprop)inventéàl'origineparWerbosen1974

[WER 74℄,puisredé ouvertindépendammenten1985parRumelhart[RUM86℄

et d'autres.LevantdénitivementleslimitationsduPer eptrondeRosenblatt,

etalgorithmeélégantpréguralerenouveaudu onnexionismedanslesannées

1980 en ristallisant les énergies autour d'une voie nouvelle. De part sa

sim-pli ité d'usage,l'outil onnexionistedésormaisbanalisé,aservidepâture aux

her heurs de tous horizons s ientiques omme en attestent les nombreuses

appli ations qui ont vule jourdans ledomainedes s ien esdel'ingénieur où

(10)

re on-de pro essus physi o- himiques omplexes, de la modélisation de pro édé

in-dustriel au ontrlede l'a tionneur hydrauliqued'un brasde robot [DRE02℄

en passantparlesprédi tionsenvironnementales. L'essordu onnexionisme a

aussientraînédanssonsillageunemyriadedeproduits ommer iaux ouronnés

desu èsparmilesquelslesordinateursà rayonoptique,l'analysedeséquen e

ADN,ladéte tiondefraudedanslestransa tionsban aireset .

Letraitementdeséquen estemporellesné essitetoutefoisl'introdu tionde

délais [VRI92, ELM90, JOR92, WAI89, WAN93, DAY93℄ dansles

trans-missions synaptiques. Le time-delay neural network (TDNN) [WAI89℄ dans

lequelles onnexionsentre ou hessontretardées,aétéunedespremières

ex-tensionsapportéesauréseaunonbou léstatiquepourletraitementdelaparole.

Depuis,unemultitudedemodèleslo alementouglobalementbou lés[TSO94℄,

dis rets ou ontinus[BAL95℄, àdélais xesouajustables[BOD90, DAY 93℄

ontvulejour.Toutefois,lesmodèlesnonbou lésnepeuventrendre ompte

or-re tementdespro essusnon-linéairesqui admettentunereprésentationd'état

et dontlesobservationssontenta héesd'unbruitdesortie.En eet,

l'identi- ation desystèmedynamique n'estenvisageableave desréseauxnon-bou lés

que lorsquetouteslesvariablesd'étatdusystèmedynamique sous-ja entsont

mesurées[NAR91,SRI94,DRE02℄.Cen'estpastoujoursle asbienentendu.

C'est pourquoi e do ument passe enrevue lesprin ipaux algorithmiques du

al ul du gradientd'erreurdédiés auxréseauxde neuronesdis rets bou lés à

délais,sousl'angledela omplexitéentempsetenespa emémoire,etdela

fa- ilitédemiseenoeuvre(e.g.lo alitédesopérations,implémentationtempsréel,

stabilité numérique, al uldugradientexa t/appro hé,et ).Unefoisidentié

unalgorithmede omplexitéet demiseenoeuvre attrayante, e do umentse

poursuitpar uneprésentationdesappli ations desréseauxbou lésàla

simu-lation,àlaprévisionet àlasegmentationdeséries temporelles,réaliséesdans

le adredemesprojetsdere her hemenés esdernièresannées auLIMOS.

1.3. Organisation et ontenudu mémoire

Donnonsàprésentunbrefaperçudu ontenudesdiérents hapitres.

Le hapitre 2présenteles diérentes implémentations pratiquesde l'idée

de la des ente du gradient. Les algorithmes saillants qui sont parus dans la

littérature es dix dernières années, à savoirla rétro-propagation (BP)

las-sique et la rétro-propagation dans le temps (BPTT) [RUM86, WER90℄, la

rétro-propagation ré urrente pour des réseaux statiques ré urrents[ALM 87,

PIN87℄, la rétro-propagation temporelle pour les réseaux FIR non-bou lés

(11)

[SUN92℄, etl'appro he'blo k-update' (BU)[SCH 92℄,sonténumérési idans

unnouveau adreformeluni ateuretexaminésauvudeleur omplexité.Ces

derniersontétéintroduitspourdesar hite turesderéseauspé iques(temps

ontinu/dis ret, modèleadditif/d'ordresupérieur,statiques/àdélaiset )pour

des problèmes parti uliers (apprentissagede point xe, apprentissage de

tra-je toire)enusantdete hniquesvariées( al ulvariationnel,méthoded'adjoint,

intégrationnumériqueet .).

Le hapitre3établitlesversionsforward(FP)etba kward(BPTT)du

al- ul dugradientpourune lasseplusgénérale ded'ar hite turesàdélaispour

l'apprentissage de points xes et l'apprentissage de traje toires: les réseaux

FIR bou lés. Ce sont des réseaux dis rets bou lés à délais dont lessynapses

sontreprésentéespardesltreslinéairesàréponseimpulsionnellenie(FIR):

des onnexions arbitrairement retardées et bou lées sont autorisées entre les

neurones. Cette ar hite ture générale porte le nom de Dynami al Re urrent

Neural Networks (DRNN) [AUS 95b, AUS02b℄, et fédère un grandnombre

d'ar hite tureslo alementetglobalementré urrentesproposéesdansla

littéra-turepourletraitementtemporel(voirparexemple[KRE01,PIC94,TSO94,

BAL 95,CAM99, DUR99, WAN93, WIL89℄) ainsi queles réseauxbou lés

à point xe [ALM87, PIN87℄. Des onditionssusantes garantissant

l'exis-ten e, l'uni ité et lastabilitéasymptotique dupointxe ainsiquelastabilité

asymptotiqueduréseauenbou lage fermésontétablis.

Au hapitre 4, il est montré pourquoi les réseaux bou lés sont réputés

in apablesd'apprendre des dépendan es àlongue portée, mêmeélémentaires.

Le problème dutemporal redit assignment demeure l'une desthématique de

re her he de la ommunauté onnexioniste omme en témoigne une ré ente

taxonomie sur les réseaux onnexionistes spatio-temporels (STCN) [KRE01℄.

En eet, ladé roissan e rapide duot arrière du gradient derreur(gradient

error ba k ow et notée GEBF),rend quasimentimpossible l'apprentissage

dedépendan esàlongueportéeentrelesentrées/sortiespardesméthodes

fon-déessurlegradient.Cettefaiblessequaliéedeforgettingbehavior,estau oeur

des préo upations d'un grandnombre de travaux depuis l'arti le de Bengio

et al.[BEN94b℄. Dans e hapitre, l'analysede l'GEBF étendles travauxde

[FRA 92, BEN94b, AUS 95b, HOC97b, LIN96℄ au réseaux FIR bou lés, y

omprislesréseauxàpointxe,etapporteuné lairagenouveausurladi ulté

de la des ente du gradient à apturer des ontingen es temporelles àlongue

portée.Des onditionssusantespourgarantirla onvergen edel'EGBFsont

établies.Celles- is'exprimentexpli itementenfon tiondelamatri edepoids

et s'appliquent à de nombreux réseaux bou lés introduits dans la littérature

esdernièresannées[KRE01,TSO94℄.Alalumièrede erésultat,uneborne

supérieure surlenombrede rétro-propagationsdansletemps estétabliepour

(12)

simu-Le hapitre 5 illustre les aptitudes des réseaux bou lés à délais dans le

domainedelasimulationetdelaprévisionà ourttermedesériestemporelles

issues desS ien es Environnementales ausenslarge.Dans unpremier temps,

des réseaux bou lés à délais sont entraînés omme prédi teurs à un pas sur

des suites haotiques synthétiques en délivrant au réseau de neurones, une

information tronquéedu ve teurd'état dusystème. Ilin ombeau modèle la

lourdetâ hed'inférerlesvariablesd'état a héesdusystèmeà haqueinstant.

Unefoisitérésurlui-mêmeenbou lagefermé,leréseaudeneuroneestlesiège

d'un omportement haotique ommeentémoignelesattra teursre onstruits.

Fortde esobservations,plusieursappli ationsontétéréaliséesdepuis1996

dans le domaine des s ien es environnementales. Je présente en premier lieu

un travailvisantà ouplerunmodèlede simulationnumérique de la

ir ula-tion o éaniqueave desréseauxde neuronesande prédirela températureà

lasurfa edelamer(Sea Surfa eTemperature,SST)sousformede artes2D

quelquesjours àl'avan e,dansune zonemaritimeoùl'onobservedes

mouve-ment as endantsd'eau froide,quel'on désigneparlephénoméned'upwelling.

Cetravailaétémenéau oursdesannées1998et1999dansle adred'unprojet

dere her heave Mar Fuentes,a tuellemententhèseàl'universitéde

Mont-réal, ave le Marine EnvironmentUnit au(European) JointResear h Center

JRCàISPRA(Italie).

Dansunse ondtemps,jedresselesgrandeslignesd'unprojetdere her he

menéave leEuropeanSouthernObservatory(ESO)au oursdesannées1999

et2001en ollaborationave GermainTran(IngénieurISIMA)etMar Sarazin

(ESO), qui traitedelaprévision à ourtterme desu tuations d'unemesure

deladira tiondesondeslumineusesdûeauxperturbationsatmosphériques:

leseeing.Sesu tuationssontd'uneimportan emajeurepourlesastronomes

par equelesopérationsde alibragedestéles opessontmenéesquelquetemps

avantl'observation.

Ceparagrapheappli atifs'a hèvesurl'esquissed'untravailmenéave David

Hill (LIMOS), dans le adre d'un projet LIFE Control of the spread of the

Caulerpa Taxifolia in the Mediterranean (programme DG XI) onsa ré àla

prévisiondelasurfa e ontaminéeparla aulerpeaprésplusieursannéesdans

la bassin méditerranéen. Leprin ipe d'entraîner unréseau de neuronesgrâ e

auxtra esissuesdesrépli ationsdessimulationssto hastiquesestqualiédans

lalittératureparletermedeméta-modélisation[KIL94℄.Leréseaudeneurones

permet,au terme del'apprentissage,ungainen tempsde al ul onsidérable

puisqu'ilpermetd'anti iperl'évolutiond'unsystèmesto hastique omplexe(le

modèle),parunpro essusdéterministeplussimple(leméta-modéle).

Le hapitre6présenteuneméthodehybridepourprédirelesséries

(13)

(Univ. Belfast)etmoi-mêmeen1996estfondésuruneanalysemultirésolution

de la suite de manièreà ontourner le problèmede l'évanouissement du

gra-dient dansdesréseauxdeneurones.Unedé omposition enondelettesdis rète

est ee tuéeparl'algorithme dit àtrous.Chaque é helle, qualiéed'o tave,

estalorstraitéeindividuellementparunréseaudeneuronesandefournirune

estimationdesfuturs oe ientsd'ondelettes.Cesdernierssontalors

re ombi-néspourfournirlaprédi tionnaledumodèle.Cettete hniqueesti iillustrée

sur un problème de prévision, une minute àl'avan e, du volume de données

télé hargés sur un serveur Web. Depuis l'année 2002, une ollaboration ave

Patri e Abry (Lab.de Physique, ENSLyon)spé ialistedes loisd'é helles,et

Pierre Chainais (LIMOS)est menéedans e senspour ara tériser et prédire

le omportement du télétra . Cette ollaboration s'ins rit dans le adre de

l'A tionSpé ique`MétrologieInternet duCNRSqui adébuttén2002.

Le hapitre 7 fait état des derniers développements d'un projetau long

oursdédiéàlagestiondesressour esdansunréseautélé ommultiservi e,

ini-tiéparErolGelenbeetmoi-mêmeaumilieudesannées90[AUS 94b℄,poursuivi

par plusieursstagiairesdeDEA su essifs[AUS94b, AUS99 ℄ auLIMOS en

ollaborationave RaymondMarie(IRISA),etennreprisparAntoineMahul

(dont j'en adrela thèse au LIMOS depuis septembre 2000) dansle adre du

projetRNRTOPIUM(OptimisationdelaPlani ationdesInfrastru turesdes

réseaUx Mobiles). Ce projet, dontlapartie routage in ombe auLIMOS,vise

àorirune solutionintégrée pourlaplani ationet l'optimisationderéseaux

de télé ommuni ations mobiles. Le travail d'Antoine Mahul a pour objet de

substituer in ne àla formule M/M/1 lassique dans le ode de l'algorithme

d'optimisation multiots développé parPhilippeMahey et Christophe

Duha-mel, un réseau de neurones entraîné par simulation pour prédire la QoS en

haquenoeud entermesdedélaidedeperte.

Le hapitre8présenteunmodèleauto-régressifnon-linéaireà hangement

de régime markovienpour lasegmentationde sériestemporelles stationnaires

parmor eaux.Lasegmentationopèreenamontdelaprédi tion,en esensqu'il

estassezaiséde onstruireultérieurementunprédi teuràpartirdu omitédes

experts.Cetravail,initiéen1999àlale tured'unarti ledeJ.Kohlmorgenet

al. [KOH99℄, estimelesparamètresparleprin ipedumaximumde

vraisem-blan e;unalgorithmeEMo-lineestemployépourl'estimationdesparamètres

du modèle, en parti ulier les paramètresdes réseaux de neurones, les

proba-bilités de transitionset lavarian edubruit. Desexemplesd'appli ation sont

présentés sur des données arti ielles et nan ières menées en ollaboration

ave Mar Fuentes(do torantàl'Univ.Montréal)etCorinneBoutevin

(do to-ranteauLIMOS).Notonsqu'uneversionon-linede etalgorithmeafaitl'objet

d'une thèse ré ente [RYN 00℄basée sur une formulationplusastu ieuse dela

(14)

del'é riture ursive[GAR96℄.

Et enn, le hapitre 9 dresse une synthèse des travaux présentés dans

e do ument et dégage, en guise de on lusion, les nouvellesthématiques de

re her hequejesouhaiteaborderau oursde espro hainesannées.

1.4. Avis aule teur

Ce do umentde synthèse n'estnullement unouvrage dida tique,ni une

taxonomiedesréseauxdeneuronesbou lésàdélais.Lestroispremiers hapitres

rendentexhaustivement omptedemontravaildere her he-plusthéorique

-entreprisdepuismathèseen1995surlesréseauxré urrents.Lase ondepartie

onstituésdes hapitres4,5,6,7et8abordedesappli ationsdiversesetvariées,

sansparfoisdedénominateur ommun,niréféren eàlapremièrepartie.

Ce do umentéva ue (littéralement) un ertainnombre deproblématiques

essentielles omme la régularisation dite formelle (ausens de Tikhonov, par

l'adjon tion d'un terme de pénalisation) et la régularisation dite stru turelle

(élimination de onnexions jugées superues, les te hniques d'identi ation

presque sûre du vrai modèle) du réseau, en dépit du grand nombre de

pa-ramètres ajustables. Les méthodes pour le al ul d'intervalles de onan e

asso iés aux prédi tions sont également omises ainsi que les méthodes pour

approximerlamatri ehessiennedelasortiedumodèleparrapportàses

para-mètres.Parailleurs,ledétaildesmodesopératoires,lades riptiondesdonnées,

le hoixdesar hite tures,lamiseenoeuvreexa tedelavalidation roisée,et .

gurentdanslesarti les,a essibleenlignesurlapagewww.isima.fr/aussem.

Lestrois premiers hapitressont dédiésuniquementau al ul dugradient

d'erreurdanslesréseaubou lés.Lesalgorithmesd'apprentissage,àproprement

parler,nesontpasprésentéspar on ision.Onlestrouveraendanslespremiers

hapitresdetouteslesthèsesdudomaine(voirparexemple[AUS 96,GOU97,

MAN 95,RYN 00℄).

Lele teurdésireuxdeseplongerplusendétaildanslesquestions relatives

aultrageadaptatif,auxar hite turesetauxproblèmesdestabilitédesréseaux

bou lés, pourra onsulter l'ouvrageré ent deD.P. Mandi et J.A. Chambers

onsa réauxréseauxré urrentspourlaprédi tion[MAN01℄.Lesproblèmesde

régularisation - orientés Statistique- sont traitésplusendétail, parexemple,

dans les thèses de MorganMangeas [MAN95℄ et deCyril Goutte [GOU97℄.

Parmi les ouvrages ré ents qui s'adressent àun publi plus large, on pourra

onsulter [BIS95,GOL96,HAY94℄,ainsique[DRE02℄enlanguefrançaise.

(15)

(16)

APPRENTISSAGE DES RESEAUX

BOUCLES STANDARDS

2.1. Introdu tion

Ce hapitre présente un adre uni ateurpour le al ul dugradient

d'er-reur dans les réseaux de neuronesbou lés opéranten temps dis ret. Le

gra-dient d'erreur servira dire tement ou indire tement (e.g. algorithmes pseudo

Newton) àl'ajustementdespoids,au al uld'intervalles de onan e, à

l'ap-proximationduhessien,et .[BIS 95℄.Ce adreformelfondésurlathéoriedela

ommandeoptimale[ATI 00,BRY75℄, est dédiéauxréseauxbou lés dis rets

ditsdeWilliamsetZipzer[WIL89℄),pourlesquels haquesynapseestretardée

d'une unité detemps. Ilfédèrelesprin ipales méthodesalgorithmiques mises

en oeuvre pour le al ul du gradient d'erreur, plusspé iquement: 'forward

propagationalgorithm'(FP)ou'real-timere urrentlearning'(RTRL)[WIL 89℄

, 'ba k-propagation throughtime' (BPTT)[RUM86, WER 90℄,'fast forward

propagation'(FFP) [TOO92℄, Green's fun tion approa h' (GF) [SUN92℄, et

l'appro he'blo k-update' (BU)[SCH92℄.

La neuro-dynamique du modèle bou lé standard([WIL89℄) est régie par

leséquations v k =g(W T v k 1 )+i k ; 8k=1;:::;K ; (2.1) oùv k

désigneleve teurd'étatduréseauàl'instantk etK désignela

du-rée del'époque(voirlesnotationsenTable2.1).Onsupposequeleréseauest

onstituédeNneuronestotalementbou lésàréponse ontinuedans[0;1℄.w

ij

(17)

bornée et dérivablesur ℄ 1;1[. La famille de fon tionsd'a tivation

onti-nuementdérivablessigmoïdes, ara térisée8 ;k;r2Ret ;k>0par

;k ;r (x)= e k x 1 e k x +1 +r; (2.2)

estlaplusutilisée[MAN01℄.Lafon tionlogistique,g(s)=1=(1+e

s

)est

une fon tion sigmoïdeparti ulière dénie pour = 1=2;k = 1;r = 1=2. Par

sou idegénéralité, g()serasupposéedanslasuiteapparteniràlafamilledes

sigmoïdes et onposera =max

u (g

0

(u)). On noterad'ores et déjà que toute

fon tion issue de ette famille est lips hitzienne et que sa dérivée d'ordre

m1quel onqueesten orelips hitzienne.LePer eptronétantune

ombinai-sonlinéairedefon tionssigmoïdes[MAN95℄,ilimplémentedon unefon tion

lips hitzienne.Cetteremarqueserautilelorsqu'ils'agiraauChapitre4

d'exhi-berdes onditionssusantespourassurerlastabilitéasymptotiqueduréseau

enbou lagefermé.

Note : les fon tions montonones roissantes bornées de type sigmoïde

émergent naturellement lorsque, dans un adre bayésien, la distribution des

entrées est prise en ompte dans le terme de régularisation [CAN 99℄.

Néan-moins, lespropriétés d'approximationdes RN s'étendent àd'autresfon tions

d'a tivation, en parti luier les fon tions gaussiennes (RBF), polynomiales et

rationnelles[POG90,MAN 01℄.A etitre, lele teur urieuxpourra onsulter

untypedeRN àfon tiond'a tivationrationnelle[GEL 91,GEL99,GEL 02℄

présentantune analogieélégante entre unréseaude neuronesetun réseaude

les d'attente visitées par des lients dits positifs et négatifs. L'a tivation du

neurone est interprétée ommele taux d'o upation de la le en régime

sta-tionnaire, lequels'exprimesouslaformed'unefon tionrationnelle.

Commeàl'ordinaire,unsous-ensembledesneuronesestdédiéàlaré eption

etàlapropagationduve teurd'entréeàtraversleréseau.Cesneuronesportent

le nom de neuronesd'entréeet possèdentune a tivation xéepar les

ompo-santes duve teur d'entréei

k

. Hormis lessignauxexternes,lesneurones

d'en-trée ne reçoiventpas designauxémanantd'autresneurones, i.e.,w

ij

=0;8i,

si jdésigneunneuroned'entrée.D'unefaçonsimilaire, ertainsneurones,dits

de sortie, possèdent une a tivation ible, ouvaleur désirée, d

k

. Les neurones

n'ayantpasde relationave lemonde extérieursontlesneuronesdits a hés.

Enn, le rle de biais in ombe par dénition au neurone d'indi e0. Ce

der-nier est perçu omme une neurone d'entrée supplémentaire dont l'a tivation

estxéeà1.0.Pourdesraisonsde ommodité,nousnedistingueronspas,dans

(18)

v k

ve teurd'a tivation

u k

ve teurdesentréesinternes

i k

ve teurdesentréesexternes

w ij

poidsdela onnexionentre

leneuroneietleneuronej w(j)=[w 1j ;:::;w Nj ℄ T

ve teurdepoidsversleneuronej

W=[w(1);w(2);:::;w(N)℄ matri edepoids

g() fon tiond'a tivation sigmoïde

max u (g 0 (u)) G 0 k NN matri ediagonale deg 0 (u k (j))

Tableau2.1. Notationsemployées.k désignel'indi ede temps.

L'objetde l'apprentissageest d'ajusterlesmatri ede poids Wdefaçonà

faireévoluerleréseau,sousl'a tiondesentréesfi

k

g,d'unétatv

0

versunesuite

depointsxesdontles omposantesdesorties'appro hentdesvaleursdésirées

fd k

g.Commeàl'a outumée,on her heàminimiserl'erreurquadratique

E = 1 2 K X k =0 e T k e k ; (2.3) oùe k =d k v k

mesurele ve teur d'erreurle longdela traje toire(ou

époque)del'itérationk=0àK.Rappelonsquee

k

(i)=d

k

(i)=0sileneurone

i n'estpasunneuronedesortie.Lesentréessontomises(i.e. i

k

=0) dansun

premiertempspoursimplierles al uls.

Dans e hapitre,le al ul dugradientd'erreur,

E

W

,est ee tué ennde

traje toire.Ce dernierserviraparexempleàl'estimation desparamètres(e.g.

des entedugradient,pseudo-Newton,LM,et .),àl'approximationdel'inverse

du hessien à la régularisation, ou en ore au al ul d'intervalles de onan e

[BIS 95℄.

2.2. Notationset rappels

Introduisons quelques rappelset notations on ernantl'expansion des

dé-rivées partielles dans les systèmes d'équationsordonnées [PIC94, WER 90℄.

Considérons unensembledenvariablesz

1 ;:::;z

n

(19)

déter-z i =f i (z 1 ;:::;z i 2 ;z i 1 ) (2.4)

dans lesquelles haque variable z

i est fon tion de z 1 ;:::;z i 1 . Pour

per-mettrele al uldesdérivéespartielles,ilfautspé ierlesvariablesassimiléesà

des onstantes,desautres. Typiquement,lorsque rienn'estspé ié,nous

sup-poseronsque esvariablessontmaintenues onstantes,ex epté ellesqui

appa-raissentaudénominateurdesdérivéespartielles.Unedérivéepartielleordonnée

estunedérivéepartiellepourlaquellelesvariables onstantessontdéterminées

grâ eàunensembled'équationsordonnées.Selonlesnotationsmathématiques

onsa rées[PIC94℄, ona + z j z i = z j z i fz1;:::;zi 1g : (2.5)

Ilvientlesrelationsuivantes,

+ z i+1 z i = z i+1 z i ; (2.6) et + z j z i =0 pour j<i: (2.7)

Lorsquej>i+1,lesdérivéesordonnéess'obtiennentparlesloisd'expansion

suivantes + z j z i = z j z i + j 1 X k =i+1 + z j z k z k z i ; (2.8) et + z j z i = z j z i + j 1 X k =i+1 z j z k + z k z i ; (2.9)

Selonle as,j'opteraipourl'uneoul'autredesloisd'expansion(2.8)et(2.9)

pourle al ulde

+

E

W

.Avantdepro éderau al uldugradient,un ommentaire

sur les notations mathématiques employées. Je suppose impli itement par la

suitequeladérivéepartielleu=v ,oùuetv sontdesve teursdetailleN et

M respe tivementestlamatri eja obiennededimensionNM.Parailleurs,

+

E

W

désigneralamatri ede omposants

+

E

wij .

(20)

2.3. Un adre uni ateur

Ce hapitrefédèrelesprin ipalesméthodesalgorithmiquesmisesenoeuvre,

dans lalittérature,pour al uler legradientd'erreurdanslesréseauxbou lés

en se fondantsur des élémentsde théorie dela ommandeoptimale[ATI 00,

BRY75℄etdeprogrammationdynamique.Pour ommen er,formulonsle

pro-blèmedel'identi ationdesparamètresdumodèlesouslaformed'unproblème

deminimisationsous ontrainteségalité

MinimiserE

sousles ontraintesh

k =g(W T v k 1 ) v k =0; k=1;:::;K : (2.10)

Lespoidssontlesvariablesde ontrleoudedé isiondans laterminologie

de la ommandeoptimale[BRY75℄. Lesv

k

sont lesvariablesd'état, dontles

valeurssontdéterminées parles ontraintesh

j

. Arrangeonsles olonnes w(i)

deWenunlongve teur olonne,ainsiquevet leve teurde ontraintesh

w= 0 B w (1) . . . w (N) 1 C A ; v= 0 B v t 1 . . . v t N 1 C A et h= 0 B h t 1 . . . h t N 1 C A : (2.11)

Pour larierlesdépendan es,é rivonsEparE(v (w))ethparh(v(w);w ).

Appliquons(2.9) + E(v (w )) w = E(v (w )) w + E(v (w )) v + v (w ) w : (2.12) où +

E(v (w))=w estnulle ar lespoidsn'apparaissentpasexpli itement

dansl'expressiondeE.Appliquonsmaintenant(2.9)au al uldeh(v (w);w)=

0,onobtient h(w ;v (w )) w + h(w ;v (w )) v + v (w ) w =0: (2.13) En ombinant(2.12)et (2.13),ilvient + E(v (w )) = E(v (w )) h(w ;v (w )) 1 h(w ;v (w )) (2.14)

(21)

On retrouve es équations dans [BRY75℄. Par on ision, les dépendan es

expli ites auxvariables sontomises. Ainsi, nous obtenons l'expression

matri- ielle + E w = E v h v 1 h w (2.15)

C'est l'équation de base qui unie tous les algorithmes.h=v

dé-signelamatri ed'élémentsh

i

=v

j

.L'évaluation desmatri esdans(2.15)est

lasuivante: E v =(e t 1 ;:::;e t K ); (2.16) h v = 0 B B B B B B I 0 0 0 G 0 2 W T I 0 0 0 G 0 3 W T I . . . . . . . . . . . . . . . . . . 0 0 0 G 0 K W T I 1 C C C C C C A (2.17) où G' k

est donnée par G'

k = 2G k (1 G k ) ave G k dénie omme la

matri e diagonaleN N onstruite àpartir de g(s

k

(j)) pour j = 1;:::;N.

L'inversedeh=vs'exprimeexpli itement

h v 1 = 0 B B B B B I 0 0 0 G 0 2 W T I 0 0 G 0 3 W T G 2 W T G 0 3 W T I 0 . . . . . . . . . . . . . . . G 0 K W T G 0 2 W T G 0 K W T G 0 3 W T G 0 K W T G 0 4 W T I 1 C C C C C A : (2.18) Ilvientégalement h w = 0 B B B G 0 1 V 0 G 0 2 V 1 . . . G 0 V K 1 1 C C C A : (2.19)

(22)

ave V k = 0 B B B v t k 0 0 0 v t k 0 . . . . . . . . . . . . 0 0 v t k 1 C C C A : (2.20)

Danslasuite,E=Wdésigneralamatri ede omposantsE=w

ij .

2.4. La propagationen avant (FP)

Posons Y=(h=v )

1

h=w .Cettegrandeurpeuts'é rireenblo s

Y= 0 B B B Y 1 Y 2 . . . Y K 1 C C C A (2.21) oùY k

estunematri eNN

2 .D'après(h=v )Y=h=w ,ilvient Y k =G 0 k W T Y k 1 G 0 k V k 1 ; k=2;:::;K : (2.22)

ave les onditionsauxlimites

Y 1 = G 0 1 V 1 (2.23)

Don dans l'appro he 'forward', laré ursionse faitdans lesensdu temps

et legradientnalest obtenupar

+ E w = E v Y= K X k =1 e T k Y k : (2.24)

Remarquonsqu'enposantY=(h=v )

1 h=W(2.22)s'é rit Y k =G 0 k W T Y k 1 G 0 k (v k 1 ;:::;v k 1 ): (2.25)

(23)

Y 1 = G 0 1 ( v 1 ;:::;v 1 ): (2.26)

D'oùuneformulationmatri iellequenousretrouveronsparlasuite

+ E W = E v Y= K X k =1 e T k Y k : (2.27)

Cet algorithme à propagation avant porte le nom de real-time-re urrent

learning algorithm (RTRL) [WIL89℄. Cette pro édure est fortement grevée

parlamassede al ulet demémoirerequise.Enpremierlieu, haquedérivée

doit être sto kée e qui entraîne une apa ité de mémorisation de l'ordre de

O(N 3

).Ensuiteunequantitédra onienned'opérations,del'ordredeO(N

4

)est

né essaireà haqueitération arl'adaptationlesN

3

dérivéesrequiert ha une

O(N)opérations.

2.5. La rétro-propagationdans letemps(BPTT)

DanslaméthodeBPTT,onévalued'abordy

T

= E=v (h=v )

1 avant

delemultiplier parlasuiteparh=w .Pardénition,

E v = y T h v ; (2.28) ave y T =(y T 1 ;:::;y T K

).En substituantles expressions(2.16) et (2.17),il

vient y k =e k +WG 0 k +1 y k +1 ; (2.29)

ave la onditionauxlimites e

K =y K . D'aprèsladénitiondey + E w =y T h w : (2.30)

Substituonsy dans ettel'expressionet réarrangeonslespoidsen matri e

W , onobtientl'équation matri ielle

+ E = X K k =1 G 0 k y k v T k 1 : (2.31)

(24)

PosonsÆ k =G 0 k y k

,onretrouveunegénéralisationdelarègledeltapourun

réseaunon-bou lé. + E W = K X k =1 Æ k v T k 1 : (2.32)

La rétro-progationdans le temps (BPTT) est très e a e: sa versionen

mode bat h est de l'ordre de O(N

2

). Toutefois, la mémoire requise varie en

O(K),ilest peupratiquederétro-propagerleréseau omplètement,la

tron a-turedugradientestsouventinélu table[WIL90℄.BPTT(h;h

0

)estuneversion

a élérée qui lan e le réseau h pas en avant, et rétro-propageh

0

> h pas en

arrièrelegradient,ajustelespoidset re ommen e.

2.6. La propagationen avant rapide (FFP)

Supposons onnuelaséquen edesy

k

obtenueparlaformule(2.29)surune

traje toirede longueur K, il n'est pasné essaire de re al uler es grandeurs

lorsque le pointK+1 estdisponible. Il sut de hangerlesens de

propaga-tion. Pour ela il faut substituer la ondition aux limites à l'instant k = K

parune onditionàl'instantk=1.Lapropagationenavantrapide(FFP)

re-posesurl'existen ed'uneexpressionexpli itede

h v 1 ,expriméeEq.(2.18), et de W 1 . Soit y (K) k

la solution du système ave K points. En appliquant

su essivementEquation(2.29),onobtient

y (K) k =A k y (K) 1 +b k ; (2.33) ave A k =G 0 1 k W 1 :::G 0 1 2 W 1 ; (2.34) et b k = G 0 1 k W 1 :::G 0 1 2 W 1 e 1 + G 0 1 k W 1 :::G 0 1 3 W 1 e 2 + ::: + G 0 1 W 1 e k 1 : (2.35)

(25)

A k

etb

k

se al ulentparré urren eavant.Ilresteàre al ulerla ondition

initiale y

(K)

1

. Elle est obtenue grâ e à l'inverse de h=v et à la dénition

y (K) =E=v (h=v ) 1 y (K) 1 =y (K 1) 1 W G 0 2 :::W G 0 K e K : (2.36) Sa hantque + E w = K X k =1 G 0 k V k 1 y k ; (2.37) onendéduit + E w = K X k =1 G 0 k V k 1 A k y (K) 1 + K X k =1 G 0 k V k 1 b k : (2.38)

L'idée qui sous tend la méthode FFP est de al uler y

(K)

1

ré ursivement

selon (2.36) puis de al uler A

k

et b

k

ré ursivement. La méthode FFP vise

don àpalierlesla unesdeBPTTentempsréel,touten al ulantlegradient

exa t,mais lenombred'opérationspassede O(N

2

)àO(N

3

). Parailleurs,les

opérationsnesontpluslo ales.

2.7. L'appro he par fon tionde Green (GF)

L'appro he parfon tionde Green GF exploite lefait queV

k

est une

ma-tri efortement reuse.Anderéduirela omplexité,unerelationré ursiveest

exhibée sur le gradientd'erreur, dE=dw (K), obtenu ave sur une traje toire

deK exemples.Grâ eauxEquations(2.18)et (2.15),onobtient

+ E w (K) + E w (K 1)= e T K 0 B B B W G 0 2 W G 0 K . . . W G 0 K I 1 C C C A T 0 B B B G 0 1 V 0 G 0 2 V 1 . . . G 0 K V K 1 1 C C C A : (2.39)

(26)

U K =W T G 0 K 1 :::G 0 2 W T G 0 1 : (2.40) OnobservequeU K

s'obtientfa ilementàpartirdeU

K 1 U K =W T G 0 K 1 U K 1 : (2.41) Posons S(K ;j)=S(K 1;j)+U 1 K 1 v K 1 (j); (2.42) onvérieque + E w ij (K)= + E w ij (K 1)+e T k G 0 K U K S i (K ;j) (2.43) oùS i

(K ;j)estlai-ième olonnedelamatri eS(K ;j)detailleNN.La

méthodedeGreenné essiteuneinversionmatri ielle;lesopérationsnesontpas

lo ales.L'algorithmeréduitla omplexitédel'appro heFPen onsidérantune

ré ursiondire tementsurlegradientd'erreur.Lenombred'opérationsvarieen

O(N 3

).Sun,Chenet Lee[SUN92℄ontappliquél'algorithmesurunproblème

de lassi ation detraje toires2D, étudié àl'originepar Williams et Zipzer,

pourmontrésarapiditésupérieureàRTRL.

2.8. L'appro he par blo s (BU)

L'appro hepar'Blo -Update'(BU) ombinelesavantagesdeBPTT et de

FD. Supposonslegradient al uléàl'instantK M etposons

G(K)= + E w (K) + E w (K M) (2.44)

Par linéarité des équations, al uler G(K) revient à résoudre (2.15) ave

E=vrempla épar(0;:::;0;e

T K M+1 ;e T K M+2 ;:::;e T K ) T .G(K)s'obtienten

résolvantleséquations

y k = WG 0 k +1 y k +1 ; k=1;:::;K M; y k = e k +WG 0 k +1 y k +1 ; k=K M+1;:::;K 1: ave y =e . Posons

(27)

Z(k 1 ;k 2 )= k2 X k =k 1 G 0 k y k v T k 1 : (2.45)

Z(K M+1;K)s'obtientfa ilementgrâ e à eséquations. Ilresteà

dé-terminer Z(1;K M)en appliquant(2.45) pourk =1;:::;K M,ainsi on

aura G(K)= Z(1;K M) Z(K M+1;K) (2.46) Parré ursion, y k =WG 0 k +1 :::WG 0 K M+1 y K M+1 ; k=1;:::;K M: (2.47)

Ilvientparsubstitution

Z(1;K M)= K M X k =1 G 0 k WG 0 k +1 :::WG 0 K M+1 y K M+1 v T k 1 : (2.48)

Chaque olonnedeZ(1;K M)peutse al ulerré ursivement.Posons

Q i (K M)= K M X k =1 v k 1 (i)G 0 k WG 0 k +1 :::WG 0 K M+1 y K M+1 : (2.49) AlorsZ i (1;K M)=Q i (K M)y K M+1 oùZ i (1;K M)désignelai-ème lignedeZ(1;K M).Q i

(K)se al uleré ursivemententermesdeQ

i (K M). Posons (k;K)=G 0 K W T :::G 0 k +1 W T G 0 k : (2.50) Ilvient Q i (K) = (K M+1;K)WQ i (K M) + K X v k 1 (i) (k 1;K): (2.51)

(28)

(k;K)se al uleré ursivementpar

(k;K)= (k+1;K)WG

0

k

: (2.52)

Ainsi,unefoisG(K)obtenu,legradientestévaluépar

+ E w (K)= + E w (K M)+G(K): (2.53)

L'appro heparblo s(BU) ombinelesavantagesdeBPTT et deFD. Les

poids sontajustés tous lesO(N) instants en O(N

4

) opérations. Il faut don

O(N 3

)opérationsà haqueinstantenmoyenne.

2.9. Apprentissage des délais

Au unélémentpré isenbiologien'a réditel'hypothèsed'unapprentissage

ontinu des délais hormis la période de roissan e de l'organisme. Pour

au-tant,l'ajustementde ertainsdélais iblésestévoquésdans[DAY93,BAL 94,

BAL 95,PEA 95℄ ommeunmoyenpourlesréseauxderégulerleurpropre

dy-namique.BaldietAtiya[BAL94℄ontétablides onditionssimplessurlespoids

et lesdélaispourimposerun omportementos illatoiredansdesar hite tures

neuronales simples(e.g. un réseau en anneau).Dans [BOD90℄, une variante

de TDNN explore dessynapsesd'enveloppegaussienne dontles entres et les

é arts-typessontajustés.Maisd'unemanièregénérale,lesalgorithmes

présen-tés ne fon tionnent pas pour ajuster globalement et sans dis ernement tous

lesdélaismaisvisepluttl'ajustementséle tif de ertainsdélais.

L'apprentis-sage desdélaispeutsemontrer instableen raisonde bifur ationsdusystème

dynamique [BAL94℄.

Ilestplus ommodedepartird'uneneurodynamique ontinuepourassurer

l'existen e du gradientd'erreur par rapport aux délais, puis de revenir

ulté-rieurementauxréseauxdis retsparlaméthoded'Euler.Lesrèglesd'expansion

desdérivéespartiellesdanslessystèmesàtemps ontinus'appliquentsans

dif- ultépour onduireàdesversionsBPTTetFD.Latranspositionauxréseaux

àdélaisàvaleurdis rèteexigetoutefoisdesapproximationssévères.

Lesréseaux ontinus -Laneuro-dynamiquedumodèle ontinubou léà

délaisestrégietypiquementparleséquations

h j (t):= j dv j dt = v j +g( N X w ij v i (t ij ))+i j ; (2.54)

(29)

oùlestermes i

etlesdélais

ij

sontdesréelspositifs,v

j désignel'a tivation duneuronej àl'instanttet[t 0 ;t 1

℄estladuréedel'époque.Lesdélais

ij sont

ajustésdefaçonàfaireévoluerleréseau,sousl'a tiondesentréesi(t),versune

traje toiredésiréev

?

(t)surl'intervalledetemps[t

0 ;t

1

℄.Lafon tionerreurest

ettefoisunefon tionnelledelaforme

E= Z t1 t0 e(v ? (t);v (t);t)dt: (2.55)

L'erreurdesmoindres arréss'é rit

E= 1 2 Z t 1 t 0 (v ? (t) v (t)) 2 dt: (2.56)

Elle est al ulée sur l'ensemble des neuronesvisibles, à des intervalles de

temps où v

?

(t) est disponible. Lades ente dugradient entemps ontinu

ap-pliqué audélai s'é rit

d dt = + E ; (2.57)

où , le pas d'apprentissage, est une onstante positive hoisie

onvena-blement.Minimiser E sousles ontraintes neurodynamiques est un problème

d'optimisationendimension innie. Uneanalyseparle al ulvariationnelest

menéedans([PEA 95℄).Uneautre façondepro éders'appuiesurlesdérivées

partielles. Expli itonsladérivéedel'erreurparrapportà,

+ E = Z t1 t0 N X p=1 e v p + v p dt= Z t1 t0 e v + v dt; (2.58) ave e=v j

=0pourdesneurones a hés.Posons

z (t):= + v (t) : (2.59) Leve teur z

(t) représentela sensibilité desv

j

àune variationd'un délai

.Son al uls'obtientpar

z (t)= d d Z t t 0 dv d d= Z t t 0 dh d dt (2.60)

(30)

dz (t) dt = + h = h v + v + h = h v z (t)+ h ; (2.61)

oùlamatri eJa obienneh=v dépenddutemps.

Appro he FD - L'intégration numérique de (2.61) revient à dis rétiser

[t 0 ;t 1 ℄enKintervalledetemps, z (k+1)=z (k)+ h v (k)z (k)+ h (k) t: (2.62) Or, h j v i = Æ ij +w ij g 0 ( N X p=1 w pj v p (t pj )); (2.63)

onobtient,enremplaçant,une expressionexpli itepourle al uldesz

, z ij q (k+1)=w iq g 0 ( N X p=1 w pq v p (k pq ))z ij p (t pq )+ h q ij ; (2.64) ave h q ij = Æ jq w iq g 0 ( N X p=1 w pq v p (t pq )) dv q (t iq ) dt = Æ jq w iq g 0 ( N X p=1 w pq v p (t pq ))h q (t iq ); (2.65) et

Lesdélaissontajustésselon

+ E ' K X k =1 e(k) T z (k): (2.66)

OnretrouvelaversionFD(2.27) pourlesdélais.Mais l'intégration

numé-rique est très oûteuse puisqueil ya autantde variables, z

(31)

Appro he BPTT- Laméthodedel'adjointest ourantedans les

résolu-tion des systèmes d'équations diérentielles linéaires [BAL95℄. La résolution

de (2.61) s'obtient grâ e à la résolution d'un son système linéaire auxiliaire

dénipar dy dt = h v y T e v ; (2.67)

quel'onnommelesystèmeadjointde(2.61).D'après(2.61)et(2.70),les

variablesvérientlarelation

d(y T z ) dt =y T h e v T z : (2.68) Daprès(2.58), onobtient + E = Z t1 t 0 e v z dt = (y T z ) t=t0 (y T z ) t=t1 + Z t1 t 0 y T h dt = Z t1 t 0 y T h dt; (2.69)

d'aprèsles onditionsauxlimitesy (t

1 )=0etz (t 0 )=0.Remarquonsque

y (t) ne dépend pasde àladiéren edesz

(t).L'intégrationnumérique de (2.67)revientàdis rétiser[t 0 ;t 1

℄enK intervalledetempst, hoisisi iégaux

àl'unitédetemps, desorteque

y i (k)=e (k)+ N X j=1 w ij g 0 (s j (k+ ij ))y j (k+ ij ): (2.70)

Ledélaissontajustésselon

+ E ij = K X k =1 w ij g 0 (s j (k))h j (k ij )y j (k): (2.71)

OnretrouvelaversionBPTT(2.32)pourlesdélais.Toutefois,l'in onvénient

majeur provientde equ'ilfautmémoriserlepassédelatraje toiresur[t;t

(32)

Les réseaux dis rets - La transposition de es algorithmesaux réseaux

dis retsàdélaisàvaleur ontinuenepeutêtreenvisagéequ'auprixdequelques

approximationsgrossières.Parexemple, Duroet Santo Reyes[DUR99℄

hoi-sissent d'interpoler linéairement l'a tivation des neurones entre deux instant

k+[℄et k+[℄+1pourobtenirlavaleuràk+,[℄étantlapartieentière

de.Supposonsunelenteévolutiondesvaleursa tivationsentredeuxinstants

onsé utifs,onpeuté rire

v k ij 'Æ jk w ik g 0 ( N X p=1 w pk v p (t pk ))[ v p (t pk ) v k (t 1 pk )℄ (2.72)

Lasolution onsistantàarrondiràl'entierlepluspro helesdélais onduit

à de brusques sauts dugradient. C'est pourquoiil est préférabled'interpoler

l'a tivationdesneuronesentredeuxinstantk+[℄etk+[℄+1pourobtenirla

valeuràk+,[℄étantlapartie entièrede.L'usagededélais ontinusdans

un réseau dis ret est ainsi autorisé. La version BPTT (2.32) pour les délais

devient + E ij ' K X k =1 w ij g 0 (s j (k))(v j (k ij v j (k ij 1))y j (k): (2.73)

DuroetSantoReyesontjaugélesperforman esdel'algorithmesurla

pré-di tionàunpasdelasérieMa key-Glasset surla lassi ation

d'éle troen é-phalogrammesave desréseauxàunseulneuroned'entrée.

2.10. Synthèse et on lusion

Ce hapitre a présenté une nouvelle formulation pour unier les inq

al-gorithmiques majeurs parues dans la littérature es dernièresannées pour le

al ul exa tdugradientd'erreur,parmilesquels

lapropagationavant'forwardpropagationalgorithm'(FP) ou'real-time

re urrentlearning'(RTRL)[WIL89℄)estunalgorithmeenligne(online).

Les paramètres (poids et délais) à l'instant k sont adaptés de manière

ré ursive,enfon tionde euxàl'instantk 1.La omplexitétemporelle

enO(N

4

)lerendtoutefoisextrêmementlourdàmettreenoeuvre.

larétro-propagationdansletemps(ba k-propagationthroughtime'(BPTT)

(33)

trans-e a ede omplexitétemporelleenO(N 2

)estd'usage ourant.Cen'est

pasuneméthodeexa te;laquestiondelatron aturedeBPTTfera

l'ob-jetduChapitre4.Nousverronsqu'ilestpossibledelimiterlenombrede

dépliementsduréseauadjoint,toutengarantissantunebornesurl'erreur

d'approximationdugradientd'erreur,toutenpréservantune omplexité

attra tiveenO(N

2

ln(N) ).

le 'fast forward propagation' (FFP) [TOO 92℄ vise à palier les la unes

deBPTT dans unfon tionnement enligne tout en demeurantune

mé-thodeexa te. Lesparamètresàl'instantsontadaptésde manière

ré ur-sive.L'idée est de al uler les onditionauxlimites àl'instantk=1de

façonré ursive, plutt quepar propagation arrière, auprix d'une

om-plexitétemporelleenO(N

3 ).

l'appro heparfon tionde Green(GF)[SUN92℄,améliorela omplexité

deFPenexhibantunerelationré ursivedugradientd'erreurparlebiais

d'unefon tiondeGreen.Laméthodefon tionneenligne.

l'appro hepar'Blo -Update'(BU)[SCH92℄ ombineBPTTetFDentre

K N et K. L'ajustement des poids en O(N

4

) s'applique tous les N

instants,la omplexitéestdon enO(N

3 ).

Ce adreuni ateur pour le al ul exa t dugradientd'erreurdans les

ré-seaux dis retss'ins rit danslalignéede travauxsimilaires[ATI 00,AUS95b,

BAL 95,PIC 94,PEA95℄, ertainsfondéssurlessystèmeslinéairesadjointsou

le al ulvariationnel,dontlesvertussontessentiellementpédagogiques.Ilsont

vo ationamontréque,endépit desinnombrablesdé linaisonsalgorithmiques

quiontvueslejour,toutespeuventsereformulerdansun adre ommun(i.e.,

Eq.2.15)quimetàjourlesdiéren esalgorithmiquesentermesde omplexité,

demémoire,delo alitédesopérations.

Toute estaxonomiesmontrent,au demeurant,quelaversiontronquéede

BPTT en O(N

2

)aété largementadoptée dansla ommunauté onnexioniste

envertudelalo alitédesopérationsetdesafaible omplexitéentempseten

(34)

APPRENTISSAGE DES RESEAUX

BOUCLES A DELAIS

3.1. Introdu tion

Lesversionsforward(FP) et ba kward (BPTT)de al ul dugradientsont

établies ommeau hapitrepré édentpourune lasseplusgénéralede

d'ar hi-te turesàdélaispourl'apprentissagedepointsxesetl'apprentissagede

traje toires:lesréseauxFIRbou lés.Cesontdesréseauxdis rets bou lésà

délaisdontlessynapsessontreprésentéespardesltreslinéairesà réponse

impulsionnellenie

1

(FIR):des onnexionsarbitrairementretardéeset

bou- lées sont autorisées entre les neurones. Cette ar hite ture générale porte le

nomdeDynami alRe urrentNeuralNetworks(DRNN)[AUS95b,AUS02b℄.

Cettemodi ationsommetouteélémentairequireêtel'intégrationspatiale et

temporelle des signauxin idents au sein de ladentrite et du orps ellulaire,

permet aux intera tions entre neuronesde représenter unvaste hoix de

mé-moiresformelles,variant ontinuementd'unemémoireàfaiblerésolutionmais

de longue étendue, à une mémoire à forte résolution mais d'étendue limitée

[VRI92,WAN93℄.

Les DRNN fédèrent don un grandnombre d'ar hite tures lo alement et

globalementré urrentes proposéesdans lalittératurepourle traitement

tem-porel(voirparexemple[KRE01,PIC94,TSO94,BAL95,CAM99,DUR 99,

WAN 93,WIL89℄ainsiquelesréseauxbou lésàpointxe[ALM87,PIN87℄.

Les réseauxbou lés à points xes sont, d'ordinaire, peu utilisés en prévision

pour éviter d'avoir à relaxer le réseau vers un hypothétique point xe dont

d'existen eetl'uni itédemeurentd'ordinairehypothétiques.Onleurpréfèreun

(35)

rle de mémoireasso iativeou de satisfa tionde ontraintes [PEA 95℄.

L'ab-sen e de y le de retard nul est parfois imposée dans ladénition même des

réseauxdeneuronesbou lés[DRE02℄.Orrienthéoriquementnes'yopposedès

lorsquelastabilitéasymptotiquedespointsxesestétablie.Lebou lageest

ré-puté ontribueràlarobustesseduréseauaubruitd'entrée[PEA 95℄.Rappelons

quel'identi ationdesattra teursauxobjetsàmémoriserestunprin ipe

fon-dateurduparadigmeneuronal[HAY 94℄.D'ordinaire,lalo alisationdes

attra -teursestxéeaupréalableàl'informationquel'ondésire oder[PIN87℄pour

réaliserune mémoireasso iative[HOP82℄.Ellepeutégalementêtre

ontinûe-mentajustéepourdé rireune traje toiredésirée[TOO91,PEA 95,COH97℄

omme 'est le aspour leDRNN. Le ve teur d'état duDRNN est obtenu à

l'issue d'unephasederelaxationversunétatd'équilibre

v k =g( D X d=0 W d T v k d )+i k : (3.1)

dontnousdis utonsl'existen e,l'uni itéetlastabilitéasymptotiqueà haque

instantkdans e hapitre.Uneidée lassiquepourre her herunpointxedes

équations(3.1),à haqueinstantk,estd'appliquerlaméthodedes

approxima-tionssu essives[KHA96,MAN01℄

x(t+1)=g(W 0 T x(t)+ k ); t=1;2;::: (3.2)

oùleve teurlim

t!1

x(t),lorsqu'ilexiste,estleve teurv

k

quel'on her he;

k

est leve teur onstant

P D d=1 W d k T v k d +i k arindépendantdet.

Nousétablissonsdes onditionssusantesgarantissantl'existen e,l'uni ité

etlastabilitéasymptotiquedupointxeainsiquela onvergen easymptotique

versunpointxeduréseauenbou lagefermé. Lesréseauxàpointxessont

réputésêtre plusrobustesau bruitdes entrées. Pourautant, larelaxationest

gourmandeentempsde al ul;l'existen ed'unpointd'équilibrestablen'estpas

mêmegarantieentoutesituation.Danslapratique,onpeut s'aran hir de

la relaxationetdon desquestionsaérentesàl'existen edespointsxesen

prenantunematri edepoidssans y lesde retardnul,ouplussimplement

en prenant une matri e W

0

triangulaireou nulle. Mais dans tous les as, la

(36)

v ve teurd'a tivation

u ve teurdesentréesinternes

i ve teurdesentréesexternes

w d

ij

poidsdela onnexionretardéededentre

leneuroneietleneuronej w d (j)=[w d 1j ;:::;w d Nj ℄ T

ve teurdepoidsdedélaid

versleneuronej W d =[w d (1);w d (2);:::;w d

(N)℄ matri edepoidsdedélaidD

g() fon tiond'a tivation max u (g 0 (u)) G 0 NN matri ediagonale deg 0 (u(j))

Tableau3.1. NotationsduDRNN.Parsimpli ité,l'indexdel'itérationkestomis.

3.2. Les modèlesin lus dans leformalismeDRNN

De nombreuxréseaux bou lés entemps dis ret sontin lus dansle

forma-lisme DRNN [MAN01℄. Lorsque W

0 k = 0 et W d k T

sont triangle supérieures

pour haqued6=0,onobtientleréseauFIRnonbou lédeEri Wan[WAN 93℄.

Beau oupd'ar hite turesditeslo allyre urrentgloballyfeedforwardsontdes

as parti uliers du DRNN (e.g., generalized Fras oni-Gori-Soda ar hite ture

[FRA 92℄), l'ar hite ture de Poddar-Unnikrishnan [TSO94℄ que elle étudiée

par Duro et Santos Reyes [DUR99℄ et Cohen, Saad et Maromet [COH97℄,

sansoublierlesréseauxd'Elman[ELM 90℄etdeJordan[JOR92℄.Lesréseaux

bou lés(asymétriques)àpointxeétudiésparPineda[PIN87℄sontégalement

in lus dansle eformalismeenposantW

d k =0pourd>0. Lorsque 8d 6= 1, W d k

= 0, Le DRNN est réduit au réseau globalement

bou lé standard[WIL89,LIN96℄. LesmodèlesNon-linéairesAuto-Régressifs

(à moyenne ajustée) ave entrées eXogène (NARMAX) [LIN96℄ sont aussi

représentés.

Soulignons enn que mêmes si les ar hite tures à base de synapses IIR

2 ,

e.g.TsoietBa kIIR[TSO94℄,n'entrentpasdans eformalisme,ellespeuvent

se reformuler souslaforme d'un DRNNave desneuronessupplémentairesà

fon tiond'a tivationlinéaireet des onnexionsFIR lo alementbou lées

lo a-lement.Ainsi,les onditionssurlamatri edepoidspourassurerlastabilitéde

l'apprentissagepardes ente degradients'appliquerontégalementauxréseaux

IIR, à ondition qu'ils soient reformulés en DRNN. En tout état de ause,

(37)

toutes esar hite turessourentd'un omportementditoublieux (forgetting

behavior),ausensoùilestdi iledemémoriserdesévénementssurvenusloin

danslepassé.

3.3. Existen e,uni ité etstabilité du point xe

Lesparamètresdusystèmesontdéterminés, à haqueétapek,en relaxant

le système versun étatd'équilibre ara térisé par (3.1).La onvergen e vers

un point d'équilibre stable n'est pas garantie; un omportement os illatoire

[BAL 94℄ ouune dynamique haotiquene sont pasex lus[HER 91℄. La

pré-sen ede y lesderetardnuldanslaformulationDRNNrequiertunephase

de relaxationpour atteindreunétatd'équilibre stable.Or, lemodèle ontinu

dont le DRNN est l'approximationd'Euler, dière de la neurodynamique du

théorèmedeCohen-Grossbergqui ara tériselastabilitédenombreuxréseaux

bou lés(à onnexionssymétriques),enparti ulierlamodèledeHopeld.

L'exis-ten e, l'uni ité et la stabilité asymptotique du point xe dans un DRNN de

onne tivité etdesdélaisquel onquessontétabliesdans equisuit.

Existen eetuni ité-Lessystèmesglobalementasymptotiquementstables

[KHA 96℄ onvergentpresquesûrementversunpointd'équilibre.LesRN

bou- lés pour lesquels une fon tion de Lyapounov a pu être exhibée, tels que le

modèledeHopeldouleBrain-State-In-The-Box(BSB)[GOL96℄(dontla

neu-rodynamique entredans le adreduthéorèmedeCohen-Grossberg[GRO88℄)

sontglobalementasymptotiquementstables.Ce sonttypiquementdesréseaux

àmatri edepoidssymétrique.Lesréseauxbou lésàmatri edepoidsnon

sy-métriquen'admettentdepointxequesous ertaines onditions ommenous

allonslevoir.

Le point xe des équations (3.1) est obtenu, à haque instant k, par la

méthodedesapproximationssu essives[KHA96℄

x(t+1)=g(W 0 T x(t)+ k ); t=1;2;::: (3.3)

oùleve teurlim

t!1

x(t),lorsqu'ilexiste,estleve teurv

k

quel'on her he;

k

estleve teur onstant

P D d=1 W d k T v k d +i k arindépendantdet.La

(38)

Théorème 1 Pour toutematri e W 0

,sil'unede es onditionsestvériée,

max i 0 X j jw 0 ij j 1 A <1; max j X i jw 0 ij j ! <1; 2 4 X i;j jw 0 ij j 2 3 5 1=2 <1; (3.4)

alorslesystème dynamique(3.2) admet,pourtoutve teur onstant, ,un

uniquepointd'équilibreasymptotiquementstablex

? vériantx ? =g(W 0 T x ? + ).x ?

estobtenuparlaméthodedesapproximationssu essives,dontla

onver-gen e est asymptotiquement linéaire, en partant d'un point initial x

O

quel- onque.

Preuve : l'existen e s'établit immédiatement [JIN94℄ en remarquantque

g(x),fon tion ontinuede[ 1;+1℄

N

dans[ 1;+1℄

N

,admetaumoinsunpoint

xeparlethéorèmedupointxedeBrouwer(x(t)estunesuitedeCau hydans

unespa edeBana h,don onvergente).L'uni itédé oulede equelafon tion

génératri edusystèmedynamique(3.2)soitLips hitziennesurlabouleunité.

Eneetlamatri eja obiennedusystème(3.2)vériekG

0 W T kkW T k<1

d'après les onditions (3.4)obtenuesen prenantdes p-normes matri ielles de

Wave p=1;2;1.Don si x ? 1 et x ? 2

sontdeuxpointsxes,

kx ? 1 x ? 2 kkG 0 W T kkx ? 1 x ? 2 k<kx ? 1 x ? 2 k; (3.5) don x ? 1 =x ? 2

. Onretrouvela onditiond'uni ité itée dans[PEA 95℄. De

même, la onvergen easymptotiqueestlinéaire ar

kx k +1 x ? k kx k x ? k kG 0 W T k; 8k: (3.6)

La stabilité asymtptotique résulte d'une appli ation de la méthode

indi-re tedeLyapounov,i.e.,lethéorèmedelinéarisationdessystèmesautonomes

dy=dt=f(y)(p.127,[KHA 96℄)ave y=x x

?

.Lepointd'équilibrey=0est

asymptotiquementstable artouteslesvaleurspropresdelamatri eja obienne

G 0

W T

dusystème(3.2)satisfont8i,Re

i

<0puisquekW k<1=.Ilenvade

même pourx

?

.Les onditions(3.4)sonttrès similairesà ellesénon éesdans

[PIN87,PEA 95℄.

(39)

aléatoires ont montré que des onditions beau oup moins ontraignantes sur

les poids susentàassurerl'existen e et lastabilité asymptotiquedes points

xes[REN 90,PEA95℄.

Par ailleurs,mêmeunefoisgarantiel'existen ed'unpointxe,

l'apprentis-sagepeutren ontrerquelquesproblèmes.Le gradientde l'erreursur les

para-mètresinitiauxduréseaun'estpasfor ément ontinu,mêmesiladynamiquedu

réseau l'est.La omposéesu essivedefon tions ontinuesne tendpas

né es-sairementversunefon tion ontinue.Un hangementinnitésimaldespoidsà

l'instantinitialpeutmodierdefaçondrastiquelalo alisationdupoint

d'équi-libredanslequelvas'établirleréseau[PEA95℄,auquel aslegradientpeutne

pasêtredéni.

Stabilitédes traje toiresen bou lage fermé-Lorsqueleréseau

fon -tionne en bou lage fermé pourla simulation, un signal d'entrée onstant est

appliqué,i

k

=i,etlemodèleestitérésurlui-même.Latraje toirepeut

onver-ger(ounon)versunpointxe,un y lelimiteouen oreunattra teur haotique

ommenousleverronsdansle hapitre onsa réàlare onstru tionde ertains

attra teurs haotiques.Danslasuite,des onditionssusantesd'existen e de

pointsxeset deleurstabilité asymptotiquesontétablies.

La mise jour des a tivations des neurones opère en mode asyn hrone

sé-quentieloualéatoire,lesdeux sontéquivalentsi i. L'importantest qu'unseul

neurone soit ajusté à haque instant. Considérons l'équation ré urrente des

entréess k (j)=g 1 (v k (j)), s k (j)= D X d=0 N X i=1 w d ij g(s k d (i))+i(j): (3.7)

pourj=1;:::;N.Supposonsl'existen edes

? ,unpointd'équilibrede(3.7) et posons k =s k s ? k ,ilvient k (j)= D X d=0 N X i=1 w d ij g(s ? k d (i)+ k d (i)) g(s ? k d (i)) : (3.8)

Ilest lairque(0;0;:::;0)

T

estunpointd'équilibredeEq.(3.8).

Montronslerésultatsuivant[AUS 02a℄,dontlademonstrationestinspiréed'un

(40)

Théorème 2 Pour toutes onditions initiales, le DRNN opérant en bou lage

fermé admetunpointd'équilibre globalementstable asymptotiquement si

D X d=0 N X i=1 jw d ij j<1; 8j=1;:::;N: (3.9)

Preuve:l'existen edupointxes'établit ommepré édemmentparle

théo-rèmedupointxedeBrouwerappliquéausystème(3.1);g()étantbije tive,s

? s'obtientparg 1 (v ? k

(j)).MontrerlaglobalestabilitéasymptotiquedeEq.(3.7)

revientàétablir ellede(3.8).Considéronslafon tionénergie dénieà

l'ins-tantkDpar V( D k )= N X j=1 D X d=0 j k d (j)j+ N X i=1 N X j=1 D X d=0 k X n=k d+1 jw d ij jj n (j)j: (3.10) où le ve teur D k

de taille (D+1)N est la on aténation des ve teurs

k D ; k D+1 ;:::; k

. Pour déterminer la variation V(

D k +1 ) V( D k ), on

observequelesystème(3.7)estitéréselonunedynamiqueasyn hrone

séquen-tiellesanspertedegénéralité:touslesneuronessontsupposésêtremisàjour

dans l'ordredes indi es. Pardénition de, g(s+) g(s)pourtout

s;.Posons V k :=V( D k +1 ) V( D k ) (3.11)

(41)

V k = N X j=1 (j k +1 (j)j j k D (j)j) + N X i=1 N X j=1 D X d=0 k X n=k d+1 jw d ij j( j n+1 (j)j j n (j)j); D X d=0 N X i=1 N X j=1 jw d ij jjg(s ? k +1 d (i)+ k +1 d (i)) g(s ? k +1 d (i))j N X j=1 j k D (j)j+ N X i=1 N X j=1 D X d=0 jw d ij j(j k +1 (j)j j k +1 d (j)j); D X d=0 N X i=1 N X j=1 jw d ij jj k +1 (i)j N X j=1 j k D (j)j: (3.12)

EtpourtoutentierK,

K+D 1 X k =D V k = V( D K+D ) V( D D ) K X k =1 N X j=1 " 1 D X d=0 N X i=1 jw d ij j # j k +D (j)j; + D+1 X k =1 D X d=0 N X i=1 N X j=1 jw d ij jj k +K (i)j D X k =0 N X j=1 j k (j)j: (3.13)

D'après(3.8),onapourtoutk, j

k (j)j<2 P D d=0 P N i=1 jw d ij j<2.Posons r:= min 1jN " 1 N X i=1 D X d=0 jw d ij j # >0: (3.14) D'après(3.13), ilvient lim K!1 8 < : V( D K+D )+r K X N X j=1 j k +D (j)j 9 = ; <1: (3.15)

(42)

d'où 1 X k =D N X j=1 j k (j)j<1: (3.16) Ils'ensuitque lim k !1 N X j=1 j k (j)j=0: (3.17) Ainsi,lim k !1 k k k=0.(0;0;:::;0) T

est unpointd'équilibreglobalement

asymptotiquement stable du système (3.8), don s

?

est un point d'équilibre

globalementasymptotiquementstabledusystème(3.7).

Cettedémonstrationestinspirée del'analysedesréseaux ontinusàdélais

menéedansl'arti leré entdeFengetPalmondon[FEN01℄. Cerésultat

géné-raliselaformuledeMandi etChamberspourlePer eptronré urrentNARMA

(page129,[MAN01℄)

3.4. Cal uldu gradient

Les questions de stabilité et de onvergen e asymptotique étant traitées,

examinonsmaintenantlesmodi ationsqu'apportelarelaxationinduiteparla

ré urren eetlesdélaisarbitraires,surle al uldugradient.Laformulationdu

problèmedeminimisationsous ontrainteségalitéprend laforme

Minimiser E

sousles ontraintesh

k =g( P D d=0 W d T v k d ) v k =0; k=0;:::;K : (3.18) Les ontraintesh j

sontexprimées ommedeséquationsàpointxedontles

variablessontlesv

k

.Arrangeonsles olonnesw

d

(i)deW

d

enunlongve teur

olonne, ainsiquev etleve teurde ontraintesh

w d = 0 B w d (1) . . . d 1 C A : (3.19)

(43)

Onatoujoursl'équationdebase(2.15), + E w = E v h v 1 h w : (3.20)

mais ettefois,

h

v

est unematri eplusdense,

h v +I= 0 B B B B B B B B B B B B B B B B G 0 1 W 0 T 0 0 0 G 0 2 W 1 T G 0 2 W 0 T 0 0 G 0 3 W 2 T G 0 3 W 1 T G 0 3 W 0 T . . . . . . . . . . . . . . . G 0 D+1 W D T . . . . . . 0 G 0 D+2 W D T . . . . . . . . . . . . . . . 0 0 G 0 K W D T G 0 K W 1 T G 0 K W 0 T 1 C C C C C C C C C C C C C C C C A (3.21) oùG' k

estdonnéeparG'

k =G k (1 G k )ave G k

dénie ommelamatri e

diagonaleN N onstruite àpartirdeg(s

k

(j))pourj =1;:::;N. L'inverse

de h=vnes'exprime expli itementque pourD =1: lesappro hes FFP

et GF sont don ex lues.Onaégalement

h w d = 0 B B B B B B B B B B 0 . . . 0 G 0 d V 0 G 0 d+1 V 1 . . . G 0 K V K d 1 C C C C C C C C C C A ; 8d=1;:::;D: (3.22)

oùd-ièmeblo ,G

0

d V

0

, estlepremierblo non-nul.

3.5. La propagationen avant (FP) Posons Y d = (h=v ) 1 h=w d

. Cette grandeurdépend du délai d. Y

(44)

Y d = 0 B B B Y d 1 Y d 2 . . . Y d K 1 C C C A ; (3.23) où Y k

est une matri e N N

2 . D'après (h=v )Y d =h=w d , il vient pourk=D+1;:::;K, Y d k =[I G 0 k W 0 T ℄ 1 G 0 k " D X d=1 W d T Y d k d V k d # ; (3.24)

ave les onditionsauxlimites

Y d j = G 0 j V j d ; j=1;:::;D: (3.25)

Don dans l'appro he 'forward', laré ursionse faitdans lesensdu temps

et legradientnalest obtenupar

+ E w d = E v Y d = K X k =1 e T k Y d k : (3.26)

Remarquonsqu'enposantY=(h=v )

1 h=Wave W=(w 1 ;:::;w D ), (3.24) s'é rit Y k =[I G 0 k W 0 T ℄ 1 G 0 k " D X d=1 W d T Y k d (V k 1 ;:::;V k D ) # : (3.27) D'où + E W = E v Y= K X k =1 e T k Y k : (3.28)

Cetalgorithmeàpropagationavantest laversionRTRL [WIL89℄

généra-lisée au DRNN. On remarque que les dérivées Y

k

sont les sorties du réseau

original linéarisé. Lapro édureest fortementgrevéeparlamassede al ulet

de mémoire requise. En premier lieu, haque dérivée doitêtre sto kée e qui

(45)

quantité dra onienne d'opérations, de l'ordre de O(D 2

N 4

) est né essaire à

haque itération ar l'adaptation les DN

3

dérivées requiert ha une O(DN)

opérations.

3.6. La rétro-progationdans letemps(BPTT)

DanslaméthodeBPTT,onévalued'abordy

T

= E=v (h=v )

1 avant

delemultiplier parlasuiteparh=w .Pardénition,

E v = y T h v (3.29) Ave y T = (y T 1 ;:::;y T K

). En substituant les expressions (2.16) et (3.21)

danslaformule i-dessus,ilvient

y k =[I W 0 G 0 k ℄ 1 [e k + D X j=1 W j G 0 k +j y k +j ℄ (3.30)

ave la onditionaux limites y

K =[I W 0 G 0 k ℄ 1 e K et y j =0si j >K. D'aprèsladénitiondey + E w d =y T h w d : (3.31)

Aprèssubstitutiondeydans ette l'expression,onobtient

+ E W d = X K k =d G 0 k y k v T k d : (3.32) PosonsÆ k =G 0 k y k

,onretrouveunegénéralisationdelarègledeltapourun

réseaunon-bou lé. + E W d = K X k =d Æ k v T k d : (3.33)

La rétro-progationdans le temps (BPTT) est très e a e: sa versionen

mode bat h est de l'ordre de O(N

2

). Toutefois, la mémoire requise varie en

O(K),ilestpeupratiquededéplierleréseau omplètement,unetron atureest

(46)

1 t-1

t

t+1

0,1

Figure 3.1. Illustrationdu pro essus de dépliagepour un DRNN simple onstitué

d'uneentrée,unneurone a héetunesortie.Lesvaluations desar sdésignentle(s)