HAL Id: tel-00395549
https://tel.archives-ouvertes.fr/tel-00395549
Submitted on 15 Jun 2009
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Neurones : Applications aux Telecom et aux Sciences
Environnementales
Alexandre Aussem
To cite this version:
Alexandre Aussem. Le Calcul du Gradient d’Erreur dans les Réseaux de Neurones : Applications aux
Telecom et aux Sciences Environnementales. Modélisation et simulation. Université Blaise Pascal
-Clermont-Ferrand II, 2002. �tel-00395549�
CLERMONT-FERRAND II
Laboratoired'Informatique,deModélisation
etd'OptimisationdesSystèmes,
LIMOS(UMR6158,CNRS)
T H E S E
présentéepar
Alexandre Aussem
pourobtenirlediplme:
HABILITATION A DIRIGER DES
RECHERCHES
Spé ialité:Informatique
Le Cal ul du Gradient d'Erreur
dans les Réseaux de Neurones Dis rets
Bou lés à Délais : Appli ations aux
Télé om et aux S ien es Environnementales
Soutenuele19Dé embre2002devantlejury omposéde:
Président, AlainQuilliot, Professeur, Univ.BlaisePas al.
Rapporteurs, YoshuaBengio, Professeur, Univ.deMontréal.
YounèsBennani, Professeur, Univ.Paris13.
Patri kGallinari, Professeur, Univ.Paris6.
ErolGelenbe, Professeur, Univ.Center Florida.
Examinateurs, StéphaneCanu, Professeur, INSARouen.
PhilippeMahey, Professeur, Univ.BlaisePas al.
FionnMurtagh, Professeur, Queen'sUniv.Belfast.
Table des matières
1 INTRODUCTION 7
1.1. Cadrede etteétude . . . 7
1.2. Présentationdestravauxdere her hes . . . 8
1.3. Organisationet ontenudumémoire . . . 9
1.4. Avisaule teur . . . 13
2 APPRENTISSAGEDESRESEAUX BOUCLESSTANDARDS 15 2.1. Introdu tion. . . 15
2.2. Notationsetrappels . . . 17
2.3. Un adreuni ateur . . . 19
2.4. Lapropagationenavant(FP) . . . 21
2.5. Larétro-propagationdansletemps(BPTT) . . . 22
2.6. Lapropagationenavantrapide(FFP) . . . 23
2.7. L'appro heparfon tiondeGreen(GF) . . . 24
2.8. L'appro heparblo s(BU). . . 25
2.9. Apprentissagedesdélais . . . 27
2.10.Synthèse et on lusion . . . 31
3 APPRENTISSAGEDESRESEAUX BOUCLESADELAIS 33 3.1. Introdu tion. . . 33
3.2. Lesmodèlesin lusdansleformalismeDRNN . . . 35
3.3. Existen e, uni itéetstabilitédupointxe. . . 36
3.4. Cal uldugradient . . . 41
3.5. Lapropagationenavant(FP) . . . 42
3.6. Larétro-progationdansletemps(BPTT) . . . 44
3.7. Con lusion . . . 46
4 L'EVANOUISSEMENTDUGRADIENT 47 4.1. Introdu tion. . . 47
4.3.1. ComplexitédeBPTT tronqué. . . 55
4.3.2. Appli ationsnumériques . . . 57
4.4. Expérimentations . . . 57
4.4.1. Dé lindugradient . . . 58
4.4.2. Erreurdetron aturedeBPTT . . . 60
4.5. Quelquesalternativesàlades entedugradient . . . 64
4.6. Quelquesproblèmestypesdedépendan e àlongueportée . . . 67
4.7. Versdesmodèlesd'ordresupérieur . . . 69
4.8. Con lusion . . . 70
5 PREDICTIONSENVIRONNEMENTALES 73 5.1. Introdu tion. . . 73
5.2. Régressionlinéaire/non-linéaire:quelquesrappels . . . 74
5.2.1. QuelquespropriétésduMLP . . . 76
5.2.2. Lamodélisationdynamique boîte noire. . . 78
5.2.3. Quelquesproblèmesouverts . . . 79
5.3. Modeopératoire . . . 80
5.4. Lamodélisation despro essus haotiques . . . 81
5.4.1. LasuitedeMa key-Glass . . . 83
5.4.2. LasuitedeHénon . . . 86
5.4.3. LeséquationsdeLorenz . . . 90
5.4.4. Lasuited'Ikeda . . . 92
5.5. Prédi tions detempératureàlasurfa edelamer . . . 99
5.5.1. LesdonnéesdeSST . . . 100
5.5.2. Résultats . . . 101
5.5.3. Re onstru tionde artesmétéorologiques . . . 102
5.6. Prédi tiondesu tuationsduseeingastronomique . . . 107
5.6.1. Variabilitéduseeing . . . 108
5.6.2. Apprentissageentemps réel . . . 108
5.7. Leprin ipedelaméta-modélisation . . . 112
5.7.1. Con lusionetperspe tives. . . 112
6 PREVISIONDUTRAFICTELECOMPARANALYSE MULTIRESO-LUTION 115 6.1. Introdu tion. . . 115
6.2. Analysemultirésolution . . . 116
6.3. Algorithmeàtrous . . . 119
6.4. Appli ation:Prédi tiondutra Web . . . 124
6.4.1. Dépendan esàlongue portée . . . 125
6.4.2. Analysedesdonnées . . . 126
7 PREVISIONDE LAQUALITEDESERVICEDANSLESRESEAUX
TELECOM 139
7.1. Introdu tion. . . 139
7.2. Lesdes ripteursdetra . . . 140
7.3. Réseauxdeneuronesdistribués . . . 143
7.4. Expérimentations . . . 144
7.4.1. Fileunique . . . 145
7.4.2. Filesentandem . . . 146
7.4.3. Deuxlesenparallèlealimentantunetroisième . . . 149
7.5. Dis ussionet perspe tives . . . 150
7.6. Con lusion . . . 151
8 MODELEHYBRIDECHAINEDE MARKOVCACHEE &MLP 153 8.1. Introdu tion. . . 153
8.2. Expertsprédi teurs. . . 154
8.3. L'apprentissagedesexperts . . . 156
8.4. Cal uldelapseudo-log-vraisemblan e . . . 156
8.5. Maximisationdelapseudo-log-vraisemblan e . . . 158
8.6. Segmentation . . . 158
8.7. Estimationdire tedesparamètres . . . 160
8.8. Simulations . . . 160 8.8.1. Fon tion logistique . . . 161 8.8.2. Hénon-Logistique . . . 162 8.8.3. Ma key-Glass . . . 162 8.8.4. Donnéesréelles . . . 162 8.9. Con lusionetPerspe tives. . . 166 9 PERSPECTIVES 169
Jesouhaite exprimermaprofonde gratitudeauxmembresdujurypourla
onan equ'ilsm'onttémoignéeetletravail onsidérablequ'ilsont onsa réà
la le tureexhaustivede e longmémoirede synthèse, et e malgrélesbrefs
délaisimpartisen ettepériodedesur hargenotoire.
Je tiens également à adresser mes plus vifs remer iements au Professeur
AlainQuilliot,Dire teurduLIMOSetdel'ISIMA,pouravoir ontribuéà réer
des onditionshumainesetmatériellesstimulantes,propi esàl'exer i edemes
a tivités d'enseignant- her heur, dansunesprit deliberté et de onan e. Sa
grandesagesseet sesqualitéshumainesontété lesmeilleursatoutsdurant es
années.
Je tiens ennà adresser ma profonde sympathie à tous mes ollègues de
l'ISIMA et du LIMOS,qui ontsu instaurer et préserverl'atmosphère
INTRODUCTION
1.1. Cadre de ette étude
Cedo umentdesynthèse intitulé-Cal ulduGradientd'Erreurdansles
Réseaux de Neurones Dis rets Bou lés à Délais : Appli ations aux Télé om
et aux S ien es Environnementales - dresse un panorama de mes travaux de
re her he,entamés au ours de ma dernièreannée de thèse en 1995 et
pour-suivisdepuismonarrivéeen1996enqualitédeMaîtredeConféren es,jusqu'à
aujourd'hui àl'InstitutSupérieurd'Informatique, deModélisationet de leurs
Appli ations (ISIMA),é ole d'ingénieur ratta héeàl'université BlaisePas al
(Clermont-Ferrand II). Mes re her hes s'ins riventdans le thème
Modélisa-tion, Prévision et Dé ision des systèmes biologiques, é ologiques et
environ-nementaux,auseindel'axeInformatique etCal uldel'AideàlaDé isionet
Re her heOpérationnelle duLaboratoired'Informatique, deModélisationet
d'Optimisation desSystèmes(LIMOS,UMR6158CNRS).
Audelàdelades riptiondes ontextess ientiquesdanslesquels estravaux
ontété onduits, etteprésentation tente derestituer e qui a onstituél'une
desmotivations essentiellesdemona tivitéd'enseignant- her heur: travailler
àl'interfa eentredesdis iplines onnexes(traitementdusignal,fouillede
don-nées,apprentissagestatistique,algorithmique,ltrageadaptatif,ingénieriedes
réseaux télé om,et .), s'enri hiret faire oopérerdes savoirs,des
personnali-tés, des ompéten eset des démar hesdistin tes.C'est dans et espritqu'est
organisé edo ument.Aprèsquelques hapitresrelativementthéoriquessurle
al ulalgorithmiquedugradientd'erreurdanslesréseauxbou lés,letexte
s'ef-for e,nonpasderestituerlesdétailsdemiseenoeuvredesdiérentesméthodes
en lin àsepen hersurlespremiers hapitreste hniques peutdire tement
a - éderaux hapitresappli atifs,etpasserdel'unàl'autreàsa guise.
1.2. Présentationdes travaux de re her hes
Ilest ommunémentadmisdepuisla ontributionmajeuredeHebben1949
[HEB 49℄ que l'apprentissagedans les systèmes biologiques résulte de la
mo-di ation progressivedessynapses. Ces modi ationssontle résultat de
mé- anismes éle tro himiques dans l'environnementimmédiat de la synapse; les
opérationssontlo ales.Lamodi ationsynaptiqueetle omportement olle tif
quel'onsouhaiteenseignerauréseausontdeuxpro essusquiopèrentàdes
ni-veauxhiérar hiquesdistin ts.Lamodi ationsynaptiquen'apas onnaissan e
de la tâ he globale quele système her heà apprendre.Dés lors,selon quels
prin ipesfaut-il régir lesmodi ationssynaptique lo ales pourfaire émerger
olle tivement le omportement omplexe que l'on souhaite enseigner au
ré-seau? La questiontaraude depuis es vingtdernièreannées l'esprit des
her- heursdansla ommunauté onnexioniste.Deux éléments omplémentairesde
réponseontvulejourdanslalittérature.
L'idéedeHebbestlasuivante:lorsquel'a tivitédedeuxneurones onne tés
est orréléepositivementdansletemps,lepoidsdelasynapsequilesunitdoit
êtrerenfor éetvi e-versa.Endépitdelasingulièresimpli itéde ettevague
for-mulationetsesmultiplesdé linaisons[OJA82,SAN89℄,denombreuxtravaux
ont montré les orrespondan es fé ondes de e prin ipe d'auto-organisation
ave l'analyse(statistique)en orrespondan esprin ipales(PCA)[HAY94℄et
lathéoriedel'information[LIN89℄.
Lades ente dugradient est lase ondeidéemajeurequi sus itaune
extra-ordinairerésurgen edesréseauxdeneuronessurlas ènedel'intelligen e
arti- ielle,enproposantunprin ipepourguiderl'organisationglobaledes
modi- ations synaptiques.L'implémentation algorithmiqueparti uliérement
attra -tivede e prin ipeauxréseauxde neuronesmulti- ou hes est l'algorithme de
rétro-propagationdugradient(ba kprop)inventéàl'origineparWerbosen1974
[WER 74℄,puisredé ouvertindépendammenten1985parRumelhart[RUM86℄
et d'autres.LevantdénitivementleslimitationsduPer eptrondeRosenblatt,
etalgorithmeélégantpréguralerenouveaudu onnexionismedanslesannées
1980 en ristallisant les énergies autour d'une voie nouvelle. De part sa
sim-pli ité d'usage,l'outil onnexionistedésormaisbanalisé,aservidepâture aux
her heurs de tous horizons s ientiques omme en attestent les nombreuses
appli ations qui ont vule jourdans ledomainedes s ien esdel'ingénieur où
re on-de pro essus physi o- himiques omplexes, de la modélisation de pro édé
in-dustriel au ontrlede l'a tionneur hydrauliqued'un brasde robot [DRE02℄
en passantparlesprédi tionsenvironnementales. L'essordu onnexionisme a
aussientraînédanssonsillageunemyriadedeproduits ommer iaux ouronnés
desu èsparmilesquelslesordinateursà rayonoptique,l'analysedeséquen e
ADN,ladéte tiondefraudedanslestransa tionsban aireset .
Letraitementdeséquen estemporellesné essitetoutefoisl'introdu tionde
délais [VRI92, ELM90, JOR92, WAI89, WAN93, DAY93℄ dansles
trans-missions synaptiques. Le time-delay neural network (TDNN) [WAI89℄ dans
lequelles onnexionsentre ou hessontretardées,aétéunedespremières
ex-tensionsapportéesauréseaunonbou léstatiquepourletraitementdelaparole.
Depuis,unemultitudedemodèleslo alementouglobalementbou lés[TSO94℄,
dis rets ou ontinus[BAL95℄, àdélais xesouajustables[BOD90, DAY 93℄
ontvulejour.Toutefois,lesmodèlesnonbou lésnepeuventrendre ompte
or-re tementdespro essusnon-linéairesqui admettentunereprésentationd'état
et dontlesobservationssontenta héesd'unbruitdesortie.En eet,
l'identi- ation desystèmedynamique n'estenvisageableave desréseauxnon-bou lés
que lorsquetouteslesvariablesd'étatdusystèmedynamique sous-ja entsont
mesurées[NAR91,SRI94,DRE02℄.Cen'estpastoujoursle asbienentendu.
C'est pourquoi e do ument passe enrevue lesprin ipaux algorithmiques du
al ul du gradientd'erreurdédiés auxréseauxde neuronesdis rets bou lés à
délais,sousl'angledela omplexitéentempsetenespa emémoire,etdela
fa- ilitédemiseenoeuvre(e.g.lo alitédesopérations,implémentationtempsréel,
stabilité numérique, al uldugradientexa t/appro hé,et ).Unefoisidentié
unalgorithmede omplexitéet demiseenoeuvre attrayante, e do umentse
poursuitpar uneprésentationdesappli ations desréseauxbou lésàla
simu-lation,àlaprévisionet àlasegmentationdeséries temporelles,réaliséesdans
le adredemesprojetsdere her hemenés esdernièresannées auLIMOS.
1.3. Organisation et ontenudu mémoire
Donnonsàprésentunbrefaperçudu ontenudesdiérents hapitres.
Le hapitre 2présenteles diérentes implémentations pratiquesde l'idée
de la des ente du gradient. Les algorithmes saillants qui sont parus dans la
littérature es dix dernières années, à savoirla rétro-propagation (BP)
las-sique et la rétro-propagation dans le temps (BPTT) [RUM86, WER90℄, la
rétro-propagation ré urrente pour des réseaux statiques ré urrents[ALM 87,
PIN87℄, la rétro-propagation temporelle pour les réseaux FIR non-bou lés
[SUN92℄, etl'appro he'blo k-update' (BU)[SCH 92℄,sonténumérési idans
unnouveau adreformeluni ateuretexaminésauvudeleur omplexité.Ces
derniersontétéintroduitspourdesar hite turesderéseauspé iques(temps
ontinu/dis ret, modèleadditif/d'ordresupérieur,statiques/àdélaiset )pour
des problèmes parti uliers (apprentissagede point xe, apprentissage de
tra-je toire)enusantdete hniquesvariées( al ulvariationnel,méthoded'adjoint,
intégrationnumériqueet .).
Le hapitre3établitlesversionsforward(FP)etba kward(BPTT)du
al- ul dugradientpourune lasseplusgénérale ded'ar hite turesàdélaispour
l'apprentissage de points xes et l'apprentissage de traje toires: les réseaux
FIR bou lés. Ce sont des réseaux dis rets bou lés à délais dont lessynapses
sontreprésentéespardesltreslinéairesàréponseimpulsionnellenie(FIR):
des onnexions arbitrairement retardées et bou lées sont autorisées entre les
neurones. Cette ar hite ture générale porte le nom de Dynami al Re urrent
Neural Networks (DRNN) [AUS 95b, AUS02b℄, et fédère un grandnombre
d'ar hite tureslo alementetglobalementré urrentesproposéesdansla
littéra-turepourletraitementtemporel(voirparexemple[KRE01,PIC94,TSO94,
BAL 95,CAM99, DUR99, WAN93, WIL89℄) ainsi queles réseauxbou lés
à point xe [ALM87, PIN87℄. Des onditionssusantes garantissant
l'exis-ten e, l'uni ité et lastabilitéasymptotique dupointxe ainsiquelastabilité
asymptotiqueduréseauenbou lage fermésontétablis.
Au hapitre 4, il est montré pourquoi les réseaux bou lés sont réputés
in apablesd'apprendre des dépendan es àlongue portée, mêmeélémentaires.
Le problème dutemporal redit assignment demeure l'une desthématique de
re her he de la ommunauté onnexioniste omme en témoigne une ré ente
taxonomie sur les réseaux onnexionistes spatio-temporels (STCN) [KRE01℄.
En eet, ladé roissan e rapide duot arrière du gradient derreur(gradient
error ba k ow et notée GEBF),rend quasimentimpossible l'apprentissage
dedépendan esàlongueportéeentrelesentrées/sortiespardesméthodes
fon-déessurlegradient.Cettefaiblessequaliéedeforgettingbehavior,estau oeur
des préo upations d'un grandnombre de travaux depuis l'arti le de Bengio
et al.[BEN94b℄. Dans e hapitre, l'analysede l'GEBF étendles travauxde
[FRA 92, BEN94b, AUS 95b, HOC97b, LIN96℄ au réseaux FIR bou lés, y
omprislesréseauxàpointxe,etapporteuné lairagenouveausurladi ulté
de la des ente du gradient à apturer des ontingen es temporelles àlongue
portée.Des onditionssusantespourgarantirla onvergen edel'EGBFsont
établies.Celles- is'exprimentexpli itementenfon tiondelamatri edepoids
et s'appliquent à de nombreux réseaux bou lés introduits dans la littérature
esdernièresannées[KRE01,TSO94℄.Alalumièrede erésultat,uneborne
supérieure surlenombrede rétro-propagationsdansletemps estétabliepour
simu-Le hapitre 5 illustre les aptitudes des réseaux bou lés à délais dans le
domainedelasimulationetdelaprévisionà ourttermedesériestemporelles
issues desS ien es Environnementales ausenslarge.Dans unpremier temps,
des réseaux bou lés à délais sont entraînés omme prédi teurs à un pas sur
des suites haotiques synthétiques en délivrant au réseau de neurones, une
information tronquéedu ve teurd'état dusystème. Ilin ombeau modèle la
lourdetâ hed'inférerlesvariablesd'état a héesdusystèmeà haqueinstant.
Unefoisitérésurlui-mêmeenbou lagefermé,leréseaudeneuroneestlesiège
d'un omportement haotique ommeentémoignelesattra teursre onstruits.
Fortde esobservations,plusieursappli ationsontétéréaliséesdepuis1996
dans le domaine des s ien es environnementales. Je présente en premier lieu
un travailvisantà ouplerunmodèlede simulationnumérique de la
ir ula-tion o éaniqueave desréseauxde neuronesande prédirela températureà
lasurfa edelamer(Sea Surfa eTemperature,SST)sousformede artes2D
quelquesjours àl'avan e,dansune zonemaritimeoùl'onobservedes
mouve-ment as endantsd'eau froide,quel'on désigneparlephénoméned'upwelling.
Cetravailaétémenéau oursdesannées1998et1999dansle adred'unprojet
dere her heave Mar Fuentes,a tuellemententhèseàl'universitéde
Mont-réal, ave le Marine EnvironmentUnit au(European) JointResear h Center
JRCàISPRA(Italie).
Dansunse ondtemps,jedresselesgrandeslignesd'unprojetdere her he
menéave leEuropeanSouthernObservatory(ESO)au oursdesannées1999
et2001en ollaborationave GermainTran(IngénieurISIMA)etMar Sarazin
(ESO), qui traitedelaprévision à ourtterme desu tuations d'unemesure
deladira tiondesondeslumineusesdûeauxperturbationsatmosphériques:
leseeing.Sesu tuationssontd'uneimportan emajeurepourlesastronomes
par equelesopérationsde alibragedestéles opessontmenéesquelquetemps
avantl'observation.
Ceparagrapheappli atifs'a hèvesurl'esquissed'untravailmenéave David
Hill (LIMOS), dans le adre d'un projet LIFE Control of the spread of the
Caulerpa Taxifolia in the Mediterranean (programme DG XI) onsa ré àla
prévisiondelasurfa e ontaminéeparla aulerpeaprésplusieursannéesdans
la bassin méditerranéen. Leprin ipe d'entraîner unréseau de neuronesgrâ e
auxtra esissuesdesrépli ationsdessimulationssto hastiquesestqualiédans
lalittératureparletermedeméta-modélisation[KIL94℄.Leréseaudeneurones
permet,au terme del'apprentissage,ungainen tempsde al ul onsidérable
puisqu'ilpermetd'anti iperl'évolutiond'unsystèmesto hastique omplexe(le
modèle),parunpro essusdéterministeplussimple(leméta-modéle).
Le hapitre6présenteuneméthodehybridepourprédirelesséries
(Univ. Belfast)etmoi-mêmeen1996estfondésuruneanalysemultirésolution
de la suite de manièreà ontourner le problèmede l'évanouissement du
gra-dient dansdesréseauxdeneurones.Unedé omposition enondelettesdis rète
est ee tuéeparl'algorithme dit àtrous.Chaque é helle, qualiéed'o tave,
estalorstraitéeindividuellementparunréseaudeneuronesandefournirune
estimationdesfuturs oe ientsd'ondelettes.Cesdernierssontalors
re ombi-néspourfournirlaprédi tionnaledumodèle.Cettete hniqueesti iillustrée
sur un problème de prévision, une minute àl'avan e, du volume de données
télé hargés sur un serveur Web. Depuis l'année 2002, une ollaboration ave
Patri e Abry (Lab.de Physique, ENSLyon)spé ialistedes loisd'é helles,et
Pierre Chainais (LIMOS)est menéedans e senspour ara tériser et prédire
le omportement du télétra . Cette ollaboration s'ins rit dans le adre de
l'A tionSpé ique`MétrologieInternet duCNRSqui adébuttén2002.
Le hapitre 7 fait état des derniers développements d'un projetau long
oursdédiéàlagestiondesressour esdansunréseautélé ommultiservi e,
ini-tiéparErolGelenbeetmoi-mêmeaumilieudesannées90[AUS 94b℄,poursuivi
par plusieursstagiairesdeDEA su essifs[AUS94b, AUS99 ℄ auLIMOS en
ollaborationave RaymondMarie(IRISA),etennreprisparAntoineMahul
(dont j'en adrela thèse au LIMOS depuis septembre 2000) dansle adre du
projetRNRTOPIUM(OptimisationdelaPlani ationdesInfrastru turesdes
réseaUx Mobiles). Ce projet, dontlapartie routage in ombe auLIMOS,vise
àorirune solutionintégrée pourlaplani ationet l'optimisationderéseaux
de télé ommuni ations mobiles. Le travail d'Antoine Mahul a pour objet de
substituer in ne àla formule M/M/1 lassique dans le ode de l'algorithme
d'optimisation multiots développé parPhilippeMahey et Christophe
Duha-mel, un réseau de neurones entraîné par simulation pour prédire la QoS en
haquenoeud entermesdedélaidedeperte.
Le hapitre8présenteunmodèleauto-régressifnon-linéaireà hangement
de régime markovienpour lasegmentationde sériestemporelles stationnaires
parmor eaux.Lasegmentationopèreenamontdelaprédi tion,en esensqu'il
estassezaiséde onstruireultérieurementunprédi teuràpartirdu omitédes
experts.Cetravail,initiéen1999àlale tured'unarti ledeJ.Kohlmorgenet
al. [KOH99℄, estimelesparamètresparleprin ipedumaximumde
vraisem-blan e;unalgorithmeEMo-lineestemployépourl'estimationdesparamètres
du modèle, en parti ulier les paramètresdes réseaux de neurones, les
proba-bilités de transitionset lavarian edubruit. Desexemplesd'appli ation sont
présentés sur des données arti ielles et nan ières menées en ollaboration
ave Mar Fuentes(do torantàl'Univ.Montréal)etCorinneBoutevin
(do to-ranteauLIMOS).Notonsqu'uneversionon-linede etalgorithmeafaitl'objet
d'une thèse ré ente [RYN 00℄basée sur une formulationplusastu ieuse dela
del'é riture ursive[GAR96℄.
Et enn, le hapitre 9 dresse une synthèse des travaux présentés dans
e do ument et dégage, en guise de on lusion, les nouvellesthématiques de
re her hequejesouhaiteaborderau oursde espro hainesannées.
1.4. Avis aule teur
Ce do umentde synthèse n'estnullement unouvrage dida tique,ni une
taxonomiedesréseauxdeneuronesbou lésàdélais.Lestroispremiers hapitres
rendentexhaustivement omptedemontravaildere her he-plusthéorique
-entreprisdepuismathèseen1995surlesréseauxré urrents.Lase ondepartie
onstituésdes hapitres4,5,6,7et8abordedesappli ationsdiversesetvariées,
sansparfoisdedénominateur ommun,niréféren eàlapremièrepartie.
Ce do umentéva ue (littéralement) un ertainnombre deproblématiques
essentielles omme la régularisation dite formelle (ausens de Tikhonov, par
l'adjon tion d'un terme de pénalisation) et la régularisation dite stru turelle
(élimination de onnexions jugées superues, les te hniques d'identi ation
presque sûre du vrai modèle) du réseau, en dépit du grand nombre de
pa-ramètres ajustables. Les méthodes pour le al ul d'intervalles de onan e
asso iés aux prédi tions sont également omises ainsi que les méthodes pour
approximerlamatri ehessiennedelasortiedumodèleparrapportàses
para-mètres.Parailleurs,ledétaildesmodesopératoires,lades riptiondesdonnées,
le hoixdesar hite tures,lamiseenoeuvreexa tedelavalidation roisée,et .
gurentdanslesarti les,a essibleenlignesurlapagewww.isima.fr/aussem.
Lestrois premiers hapitressont dédiésuniquementau al ul dugradient
d'erreurdanslesréseaubou lés.Lesalgorithmesd'apprentissage,àproprement
parler,nesontpasprésentéspar on ision.Onlestrouveraendanslespremiers
hapitresdetouteslesthèsesdudomaine(voirparexemple[AUS 96,GOU97,
MAN 95,RYN 00℄).
Lele teurdésireuxdeseplongerplusendétaildanslesquestions relatives
aultrageadaptatif,auxar hite turesetauxproblèmesdestabilitédesréseaux
bou lés, pourra onsulter l'ouvrageré ent deD.P. Mandi et J.A. Chambers
onsa réauxréseauxré urrentspourlaprédi tion[MAN01℄.Lesproblèmesde
régularisation - orientés Statistique- sont traitésplusendétail, parexemple,
dans les thèses de MorganMangeas [MAN95℄ et deCyril Goutte [GOU97℄.
Parmi les ouvrages ré ents qui s'adressent àun publi plus large, on pourra
onsulter [BIS95,GOL96,HAY94℄,ainsique[DRE02℄enlanguefrançaise.
APPRENTISSAGE DES RESEAUX
BOUCLES STANDARDS
2.1. Introdu tion
Ce hapitre présente un adre uni ateurpour le al ul dugradient
d'er-reur dans les réseaux de neuronesbou lés opéranten temps dis ret. Le
gra-dient d'erreur servira dire tement ou indire tement (e.g. algorithmes pseudo
Newton) àl'ajustementdespoids,au al uld'intervalles de onan e, à
l'ap-proximationduhessien,et .[BIS 95℄.Ce adreformelfondésurlathéoriedela
ommandeoptimale[ATI 00,BRY75℄, est dédiéauxréseauxbou lés dis rets
ditsdeWilliamsetZipzer[WIL89℄),pourlesquels haquesynapseestretardée
d'une unité detemps. Ilfédèrelesprin ipales méthodesalgorithmiques mises
en oeuvre pour le al ul du gradient d'erreur, plusspé iquement: 'forward
propagationalgorithm'(FP)ou'real-timere urrentlearning'(RTRL)[WIL 89℄
, 'ba k-propagation throughtime' (BPTT)[RUM86, WER 90℄,'fast forward
propagation'(FFP) [TOO92℄, Green's fun tion approa h' (GF) [SUN92℄, et
l'appro he'blo k-update' (BU)[SCH92℄.
La neuro-dynamique du modèle bou lé standard([WIL89℄) est régie par
leséquations v k =g(W T v k 1 )+i k ; 8k=1;:::;K ; (2.1) oùv k
désigneleve teurd'étatduréseauàl'instantk etK désignela
du-rée del'époque(voirlesnotationsenTable2.1).Onsupposequeleréseauest
onstituédeNneuronestotalementbou lésàréponse ontinuedans[0;1℄.w
ij
bornée et dérivablesur ℄ 1;1[. La famille de fon tionsd'a tivation
onti-nuementdérivablessigmoïdes, ara térisée8 ;k;r2Ret ;k>0par
;k ;r (x)= e k x 1 e k x +1 +r; (2.2)
estlaplusutilisée[MAN01℄.Lafon tionlogistique,g(s)=1=(1+e
s
)est
une fon tion sigmoïdeparti ulière dénie pour = 1=2;k = 1;r = 1=2. Par
sou idegénéralité, g()serasupposéedanslasuiteapparteniràlafamilledes
sigmoïdes et onposera =max
u (g
0
(u)). On noterad'ores et déjà que toute
fon tion issue de ette famille est lips hitzienne et que sa dérivée d'ordre
m1quel onqueesten orelips hitzienne.LePer eptronétantune
ombinai-sonlinéairedefon tionssigmoïdes[MAN95℄,ilimplémentedon unefon tion
lips hitzienne.Cetteremarqueserautilelorsqu'ils'agiraauChapitre4
d'exhi-berdes onditionssusantespourassurerlastabilitéasymptotiqueduréseau
enbou lagefermé.
Note : les fon tions montonones roissantes bornées de type sigmoïde
émergent naturellement lorsque, dans un adre bayésien, la distribution des
entrées est prise en ompte dans le terme de régularisation [CAN 99℄.
Néan-moins, lespropriétés d'approximationdes RN s'étendent àd'autresfon tions
d'a tivation, en parti luier les fon tions gaussiennes (RBF), polynomiales et
rationnelles[POG90,MAN 01℄.A etitre, lele teur urieuxpourra onsulter
untypedeRN àfon tiond'a tivationrationnelle[GEL 91,GEL99,GEL 02℄
présentantune analogieélégante entre unréseaude neuronesetun réseaude
les d'attente visitées par des lients dits positifs et négatifs. L'a tivation du
neurone est interprétée ommele taux d'o upation de la le en régime
sta-tionnaire, lequels'exprimesouslaformed'unefon tionrationnelle.
Commeàl'ordinaire,unsous-ensembledesneuronesestdédiéàlaré eption
etàlapropagationduve teurd'entréeàtraversleréseau.Cesneuronesportent
le nom de neuronesd'entréeet possèdentune a tivation xéepar les
ompo-santes duve teur d'entréei
k
. Hormis lessignauxexternes,lesneurones
d'en-trée ne reçoiventpas designauxémanantd'autresneurones, i.e.,w
ij
=0;8i,
si jdésigneunneuroned'entrée.D'unefaçonsimilaire, ertainsneurones,dits
de sortie, possèdent une a tivation ible, ouvaleur désirée, d
k
. Les neurones
n'ayantpasde relationave lemonde extérieursontlesneuronesdits a hés.
Enn, le rle de biais in ombe par dénition au neurone d'indi e0. Ce
der-nier est perçu omme une neurone d'entrée supplémentaire dont l'a tivation
estxéeà1.0.Pourdesraisonsde ommodité,nousnedistingueronspas,dans
v k
ve teurd'a tivation
u k
ve teurdesentréesinternes
i k
ve teurdesentréesexternes
w ij
poidsdela onnexionentre
leneuroneietleneuronej w(j)=[w 1j ;:::;w Nj ℄ T
ve teurdepoidsversleneuronej
W=[w(1);w(2);:::;w(N)℄ matri edepoids
g() fon tiond'a tivation sigmoïde
max u (g 0 (u)) G 0 k NN matri ediagonale deg 0 (u k (j))
Tableau2.1. Notationsemployées.k désignel'indi ede temps.
L'objetde l'apprentissageest d'ajusterlesmatri ede poids Wdefaçonà
faireévoluerleréseau,sousl'a tiondesentréesfi
k
g,d'unétatv
0
versunesuite
depointsxesdontles omposantesdesorties'appro hentdesvaleursdésirées
fd k
g.Commeàl'a outumée,on her heàminimiserl'erreurquadratique
E = 1 2 K X k =0 e T k e k ; (2.3) oùe k =d k v k
mesurele ve teur d'erreurle longdela traje toire(ou
époque)del'itérationk=0àK.Rappelonsquee
k
(i)=d
k
(i)=0sileneurone
i n'estpasunneuronedesortie.Lesentréessontomises(i.e. i
k
=0) dansun
premiertempspoursimplierles al uls.
Dans e hapitre,le al ul dugradientd'erreur,
E
W
,est ee tué ennde
traje toire.Ce dernierserviraparexempleàl'estimation desparamètres(e.g.
des entedugradient,pseudo-Newton,LM,et .),àl'approximationdel'inverse
du hessien à la régularisation, ou en ore au al ul d'intervalles de onan e
[BIS 95℄.
2.2. Notationset rappels
Introduisons quelques rappelset notations on ernantl'expansion des
dé-rivées partielles dans les systèmes d'équationsordonnées [PIC94, WER 90℄.
Considérons unensembledenvariablesz
1 ;:::;z
n
déter-z i =f i (z 1 ;:::;z i 2 ;z i 1 ) (2.4)
dans lesquelles haque variable z
i est fon tion de z 1 ;:::;z i 1 . Pour
per-mettrele al uldesdérivéespartielles,ilfautspé ierlesvariablesassimiléesà
des onstantes,desautres. Typiquement,lorsque rienn'estspé ié,nous
sup-poseronsque esvariablessontmaintenues onstantes,ex epté ellesqui
appa-raissentaudénominateurdesdérivéespartielles.Unedérivéepartielleordonnée
estunedérivéepartiellepourlaquellelesvariables onstantessontdéterminées
grâ eàunensembled'équationsordonnées.Selonlesnotationsmathématiques
onsa rées[PIC94℄, ona + z j z i = z j z i fz1;:::;zi 1g : (2.5)
Ilvientlesrelationsuivantes,
+ z i+1 z i = z i+1 z i ; (2.6) et + z j z i =0 pour j<i: (2.7)
Lorsquej>i+1,lesdérivéesordonnéess'obtiennentparlesloisd'expansion
suivantes + z j z i = z j z i + j 1 X k =i+1 + z j z k z k z i ; (2.8) et + z j z i = z j z i + j 1 X k =i+1 z j z k + z k z i ; (2.9)
Selonle as,j'opteraipourl'uneoul'autredesloisd'expansion(2.8)et(2.9)
pourle al ulde
+
E
W
.Avantdepro éderau al uldugradient,un ommentaire
sur les notations mathématiques employées. Je suppose impli itement par la
suitequeladérivéepartielleu=v ,oùuetv sontdesve teursdetailleN et
M respe tivementestlamatri eja obiennededimensionNM.Parailleurs,
+
E
W
désigneralamatri ede omposants
+
E
wij .
2.3. Un adre uni ateur
Ce hapitrefédèrelesprin ipalesméthodesalgorithmiquesmisesenoeuvre,
dans lalittérature,pour al uler legradientd'erreurdanslesréseauxbou lés
en se fondantsur des élémentsde théorie dela ommandeoptimale[ATI 00,
BRY75℄etdeprogrammationdynamique.Pour ommen er,formulonsle
pro-blèmedel'identi ationdesparamètresdumodèlesouslaformed'unproblème
deminimisationsous ontrainteségalité
MinimiserE
sousles ontraintesh
k =g(W T v k 1 ) v k =0; k=1;:::;K : (2.10)
Lespoidssontlesvariablesde ontrleoudedé isiondans laterminologie
de la ommandeoptimale[BRY75℄. Lesv
k
sont lesvariablesd'état, dontles
valeurssontdéterminées parles ontraintesh
j
. Arrangeonsles olonnes w(i)
deWenunlongve teur olonne,ainsiquevet leve teurde ontraintesh
w= 0 B w (1) . . . w (N) 1 C A ; v= 0 B v t 1 . . . v t N 1 C A et h= 0 B h t 1 . . . h t N 1 C A : (2.11)
Pour larierlesdépendan es,é rivonsEparE(v (w))ethparh(v(w);w ).
Appliquons(2.9) + E(v (w )) w = E(v (w )) w + E(v (w )) v + v (w ) w : (2.12) où +
E(v (w))=w estnulle ar lespoidsn'apparaissentpasexpli itement
dansl'expressiondeE.Appliquonsmaintenant(2.9)au al uldeh(v (w);w)=
0,onobtient h(w ;v (w )) w + h(w ;v (w )) v + v (w ) w =0: (2.13) En ombinant(2.12)et (2.13),ilvient + E(v (w )) = E(v (w )) h(w ;v (w )) 1 h(w ;v (w )) (2.14)
On retrouve es équations dans [BRY75℄. Par on ision, les dépendan es
expli ites auxvariables sontomises. Ainsi, nous obtenons l'expression
matri- ielle + E w = E v h v 1 h w (2.15)
C'est l'équation de base qui unie tous les algorithmes.h=v
dé-signelamatri ed'élémentsh
i
=v
j
.L'évaluation desmatri esdans(2.15)est
lasuivante: E v =(e t 1 ;:::;e t K ); (2.16) h v = 0 B B B B B B I 0 0 0 G 0 2 W T I 0 0 0 G 0 3 W T I . . . . . . . . . . . . . . . . . . 0 0 0 G 0 K W T I 1 C C C C C C A (2.17) où G' k
est donnée par G'
k = 2G k (1 G k ) ave G k dénie omme la
matri e diagonaleN N onstruite àpartir de g(s
k
(j)) pour j = 1;:::;N.
L'inversedeh=vs'exprimeexpli itement
h v 1 = 0 B B B B B I 0 0 0 G 0 2 W T I 0 0 G 0 3 W T G 2 W T G 0 3 W T I 0 . . . . . . . . . . . . . . . G 0 K W T G 0 2 W T G 0 K W T G 0 3 W T G 0 K W T G 0 4 W T I 1 C C C C C A : (2.18) Ilvientégalement h w = 0 B B B G 0 1 V 0 G 0 2 V 1 . . . G 0 V K 1 1 C C C A : (2.19)
ave V k = 0 B B B v t k 0 0 0 v t k 0 . . . . . . . . . . . . 0 0 v t k 1 C C C A : (2.20)
Danslasuite,E=Wdésigneralamatri ede omposantsE=w
ij .
2.4. La propagationen avant (FP)
Posons Y=(h=v )
1
h=w .Cettegrandeurpeuts'é rireenblo s
Y= 0 B B B Y 1 Y 2 . . . Y K 1 C C C A (2.21) oùY k
estunematri eNN
2 .D'après(h=v )Y=h=w ,ilvient Y k =G 0 k W T Y k 1 G 0 k V k 1 ; k=2;:::;K : (2.22)
ave les onditionsauxlimites
Y 1 = G 0 1 V 1 (2.23)
Don dans l'appro he 'forward', laré ursionse faitdans lesensdu temps
et legradientnalest obtenupar
+ E w = E v Y= K X k =1 e T k Y k : (2.24)
Remarquonsqu'enposantY=(h=v )
1 h=W(2.22)s'é rit Y k =G 0 k W T Y k 1 G 0 k (v k 1 ;:::;v k 1 ): (2.25)
Y 1 = G 0 1 ( v 1 ;:::;v 1 ): (2.26)
D'oùuneformulationmatri iellequenousretrouveronsparlasuite
+ E W = E v Y= K X k =1 e T k Y k : (2.27)
Cet algorithme à propagation avant porte le nom de real-time-re urrent
learning algorithm (RTRL) [WIL89℄. Cette pro édure est fortement grevée
parlamassede al ulet demémoirerequise.Enpremierlieu, haquedérivée
doit être sto kée e qui entraîne une apa ité de mémorisation de l'ordre de
O(N 3
).Ensuiteunequantitédra onienned'opérations,del'ordredeO(N
4
)est
né essaireà haqueitération arl'adaptationlesN
3
dérivéesrequiert ha une
O(N)opérations.
2.5. La rétro-propagationdans letemps(BPTT)
DanslaméthodeBPTT,onévalued'abordy
T
= E=v (h=v )
1 avant
delemultiplier parlasuiteparh=w .Pardénition,
E v = y T h v ; (2.28) ave y T =(y T 1 ;:::;y T K
).En substituantles expressions(2.16) et (2.17),il
vient y k =e k +WG 0 k +1 y k +1 ; (2.29)
ave la onditionauxlimites e
K =y K . D'aprèsladénitiondey + E w =y T h w : (2.30)
Substituonsy dans ettel'expressionet réarrangeonslespoidsen matri e
W , onobtientl'équation matri ielle
+ E = X K k =1 G 0 k y k v T k 1 : (2.31)
PosonsÆ k =G 0 k y k
,onretrouveunegénéralisationdelarègledeltapourun
réseaunon-bou lé. + E W = K X k =1 Æ k v T k 1 : (2.32)
La rétro-progationdans le temps (BPTT) est très e a e: sa versionen
mode bat h est de l'ordre de O(N
2
). Toutefois, la mémoire requise varie en
O(K),ilest peupratiquederétro-propagerleréseau omplètement,la
tron a-turedugradientestsouventinélu table[WIL90℄.BPTT(h;h
0
)estuneversion
a élérée qui lan e le réseau h pas en avant, et rétro-propageh
0
> h pas en
arrièrelegradient,ajustelespoidset re ommen e.
2.6. La propagationen avant rapide (FFP)
Supposons onnuelaséquen edesy
k
obtenueparlaformule(2.29)surune
traje toirede longueur K, il n'est pasné essaire de re al uler es grandeurs
lorsque le pointK+1 estdisponible. Il sut de hangerlesens de
propaga-tion. Pour ela il faut substituer la ondition aux limites à l'instant k = K
parune onditionàl'instantk=1.Lapropagationenavantrapide(FFP)
re-posesurl'existen ed'uneexpressionexpli itede
h v 1 ,expriméeEq.(2.18), et de W 1 . Soit y (K) k
la solution du système ave K points. En appliquant
su essivementEquation(2.29),onobtient
y (K) k =A k y (K) 1 +b k ; (2.33) ave A k =G 0 1 k W 1 :::G 0 1 2 W 1 ; (2.34) et b k = G 0 1 k W 1 :::G 0 1 2 W 1 e 1 + G 0 1 k W 1 :::G 0 1 3 W 1 e 2 + ::: + G 0 1 W 1 e k 1 : (2.35)
A k
etb
k
se al ulentparré urren eavant.Ilresteàre al ulerla ondition
initiale y
(K)
1
. Elle est obtenue grâ e à l'inverse de h=v et à la dénition
y (K) =E=v (h=v ) 1 y (K) 1 =y (K 1) 1 W G 0 2 :::W G 0 K e K : (2.36) Sa hantque + E w = K X k =1 G 0 k V k 1 y k ; (2.37) onendéduit + E w = K X k =1 G 0 k V k 1 A k y (K) 1 + K X k =1 G 0 k V k 1 b k : (2.38)
L'idée qui sous tend la méthode FFP est de al uler y
(K)
1
ré ursivement
selon (2.36) puis de al uler A
k
et b
k
ré ursivement. La méthode FFP vise
don àpalierlesla unesdeBPTTentempsréel,touten al ulantlegradient
exa t,mais lenombred'opérationspassede O(N
2
)àO(N
3
). Parailleurs,les
opérationsnesontpluslo ales.
2.7. L'appro he par fon tionde Green (GF)
L'appro he parfon tionde Green GF exploite lefait queV
k
est une
ma-tri efortement reuse.Anderéduirela omplexité,unerelationré ursiveest
exhibée sur le gradientd'erreur, dE=dw (K), obtenu ave sur une traje toire
deK exemples.Grâ eauxEquations(2.18)et (2.15),onobtient
+ E w (K) + E w (K 1)= e T K 0 B B B W G 0 2 W G 0 K . . . W G 0 K I 1 C C C A T 0 B B B G 0 1 V 0 G 0 2 V 1 . . . G 0 K V K 1 1 C C C A : (2.39)
U K =W T G 0 K 1 :::G 0 2 W T G 0 1 : (2.40) OnobservequeU K
s'obtientfa ilementàpartirdeU
K 1 U K =W T G 0 K 1 U K 1 : (2.41) Posons S(K ;j)=S(K 1;j)+U 1 K 1 v K 1 (j); (2.42) onvérieque + E w ij (K)= + E w ij (K 1)+e T k G 0 K U K S i (K ;j) (2.43) oùS i
(K ;j)estlai-ième olonnedelamatri eS(K ;j)detailleNN.La
méthodedeGreenné essiteuneinversionmatri ielle;lesopérationsnesontpas
lo ales.L'algorithmeréduitla omplexitédel'appro heFPen onsidérantune
ré ursiondire tementsurlegradientd'erreur.Lenombred'opérationsvarieen
O(N 3
).Sun,Chenet Lee[SUN92℄ontappliquél'algorithmesurunproblème
de lassi ation detraje toires2D, étudié àl'originepar Williams et Zipzer,
pourmontrésarapiditésupérieureàRTRL.
2.8. L'appro he par blo s (BU)
L'appro hepar'Blo -Update'(BU) ombinelesavantagesdeBPTT et de
FD. Supposonslegradient al uléàl'instantK M etposons
G(K)= + E w (K) + E w (K M) (2.44)
Par linéarité des équations, al uler G(K) revient à résoudre (2.15) ave
E=vrempla épar(0;:::;0;e
T K M+1 ;e T K M+2 ;:::;e T K ) T .G(K)s'obtienten
résolvantleséquations
y k = WG 0 k +1 y k +1 ; k=1;:::;K M; y k = e k +WG 0 k +1 y k +1 ; k=K M+1;:::;K 1: ave y =e . Posons
Z(k 1 ;k 2 )= k2 X k =k 1 G 0 k y k v T k 1 : (2.45)
Z(K M+1;K)s'obtientfa ilementgrâ e à eséquations. Ilresteà
dé-terminer Z(1;K M)en appliquant(2.45) pourk =1;:::;K M,ainsi on
aura G(K)= Z(1;K M) Z(K M+1;K) (2.46) Parré ursion, y k =WG 0 k +1 :::WG 0 K M+1 y K M+1 ; k=1;:::;K M: (2.47)
Ilvientparsubstitution
Z(1;K M)= K M X k =1 G 0 k WG 0 k +1 :::WG 0 K M+1 y K M+1 v T k 1 : (2.48)
Chaque olonnedeZ(1;K M)peutse al ulerré ursivement.Posons
Q i (K M)= K M X k =1 v k 1 (i)G 0 k WG 0 k +1 :::WG 0 K M+1 y K M+1 : (2.49) AlorsZ i (1;K M)=Q i (K M)y K M+1 oùZ i (1;K M)désignelai-ème lignedeZ(1;K M).Q i
(K)se al uleré ursivemententermesdeQ
i (K M). Posons (k;K)=G 0 K W T :::G 0 k +1 W T G 0 k : (2.50) Ilvient Q i (K) = (K M+1;K)WQ i (K M) + K X v k 1 (i) (k 1;K): (2.51)
(k;K)se al uleré ursivementpar
(k;K)= (k+1;K)WG
0
k
: (2.52)
Ainsi,unefoisG(K)obtenu,legradientestévaluépar
+ E w (K)= + E w (K M)+G(K): (2.53)
L'appro heparblo s(BU) ombinelesavantagesdeBPTT et deFD. Les
poids sontajustés tous lesO(N) instants en O(N
4
) opérations. Il faut don
O(N 3
)opérationsà haqueinstantenmoyenne.
2.9. Apprentissage des délais
Au unélémentpré isenbiologien'a réditel'hypothèsed'unapprentissage
ontinu des délais hormis la période de roissan e de l'organisme. Pour
au-tant,l'ajustementde ertainsdélais iblésestévoquésdans[DAY93,BAL 94,
BAL 95,PEA 95℄ ommeunmoyenpourlesréseauxderégulerleurpropre
dy-namique.BaldietAtiya[BAL94℄ontétablides onditionssimplessurlespoids
et lesdélaispourimposerun omportementos illatoiredansdesar hite tures
neuronales simples(e.g. un réseau en anneau).Dans [BOD90℄, une variante
de TDNN explore dessynapsesd'enveloppegaussienne dontles entres et les
é arts-typessontajustés.Maisd'unemanièregénérale,lesalgorithmes
présen-tés ne fon tionnent pas pour ajuster globalement et sans dis ernement tous
lesdélaismaisvisepluttl'ajustementséle tif de ertainsdélais.
L'apprentis-sage desdélaispeutsemontrer instableen raisonde bifur ationsdusystème
dynamique [BAL94℄.
Ilestplus ommodedepartird'uneneurodynamique ontinuepourassurer
l'existen e du gradientd'erreur par rapport aux délais, puis de revenir
ulté-rieurementauxréseauxdis retsparlaméthoded'Euler.Lesrèglesd'expansion
desdérivéespartiellesdanslessystèmesàtemps ontinus'appliquentsans
dif- ultépour onduireàdesversionsBPTTetFD.Latranspositionauxréseaux
àdélaisàvaleurdis rèteexigetoutefoisdesapproximationssévères.
Lesréseaux ontinus -Laneuro-dynamiquedumodèle ontinubou léà
délaisestrégietypiquementparleséquations
h j (t):= j dv j dt = v j +g( N X w ij v i (t ij ))+i j ; (2.54)
oùlestermes i
etlesdélais
ij
sontdesréelspositifs,v
j désignel'a tivation duneuronej àl'instanttet[t 0 ;t 1
℄estladuréedel'époque.Lesdélais
ij sont
ajustésdefaçonàfaireévoluerleréseau,sousl'a tiondesentréesi(t),versune
traje toiredésiréev
?
(t)surl'intervalledetemps[t
0 ;t
1
℄.Lafon tionerreurest
ettefoisunefon tionnelledelaforme
E= Z t1 t0 e(v ? (t);v (t);t)dt: (2.55)
L'erreurdesmoindres arréss'é rit
E= 1 2 Z t 1 t 0 (v ? (t) v (t)) 2 dt: (2.56)
Elle est al ulée sur l'ensemble des neuronesvisibles, à des intervalles de
temps où v
?
(t) est disponible. Lades ente dugradient entemps ontinu
ap-pliqué audélai s'é rit
d dt = + E ; (2.57)
où , le pas d'apprentissage, est une onstante positive hoisie
onvena-blement.Minimiser E sousles ontraintes neurodynamiques est un problème
d'optimisationendimension innie. Uneanalyseparle al ulvariationnelest
menéedans([PEA 95℄).Uneautre façondepro éders'appuiesurlesdérivées
partielles. Expli itonsladérivéedel'erreurparrapportà,
+ E = Z t1 t0 N X p=1 e v p + v p dt= Z t1 t0 e v + v dt; (2.58) ave e=v j
=0pourdesneurones a hés.Posons
z (t):= + v (t) : (2.59) Leve teur z
(t) représentela sensibilité desv
j
àune variationd'un délai
.Son al uls'obtientpar
z (t)= d d Z t t 0 dv d d= Z t t 0 dh d dt (2.60)
dz (t) dt = + h = h v + v + h = h v z (t)+ h ; (2.61)
oùlamatri eJa obienneh=v dépenddutemps.
Appro he FD - L'intégration numérique de (2.61) revient à dis rétiser
[t 0 ;t 1 ℄enKintervalledetemps, z (k+1)=z (k)+ h v (k)z (k)+ h (k) t: (2.62) Or, h j v i = Æ ij +w ij g 0 ( N X p=1 w pj v p (t pj )); (2.63)
onobtient,enremplaçant,une expressionexpli itepourle al uldesz
, z ij q (k+1)=w iq g 0 ( N X p=1 w pq v p (k pq ))z ij p (t pq )+ h q ij ; (2.64) ave h q ij = Æ jq w iq g 0 ( N X p=1 w pq v p (t pq )) dv q (t iq ) dt = Æ jq w iq g 0 ( N X p=1 w pq v p (t pq ))h q (t iq ); (2.65) et
Lesdélaissontajustésselon
+ E ' K X k =1 e(k) T z (k): (2.66)
OnretrouvelaversionFD(2.27) pourlesdélais.Mais l'intégration
numé-rique est très oûteuse puisqueil ya autantde variables, z
Appro he BPTT- Laméthodedel'adjointest ourantedans les
résolu-tion des systèmes d'équations diérentielles linéaires [BAL95℄. La résolution
de (2.61) s'obtient grâ e à la résolution d'un son système linéaire auxiliaire
dénipar dy dt = h v y T e v ; (2.67)
quel'onnommelesystèmeadjointde(2.61).D'après(2.61)et(2.70),les
variablesvérientlarelation
d(y T z ) dt =y T h e v T z : (2.68) Daprès(2.58), onobtient + E = Z t1 t 0 e v z dt = (y T z ) t=t0 (y T z ) t=t1 + Z t1 t 0 y T h dt = Z t1 t 0 y T h dt; (2.69)
d'aprèsles onditionsauxlimitesy (t
1 )=0etz (t 0 )=0.Remarquonsque
y (t) ne dépend pasde àladiéren edesz
(t).L'intégrationnumérique de (2.67)revientàdis rétiser[t 0 ;t 1
℄enK intervalledetempst, hoisisi iégaux
àl'unitédetemps, desorteque
y i (k)=e (k)+ N X j=1 w ij g 0 (s j (k+ ij ))y j (k+ ij ): (2.70)
Ledélaissontajustésselon
+ E ij = K X k =1 w ij g 0 (s j (k))h j (k ij )y j (k): (2.71)
OnretrouvelaversionBPTT(2.32)pourlesdélais.Toutefois,l'in onvénient
majeur provientde equ'ilfautmémoriserlepassédelatraje toiresur[t;t
Les réseaux dis rets - La transposition de es algorithmesaux réseaux
dis retsàdélaisàvaleur ontinuenepeutêtreenvisagéequ'auprixdequelques
approximationsgrossières.Parexemple, Duroet Santo Reyes[DUR99℄
hoi-sissent d'interpoler linéairement l'a tivation des neurones entre deux instant
k+[℄et k+[℄+1pourobtenirlavaleuràk+,[℄étantlapartieentière
de.Supposonsunelenteévolutiondesvaleursa tivationsentredeuxinstants
onsé utifs,onpeuté rire
v k ij 'Æ jk w ik g 0 ( N X p=1 w pk v p (t pk ))[ v p (t pk ) v k (t 1 pk )℄ (2.72)
Lasolution onsistantàarrondiràl'entierlepluspro helesdélais onduit
à de brusques sauts dugradient. C'est pourquoiil est préférabled'interpoler
l'a tivationdesneuronesentredeuxinstantk+[℄etk+[℄+1pourobtenirla
valeuràk+,[℄étantlapartie entièrede.L'usagededélais ontinusdans
un réseau dis ret est ainsi autorisé. La version BPTT (2.32) pour les délais
devient + E ij ' K X k =1 w ij g 0 (s j (k))(v j (k ij v j (k ij 1))y j (k): (2.73)
DuroetSantoReyesontjaugélesperforman esdel'algorithmesurla
pré-di tionàunpasdelasérieMa key-Glasset surla lassi ation
d'éle troen é-phalogrammesave desréseauxàunseulneuroned'entrée.
2.10. Synthèse et on lusion
Ce hapitre a présenté une nouvelle formulation pour unier les inq
al-gorithmiques majeurs parues dans la littérature es dernièresannées pour le
al ul exa tdugradientd'erreur,parmilesquels
lapropagationavant'forwardpropagationalgorithm'(FP) ou'real-time
re urrentlearning'(RTRL)[WIL89℄)estunalgorithmeenligne(online).
Les paramètres (poids et délais) à l'instant k sont adaptés de manière
ré ursive,enfon tionde euxàl'instantk 1.La omplexitétemporelle
enO(N
4
)lerendtoutefoisextrêmementlourdàmettreenoeuvre.
larétro-propagationdansletemps(ba k-propagationthroughtime'(BPTT)
trans-e a ede omplexitétemporelleenO(N 2
)estd'usage ourant.Cen'est
pasuneméthodeexa te;laquestiondelatron aturedeBPTTfera
l'ob-jetduChapitre4.Nousverronsqu'ilestpossibledelimiterlenombrede
dépliementsduréseauadjoint,toutengarantissantunebornesurl'erreur
d'approximationdugradientd'erreur,toutenpréservantune omplexité
attra tiveenO(N
2
ln(N) ).
le 'fast forward propagation' (FFP) [TOO 92℄ vise à palier les la unes
deBPTT dans unfon tionnement enligne tout en demeurantune
mé-thodeexa te. Lesparamètresàl'instantsontadaptésde manière
ré ur-sive.L'idée est de al uler les onditionauxlimites àl'instantk=1de
façonré ursive, plutt quepar propagation arrière, auprix d'une
om-plexitétemporelleenO(N
3 ).
l'appro heparfon tionde Green(GF)[SUN92℄,améliorela omplexité
deFPenexhibantunerelationré ursivedugradientd'erreurparlebiais
d'unefon tiondeGreen.Laméthodefon tionneenligne.
l'appro hepar'Blo -Update'(BU)[SCH92℄ ombineBPTTetFDentre
K N et K. L'ajustement des poids en O(N
4
) s'applique tous les N
instants,la omplexitéestdon enO(N
3 ).
Ce adreuni ateur pour le al ul exa t dugradientd'erreurdans les
ré-seaux dis retss'ins rit danslalignéede travauxsimilaires[ATI 00,AUS95b,
BAL 95,PIC 94,PEA95℄, ertainsfondéssurlessystèmeslinéairesadjointsou
le al ulvariationnel,dontlesvertussontessentiellementpédagogiques.Ilsont
vo ationamontréque,endépit desinnombrablesdé linaisonsalgorithmiques
quiontvueslejour,toutespeuventsereformulerdansun adre ommun(i.e.,
Eq.2.15)quimetàjourlesdiéren esalgorithmiquesentermesde omplexité,
demémoire,delo alitédesopérations.
Toute estaxonomiesmontrent,au demeurant,quelaversiontronquéede
BPTT en O(N
2
)aété largementadoptée dansla ommunauté onnexioniste
envertudelalo alitédesopérationsetdesafaible omplexitéentempseten
APPRENTISSAGE DES RESEAUX
BOUCLES A DELAIS
3.1. Introdu tion
Lesversionsforward(FP) et ba kward (BPTT)de al ul dugradientsont
établies ommeau hapitrepré édentpourune lasseplusgénéralede
d'ar hi-te turesàdélaispourl'apprentissagedepointsxesetl'apprentissagede
traje toires:lesréseauxFIRbou lés.Cesontdesréseauxdis rets bou lésà
délaisdontlessynapsessontreprésentéespardesltreslinéairesà réponse
impulsionnellenie
1
(FIR):des onnexionsarbitrairementretardéeset
bou- lées sont autorisées entre les neurones. Cette ar hite ture générale porte le
nomdeDynami alRe urrentNeuralNetworks(DRNN)[AUS95b,AUS02b℄.
Cettemodi ationsommetouteélémentairequireêtel'intégrationspatiale et
temporelle des signauxin idents au sein de ladentrite et du orps ellulaire,
permet aux intera tions entre neuronesde représenter unvaste hoix de
mé-moiresformelles,variant ontinuementd'unemémoireàfaiblerésolutionmais
de longue étendue, à une mémoire à forte résolution mais d'étendue limitée
[VRI92,WAN93℄.
Les DRNN fédèrent don un grandnombre d'ar hite tures lo alement et
globalementré urrentes proposéesdans lalittératurepourle traitement
tem-porel(voirparexemple[KRE01,PIC94,TSO94,BAL95,CAM99,DUR 99,
WAN 93,WIL89℄ainsiquelesréseauxbou lésàpointxe[ALM87,PIN87℄.
Les réseauxbou lés à points xes sont, d'ordinaire, peu utilisés en prévision
pour éviter d'avoir à relaxer le réseau vers un hypothétique point xe dont
d'existen eetl'uni itédemeurentd'ordinairehypothétiques.Onleurpréfèreun
rle de mémoireasso iativeou de satisfa tionde ontraintes [PEA 95℄.
L'ab-sen e de y le de retard nul est parfois imposée dans ladénition même des
réseauxdeneuronesbou lés[DRE02℄.Orrienthéoriquementnes'yopposedès
lorsquelastabilitéasymptotiquedespointsxesestétablie.Lebou lageest
ré-puté ontribueràlarobustesseduréseauaubruitd'entrée[PEA 95℄.Rappelons
quel'identi ationdesattra teursauxobjetsàmémoriserestunprin ipe
fon-dateurduparadigmeneuronal[HAY 94℄.D'ordinaire,lalo alisationdes
attra -teursestxéeaupréalableàl'informationquel'ondésire oder[PIN87℄pour
réaliserune mémoireasso iative[HOP82℄.Ellepeutégalementêtre
ontinûe-mentajustéepourdé rireune traje toiredésirée[TOO91,PEA 95,COH97℄
omme 'est le aspour leDRNN. Le ve teur d'état duDRNN est obtenu à
l'issue d'unephasederelaxationversunétatd'équilibre
v k =g( D X d=0 W d T v k d )+i k : (3.1)
dontnousdis utonsl'existen e,l'uni itéetlastabilitéasymptotiqueà haque
instantkdans e hapitre.Uneidée lassiquepourre her herunpointxedes
équations(3.1),à haqueinstantk,estd'appliquerlaméthodedes
approxima-tionssu essives[KHA96,MAN01℄
x(t+1)=g(W 0 T x(t)+ k ); t=1;2;::: (3.2)
oùleve teurlim
t!1
x(t),lorsqu'ilexiste,estleve teurv
k
quel'on her he;
k
est leve teur onstant
P D d=1 W d k T v k d +i k arindépendantdet.
Nousétablissonsdes onditionssusantesgarantissantl'existen e,l'uni ité
etlastabilitéasymptotiquedupointxeainsiquela onvergen easymptotique
versunpointxeduréseauenbou lagefermé. Lesréseauxàpointxessont
réputésêtre plusrobustesau bruitdes entrées. Pourautant, larelaxationest
gourmandeentempsde al ul;l'existen ed'unpointd'équilibrestablen'estpas
mêmegarantieentoutesituation.Danslapratique,onpeut s'aran hir de
la relaxationetdon desquestionsaérentesàl'existen edespointsxesen
prenantunematri edepoidssans y lesde retardnul,ouplussimplement
en prenant une matri e W
0
triangulaireou nulle. Mais dans tous les as, la
v ve teurd'a tivation
u ve teurdesentréesinternes
i ve teurdesentréesexternes
w d
ij
poidsdela onnexionretardéededentre
leneuroneietleneuronej w d (j)=[w d 1j ;:::;w d Nj ℄ T
ve teurdepoidsdedélaid
versleneuronej W d =[w d (1);w d (2);:::;w d
(N)℄ matri edepoidsdedélaidD
g() fon tiond'a tivation max u (g 0 (u)) G 0 NN matri ediagonale deg 0 (u(j))
Tableau3.1. NotationsduDRNN.Parsimpli ité,l'indexdel'itérationkestomis.
3.2. Les modèlesin lus dans leformalismeDRNN
De nombreuxréseaux bou lés entemps dis ret sontin lus dansle
forma-lisme DRNN [MAN01℄. Lorsque W
0 k = 0 et W d k T
sont triangle supérieures
pour haqued6=0,onobtientleréseauFIRnonbou lédeEri Wan[WAN 93℄.
Beau oupd'ar hite turesditeslo allyre urrentgloballyfeedforwardsontdes
as parti uliers du DRNN (e.g., generalized Fras oni-Gori-Soda ar hite ture
[FRA 92℄), l'ar hite ture de Poddar-Unnikrishnan [TSO94℄ que elle étudiée
par Duro et Santos Reyes [DUR99℄ et Cohen, Saad et Maromet [COH97℄,
sansoublierlesréseauxd'Elman[ELM 90℄etdeJordan[JOR92℄.Lesréseaux
bou lés(asymétriques)àpointxeétudiésparPineda[PIN87℄sontégalement
in lus dansle eformalismeenposantW
d k =0pourd>0. Lorsque 8d 6= 1, W d k
= 0, Le DRNN est réduit au réseau globalement
bou lé standard[WIL89,LIN96℄. LesmodèlesNon-linéairesAuto-Régressifs
(à moyenne ajustée) ave entrées eXogène (NARMAX) [LIN96℄ sont aussi
représentés.
Soulignons enn que mêmes si les ar hite tures à base de synapses IIR
2 ,
e.g.TsoietBa kIIR[TSO94℄,n'entrentpasdans eformalisme,ellespeuvent
se reformuler souslaforme d'un DRNNave desneuronessupplémentairesà
fon tiond'a tivationlinéaireet des onnexionsFIR lo alementbou lées
lo a-lement.Ainsi,les onditionssurlamatri edepoidspourassurerlastabilitéde
l'apprentissagepardes ente degradients'appliquerontégalementauxréseaux
IIR, à ondition qu'ils soient reformulés en DRNN. En tout état de ause,
toutes esar hite turessourentd'un omportementditoublieux (forgetting
behavior),ausensoùilestdi iledemémoriserdesévénementssurvenusloin
danslepassé.
3.3. Existen e,uni ité etstabilité du point xe
Lesparamètresdusystèmesontdéterminés, à haqueétapek,en relaxant
le système versun étatd'équilibre ara térisé par (3.1).La onvergen e vers
un point d'équilibre stable n'est pas garantie; un omportement os illatoire
[BAL 94℄ ouune dynamique haotiquene sont pasex lus[HER 91℄. La
pré-sen ede y lesderetardnuldanslaformulationDRNNrequiertunephase
de relaxationpour atteindreunétatd'équilibre stable.Or, lemodèle ontinu
dont le DRNN est l'approximationd'Euler, dière de la neurodynamique du
théorèmedeCohen-Grossbergqui ara tériselastabilitédenombreuxréseaux
bou lés(à onnexionssymétriques),enparti ulierlamodèledeHopeld.
L'exis-ten e, l'uni ité et la stabilité asymptotique du point xe dans un DRNN de
onne tivité etdesdélaisquel onquessontétabliesdans equisuit.
Existen eetuni ité-Lessystèmesglobalementasymptotiquementstables
[KHA 96℄ onvergentpresquesûrementversunpointd'équilibre.LesRN
bou- lés pour lesquels une fon tion de Lyapounov a pu être exhibée, tels que le
modèledeHopeldouleBrain-State-In-The-Box(BSB)[GOL96℄(dontla
neu-rodynamique entredans le adreduthéorèmedeCohen-Grossberg[GRO88℄)
sontglobalementasymptotiquementstables.Ce sonttypiquementdesréseaux
àmatri edepoidssymétrique.Lesréseauxbou lésàmatri edepoidsnon
sy-métriquen'admettentdepointxequesous ertaines onditions ommenous
allonslevoir.
Le point xe des équations (3.1) est obtenu, à haque instant k, par la
méthodedesapproximationssu essives[KHA96℄
x(t+1)=g(W 0 T x(t)+ k ); t=1;2;::: (3.3)
oùleve teurlim
t!1
x(t),lorsqu'ilexiste,estleve teurv
k
quel'on her he;
k
estleve teur onstant
P D d=1 W d k T v k d +i k arindépendantdet.La
Théorème 1 Pour toutematri e W 0
,sil'unede es onditionsestvériée,
max i 0 X j jw 0 ij j 1 A <1; max j X i jw 0 ij j ! <1; 2 4 X i;j jw 0 ij j 2 3 5 1=2 <1; (3.4)
alorslesystème dynamique(3.2) admet,pourtoutve teur onstant, ,un
uniquepointd'équilibreasymptotiquementstablex
? vériantx ? =g(W 0 T x ? + ).x ?
estobtenuparlaméthodedesapproximationssu essives,dontla
onver-gen e est asymptotiquement linéaire, en partant d'un point initial x
O
quel- onque.
Preuve : l'existen e s'établit immédiatement [JIN94℄ en remarquantque
g(x),fon tion ontinuede[ 1;+1℄
N
dans[ 1;+1℄
N
,admetaumoinsunpoint
xeparlethéorèmedupointxedeBrouwer(x(t)estunesuitedeCau hydans
unespa edeBana h,don onvergente).L'uni itédé oulede equelafon tion
génératri edusystèmedynamique(3.2)soitLips hitziennesurlabouleunité.
Eneetlamatri eja obiennedusystème(3.2)vériekG
0 W T kkW T k<1
d'après les onditions (3.4)obtenuesen prenantdes p-normes matri ielles de
Wave p=1;2;1.Don si x ? 1 et x ? 2
sontdeuxpointsxes,
kx ? 1 x ? 2 kkG 0 W T kkx ? 1 x ? 2 k<kx ? 1 x ? 2 k; (3.5) don x ? 1 =x ? 2
. Onretrouvela onditiond'uni ité itée dans[PEA 95℄. De
même, la onvergen easymptotiqueestlinéaire ar
kx k +1 x ? k kx k x ? k kG 0 W T k; 8k: (3.6)
La stabilité asymtptotique résulte d'une appli ation de la méthode
indi-re tedeLyapounov,i.e.,lethéorèmedelinéarisationdessystèmesautonomes
dy=dt=f(y)(p.127,[KHA 96℄)ave y=x x
?
.Lepointd'équilibrey=0est
asymptotiquementstable artouteslesvaleurspropresdelamatri eja obienne
G 0
W T
dusystème(3.2)satisfont8i,Re
i
<0puisquekW k<1=.Ilenvade
même pourx
?
.Les onditions(3.4)sonttrès similairesà ellesénon éesdans
[PIN87,PEA 95℄.
aléatoires ont montré que des onditions beau oup moins ontraignantes sur
les poids susentàassurerl'existen e et lastabilité asymptotiquedes points
xes[REN 90,PEA95℄.
Par ailleurs,mêmeunefoisgarantiel'existen ed'unpointxe,
l'apprentis-sagepeutren ontrerquelquesproblèmes.Le gradientde l'erreursur les
para-mètresinitiauxduréseaun'estpasfor ément ontinu,mêmesiladynamiquedu
réseau l'est.La omposéesu essivedefon tions ontinuesne tendpas
né es-sairementversunefon tion ontinue.Un hangementinnitésimaldespoidsà
l'instantinitialpeutmodierdefaçondrastiquelalo alisationdupoint
d'équi-libredanslequelvas'établirleréseau[PEA95℄,auquel aslegradientpeutne
pasêtredéni.
Stabilitédes traje toiresen bou lage fermé-Lorsqueleréseau
fon -tionne en bou lage fermé pourla simulation, un signal d'entrée onstant est
appliqué,i
k
=i,etlemodèleestitérésurlui-même.Latraje toirepeut
onver-ger(ounon)versunpointxe,un y lelimiteouen oreunattra teur haotique
ommenousleverronsdansle hapitre onsa réàlare onstru tionde ertains
attra teurs haotiques.Danslasuite,des onditionssusantesd'existen e de
pointsxeset deleurstabilité asymptotiquesontétablies.
La mise jour des a tivations des neurones opère en mode asyn hrone
sé-quentieloualéatoire,lesdeux sontéquivalentsi i. L'importantest qu'unseul
neurone soit ajusté à haque instant. Considérons l'équation ré urrente des
entréess k (j)=g 1 (v k (j)), s k (j)= D X d=0 N X i=1 w d ij g(s k d (i))+i(j): (3.7)
pourj=1;:::;N.Supposonsl'existen edes
? ,unpointd'équilibrede(3.7) et posons k =s k s ? k ,ilvient k (j)= D X d=0 N X i=1 w d ij g(s ? k d (i)+ k d (i)) g(s ? k d (i)) : (3.8)
Ilest lairque(0;0;:::;0)
T
estunpointd'équilibredeEq.(3.8).
Montronslerésultatsuivant[AUS 02a℄,dontlademonstrationestinspiréed'un
Théorème 2 Pour toutes onditions initiales, le DRNN opérant en bou lage
fermé admetunpointd'équilibre globalementstable asymptotiquement si
D X d=0 N X i=1 jw d ij j<1; 8j=1;:::;N: (3.9)
Preuve:l'existen edupointxes'établit ommepré édemmentparle
théo-rèmedupointxedeBrouwerappliquéausystème(3.1);g()étantbije tive,s
? s'obtientparg 1 (v ? k
(j)).MontrerlaglobalestabilitéasymptotiquedeEq.(3.7)
revientàétablir ellede(3.8).Considéronslafon tionénergie dénieà
l'ins-tantkDpar V( D k )= N X j=1 D X d=0 j k d (j)j+ N X i=1 N X j=1 D X d=0 k X n=k d+1 jw d ij jj n (j)j: (3.10) où le ve teur D k
de taille (D+1)N est la on aténation des ve teurs
k D ; k D+1 ;:::; k
. Pour déterminer la variation V(
D k +1 ) V( D k ), on
observequelesystème(3.7)estitéréselonunedynamiqueasyn hrone
séquen-tiellesanspertedegénéralité:touslesneuronessontsupposésêtremisàjour
dans l'ordredes indi es. Pardénition de, g(s+) g(s)pourtout
s;.Posons V k :=V( D k +1 ) V( D k ) (3.11)
V k = N X j=1 (j k +1 (j)j j k D (j)j) + N X i=1 N X j=1 D X d=0 k X n=k d+1 jw d ij j( j n+1 (j)j j n (j)j); D X d=0 N X i=1 N X j=1 jw d ij jjg(s ? k +1 d (i)+ k +1 d (i)) g(s ? k +1 d (i))j N X j=1 j k D (j)j+ N X i=1 N X j=1 D X d=0 jw d ij j(j k +1 (j)j j k +1 d (j)j); D X d=0 N X i=1 N X j=1 jw d ij jj k +1 (i)j N X j=1 j k D (j)j: (3.12)
EtpourtoutentierK,
K+D 1 X k =D V k = V( D K+D ) V( D D ) K X k =1 N X j=1 " 1 D X d=0 N X i=1 jw d ij j # j k +D (j)j; + D+1 X k =1 D X d=0 N X i=1 N X j=1 jw d ij jj k +K (i)j D X k =0 N X j=1 j k (j)j: (3.13)
D'après(3.8),onapourtoutk, j
k (j)j<2 P D d=0 P N i=1 jw d ij j<2.Posons r:= min 1jN " 1 N X i=1 D X d=0 jw d ij j # >0: (3.14) D'après(3.13), ilvient lim K!1 8 < : V( D K+D )+r K X N X j=1 j k +D (j)j 9 = ; <1: (3.15)
d'où 1 X k =D N X j=1 j k (j)j<1: (3.16) Ils'ensuitque lim k !1 N X j=1 j k (j)j=0: (3.17) Ainsi,lim k !1 k k k=0.(0;0;:::;0) T
est unpointd'équilibreglobalement
asymptotiquement stable du système (3.8), don s
?
est un point d'équilibre
globalementasymptotiquementstabledusystème(3.7).
Cettedémonstrationestinspirée del'analysedesréseaux ontinusàdélais
menéedansl'arti leré entdeFengetPalmondon[FEN01℄. Cerésultat
géné-raliselaformuledeMandi etChamberspourlePer eptronré urrentNARMA
(page129,[MAN01℄)
3.4. Cal uldu gradient
Les questions de stabilité et de onvergen e asymptotique étant traitées,
examinonsmaintenantlesmodi ationsqu'apportelarelaxationinduiteparla
ré urren eetlesdélaisarbitraires,surle al uldugradient.Laformulationdu
problèmedeminimisationsous ontrainteségalitéprend laforme
Minimiser E
sousles ontraintesh
k =g( P D d=0 W d T v k d ) v k =0; k=0;:::;K : (3.18) Les ontraintesh j
sontexprimées ommedeséquationsàpointxedontles
variablessontlesv
k
.Arrangeonsles olonnesw
d
(i)deW
d
enunlongve teur
olonne, ainsiquev etleve teurde ontraintesh
w d = 0 B w d (1) . . . d 1 C A : (3.19)
Onatoujoursl'équationdebase(2.15), + E w = E v h v 1 h w : (3.20)
mais ettefois,
h
v
est unematri eplusdense,
h v +I= 0 B B B B B B B B B B B B B B B B G 0 1 W 0 T 0 0 0 G 0 2 W 1 T G 0 2 W 0 T 0 0 G 0 3 W 2 T G 0 3 W 1 T G 0 3 W 0 T . . . . . . . . . . . . . . . G 0 D+1 W D T . . . . . . 0 G 0 D+2 W D T . . . . . . . . . . . . . . . 0 0 G 0 K W D T G 0 K W 1 T G 0 K W 0 T 1 C C C C C C C C C C C C C C C C A (3.21) oùG' k
estdonnéeparG'
k =G k (1 G k )ave G k
dénie ommelamatri e
diagonaleN N onstruite àpartirdeg(s
k
(j))pourj =1;:::;N. L'inverse
de h=vnes'exprime expli itementque pourD =1: lesappro hes FFP
et GF sont don ex lues.Onaégalement
h w d = 0 B B B B B B B B B B 0 . . . 0 G 0 d V 0 G 0 d+1 V 1 . . . G 0 K V K d 1 C C C C C C C C C C A ; 8d=1;:::;D: (3.22)
oùd-ièmeblo ,G
0
d V
0
, estlepremierblo non-nul.
3.5. La propagationen avant (FP) Posons Y d = (h=v ) 1 h=w d
. Cette grandeurdépend du délai d. Y
Y d = 0 B B B Y d 1 Y d 2 . . . Y d K 1 C C C A ; (3.23) où Y k
est une matri e N N
2 . D'après (h=v )Y d =h=w d , il vient pourk=D+1;:::;K, Y d k =[I G 0 k W 0 T ℄ 1 G 0 k " D X d=1 W d T Y d k d V k d # ; (3.24)
ave les onditionsauxlimites
Y d j = G 0 j V j d ; j=1;:::;D: (3.25)
Don dans l'appro he 'forward', laré ursionse faitdans lesensdu temps
et legradientnalest obtenupar
+ E w d = E v Y d = K X k =1 e T k Y d k : (3.26)
Remarquonsqu'enposantY=(h=v )
1 h=Wave W=(w 1 ;:::;w D ), (3.24) s'é rit Y k =[I G 0 k W 0 T ℄ 1 G 0 k " D X d=1 W d T Y k d (V k 1 ;:::;V k D ) # : (3.27) D'où + E W = E v Y= K X k =1 e T k Y k : (3.28)
Cetalgorithmeàpropagationavantest laversionRTRL [WIL89℄
généra-lisée au DRNN. On remarque que les dérivées Y
k
sont les sorties du réseau
original linéarisé. Lapro édureest fortementgrevéeparlamassede al ulet
de mémoire requise. En premier lieu, haque dérivée doitêtre sto kée e qui
quantité dra onienne d'opérations, de l'ordre de O(D 2
N 4
) est né essaire à
haque itération ar l'adaptation les DN
3
dérivées requiert ha une O(DN)
opérations.
3.6. La rétro-progationdans letemps(BPTT)
DanslaméthodeBPTT,onévalued'abordy
T
= E=v (h=v )
1 avant
delemultiplier parlasuiteparh=w .Pardénition,
E v = y T h v (3.29) Ave y T = (y T 1 ;:::;y T K
). En substituant les expressions (2.16) et (3.21)
danslaformule i-dessus,ilvient
y k =[I W 0 G 0 k ℄ 1 [e k + D X j=1 W j G 0 k +j y k +j ℄ (3.30)
ave la onditionaux limites y
K =[I W 0 G 0 k ℄ 1 e K et y j =0si j >K. D'aprèsladénitiondey + E w d =y T h w d : (3.31)
Aprèssubstitutiondeydans ette l'expression,onobtient
+ E W d = X K k =d G 0 k y k v T k d : (3.32) PosonsÆ k =G 0 k y k
,onretrouveunegénéralisationdelarègledeltapourun
réseaunon-bou lé. + E W d = K X k =d Æ k v T k d : (3.33)
La rétro-progationdans le temps (BPTT) est très e a e: sa versionen
mode bat h est de l'ordre de O(N
2
). Toutefois, la mémoire requise varie en
O(K),ilestpeupratiquededéplierleréseau omplètement,unetron atureest
1
t-1
t
t+1
0,1
0,1
Figure 3.1. Illustrationdu pro essus de dépliagepour un DRNN simple onstitué
d'uneentrée,unneurone a héetunesortie.Lesvaluations desar sdésignentle(s)