HAL Id: tel-00010106
https://tel.archives-ouvertes.fr/tel-00010106
Submitted on 12 Sep 2005
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Optimisation pour l’apprentissage et apprentissage pour
l’optimisation
Milagros van Grieken
To cite this version:
Milagros van Grieken. Optimisation pour l’apprentissage et apprentissage pour l’optimisation.
Math-ématiques [math]. Université Paul Sabatier - Toulouse III, 2004. Français. �tel-00010106�
THESE
presentee en vue de l'obtention du
DOCTORAT DE L'UNIVERSIT
E PAUL SABATIER
Spe ialite: Mathematiques Appliquees
|||||||||||||||||||||||||||||||||||||||{
Milagros VAN GRIEKEN
Optimisation pour l'apprentissage
et apprentissage pour l'optimisation
|||||||||||||||||||||||||||||||||||||||{
Soutenue devant le jury ompose de :
B
ES Christian Examinateur
Professeur,Universite ToulouseIII HIRIART-URRUTY Jean-Baptiste Examinateur
Professeur,Universite ToulouseIII
JAN Sophie Co-Dire tri e de these
Ma^tre de onferen e, Universite ToulouseIII
MASMOUDIMohamed Dire teurde these
Professeur,Universite ToulouseIII
MOHAMMADI Bijan Rapporteur
Proeseur,Universite Montpellier II
SCHOENAUER Mar Rapporteur
Dire teurde re her he, INRIA Ro quen ourt
TERPOLILLIPeppino Examinateur
Ingenieurde re her he, TOTAL-PAU
LaboratoireMIP (UMR 5640)
A Jose, mer i d'^etre ave moi, de m'aimer et d'avoir ete aussi patient a mon egard. Je t'aime, ette reussite est pour toi.
A mes parents, qui m'avez permis de devenir e que jesuis aujourd'hui. Vous m'avez appris le hemin de la vie et m'avez donne les meilleurs onseils aux meilleurs moments.
A mon frere Carlos, dont le soutien a tres fortement ontribue a la reussite de ette these.
A Jose et Mireya, pour vos en ouragements et votre assistan e morale, mer i de faire que je me sente omme votre lle.
Je voudrais remer ier toutes les personnes qui d'une fa on ou d'une autre ont ontribue
a larealisationde ettethese.
Toutd'abordjevoudraisremer iermesdire teursdetheseMohamedMasmoudietSophie Jan qui m'ont fait onan e. Mohamed Masmoudi a bien voulu m'a epter en these. Il a eu beau oup de patien e et m'a appris beau oup de hoses qui me seront utiles sur le long hemin de la re her he. Je voudrais egalement le remer ier pour toutes les suggestions et ideesdontj'ai essaye de tirerlemaximum de prot.SophieJan,ave ses sages onseils,asu mepousser a perseverer etafaire de ette these une realite.Sans sa le tureattentive etses orre tions, je suppose que le sens de beau oup de phrases n'aurait pas ete lem^eme. Mer i pour ton amitie...
Je remer ie Mar S hoenauer pour la rapidite ave laquelle il a lu mon manus rit et l'inter^etqu'ila portea mon travail.
Jeremer ie egalementBijan Mohammadid'avoira epted'^etrerapporteurde e travail. Je voudraisaussi remer ier Crhistian Bes, Jean-Baptiste Hiriart-Urrutyet Peppino T er-pollili,qui mefontl'honneur de parti ipera mon jury de these.
Je voudrais exprimer mon amitie a mes ollegues de bureau, Olivier et Sandrine, pour tous les agreables moments passesensemble, et j'espere qu'ilsoublierontles mauvais.
Mer i aFabien,ave qui j'aipartagel'evolutionde ette these. Ses suggestionset ontri-butionsont ete d'unegrande utilite.
En e qui on erne lapartieinformatiquede e travail,je remer ieMiloslavGrundmann pour son aide en C++.
Un grand mer i a Jose, \perinolo",sans lesoutien de qui, tout au long de notre hemin ensemble, je suis onvain u que jamaisje n'auraisatteintle but que je m'etais proposee.
Un mer i tres spe ial a ClaudioPinto, qui est non seulement un mentor pour moimais aussi un vrai et grandami. Mer i d'^etre toujours la.
Mer i alafamilleTellopourm'avoira ueilli ommesijefaisaispartiede ettefamille... Mes remer iements vont egalement a l'Universite de Los Andes, pour m'avoir donne l'opportunitedevenir ompletermesetudesenFran e,jedoisasesprofesseursmaformation initiale.
Je tiens aussi amentionner leplaisir que j'ai eu a travaillerau sein du laboratoire MIP, et j'enremer ie i i tous ses membres.
Enn, un grandmer i a tous eux qui m'onta ompagnee pendant es annees de these. Copains, opines, ollegues et famille,tous ont parti ipe d'une maniere ou d'une autre a la realisationde e travail.
Introdu tion 1
1 Motivation a l'utilisation des reseaux de neurones 5
1.1 Derivation d'un probleme d'evolution non lineaire . . . 5
1.1.1 Equation de Burger . . . 5
1.1.2 Navier-Stokes . . . 8
1.1.3 Pendule elastique . . . 9
1.2 De l'inter^et des reseaux de neurones . . . 14
1.2.1 Pour l'optimisationglobale . . . 14
1.2.2 Pour l'optimisationde fon tions de type <bo^tenoire> . . . 15
2 Les methodes de plan d'experien e 17 2.1 Plan fa toriel pour deux fa teurs adeux niveaux . . . 17
2.2 Plans fa toriels fra tionnairespour fa teurs adeux niveaux . . . 20
2.2.1 Cas de deux fa teurs a deux niveaux . . . 20
2.2.2 Troisfa teurs a deux niveaux . . . 21
2.2.3 Quatrefa teurs a deux niveaux . . . 22
2.2.4 Cinqfa teurs a deux niveaux . . . 23
2.2.5 Bilan . . . 25
2.3 Constru tionre ursive de plans fa toriels fra tionnaires . . . 25
2.4 Constru tionde plans fa torielsfra tionnaires orthogonaux . . . 26
2.5 Appli ationala generation de pointsbien repartisdans un domainedonne . 29 3 Optimisation pour l'apprentissage 31 3.1 Lesneurones biologiques . . . 32
3.2 Stru ture d'un neurone arti iel . . . 32
3.3 Ar hite tures neuronales . . . 33
3.4 Evaluationd'un reseau ave ou he(s) a hee(s) . . . 34
3.4.1 La solutionretenue . . . 36
3.5 L'apprentissage . . . 37
3.6 Unemethode d'apprentissage zero memoire. . . 39
3.6.1 Gauss-Newton ouLevenberg-Marquardt . . . 39
3.7 Resultatsnumeriques . . . 43
3.7.1 Exemples synthetiques . . . 43
3.7.2 Exemples reels . . . 55
4 Apprentissage pour l'optimisation 63 4.1 Bou le d'optimisation. . . 63
4.2 Resultatsnumeriques . . . 64
4.2.1 Exemples en dimension deux . . . 64
4.2.2 Exemples en dimension superieure . . . 72
4.2.3 Comparaisonde nos resultatsave eux de C. Massat . . . 72
4.2.4 Exemples industriels . . . 72
Con lusion 79
1 Comparaisona Matlab . . . 2 1.1 Equation de Burger . . . 7 1.2 Equation de Burger linearisee . . . 8
1.3 Penduleelastique . . . 10
1.4 Systeme de pendule stable . . . 12
1.5 Systeme de pendule instable . . . 13
1.6 Evolution de y(T) en fon tion de l'ordonnee initiale y0 . . . 14
1.7 Lafon tion de Rastriginen 2 dimensions etses ontours . . . 14
2.1 Constru tionre ursive d'unplan fa torielfra tionnaire . . . 26
2.2 Plan fa toriel fra tionnaire 2 2 1 . . . 26
2.3 Plan fa toriel fra tionnaire 2 3 2 . . . 27
2.4 Un exemplede plan fa toriel fra tionnairenon orthogonal . . . 28
2.5 Plan fa toriel fra tionnaire orthogonal . . . 28
2.6 Algorithmepour le hoix de points bien repartis . . . 30
3.1 Un neurone biologique . . . 32
3.2 Lastru ture d'un neurone arti iel . . . 33
3.3 Stru ture d'un reseaumono ou he. . . 34
3.4 Stru ture d'un reseaumulti ou hes . . . 35
3.5 Stru ture d'un reseaure urrent . . . 35
3.6 Fon tionsigmoide . . . 36
3.7 Fon tionsigmoidemodiee . . . 37
3.8 Stru ture du reseau etfon tions d'a tivation retenues . . . 38
3.9 Lesdierentstypes d'algorithmesd'apprentissage . . . 39
3.10 Points generesa l'aide de plans fa toriels . . . 44
3.11 Apprentissage du \ou ex lusif". . . 45
3.12 Apprentissage de la parabole . . . 46
3.13 Apprentissage du sinus . . . 47
3.14 Apprentissage de la fon tion de Rosenbro k . . . 48
3.15 Apprentissage de la fon tion de Rastrigin . . . 49
3.16 Apprentissage de la fon tion sinus- sinus de ale . . . 50
3.19 Fon tionsxor -parabole- parabole de alee : ontours . . . 53
3.20 Apprentissage de la fon tion sommede xor,paraboleet parabolede alee . . 54
3.21 Crash :apprentissage avant regularisation . . . 56
3.22 Crash :apprentissage apresregularisation . . . 57
3.23 Crash :apprentissage avant etapres regularisationdu depla ement 1 . . . . 58
3.24 Crash :apprentissage avant etapres regularisationdu depla ement 2 . . . . 58
3.25 Crash :apprentissage avant etapres regularisationdu depla ement 3 . . . . 58
3.26 Crash :apprentissage avant etapres regularisationdu depla ement 4 . . . . 59
3.27 Crash :apprentissage avant etapres regularisationdu depla ement 5 . . . . 59
3.28 Crash :apprentissage avant etapres regularisationdu depla ement 6 . . . . 59
3.29 Cas petrole: toitd'un modelede reservoirsynthetique . . . 60
3.30 Cas petrole: representation de la fon tion obje tif a minimiser . . . 61
3.31 Cas petrole: Apprentissage etgeneralisationave =0 . . . 61
3.32 Cas petrole: reseau appro hant la fon tionobje tif ( =0) . . . 61
3.33 Cas petrole: Apprentissage etgeneralisationave optimal . . . 62
3.34 Cas petrole: reseau appro hant la fon tionobje tif ( optimal) . . . 62
4.1 S hema de la bou le d'optimisation . . . 64
4.2 Apprentissage et optimisationde la fon tion sinus . . . 65
4.3 Apprentissage et optimisationde la fon tion <sinus de ale> . . . 66
4.4 Apprentissage et optimisationde la fon tion < hameau> . . . 67
4.5 Apprentissage et optimisationde la fon tion de Branin . . . 68
4.6 Apprentissage et optimisationde la fon tion de Griewank . . . 69
4.7 Apprentissage et optimisationde la fon tion de Rastrigin . . . 70
4.5 Resultatsde l'optimisationpour le as petrole (Punq) . . . 72
4.1 Resultatsd'optimisationpour des fon tions en dimension 2 . . . 73
4.2 Resultatsd'optimisationpour des fon tions en dimension 2 (suite) . . . 74
4.3 Resultatsd'optimisationpour des fon tions en dimension superieure . . . 75
Dans le adre du projet Monastir regroupant les industriels Renault, PSA, Mi helin, SNCF, nous avions pu voir les limites des methodes de linearisation dans le domaine du Crash. Cetteexperien e, partiellementrapportee en se tion 3.7.2 page 55,est a l'originedu travail quenous presentons dans ette these.
D'autre part, dans de nombreux problemes d'optimisationpratiques,les riteres a mini-miser sont le resultat de l'exe ution de odes de al uls longs auxquels on ne peut pas se permettre de faireappeltropsouvent. Ilestegalementassezfrequent quelesderivees de es riteres par rapportauxparametres aoptimisersoient ina essibles.Dans d'autres as, ilse peut quelephenomene physiquesoittellementinstablequelegradient,bienque al ulable, ne soit pas d'une grande utiliteen raison de son ara tere trop lo al. C'est essentiellement pour es raisons que nous nous sommes interesses a la onstru tion de modeles qui four-nissent une bonne approximation peu o^uteuse en tempsde al ul des riteres a minimiser. An de pouvoir utiliser des te hniques d'optimisation basees sur l'utilisation du gradient, nous her hions egalement a b^atir des modeles qui disposent de derivees d'ordre un. Nous sommes parvenus a satisfaire toutes es exigen es en nous servant des reseaux de neurones.
Les reseaux de neurones her hent aimiter la stru ture (neurones, synapses, ...) du er-veau humain. En 1943, Warren M Cullo h (neurophysiologiste) et Watter Pitts (math ema-ti ien) [51℄ ont onstruit un reseau de neurones apable de traiter des nombres binaires.
En 1949, Donals Hebb de rit les pro essus d'apprentissage. Ces travaux sont a l'origine des fon tions d'apprentissage utilisees a tuellement. En1957, Frank Rosenblatt ree le pre-miermodelede reseauneuronal ave apprentissagesupervise.Cemodeleest tresimportant, ar il est apable de generaliser. Cela signie qu'il a la apa ite de restituer une reponse orre te pour des donnees nonapprises. Un des in onvenients de e modeleest qu'iln'a pas la apa ite de resoudre des problemes qui ne sont pas lineairement separables. Les reseaux de neurones sont utilisespour la premiere fois pour resoudre des problemes reels en 1960 : ADALINE (ADAptative LInear Elements).
Les methodes neuronales sont abandonnees par la ommunaute s ientique en 1969. Ellesreviennent au go^ut du jour dans lesannees 80,ave , lam^eme annee (1985)la on ep-tion de l'algorithmede retro-propagationdu gradient(que l'on appellemethode adjointeen mathematiques appliquees) et la publi ation du livre de John Hopeld sur les reseaux de neurones.En1986,RumelHartetM Clellandutilisentl'algorithmede retro-propagationdu gradient pour resoudre des problemes hors de portedu per eptron :ilsutilisentdes reseaux multi ou hes.
domaines( f. hapitre3).Bienquel'algorithmed'apprentissagesupervisene essitelui-m^eme laresolutiond'unprobleme d'optimisation,l'utilisationdire tede reseauxde neurones pour resoudre des problemes d'optimisation globale n'est pas, a notre onnaissan e, en ore tres habituelle.Onpeuttrouverdestravauxsurl'optimisationenutilisantlesreseauxdeneurones depuisquelques annees [60, 11,57,71,68, 32℄.On peut iterdes travauxre ents ombinant methodes neuronales etalgorithmes genetiques [3, 14, 62,30,75, 55℄.
And'illustrerimmediatementl'apportdenotretravail,nousallons omparerunresultat d'approximation de la fon tion parabole((x;y)7 ! x
2 +y
2
)par une appro he neural las-sique. Nous presentons la meilleure approximation que nous avons obtenu ave la < tool-box> de Matlab.
On peut onstater sur ettegure1queMatlabintroduitdesos illationspourappro her une fon tion lisse.
Au ontraire,nousverronsalase tion4.2.1(page70)quelamethodequenousproposons nouspermetd'appro herune fon tionos illante,donton her he leminimumglobal,parun reseau lisse.
−10
−5
0
5
10
−5
0
5
−20
0
20
40
60
80
100
120
140
surface approchée par le reseau de neurones
Reseau neuronal lassique
−10
−5
0
5
10
−5
0
5
−20
0
20
40
60
80
100
120
140
Var. fixes :
Notre methode zero-memoire
Fig. 1{ Comparaisona Matlab
Dansle hapitre1,nousallonsmotivernotreetudedel'utilisationdesreseauxdeneurones enoptimisation.Dansunpremiertemps,nousexpliquerons omment etravailpeutapporter une solution au probleme de la perte de stabilite lors de la linearisation d'un probleme d'evolutionnonlineaire.Ensuite,ons'interesseraal'optimisationde fon tionsquipresentent plusieurs minimalo aux (fon tions os illantes). Enn, on de rira brievement l'inter^etde e travail pour l'optimisationde fon tionsde type\boite noire"[52℄.
Le hapitre2 porte sur les plans d'experien edont nous nous servons pour hoisir d'une maniere judi ieuseles ouplesutilisesau ours de l'apprentissage du reseau.Apresquelques rappelssur lesplansd'experien e, nousde rirons ommentnous lesutilisonspour onstruire des ouples d'apprentissage.
45, 59, 69℄). Nous de rirons ensuite une methode d'apprentissage zero-memoire que nous avons developpee en ouplantdes te hniquestellesquelamethode de Gauss-Newton,le gra-dient onjugue, lesmodes de la dierentiation automatique, ... Nousdetaillerons egalement quelques methodes de regularisation utilisees pour pallier a d'eventuelles erreurs sur les donnees.Ces methodes fontintervenir:lamethodede Tikhonov,lastrategied'arr^etde l'ap-prentissage,latailledumodeleetpourterminerl'utilisationdelamethodedeGauss-Newton. Cette appro he de regularisation permet en plus d'eviter lesminima lo aux (qui posent un serieux probleme pour lesmethodes lassiques),en augmentant latailledu modelepour as-surerl'apprentissageetenlereduisantensuitepourlaregularisation.Enn,nousillustrerons lamethoded'apprentissagepardesresultatsnumeriques,aussibiensurdes asa ademiques, que sur des as industriels. Tous les aspe ts presentes, sur l'exemple de reseaux neuronaux peuvent, a priori,^etre adaptesa tous problemes inverses
Audernier hapitre,nousverrons ommentnousavonsexploitelesreseauxdeneuroneset leur gradientpour resoudre des problemes d'optimisationdes typespresentes au hapitre 1.
Motivation a l'utilisation des reseaux
de neurones
1.1 Derivation d'un probleme d'evolution non lineaire
Lesproblemesmodelisespardesequationsd'evolutionnonlineaires ommel'equationde Burger, les equations de Navier-Stokes oule probleme du pendule possedent des proprietes de stabilite.Ces dernieres sont essentiellement basees sur une estimation de type energie et de oulentdu fait quele probleme non lineairede rit un phenomene physique. Enrevan he, les problemes linearises asso ies ne bene ient pas ne essairement de es m^emes bonnes proprietes. Comme la derivee de la solution d'un probleme d'evolution non lineaire par rapportaun parametrede on eptiondonneest justementsolutionde l'equationlinearisee, onne peut la prendre en onsiderationquesur un intervallede temps ni T.Elleadon un ara tere trop lo aletse revele peu pertinentepour lesproblemesd'optimisation.
1.1.1 Equation de Burger L'equation de Burger u t + u 2 2 x =0
ou, sous sa formequasi-lineaire,
u t
+uu x
=0
estunmodelequipresentelesm^emes ara teresfondamentauxquelesystemede3equations ( onservation de lamasse, de la quantite de mouvement et de l'energie) a 3 in onnues (par exemple la vitesse, la pression et l'entropie spe ique) de la dynamique des gaz unidimen-sionnelle [53℄.
Ellerepresenteegalementlephenomenedu\bangsonique":loind'unavionsupersonique et en parti ulier pres du sol, lebruit engendre par l'avionse on entre dans ertaines zones oula pressionest gouvernee par l'equationde Burger [18℄.
Le terme u 2 2
Si onajouteun terme lineaire mais dissipatif al'equatione rite i-dessus u t + u 2 2 x =u xx ;
ave >0,on obtient uneequation de type parabolique.
Le systeme qui suit est un assez bon modele des equations de Navier-Stokes qui seront vues ala se tionsuivante.
u t +uu x = u xx ; dans [0;L℄℄0;T℄ (1.1) u(x;t=0) = u 0 (x); u(x=0;t) = u 0 (0)=0; u(x=L;t) = u 0 (L)=0:
En multipliant (1.1)par u eten integrant par rapportax, onobtient Z L 0 uu t = Z L 0 uu xx Z L 0 u 2 u x (1.2) ouen ore 1 2 ( Z L 0 u 2 ) t = Z L 0 uu xx Z L 0 u 2 u x : (1.3)
Moyennant quelques integrations par parties et l'utilisation des onditions aux limites, ona Z L 0 uu xx = Z L 0 (u x ) 2 +[uu x ℄ L 0 = Z L 0 (u x ) 2 (1.4)
pour le terme de vis ositeet Z L 0 u 2 u x =2 Z L 0 u 2 u x [u 3 ℄ L 0 =2 Z L 0 u 2 u x (1.5)
pour le terme non lineaire.Cela veut dire que,
Z L 0 u 2 u x =0:
En reportant (1.4) dans (1.3), eten utilisant (1.5),on aboutit a
1 2 ( Z L 0 u 2 ) t = Z L 0 (u x ) 2 <0: (1.6)
La derniere equation montre que la ontribution du terme non lineaire est nulle et que l'energie inetique de ro^t.
Appelons U la derivee de u par rapport a un parametre quel onque. Pour simplier les al uls, nous disons que e parametre est .Alors U est lasolution de
Appliquonslam^eme te hnique que pour traiterl'equation(1.1): en multipliantpar U eten integrant par rapport a x, ona
1 2 ( Z L 0 U 2 ) t = Z L 0 UU xx + Z L 0 Uu xx Z L 0 U 2 u x Z L 0 uUU x : (1.8)
En faisant quelques integrations par parties et en tenant ompte des onditions aux limites, onobtient Z L 0 UU xx =[UU x ℄ L 0 Z L 0 (U x ) 2 = Z L 0 (U x ) 2 ; (1.9) Z L 0 Uu xx =[Uu x ℄ L 0 Z L 0 U x u x = Z L 0 U x u x ; (1.10) Z L 0 U 2 u x =[ U 2 u℄ L 0 +2 Z L 0 UU x u=2 Z L 0 UU x u: (1.11)
En reportant dans (1.8), onobtient
1 2 ( Z L 0 U 2 ) t = Z L 0 (U x ) 2 Z L 0 U x u x + Z L 0 UU x u: (1.12)
Onperdlesproprietesdestabilitepourdepetitesvaleursde,etonnepeutplusgarantir lade roissan e de l'energie.
On illustre e phenomene numeriquement ave u 0 = 1 os (4x) 2 0x0:5 et = 10 3 .
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Burger
u initial
u a T/4
u a T/2
u a 3T/4
u a T
Prols de u pour t = 0,T=4, T=2, 3T=4 etT0
2
4
6
8
10
12
14
16
18
20
0
20
40
60
80
100
120
140
160
180
200
Burger − énergie en fonction du temps
Energieen fon tion du temps
Fig. 1.1{
Equation de Burger
D'apres la gure 1.1, on peut noter que l'energie de ro^t en fon tion du temps. En re-van he, dans le as linearise(gure1.2),onne peutpas fairelam^eme aÆrmation:l'energie \explose".On en deduitque le al uldes derivees en utilisant l'equation lineariseen'est pas
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
−90
−80
−70
−60
−50
−40
−30
−20
−10
0
10
Burger linéarisé
du initial
du a T/4
du a T/2
du a 3T/4
du a T
Prols de U pour t = 0,T=4, T=2, 3T=4 etT0
2
4
6
8
10
12
14
16
18
20
0
1
2
3
4
5
6
7
x 10
5
Burger linéarisé − énergie en fonction du temps
Energieen fon tion du temps
Fig. 1.2{
Equation de Burger linearisee
1.1.2 Navier-Stokes
On onsideremaintenantlemouvementd'un uidemodelisepar lesequationsde Navier-Stokes donnees i-dessous dans un domaine borne de R
2
, dont la frontiere est suÆ-samment reguliere.
u t
+(u:r)u u+rp = 0; dans℄0;T℄ (1.13)
div (u) = 0; dans℄0;T℄ (1.14)
u(x;t) = 0; dans ℄0;T℄ (1.15)
u(x;0) = u 0
(x); dans : (1.16)
Le ve teur u etle s alairep representent respe tivement lavitesse du uide etsa pression.
En multipliant par u eten integrant par rapport ax, onaboutita
Z u:u t = Z u:u Z (u:r)u:u Z u:rp (1.17)
ouen ore,en integrantparpartiesleterme R
u:ueten tenant omptedes onditions aux limites, 1 2 ( Z juj 2 ) t = Z jru j 2 Z (u:r)u:u Z u:rp: (1.18)
On aaussi Z (u:r)u:u = Z X i u i ((ru)u) i = Z X i u i X j u i x j u j = Z X i;j u i (u i u j x j u j u i x j )+ Z X i;j u 2 i u j = Z X i u 2 i div (u)+ Z X i u i X j u j u i x j = Z div(u)juj 2 + Z (u:r)u:u; et Z urp= Z X i u i Æp x i = Z X i u i x i p Z X i u i p= Z div(u)p On en deduit, en utilisant(1.14), 1 2 ( Z u 2 ) t = Z (ru) 2 <0: (1.19)
En ore unefois,onmontre quel'energie inetiquetotale de ro^t.Enappliquantlam^eme te hnique quepour l'equation de Burger, on onstate anouveau une pertede stabilitede la solutionde l'equationlinearisee pour de petites valeurs de .
1.1.3 Pendule elastique
On onsidere un ressort de raideur k et de longueur nominale l n
mobile autour d'un axe de rotation. Une masse m est suspendue au ressort dont la longueur devient l, ave l = p x 2 +y 2
(x position horizontale, y position verti ale). La masse m est alors soumise a son poids
! P = m
!
g et a la for e de rappel du ressort !
F = k
!
IM. On neglige lamasse du ressortet tous lesfrottements [64℄. Appliquons la relationfondamentale de ladynamique ausysteme, il vient
m ! a = ! F + ! P = k ! IM +m ! g (1.20) ou !
a est l'a elerationet ! IM = ! OM ! OI ! IM = x y x n y n = 0 B l l n l x l l n l y 1 C A :
En projetant sur lesaxes, larelation fondamentale de la dynamique donne 8 > < > : mx tt = k(l n l) l x; my tt = k(l n l) y mg:
F ! I P ! M O xn y n y x
Fig. 1.3{ Penduleelastique
On suppose maintenantquelamasseestunitaireetonsedonneun parametre quijoue le r^ole d'une a eleration dont l'obje tif pourrait ^etre de ontr^oler la position horizontale de M. Le systeme devient alors
8 > < > : x tt = k(l n l) l x+ ; y tt = k(l n l) l y g: (1.21)
Si onderive (1.21) par rapport a , onobtient lesysteme linearise 8 > > < > > : X tt = d d k(l n l) l x+ k(l n l) l X+1; Y tt = d d k(l n l) l y+ k(l n l) l Y;
ouX (resp. Y) represente la derivee de x (resp. y) par rapporta et
d d k(l n l) l = k l n l 3 (xX+yY):
Le systeme linearises'e rit alors X tt Y tt =A X Y + 1 0 (1.22) ave A= 0 B k(l n l) l kl n l 3 x 2 kl n l 3 xy kl n 3 xy k(l n l) kl n 3 y 2 1 C A :
Cal ulons lesvaleurs propresde lamatri e A det (A I) = k(l n l) l k l n l 3 x 2 k(l n l) l k l n l 3 y 2 k 2 l 2 n l 6 x 2 y 2 = k(l n l) l 2 k(l n l) l k l n l 3 y 2 +k l n l 3 x 2 = k(l n l) l k(l n l) l k l n l = k(l n l) l ( k ):
Les deux valeurs propres de A sont don 1 = k et 2 = k(l n l) l
. Si les deux valeurs
propressontnegatives,lasolutionse omporte ommee i
p t
.Enrevan he, siAaunevaleur
proprepositive, lasolutionse omporte omme e p t .Desque l<l n , 2 = k(l n l) l >0.
On illustre lesproprietesetablies i-dessus pour un ressort de longueur nominale l n
=1 et de raideurk =10en prenant omme onditions initiales
x(t=0)=x 0 ; x t (t=0)=0; y(t=0)=y 0 ; y t (t =0)=0:
Dans la gure 1.5, on peut observer que si la longueur du ressort a un instant t est plus petite que sa longueur nominale, alors la valeur propre de la matri e A devient positive et les derivees des positions par rapport a \explosent", 'est-a-dire que le systeme perd sa stabilite.
Par ontre, si on regarde la gure 1.4, on peut remarquer que la longueur du ressort est toujours plus grande que sa longueur nominale, et le systeme linearise ne perd pas ses proprietesde stabilite.
Lagure1.6representel'evolutiondel'ordonneey(T)del'extremiteduressortal'instant nal onsidere en fon tion de y
0
. On peut onstater que la ourbe est assez os illante, en parti ulier, omme prevu, lorsque y(0) est hoisi loindu er le d'equilibre (ligne rouge). Il est assez aisede on evoir quele al uldes deriveesdans e typede situationsoitune t^a he
0
5
10
15
20
25
30
35
40
−3.5
−3
−2.5
−2
−1.5
−1
−0.5
0
0.5
x(t)
Position horizontale du ressort
0
5
10
15
20
25
30
35
40
−3.5
−3
−2.5
−2
−1.5
−1
−0.5
0
0.5
y(t)
Position verti ale du ressort
0
5
10
15
20
25
30
35
40
−40
−30
−20
−10
0
10
20
30
40
u(t)
Derivee de xpar rapport a
0
5
10
15
20
25
30
35
40
−40
−30
−20
−10
0
10
20
30
40
v(t)
Derivee de y par rapporta
0
5
10
15
20
25
30
35
40
1
1.5
2
2.5
3
3.5
4
l(t)
Longueur du ressort0
5
10
15
20
25
30
35
40
−12
−10
−8
−6
−4
−2
0
valeurs propres de A
Valeurs propresde AFig. 1.4{ Systeme de pendule stable :(x 0
;y 0
0
5
10
15
20
25
30
35
40
−3.5
−3
−2.5
−2
−1.5
−1
−0.5
0
0.5
1
x(t)
Position horizontale du ressort
0
5
10
15
20
25
30
35
40
−3.5
−3
−2.5
−2
−1.5
−1
−0.5
0
0.5
1
y(t)
Position verti ale du ressort
0
5
10
15
20
25
30
35
40
−1500
−1000
−500
0
500
1000
1500
2000
2500
u(t)
Derivee de xpar rapport a
0
5
10
15
20
25
30
35
40
−4000
−3000
−2000
−1000
0
1000
2000
3000
v(t)
Derivee de y par rapporta
0
5
10
15
20
25
30
35
40
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
l(t)
Longueur du ressort0
5
10
15
20
25
30
35
40
−15
−10
−5
0
5
10
15
valeurs propres de A
Valeurs propresde AFig. 1.5{Systeme de pendule instable: (x 0
;y 0
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Evolution de l’ordonnee finale du ressort en fonction de y(0)
Fig. 1.6 {Evolution de y(T)en fon tion de l'ordonnee initialey0
1.2 De l'inter^et des reseaux de neurones
Unmoyen depallierauxproblemesde ritsdans lase tion1.1est d'utiliserlesreseauxde neurones [33, 37, 4,40℄pour reer une surfa e de reponse asso iee auprobleme etoptimiser le modeleainsi obtenu.
Uneautreappli ationpossibleest l'optimisationdefon tionsdontl'evaluation o^ute her et /ou dont onne peut pas al ulerle gradient.
Lesreseauxneuronauxpermettentegalementde her herleminimumglobalde fon tions os illantes telles quela fon tion de Griewankoude Rastrigin.
1.2.1 Pour l'optimisation globale
Cal ulerleminimumglobaldefon tionstresos illantesestunet^a hediÆ ile.Considerons, par exemple, la fon tion de Rastrigin representee sur la gure 1.7page 14. Ellepossede de nombreux minimalo aux, mais ellen'a qu'un minimumglobal, quelle quesoitladimension du probleme.
−2
−1
0
1
2
−2
−1
0
1
2
−1
0
1
2
3
4
5
6
7
8
9
Var. fixes :
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Fig. 1.7{ Lafon tion de Rastriginen 2 dimensions etses ontours
Suruntelexemple,lesreseauxdeneuronesnouspermettentd'obteniruneapproximation tres grossiere de la fon tion (se tion 3.7.1 page 49). On exploite ensuite le modele ainsi obtenu pour obtenir le minimum global (se tion 4.2.1 page 70) sans ^etre piege dans les
1.2.2 Pour l'optimisation de fon tions de type < bo^te noire >
Dans laplupartdes problemes pratiques ouindustriels,la fon tiona appro her (et opti-miser)n'estpasexpli ite:onnela onna^tquepardesmesures parfois o^uteuses oudiÆ iles
arealiser.Dans e as,on onstruit unesurfa e de reponse apartirdes donnees donton dis-pose. Pour e faire,plusieurs methodes existent,dontlesmethodes neuronales.Un avantage non negligeable de es dernieres est qu'elles permettent un al ul de gradient pour un o^ut ajoutenegligeable.
Considerons,parexemple,leproblemedelamodelisationd'un ho frontald'unvehi ule sur unmur(se tion3.7.2page55). On her he aoptimiserun ertain ritere dedeformation en fon tion de parametres tels que la position du pare- ho s ou sa raideur. Une te hnique naturelle onsistea utiliserune methode d'optimisationbasee sur le gradientdu ritere. Un al ulde e dernierviaun ode dedierentiationautomatique onduitlademar he al'e he pour les raisons mentionnees i-dessus (se tion 1.1).
Les methodes de plan d'experien e
L'utilisationde reseaux de neurones ne essite une phase d'apprentissage. Ce dernier est base sur la onnaissan e de ouplesd'apprentissage. Laqualitede l'apprentissage du reseau depend en grande partie de la bonne repartition de es ouples dans l'espa e de re her he. Dans la majorite des as, pour des raisons de o^ut ou de temps de al ul, le nombre de ouplesd'apprentissagen'estpastreseleve.Ilestdon importantqu'ilssoientjudi ieusement repartis dans l'espa e de re her he. C'est pourquoi nous nous sommes interesses aux plans d'experien e.
Lesmethodesde pland'experien e[13℄depassentlargementle adredu al ulnumerique et elles sont bien anterieures au developpement re ent des outils de al ul. Elles ont tout d'abord ete utilisees pour reduire le nombre d'experien es reelles a ee tuer (realisation de prototypes, sondages geologiques, ...). Dans la litterature, les parametres sont appeles fa teurs etles dierentes valeurs dis retes prises par un fa teur sont lesniveaux.
Nous ommen onsparunepresentationdesplansd'experien esinspireeparunelitterature abondante sur e sujet [73, 12, 61,66,6, 67, 25,26,27℄. Malheureusement, anotre onnais-san e, il n'existe pas de do umenta essible presentant une appro he systematiquepour la onstru tiondeplansd'experien e.Nousessayons, dans e hapitre,de ontribuera ombler e vide.
2.1 Plan fa toriel pour deux fa teurs a deux niveaux
Prenonsparexemplel'etudedelaresistan e( riteredeVonMises)d'unestru ture oque dependantdedeuxfa teurs,l'epaisseure2f3;5getlemoduled'YoungE 2f310
4 ;410
4 g. Les4traitementsou ombinaisonsdeniveauxdes2fa teurs,epaisseuretmoduled'Young, sont
e ode (A) e reel E ode(B) Ereel
1 1 3 1 310 4 2 +1 5 1 310 4 3 1 3 +1 510 4 4 +1 5 +1 510 4
etniveau hauta +1. Ce hangement d'unitepermet l'etudesimultanee de fa teursdenis a des e helles dierentes et fa ilitel'appro he mathematiquede e type de probleme.
Ces 4traitementspeuvent^etrerepresentesgraphiquementparlessommetsdu arredans l'espa edeni par les fa teurs odes.
Untelplan estdesigne ommeplanfa toriel 2 2
ouplus generalementplanfa toriela b
ou a est le nombre de fa teurs et b est le nombre de niveaux.
Nous supposons que la reponse Y est reliee aux niveaux des fa teurs odes, notes A et B, par :
Y =f(A;B)+"
ouf(A;B)estappeleelareponsetheoriqueetrepresentelaresistan edelastru turepourles niveaux onsideresde AetB et"estl'erreur. Pour les4traitements,lesreponsestheoriques sont presentees dans le tableau
A B f(A;B)
1 1 f( 1; 1)
1 1 f(1; 1)
1 1 f( 1;1)
1 1 f(1;1)
etpeuvent^etreestimees en realisantdes experien es. Neanmoins, ellesne permettentpas de omparer les in uen es respe tives de A etB sur Y.
Pour e faire,ondenit leseets fa torielsde A etde B de la maniere suivante:
{ Eet de A : 1 2
(moyenne de f pour A =+1) - (moyennede f pour A= 1) e(A) = f(1; 1)+f(1;1) 4 f( 1; 1)+f( 1;1) 4 = f(1; 1)+f(1;1) f( 1; 1) f( 1;1) 4 { Eet de B : 1 2
(moyenne de f pour B =+1) -(moyenne de f pour B = 1) e(B) = f(1;1)+f( 1;1) 4 f(1; 1)+f( 1; 1) 4 = f(1;1)+f( 1;1) f(1; 1) f( 1; 1) 4 Notant aussi e(A )= f(1; 1) f( 1; 1) 2 l'eet de A lorsque B = 1 e(A+)= f(1;1) f( 1;1) 2 l'eet de A lorsque B =1,
On denit don l'eet d'intera tion entre A etB par e(AB) = 1 2 f(1; 1) f( 1; 1) 2 f(1;1) f( 1;1) 2 = f(1; 1) f( 1; 1) f(1;1)+f( 1;1) 4
et lamoyenne generale notee e(1) par
e(1)=
f( 1; 1)+f(1 1)+f( 1;1)+f(1;1) 4
:
Les 4 eets fa toriels denis a partir des 4 reponses theoriques sont don
la moyennegenerale e(1)= 1 4 (f( 1; 1)+f(1; 1)+f( 1;1)+f(1;1)), l'eet de A e(A)= 1 4 (f(1; 1)+f(1;1) f( 1; 1) f( 1;1)), l'eet de B e(B)= 1 4 (f(1;1)+f( 1;1) f(1; 1) f( 1; 1)),
l'intera tion entre A etB e(AB)= 1 4
(f(1; 1) f( 1; 1) f(1;1)+f( 1;1)).
On peut e rire lareponse sous laforme
f(A;B)=e(1)+e(A)A+e(B)B+e(AB)AB:
Si l'one rit le plan d'experien esous laforme
1 A B AB f(A;B)
1 1 1 1 f( 1; 1)
1 1 1 1 f(1; 1)
1 1 1 1 f( 1;1)
1 1 1 1 f(1;1)
les eets pre edents sont obtenus en ee tuant le produit s alaire des 4 olonnes par la olonne f(A;B) et en divisant le produit s alaire par 4. Ce i peut ^etre e rit sous forme matri ielleen onsiderantla matri e des eets
H = 0 B B 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 C C A
qui represente les olonnes 1;A;B;AB du tableau pre edent. On peut alors e rire 0 B B e(1) e(A) e(B) e(AB) 1 C C A = 1 4 H T 0 B B f( 1; 1) f(1; 1) f( 1;1) f(1;1) 1 C C A ouen ore e= 1 H T f:
Commela matri eH est orthogonale(HH T
=4I), ona
f =He:
D'une maniere generale, une matri e H de rang n dont les termes ne prennent que les valeurs 1telle que HH
T
= nId n
est appelee matri e de Hadamard. Une telle matri e n'existe que pour n =2 etpour n multiple de 4.
2.2 Plans fa toriels fra tionnaires pour fa teurs a deux
niveaux
Considerons un plan fa toriel pour 7 fa teurs a 2 niveaux. Le plan omplet omprend 2
7
=128 experien es. Il permet d'estimer 128 eets quise de omposent en
1 moyenne,
7 eets prin ipaux,
21 intera tions entre 2fa teurs, 35 intera tions entre 3fa teurs, 35 intera tions entre 4fa teurs, 21 intera tions entre 5fa teurs, 7 intera tions entre 6fa teurs, 1 intera tion entre 7fa teurs.
Mais,sil'onpeut estimer eseets, ilsnesontpas tousimportants.Ilexiste une ertaine hierar hie entre eux : les eets prin ipaux tendent a ^etre superieurs aux intera tions de 2 fa teurs, quisontelles plus grandes (en valeur absolue)quelesintera tions de 3fa teurs, ... Il est souvent vrai qu'a un ertain niveau, les intera tions d'ordre le plus eleve sont negligeables et peuvent don ^etre eliminees. De plus, quand le nombre de fa teurs grandit, il arrivesouvent que ertains d'entre euxn'aientpas d'eet.
Si p n'est pas petit, il existe une redondan edans un plan 2 p
qui orrespond aun ex es du nombre des intera tions et parfois du nombre de fa teurs envisages. Les plans fa toriels fra tionnaires exploitent ette redondan e.
Lesprin ipesde onstru tionde fra tionsde plans fa toriels2 p
sont presentes i-dessous pour des as simples ave p=2;3;4 et5 fa teurs.
2.2.1 Cas de deux fa teurs a deux niveaux
Dans un plan fa toriel omplet 2 2
pour les fa teursA etB, le tableaudes 4 experien es qui permet le al ul des eets fa toriels s'e rit :
1 A B AB f(A;B)
1 1 1 1 f( 1; 1)
1 1 1 1 f(1; 1)
Examinons le as d'e ole suivant : on ne peut experimenter que 2 experien es parmi les 4. On hoisitde sele tionner lepremier etlequatrieme pour lesquels AB =1.
1 A B AB f(A;B)
1 1 1 1 f( 1; 1)
1 1 1 1 f(1;1)
La realisation de es deux experien es permet d'estimer f en 2 points :
f( 1; 1) = e(1)+e(AB) (e(A)+e(B)) f(1;1) = e(1)+e(AB)+(e(A)+e(B))
eten resolvant e systeme,onpourra al ulere(1)+e(AB)d'unepartete(A)+e(B)d'autre part.
Ces eets, groupes par paquets de 2, indisso iables l'un de l'autre, sont dits onfondus. Lenombre d'experien es aetedivisepar 2 mais leseets que l'on al ule ne sontplus purs, ils sont onfondus 2par 2.
Le as d'e ole a 2 fa teurs n'est pas tres interessant pratiquement, ar on ne peut plus estimer leseets prin ipaux des 2 fa teurs.
Si onnote X la matri e X = 1 1 1 1 1 1 1 1
leseets onfondus orrespondent ades olonnes lineairementdependantes.
LarelationAB =1quiapermisde sele tionnerlesexperien es duplanfa toriel omplet est appelee relation de denition du demi-plan.On ditquel'eetde AB est onfondu ave lamoyenne generale. Larelation A=B peut^etre retrouvee formellementen faisant le produit d'un fa teur donne (par exemple B) par le terme dont l'eet est onfondu ave la moyenne generale : en utilisantlefait que B
2
=1,on a
AB =1=)AB 2
=B =) A=B:
2.2.2 Trois fa teurs a deux niveaux
Dans le plan omplet 2 3
pour les fa teurs A, B, C, le tableau permettant le al ul des eets est 1 A B C AB AC BC ABC f(A,B,C) 1 -1 -1 -1 1 1 1 -1 f(-1,-1,-1) 1 1 -1 -1 -1 -1 1 1 f(1,-1,-1) 1 -1 1 -1 -1 1 -1 1 f(-1,1,-1) 1 1 1 -1 1 -1 -1 -1 f(1,1,-1) 1 -1 -1 1 1 -1 -1 1 f(-1,-1,1) 1 1 -1 1 -1 1 -1 -1 f(1,-1,1) 1 -1 1 1 -1 -1 1 -1 f(-1,1,1)
Pour realiser seulement la moitie des 8 essais, hoisissons les experien es 2, 3, 5 et 8 pour lesquels ABC =1. 1 A B C AB AC BC ABC f(A,B,C) 1 1 -1 -1 -1 -1 1 1 f(1,-1,-1) 1 -1 1 -1 -1 1 -1 1 f(-1,1,-1) 1 -1 -1 1 1 -1 -1 1 f(-1,-1,1) 1 1 1 1 1 1 1 1 f(1,1,1)
La determination de f en es 4 points permet de resoudre lesysteme suivant :
f(1; 1; 1) = e(1)+e(ABC)+(e(A)+e(BC)) (e(B)+e(AC)) (e(C)+e(AB)) f( 1;1; 1) = e(1)+e(ABC) (e(A)+e(BC))+(e(B)+e(AC)) (e(C)+e(AB)) f( 1; 1;1) = e(1)+e(ABC) (e(A)+e(BC)) (e(B)+e(AC))+(e(C)+e(AB)) f(1;1;1) = e(1)+e(ABC)+(e(A)+e(BC))+(e(B)+e(AC))+(e(C)+e(AB))
dont lesin onnues sont les paquets d'eets onfondus
e(1)+e(ABC); e(A)+e(BC); e(B)+e(AC); e(C)+e(AB):
Commedans le as de 2fa teurs, leseets onfondusentre eux orrespondent aux olonnes lineairementdependantes de la matri e
X = 0 B B 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 C C A :
Contrairementauplanpre edent,leseetsprin ipauxe(A),e(B),e(C) nesontplus onfon-dus entre eux mais ave lesintera tions de 2 fa teurs e(BC), e(AC), e(AB). Le demi-plan ainsiobtenupermetde al ulerleseetse(A);e(B);e(C)silesintera tionse(BC);e(AC);e(AB) sont negligeables.
La relation de denition ABC = 1 peut ^etre multipliee par tout autre fa teur pour obtenirles autres relationsBC =A;AC =B;AB =C.
I i,la onfusiondes eetsprin ipauxave lesintera tionsde 2fa teurspeut^etre g^enante ar les intera tions d'ordre 2 ont de faibles han es d'^etre negligeables. Cette propriete du plan hoisi s'exprime ave la notion de resolution: leplan de rit est de resolutionIII ar la relationde denition onfonduneintera tionde3fa teursave lamoyenne.Cetteresolution III signieaussi queles eets prin ipauxsont onfondus ave les intera tions de 2 fa teurs.
2.2.3 Quatre fa teurs a deux niveaux
Le plan omplet 2 4
pour les fa teurs A, B, C, D omprend 2 4
= 16 experien es. Si on 3
on va sele tionner elles pour lesquelles ABCD = 1. Cette relation de denition permet d'etablir que D = ABC. On peut don onstruire les 2
3
= 8 experien es du plan fa toriel pour les4 fa teurs A, B, C et D a partir du plan fa toriel omplet pour les fa teurs A, B, C en al ulant la olonne D viale produit terme aterme des olonnes A,B etC.
1 A B C D=ABC 1 -1 -1 -1 1 1 1 -1 -1 1 1 -1 1 -1 1 1 1 1 -1 1 1 -1 -1 1 1 1 1 -1 1 1 1 -1 1 1 1 1 1 1 1 1
A,B,C sontnommesfa teurs de base du planfra tionnaire.Enmultipliantlarelation de denition par lestermes d'ordre1 (eets prin ipaux), on obtient D=ABC, A=BCD, B =ACD;C =ABDetsionmultiplieparlestermesd'ordre2,onaCD=AB,AC =BD, BC =AD.
Finalement, la relation de denition s'e rivant ABCD = 1, l'eet onfondu ave la moyenne est une intera tion de 4 fa teurs : le plan est de resolution IV (quatre)... Cela signie aussi que les eets prin ipaux(d'ordre 1) sont onfondus ave des intera tions de 3 fa teurs (1+3=4)et queles intera tions de 2 fa teurs sont onfondues entre elles (2+2=4).
L'avantage qualitatif de e plan par rapport a eux qui ont ete vus pre edemment est queleseets prin ipaux ne sont pas onfondusave lesintera tions d'ordre2.Ces dernieres sont onfondues par paires.
2.2.4 Cinq fa teurs a deux niveaux
Pour onstruiredeux demi-plansd'unplanfa toriel2 5
,onpartageen deuxletableaudes eets aumoyen d'une relation de denition.L'un des demi-plans fa toriels est onstruit en utilisantABCDE =1,tandisquel'autre est denipar ABCDE = 1.Pour ha und'eux, lamoyenne generale est onfondue ave une intera tion d'ordre 5.
Pour ouper le plan en 4, on ne onfond plus 1 mais 2 eets ave la moyenne generale. Ce i orrespond al'egalitede 2 olonnesave la olonnedelamoyennegenerale.Dansle as ouon onfondleseetsde l'intera tiondes 3fa teursABC etdel'intera tiondes3 fa teurs
aunombre de 8: 1 A B C D E ABC CDE 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
La onstru tionde e quart de plan est en faitrealisee en notant queABC=CDE =1 implique C =AB, D =CE = ABE. Le plan est don etabli en al ulant C et D a partir d'un plan omplet2
3
deni pour les fa teurs de base A;B et E.
On aurait pu aussi hoisir les experien es pour lesquels ABC = CDE = 1, ou bien ABC =CDE =1, oubien ABC =CDE 1.
La onfusion des eets de ABC et de CDE ave la moyenne generale denit don 4 fra tions de plan dierentes.
Apartirde larelationABC = CDE =1,en ee tuantleproduitde ABC etde CDE, on deduit que 1 = ABC
2
DE = ABDE. L'eet de ABDE est don egalement onfondu ave lamoyenne generale.
Les eets onfondus entre eux sont don eux des 4 termes suivants
1;ABC;CDE;ABDE:
On en deduit les eets onfondus ave un eet quel onque, par exemple elui de A, par multipli ation ave ha un des 4 termes :
e(A)=e(A 2 BC)=e(ACDE)=e(A 2 BDE); ouen ore
e(A)=e(BC)=e(ACDE)=e(BDE):
Lasommed'eetsquipourra^etreestimeeest don e(A)+e(BC)+e(ACDE)+e(BDE). Cettesommedonnerauneestimationdee(A)a onditionquelesintera tionse(BC),e(ACDE) et e(BDE)soient negligeables.
Les sommes omprenant les4 autreseets prin ipauxet pouvant^etre estimees sont
e(B)+e(AC)+e(BCDE)+e(ADE); e(C)+e(AB)+e(DE)+e(ABCDE); e(D)+e(ABCD)+e(CE)+e(ABE); e(E)+e(ABCE)+e(CD)+e(ABD):
Les eets prin ipaux e(A);e(B);e(C);e(D);e(E) seront don estimables si les intera tions presentes dans es sommes sont negligeables. A partir des 8 experien es du quart de plan, trois autres sommesd'eets omprenant des intera tions pourrontaussi ^etreestimees.
Les termes d'ordrele plus faibledont l'eet est onfondu ave la moyenne generale sont 5 2
2.2.5 Bilan
Le nombre de fa teurs onsideres est p. On n'etudie qu'une fra tion 1=2 q
de l'ensemble des 2
p
experien es. Seulement 2 p q
experien es sont don realisees. Les 2
p
eets fa toriels : moyenne, eets prin ipaux, intera tions jusqu'a l'ordre p ne pourront tous ^etre estimes ar il y a seulement2
p q
observations. Mais es eets sont regroupes en 2
p q
groupes de 2 q
eets. Les 2 q
eets de ha un des groupes ne sont pas disso iables : ils sont onfondus. On n'estimera qu'une ombinaison de eux- i. Si l'un des eets de ette ombinaison est important et que les autres sont negligeables, onpeut onsiderer que l'eet importantest estimable.
Cesplanssontdenisparl'ensembledesqeets onfondusave lamoyennegenerale.Des reglesalgebriquessimplespermettentde onstruire leplanetdetrouverleseets onfondus. Enformant lesproduits des q termes onfondusave lamoyenne generale,onobtientun ensemblede 2
q
eets onfondus. Pour obtenirleplan,on onstruit unplan fa toriel omplet pour p q fa teurs dits fa teursde base etonen deduit lesniveaux des q autresfa teurs en utilisantlesrelations de onfusion.
Sil'intera tiond'ordrele plusfaibleappartenanta et ensembleest une intera tion de 3 fa teurs,leplan est ditde resolutionIII;si 'estune intera tion de4fa teurs, leplanest de resolutionIV.
La notation lassique d'une fra tion 1=2 q d'un plan 2 p de resolutionR est 2 p q R . Ave p=5fa teurs,ona onstruit unefra tion
1 4 duplan omplet2 5 :q =2; 2 5 2 =8 experien es sont retenus. Les32eets fa torielssont onfondusparpaquets de 2
2
=4eets. Le plan est deni par ABC =CDE =1 relation quiest ompletee (par produit des termes entre eux) en ABC = CDE = ABDE = 1. Cette derniere relation permet de trouver les eets onfondus ave un eet quel onque (par exemple AB) en la multipliant par le terme onsidere :
ABABC=ABCDE =ABABDE =AB 1
C=ABCDE =DE =AB:
La ombinaison e(C)+e(ABCDE) +e(DE)+e(AB) fait partie des 8 ombinaisons estimables. Les fa teurs de base sont A;B;E a partir desquels on onstruit C = AB;D = ABE. Le plan appartienta l'ensembledes plans notes2
5 2 III
:
2.3 Constru tion re ursive de plans fa toriels
fra tion-naires
Ons'interessei iadevelopperune methodede onstru tiondes pointsd'unplanfa toriel fra tionnaire 2
p q
. Par sou i de larte, on notera Q =p q. On her he don 2 Q
sommets de l'hyper ube [ 1;+1℄
p
.Nousdetaillonsi i unemaniere re ursive de onstruire es points. On divisel'espa ede re her he en deux sous-espa es de dimension (p 1):
Dans ha un de es 2 sous-espa es, on her he 2 Q 1
points en onstruisant deux plans fa -toriels fra tionnaires 2
(p 1) q
. On repete ette pro edure, de maniere re ursive, tant que le nombrede pointsa onstruire estsuperieuraun. A e niveau,onprend,auhasard,unpoint dans l'hyper ube [ 1;1℄
q .
Onnotepf(p;Q;flag)leplanfa torielfra tionnaire(2 Q
points)de pfa teursa2niveaux (flag2f 1;1g).La methode re ursive quenous proposons est resumee dans lagure 2.1.
Pro edure plan=pf(p;Q;flag) si(Q =0),
plan = f(flag;flag;:::;flag
| {z } pfois )g sinon p=p 1 Q=Q 1 N =2 Q
appel apf(p;Q;flag)qui retourne fd 1 ;d 2 ;:::;d N gR p
appel apf(p;Q; flag)qui retourne fg 1 ;g 2 ;:::;g N gR p plan=f(1;d 1 );(1;d 2 );:::;(1;d N );( 1;g 1 );( 1;g 2 );:::;( 1;g N )gR p+1 n du si
Fig.2.1{Constru tionre ursived'unplanfa torielfra tionnaire:algorithmepf(p;Q;flag)
Parexemple, pour un plan fa toriel fra tionnaire (2 2 1
points) de p=2fa teurs a deux niveaux, il y a deux solutions. Une des solutions est donnee par flag = 1 et l'autre par flag= 1 ( f.g. 2.2).
-1
+1
-1 +1
Fig. 2.2 {Plan fa toriel fra tionnaire 2 2 1
(p=2, q=1,Q=1)
Un exemple du al ul re ursif du plan fa toriel fra tionnaire 2 3 1
est montre dans la g. 2.3 pour trouverquatre points(Q=2)dans [ 1;1℄
3 .
2.4 Constru tion de plans fa toriels fra tionnaires
or-thogonaux
1 −1 −1
1 1 1
−1 1 −1
−1 −1 1
pf(3,2,1) 1pf(2,1,1) -1pf(2,1,-1) 1 -1 -1 1 1 pf(1,0,1) pf(1,0,-1) -1 pf(1,0,-1) 1 pf(1,0,1) -1Fig. 2.3 {Plan fa toriel fra tionnaire 2 3 2
(p=3, q=2,Q=1)
Sinon,on risque de reer des plansfa toriels quisont lineairement dependants. On onstate en eet sur la gure 2.4 que les 2 dernieres olonnes de la matri e a 4 lignes et 5 olonnes onstruite en utilisantpf(5;2;1)sont identiques.
Pour eviter e probleme, on ommen e par onstruire un plan fa toriel omplet de Q fa teurs a 2 niveaux. Considerons l'ensemble des points ainsi obtenus omme un tableau de 2
Q
lignes et Q olonnes. L'obje tif est ensuite de ompleter e tableau, en rajoutant des olonnes lineairement independantes, entre elles et ave elles deja onstruites, jusqu'a l'obtention d'un nouveau tableau a 2
Q
1 1 1 1 1
1 −1 −1 −1 −1
−1 1 −1 −1 −1
−1 −1 1 1 1
1 -1 1 -1 pf(5,2,1) 1pf(4,1,1) pf(3,0,1) pf(3,0,-1) -1pf(4,1,-1) pf(3,0,-1) pf(3,0,1) (1,1,1) (-1,-1,-1) (-1,-1,-1) (1,1,1)Fig. 2.4{ Plan fa toriel fra tionnaire 2 5 3
(p=5, q=3,Q=2): non orthogonal
Pro edure plan=pfo(p;Q;flag)
Cal ulerleplan fa toriel omplet pf(Q;Q;flag). Notons (
1 ;:::;
Q
)les olonnes du tableauainsi onstruit. Cal ulerlenombre des olonnes a ajouter : nb ol =p Q. Pour k =1 jusqu'a k=nb ol, repeter
(a)sele tionner auhasard deux olonnes distin tes i
et j
, (b) notons n leproduit terme a termede
i et
j ,
( ) si lanouvelle olonnen est lineairementindependante de ( 1 ; 2 ;:::; Q+(k 1) ), Q+k =n , sinon retourner a (a). n pour.
2.5 Appli ation a la generation de points bien repartis
dans un domaine donne
L'approximation et l'optimisationd'unefon tion de p variables par reseaux de neurones ne essite la onnaissan e d'un ensemble de points initiaux an de onstruire un premier modele.Ce modeleinitialdoit etre^ pertinent, sanspourautantexiger un nombre important de points, ar les fon tions aappro her peuvent ^etre tres o^uteuses en temps de al ul.
Lafa onlaplusfa ilede hoisirlespointsinitiauxestd'utiliseruneseriepseudo-aleatoire. Maisunetellemethodenepermetjamaisd'obtenirdesinformationspourlesvaleursextr^emes du domaine de re her he. Dans e as, dans les zones extremales, le reseau fon tionne en extrapolation.
Une interpolation etant toujours preferable, tant pour l'apprentissage que pour l'opti-misation,les points d'initialisationdu modelesont repartisde maniere a donner aumodele une information dans les oins de l'ensemblede denition.Cependant, omme il existe une innite de fon tions quadratiques qui ont la m^eme valeur en tous les sommets d'un hyper- ube,ilest indispensablede onsiderer despointsal'interieurdu domainede re her he pour interpoler une fon tion.
Dans un espa e de grande dimension p, il n'est pas possible d'utiliser tous les sommets de l'hyper ube ommepointsinitiaux:en eet, leurnombregranditexponentiellementave ladimension du probleme.
Pour toutes es raisons, nous hoisissons trois types de points:
{ des sommets de l'hyper ube externe (dont les oordonnees sont dans f 1;1g p
), { des sommets d'un hyper ubeinterne(dont les oordonnees sont dans f 1=3;1=3g
p ), { des points tiresaleatoirementdans [ 1;1℄
p .
Dans ertains as, le nombre de points initiaux est limiteet ne permet pas d'utiliserles trois types de points de rits i-dessus. Nous pro edons alors omme dans la gure 2.6. Le hoix de l'entier Q est guide par la volonte de onstruire une matri e de taille2
Q
p ave des olonnes lineairement independantes.
Soit N init
le nombre de points initiaux. On her he Q telque p2
Q . SiN init >=2 Q , alors on hoisit 2 Q
sommetsde l'espa ede re her he :externes=pfo(p;Q;1), siN
init >=2
Q+1
, alors on omplete par 2
Q
sommets d'un hyper ube interne :
internes=externes=3, et par N
init 2
Q+1
pointspseudo-aleatoires, sinon
on omplete par N init
2 Q
points pseudo-aleatoires. n du si sinon si N init >= 2 Q 1 , alors on hoisit 2 Q 1
sommetsde l'espa ede re her he : externes=pfo(p;Q 1;1), siN
init >=2
Q
, alors on omplete par 2
Q 1
sommetsd'un hyper ube interne :
internes=pfo(p;Q 1; 1)=3, et par N
init 2
Q
points pseudo-aleatoires, sinon
on omplete par N init
2 Q 1
points pseudo-aleatoires. n du si
sinon
sion souhaiteutiliser des plans d'experien es, alors il fautaugmenter N init , sinon on se ontentede tirer N init
pointspseudo-aleatoires. n du si
n du si
Optimisation pour l'apprentissage
Dans le adrede l'approximation de fon tions, ilexiste plusieursmethodes :
{ l'appro he lineaire, oulesfon tionsde base sont xees al'avan e, d'unemaniereind e-pendente du phenomene a appro her (ex.: polyn^omes, splines, ...),
{ l'appro henonlineaire,oulesfon tionsdebasesont onstruitesenfon tiondesdonnees
a apprendre(ex. : reseaux de neurones).
Il onvientde iteruneappro heintermediaire: unebasehilbertiennedeL 2
est onstruite
al'avan e(Fourier,ondelettes),maisonne onsidere qu'unsous-ensemblede ette base.On retrouve alors
{ une appro he lineaire, dans le as ou laserie est tronquee aun ordrexe,
{ une appro he non-lineaire, sione arteles fon tions de base asso iees aux petits oef- ients.
Nous avons hoisi d'utiliserles reseaux de neurones [4℄, et nous allons montrer les avan-tages de ette methode.
Les reseaux de neurones sont des systemes arti iels apables de simuler ertaines apa- ites des systemes naturels [72℄. Le erveau, par exemple, ee tue des al uls d'une fa on ompletementnon onventionnelle et omplexe.Lesreseaux de neurones doivent leur eÆ a- ite,d'une part,aleur stru ture paralleleet, d'autrepart,a leur apa ited'apprentissageet de generalisation.
Les reseaux de neurones [16℄ ont ete beau oup etudies et utilises dans divers domaines depuis des annees : la re onnaissan e de formes, la dete tion d'anomalies, la predi tion de donnees, ...
L'utilisationdes reseaux deneuronesore,entreautres[33℄lapossibilited'appro herdes phenomenes reels omplexeset non lineaires.
Dansdenombreux as,enparti ulierdansles ontextesindustriels,lenombredeneurones peut devenir enorme. En onsequen e, la taille du probleme, et don les temps de al ul, grandissent demesurement. Dans e hapitre, nous de rivons une te hnique d'apprentissage
3.1 Les neurones biologiques
Le neurone biologiqueest lapierreelementaire du erveau. Il existeenviron 10000 types dierents de neurones [74℄. On ompte au total quelques 10
11
neurones, ha un pouvant re evoir,parl'intermediairedesesdendrites(Fig. 3.1),lesinformationsprovenantd'environ 200000 entrees. Le erveau est forme par un ensemble de neurones, onne tes entre eux par des liens appeles synapses. Les poids de es liaisons onditionnent le me anisme de memorisationetd'oubli.Le erveauhumainre oitdessignauxd'entree de plusieurssour es; les signaux sont traites pour reer une reponse. Le erveau a des millions de neurones qui sont inter onne tes pour elaborer des "Reseaux de Neurones". Ces reseaux exe utent les millions d'instru tions ne essaires pour avoir une vie normale. Deux elements du neurone biologiquesont parti ulierementinteressants pour nous :les dendrites etles synapses.
Fig. 3.1{ Unneurone biologique
Lesdendritessontdesextensionsduneuronequiluipermettentdese onne terad'autres neurones, tandis que les synapses sont des portes qui a eptent des onnexions provenant d'autresneurones.Unneuronebiologiquepeutdon alafoisse onne terad'autresneurones ommea epterdes onnexions en provenan e d'autres neurones. Ainsinous avonslesbases d'un reseau. Le pro essus ele tro- himique de transfert de l'information entre les neurones est omplexe. Le signal se propage le long des axones jusqu'aux synapses. La synapse a la parti ularite de pouvoir moduler la diusion des neuro-mediateurs et peut avoir un eet aussi bien ex itateur qu'inhibiteur. Ainsi un faible in ux nerveux peut engendrer la trans-missionde l'information.Lesdendrites ne modientpas lesignal re u en entree. Sile signal resultantestsuÆsant,ilya reationd'unsignalatransmettre.Unneuronenaturelre oitdes neurones voisins une ertainequantited'informationsousformed'impulsionsele triquespar l'intermediairede ses dendrites. L'information,une foistraiteepar leneurone, est transmise
ad'autres neurones par l'intermediairedessynapses. Cetteinformationn'esttransmise qu'a partir d'un ertainseuil.
3.2 Stru ture d'un neurone arti iel
Le on ept de reseau de neurones est inspire du omportement du erveau humain. Le reseau arti iel est onstitue d'un ensemble de ellules appelees neurones. La gure 3.2
{ unensemblede e entrees(X 1 ;X 2 ;:::;X e
)quirepresentent lesparametresindependents du probleme (signaux d'entree),
{ un ensemble de e poids synaptiques (w i
) (un poids w i
represente la onnexion entre l'entree x
i
etle neurone), { un biais b,
{ un operateurde sommation (les entrees sont ponderespar lespoids), { une fon tion d'a tivation.
A haque neurone, on asso ie une valeur reelle z, appelee etat du neurone, qui est al ulee aumoyen de laformule z =f e X i=1 W i X i +b ! :
z
f
W 2 W e X 1 X 2 X e P b W 1 1Fig. 3.2 {La stru ture d'un neurone arti iel
3.3 Ar hite tures neuronales
Un reseau est onstitue par un ensemble de neurones inter onne tes par des poids et organise ommeune su ession de ou hes. Un reseaua aumoins deux ou hes (une ou he d'entrees et une ou he de sorties) [40℄. Les neurones d'entree sont les valeurs des pa-rametres independants du probleme et la ou he de sortieest onstituee par les parametres dependants.Lesneurones quisetrouvententre la ou hed'entree etla ou he de sortiesont appelesneurones a hes etl'ensemblede es neurones formela(ou les) ou he(s) a hee(s). La fa on dont sont disposes les neurones dans un reseau et la maniere dont ils sont onne tes entre euxdonnentlieuadierentstypesd'ar hite tures.Nousen mentionnonsi i trois genres dierents.
Reseau a deux ou hes
Dans e type de reseau, il n'existe au une ou he a hee. Les neurones de la ou he d'entree sont dire tement onne tes (via les poids synaptiques) ave les neurones de la ou he de sortie. Ce genre de reseau est essentiellement utilise dans des problemes qui sont
Fig. 3.3 {Stru ture d'un reseau mono ou he
Il est onnu[33,44℄qu'unreseauselimitantadeux ou hes (une ou hepourles ellules d'entree et une ou he pour les ellules de sortie) peut se reveler insuÆsant pour l'appren-tissage de fon tions simples telles quele ou ex lusif
g : f0;1gf0;1g ! f0;1g (x 1 ;x 2 ) 7 ! x 1 +x 2 2x 1 x 2 :
En eet, un reseau a deux ou hes ne peut ee tuer qu'une separation lineaire. Cela s'explique par le fait que (si f est monotone) l'ensemble X = fx 2 R
e : f( P w j x j ) ag est le demi-espa e delimite par l'hyperplan
P w j x j = f 1
(a). Par ailleurs, g prend deux valeurs 1et0.On peut voirfa ilementque l'onne peut pas onstruireune droitequi separe lesdeux ensembles g
1
(1)etg 1
(0):lesdeux enveloppes onvexes de es deux ensembles ne sont pas disjointes.
Reseau ave ou he(s) a hee(s)
Ce typedereseauest unegeneralisationdupre edent. Ilauneouplusieurs ou hesdites a hees. Les neurones qui appartiennent a es ou hes s'appellent neurones a hes.Chaque neurone est onne te a tous les neurones de la ou he suivante (il n'y a pas de y les). L'information ir ule de l'entree du reseau vers sa sortie.
Reseaux re urrents
C'est un reseau dans lequel un neurone peut ^etre onne te ave lui-m^eme ou ave des neurones des ou hes pre edentes [2℄.
3.4 Evaluation d'un reseau ave ou he(s) a hee(s)
Fig. 3.4{ Stru ture d'un reseau multi ou hes
Fig. 3.5{ Stru ture d'un reseau re urrent
fon tion d'a tivation.
L'etat des neurones qui appartiennenta lapremiere ou he a hee peut s'e rire
z =f e X j=1 w j x j +b ! (3.1)
ou, de fa on ve torielle,
z =f(w T
x+b) (3.2)
L'etat des autres neurones est de ritpar :
z =f m X j=1 w j x j ! (3.3)
ou, de fa on ve torielle,
ouw=[w 1 ;w 2 ;:::;w e ℄ T
representeleve teurdes onnexionsentreneurones,x=[x 1 ;x 2 ;:::;x e ℄ T
l'ensemble des signaux d'entree et f represente la fon tion d'a tivation qui denit l'etat du neurone. La fon tion d'a tivation la plus utilisee dans le domaine des reseaux de neurones est la fon tion sigmoide denie par
f(x)=
1 1+e
(x )=
: (3.5)
et representee sur la gure 3.6pour dierentes valeursdes parametres et.
−30
0
−20
−10
0
10
20
30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Fonction d’activation
tau = 1
tau = 10
tau = 100
Fig. 3.6 {Fon tion sigmoidepour =0( =1en noir, =10en rouge, =100 en bleu)
3.4.1 La solution retenue
D'apres un resultat d^u a Kolmogorov [37, 38, 39℄, on peut appro her n'importe quelle fon tion reguliere ave un reseau a trois ou hes. (Naturellement, la taille de la ou he entralepeutaugmenter rapidementave lapre ision de l'approximation.)Nousavons don hoisi de nous limitera de tels reseaux.
Dans le premier etage (entre la ou he d'entree et la ou he a hee), nous utilisons la fon tion d'a tivation suivante
f(x)= 8 > > > > > > < > > > > > > : 1 1+e x= si jxj; (x ) e = 1 1+e = 2 + 1 1+e = si x>; (x+) e = 1 1+e = 2 + 1 1+e = si x< ; (3.6)
ou=3 et =0.Il s'agit simplementde lafon tion sigmodehabituelle modiee de telle sorteque lespoidsne deviennentpas tropgrands( f.gure 3.7).Ce premieretagenoussert
a onstruire une base de fon tions non orthogonale.
Dansledeuxiemeetage,nous utilisonsunefon tiond'a tivationlineairequinouspermet de realiser l'approximation de la sortie souhaitee par les fon tions de base reees dans le premieretage.
La stru ture des reseaux que nous avons hoisie est illustree par lagure 3.8.
Le nombre optimal de neurones dans la ou he a hee, est diÆ ile a determiner. C'est pendant laphase d'apprentissage ( f.3.5page 37) que l'on peut se rendre ompte de
l'apti-−50
−40
−30
−20
−10
0
10
20
30
40
50
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
tau=5
tau=10
tau=100
Fig. 3.7 { Fon tionsigmoidemodiee pour =0 ( =5 en rouge, =10 en noir, =100 en bleu)
3.5 L'apprentissage
Le pro essus d'apprentissage d'un reseau onsiste aajuster les poids de onnexionentre lesneurones.
Les dierents types d'apprentissage
On peut lasser les algorithmes d'apprentissage en deux ategories ( f. gure 3.9 issue de [70℄) : supervises et non supervises. Dans les algorithmes non supervises, on ne onna^t pas la sortie que doit appro her le reseau (sortie souhaitee). Le reseau s'organise alors en regroupant selon les m^emes ara teristiques les dierents signaux d'entree. Dans les algo-rithmessupervises,on onna^tlasortiesouhaiteeetonpeutfairela orre tiondelasortiedu reseau par rapport ala sortie iblee. On observela sortie donnee par le reseau eton al ule ladieren e entre elleetlasortie souhaitee. Ensuite,les poids des onnexions sont modies an d'attenuer ette dieren e. L'apprentissage supervise peut lui-m^eme ^etre de 2 types : l'apprentissage par renfort et l'apprentissage par orre tion. Dans le premier, l'information est dutypebooleenne.Ils'agit don de lassi ation.Dansl'apprentissagepar orre tion,on onna^t l'ordre de grandeur de l'erreur, et on peut modier les poids de onnexion de telle sorte que ette erreursoit laplus petitepossible.
L'apprentissage : un probleme d'optimisation
Notons R la reponse du reseau a trois ou hes onsidere, e le nombre d'entrees (sans ompter le biais), m le nombre de neurones a hes, s le nombre de sorties et p le nombre de poids de onnexion a ajuster. En se referant a la gure 3.4, il est fa ile d'etablir que p=(e+1+s)m.
La reponse R depend de l'entree du systeme x (l'etat des ellules d'entree) etdes poids de onnexions W2R p R: R e R p ! R s (x;W) ! R (x;W):
Ainsi on peut e rire W = W 0 1 , W 0 2 R m( e+1) et W 1 2 R sm
1 x 0 1 x 0 2 x 0 e x 1 1 x 1 2 x 1 3 x 1 m 2 x 1 m x 1 m 1 x 2 1 x 2 2 x 2 s | {z }
reationdesfon tions
| {z } re her hedes debase oeÆ ients −30 −20 −10 0 10 20 30 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Fonction d’activation x f(x) −30 −20 −10 0 10 20 30 −30 −20 −10 0 10 20 30
Fonction d’activation linéaire y
x
Fig. 3.8 { Stru ture du reseau et fon tions d'a tivation retenues
W 0
et W 1
ne jouent pas lesm^emes r^oles. Le ve teur W 0
permet la denitiondes fon tions de base et W
1
est le ve teurdes oeÆ ientsdans ette base.Cette remarque jouera un r^ole fondamentaldans la regularisationdu probleme d'apprentissage.
La phase d'apprentissage (supervise) onsiste a minimiser l'e art, au sens des moindres arres,entrelasortiesouhaiteeG(x)etlasortiedureseauR (x;W).Ils'agitdon deresoudre le probleme min W 2R p J(W)= 1 2 X x2 kR (x;W) G(x) k 2 ; (3.7)
dans lequel est l'ensemble des ouples d'apprentissage. Un element (x;G(x)), x 2 est appele ouple d'apprentissage.
Lefaitd'avoir hoisiunefon tiond'a tivationf dierentiablepermetd'utiliserlesmethodes lassiquesd'optimisation.Legradientde J estgeneralement al uleparlamethode lassique de \retropropagation du gradient".
L'eÆ a ite de l'apprentissage depend de la stru ture du reseau (nombre de neurones a hes). Si le nombre de neurones est insuÆsant, l'apprentissage se revele impossible. Au