• Aucun résultat trouvé

Optimisation pour l'apprentissage et apprentissage pour l'optimisation

N/A
N/A
Protected

Academic year: 2021

Partager "Optimisation pour l'apprentissage et apprentissage pour l'optimisation"

Copied!
98
0
0

Texte intégral

(1)

HAL Id: tel-00010106

https://tel.archives-ouvertes.fr/tel-00010106

Submitted on 12 Sep 2005

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Optimisation pour l’apprentissage et apprentissage pour

l’optimisation

Milagros van Grieken

To cite this version:

Milagros van Grieken. Optimisation pour l’apprentissage et apprentissage pour l’optimisation.

Math-ématiques [math]. Université Paul Sabatier - Toulouse III, 2004. Français. �tel-00010106�

(2)

THESE

presentee en vue de l'obtention du

DOCTORAT DE L'UNIVERSIT



E PAUL SABATIER

Spe ialite: Mathematiques Appliquees

|||||||||||||||||||||||||||||||||||||||{

Milagros VAN GRIEKEN

Optimisation pour l'apprentissage

et apprentissage pour l'optimisation

|||||||||||||||||||||||||||||||||||||||{

Soutenue devant le jury ompose de :

B 

ES Christian Examinateur

Professeur,Universite ToulouseIII HIRIART-URRUTY Jean-Baptiste Examinateur

Professeur,Universite ToulouseIII

JAN Sophie Co-Dire tri e de these

Ma^tre de onferen e, Universite ToulouseIII

MASMOUDIMohamed Dire teurde these

Professeur,Universite ToulouseIII

MOHAMMADI Bijan Rapporteur

Pro eseur,Universite Montpellier II

SCHOENAUER Mar Rapporteur

Dire teurde re her he, INRIA Ro quen ourt

TERPOLILLIPeppino Examinateur

Ingenieurde re her he, TOTAL-PAU

LaboratoireMIP (UMR 5640)

(3)
(4)

A Jose, mer i d'^etre ave moi, de m'aimer et d'avoir ete aussi patient a mon egard. Je t'aime, ette reussite est pour toi.



A mes parents, qui m'avez permis de devenir e que jesuis aujourd'hui. Vous m'avez appris le hemin de la vie et m'avez donne les meilleurs onseils aux meilleurs moments.



A mon frere Carlos, dont le soutien a tres fortement ontribue a la reussite de ette these.



A Jose et Mireya, pour vos en ouragements et votre assistan e morale, mer i de faire que je me sente omme votre lle.

(5)
(6)

Je voudrais remer ier toutes les personnes qui d'une fa on ou d'une autre ont ontribue 

a larealisationde ettethese.

Toutd'abordjevoudraisremer iermesdire teursdetheseMohamedMasmoudietSophie Jan qui m'ont fait on an e. Mohamed Masmoudi a bien voulu m'a epter en these. Il a eu beau oup de patien e et m'a appris beau oup de hoses qui me seront utiles sur le long hemin de la re her he. Je voudrais egalement le remer ier pour toutes les suggestions et ideesdontj'ai essaye de tirerlemaximum de pro t.SophieJan,ave ses sages onseils,asu mepousser a perseverer etafaire de ette these une realite.Sans sa le tureattentive etses orre tions, je suppose que le sens de beau oup de phrases n'aurait pas ete lem^eme. Mer i pour ton amitie...

Je remer ie Mar S hoenauer pour la rapidite ave laquelle il a lu mon manus rit et l'inter^etqu'ila portea mon travail.

Jeremer ie egalementBijan Mohammadid'avoira epted'^etrerapporteurde e travail. Je voudraisaussi remer ier Crhistian Bes, Jean-Baptiste Hiriart-Urrutyet Peppino T er-pollili,qui mefontl'honneur de parti ipera mon jury de these.

Je voudrais exprimer mon amitie a mes ollegues de bureau, Olivier et Sandrine, pour tous les agreables moments passesensemble, et j'espere qu'ilsoublierontles mauvais.

Mer i aFabien,ave qui j'aipartagel'evolutionde ette these. Ses suggestionset ontri-butionsont ete d'unegrande utilite.

En e qui on erne lapartieinformatiquede e travail,je remer ieMiloslavGrundmann pour son aide en C++.

Un grand mer i a Jose, \perinolo",sans lesoutien de qui, tout au long de notre hemin ensemble, je suis onvain u que jamaisje n'auraisatteintle but que je m'etais proposee.

Un mer i tres spe ial a ClaudioPinto, qui est non seulement un mentor pour moimais aussi un vrai et grandami. Mer i d'^etre toujours la.

Mer i alafamilleTellopourm'avoira ueilli ommesijefaisaispartiede ettefamille... Mes remer iements vont egalement a l'Universite de Los Andes, pour m'avoir donne l'opportunitedevenir ompletermesetudesenFran e,jedoisasesprofesseursmaformation initiale.

Je tiens aussi amentionner leplaisir que j'ai eu a travaillerau sein du laboratoire MIP, et j'enremer ie i i tous ses membres.

En n, un grandmer i a tous eux qui m'onta ompagnee pendant es annees de these. Copains, opines, ollegues et famille,tous ont parti ipe d'une maniere ou d'une autre a la realisationde e travail.

(7)
(8)

Introdu tion 1

1 Motivation a l'utilisation des reseaux de neurones 5

1.1 Derivation d'un probleme d'evolution non lineaire . . . 5

1.1.1  Equation de Burger . . . 5

1.1.2 Navier-Stokes . . . 8

1.1.3 Pendule elastique . . . 9

1.2 De l'inter^et des reseaux de neurones . . . 14

1.2.1 Pour l'optimisationglobale . . . 14

1.2.2 Pour l'optimisationde fon tions de type <bo^tenoire> . . . 15

2 Les methodes de plan d'experien e 17 2.1 Plan fa toriel pour deux fa teurs adeux niveaux . . . 17

2.2 Plans fa toriels fra tionnairespour fa teurs adeux niveaux . . . 20

2.2.1 Cas de deux fa teurs a deux niveaux . . . 20

2.2.2 Troisfa teurs a deux niveaux . . . 21

2.2.3 Quatrefa teurs a deux niveaux . . . 22

2.2.4 Cinqfa teurs a deux niveaux . . . 23

2.2.5 Bilan . . . 25

2.3 Constru tionre ursive de plans fa toriels fra tionnaires . . . 25

2.4 Constru tionde plans fa torielsfra tionnaires orthogonaux . . . 26

2.5 Appli ationala generation de pointsbien repartisdans un domainedonne . 29 3 Optimisation pour l'apprentissage 31 3.1 Lesneurones biologiques . . . 32

3.2 Stru ture d'un neurone arti iel . . . 32

3.3 Ar hite tures neuronales . . . 33

3.4 Evaluationd'un reseau ave ou he(s) a hee(s) . . . 34

3.4.1 La solutionretenue . . . 36

3.5 L'apprentissage . . . 37

3.6 Unemethode d'apprentissage zero memoire. . . 39

3.6.1 Gauss-Newton ouLevenberg-Marquardt . . . 39

(9)

3.7 Resultatsnumeriques . . . 43

3.7.1 Exemples synthetiques . . . 43

3.7.2 Exemples reels . . . 55

4 Apprentissage pour l'optimisation 63 4.1 Bou le d'optimisation. . . 63

4.2 Resultatsnumeriques . . . 64

4.2.1 Exemples en dimension deux . . . 64

4.2.2 Exemples en dimension superieure . . . 72

4.2.3 Comparaisonde nos resultatsave eux de C. Massat . . . 72

4.2.4 Exemples industriels . . . 72

Con lusion 79

(10)

1 Comparaisona Matlab . . . 2 1.1  Equation de Burger . . . 7 1.2  Equation de Burger linearisee . . . 8

1.3 Penduleelastique . . . 10

1.4 Systeme de pendule stable . . . 12

1.5 Systeme de pendule instable . . . 13

1.6 Evolution de y(T) en fon tion de l'ordonnee initiale y0 . . . 14

1.7 Lafon tion de Rastriginen 2 dimensions etses ontours . . . 14

2.1 Constru tionre ursive d'unplan fa torielfra tionnaire . . . 26

2.2 Plan fa toriel fra tionnaire 2 2 1 . . . 26

2.3 Plan fa toriel fra tionnaire 2 3 2 . . . 27

2.4 Un exemplede plan fa toriel fra tionnairenon orthogonal . . . 28

2.5 Plan fa toriel fra tionnaire orthogonal . . . 28

2.6 Algorithmepour le hoix de points bien repartis . . . 30

3.1 Un neurone biologique . . . 32

3.2 Lastru ture d'un neurone arti iel . . . 33

3.3 Stru ture d'un reseaumono ou he. . . 34

3.4 Stru ture d'un reseaumulti ou hes . . . 35

3.5 Stru ture d'un reseaure urrent . . . 35

3.6 Fon tionsigmoide . . . 36

3.7 Fon tionsigmoidemodi ee . . . 37

3.8 Stru ture du reseau etfon tions d'a tivation retenues . . . 38

3.9 Lesdi erentstypes d'algorithmesd'apprentissage . . . 39

3.10 Points generesa l'aide de plans fa toriels . . . 44

3.11 Apprentissage du \ou ex lusif". . . 45

3.12 Apprentissage de la parabole . . . 46

3.13 Apprentissage du sinus . . . 47

3.14 Apprentissage de la fon tion de Rosenbro k . . . 48

3.15 Apprentissage de la fon tion de Rastrigin . . . 49

3.16 Apprentissage de la fon tion sinus- sinus de ale . . . 50

(11)

3.19 Fon tionsxor -parabole- parabole de alee : ontours . . . 53

3.20 Apprentissage de la fon tion sommede xor,paraboleet parabolede alee . . 54

3.21 Crash :apprentissage avant regularisation . . . 56

3.22 Crash :apprentissage apresregularisation . . . 57

3.23 Crash :apprentissage avant etapres regularisationdu depla ement 1 . . . . 58

3.24 Crash :apprentissage avant etapres regularisationdu depla ement 2 . . . . 58

3.25 Crash :apprentissage avant etapres regularisationdu depla ement 3 . . . . 58

3.26 Crash :apprentissage avant etapres regularisationdu depla ement 4 . . . . 59

3.27 Crash :apprentissage avant etapres regularisationdu depla ement 5 . . . . 59

3.28 Crash :apprentissage avant etapres regularisationdu depla ement 6 . . . . 59

3.29 Cas petrole: toitd'un modelede reservoirsynthetique . . . 60

3.30 Cas petrole: representation de la fon tion obje tif a minimiser . . . 61

3.31 Cas petrole: Apprentissage etgeneralisationave =0 . . . 61

3.32 Cas petrole: reseau appro hant la fon tionobje tif ( =0) . . . 61

3.33 Cas petrole: Apprentissage etgeneralisationave optimal . . . 62

3.34 Cas petrole: reseau appro hant la fon tionobje tif ( optimal) . . . 62

4.1 S hema de la bou le d'optimisation . . . 64

4.2 Apprentissage et optimisationde la fon tion sinus . . . 65

4.3 Apprentissage et optimisationde la fon tion <sinus de ale> . . . 66

4.4 Apprentissage et optimisationde la fon tion < hameau> . . . 67

4.5 Apprentissage et optimisationde la fon tion de Branin . . . 68

4.6 Apprentissage et optimisationde la fon tion de Griewank . . . 69

4.7 Apprentissage et optimisationde la fon tion de Rastrigin . . . 70

(12)

4.5 Resultatsde l'optimisationpour le as petrole (Punq) . . . 72

4.1 Resultatsd'optimisationpour des fon tions en dimension 2 . . . 73

4.2 Resultatsd'optimisationpour des fon tions en dimension 2 (suite) . . . 74

4.3 Resultatsd'optimisationpour des fon tions en dimension superieure . . . 75

(13)
(14)

Dans le adre du projet Monastir regroupant les industriels Renault, PSA, Mi helin, SNCF, nous avions pu voir les limites des methodes de linearisation dans le domaine du Crash. Cetteexperien e, partiellementrapportee en se tion 3.7.2 page 55,est a l'originedu travail quenous presentons dans ette these.

D'autre part, dans de nombreux problemes d'optimisationpratiques,les riteres a mini-miser sont le resultat de l'exe ution de odes de al uls longs auxquels on ne peut pas se permettre de faireappeltropsouvent. Ilestegalementassezfrequent quelesderivees de es riteres par rapportauxparametres aoptimisersoient ina essibles.Dans d'autres as, ilse peut quelephenomene physiquesoittellementinstablequelegradient,bienque al ulable, ne soit pas d'une grande utiliteen raison de son ara tere trop lo al. C'est essentiellement pour es raisons que nous nous sommes interesses a la onstru tion de modeles qui four-nissent une bonne approximation peu o^uteuse en tempsde al ul des riteres a minimiser. A n de pouvoir utiliser des te hniques d'optimisation basees sur l'utilisation du gradient, nous her hions egalement a b^atir des modeles qui disposent de derivees d'ordre un. Nous sommes parvenus a satisfaire toutes es exigen es en nous servant des reseaux de neurones.

Les reseaux de neurones her hent aimiter la stru ture (neurones, synapses, ...) du er-veau humain. En 1943, Warren M Cullo h (neurophysiologiste) et Watter Pitts (math ema-ti ien) [51℄ ont onstruit un reseau de neurones apable de traiter des nombres binaires.

En 1949, Donals Hebb de rit les pro essus d'apprentissage. Ces travaux sont a l'origine des fon tions d'apprentissage utilisees a tuellement. En1957, Frank Rosenblatt ree le pre-miermodelede reseauneuronal ave apprentissagesupervise.Cemodeleest tresimportant, ar il est apable de generaliser. Cela signi e qu'il a la apa ite de restituer une reponse orre te pour des donnees nonapprises. Un des in onvenients de e modeleest qu'iln'a pas la apa ite de resoudre des problemes qui ne sont pas lineairement separables. Les reseaux de neurones sont utilisespour la premiere fois pour resoudre des problemes reels en 1960 : ADALINE (ADAptative LInear Elements).

Les methodes neuronales sont abandonnees par la ommunaute s ienti que en 1969. Ellesreviennent au go^ut du jour dans lesannees 80,ave , lam^eme annee (1985)la on ep-tion de l'algorithmede retro-propagationdu gradient(que l'on appellemethode adjointeen mathematiques appliquees) et la publi ation du livre de John Hop eld sur les reseaux de neurones.En1986,RumelHartetM Clellandutilisentl'algorithmede retro-propagationdu gradient pour resoudre des problemes hors de portedu per eptron :ilsutilisentdes reseaux multi ou hes.

(15)

domaines( f. hapitre3).Bienquel'algorithmed'apprentissagesupervisene essitelui-m^eme laresolutiond'unprobleme d'optimisation,l'utilisationdire tede reseauxde neurones pour resoudre des problemes d'optimisation globale n'est pas, a notre onnaissan e, en ore tres habituelle.Onpeuttrouverdestravauxsurl'optimisationenutilisantlesreseauxdeneurones depuisquelques annees [60, 11,57,71,68, 32℄.On peut iterdes travauxre ents ombinant methodes neuronales etalgorithmes genetiques [3, 14, 62,30,75, 55℄.

A nd'illustrerimmediatementl'apportdenotretravail,nousallons omparerunresultat d'approximation de la fon tion parabole((x;y)7 ! x

2 +y

2

)par une appro he neural las-sique. Nous presentons la meilleure approximation que nous avons obtenu ave la < tool-box> de Matlab.

On peut onstater sur ette gure1queMatlabintroduitdesos illationspourappro her une fon tion lisse.

Au ontraire,nousverronsalase tion4.2.1(page70)quelamethodequenousproposons nouspermetd'appro herune fon tionos illante,donton her he leminimumglobal,parun reseau lisse.

−10

−5

0

5

10

−5

0

5

−20

0

20

40

60

80

100

120

140

surface approchée par le reseau de neurones

Reseau neuronal lassique

−10

−5

0

5

10

−5

0

5

−20

0

20

40

60

80

100

120

140

Var. fixes :

Notre methode zero-memoire

Fig. 1{ Comparaisona Matlab

Dansle hapitre1,nousallonsmotivernotreetudedel'utilisationdesreseauxdeneurones enoptimisation.Dansunpremiertemps,nousexpliquerons omment etravailpeutapporter une solution au probleme de la perte de stabilite lors de la linearisation d'un probleme d'evolutionnonlineaire.Ensuite,ons'interesseraal'optimisationde fon tionsquipresentent plusieurs minimalo aux (fon tions os illantes). En n, on de rira brievement l'inter^etde e travail pour l'optimisationde fon tionsde type\boite noire"[52℄.

Le hapitre2 porte sur les plans d'experien edont nous nous servons pour hoisir d'une maniere judi ieuseles ouplesutilisesau ours de l'apprentissage du reseau.Apresquelques rappelssur lesplansd'experien e, nousde rirons ommentnous lesutilisonspour onstruire des ouples d'apprentissage.

(16)

45, 59, 69℄). Nous de rirons ensuite une methode d'apprentissage zero-memoire que nous avons developpee en ouplantdes te hniquestellesquelamethode de Gauss-Newton,le gra-dient onjugue, lesmodes de la di erentiation automatique, ... Nousdetaillerons egalement quelques methodes de regularisation utilisees pour pallier a d'eventuelles erreurs sur les donnees.Ces methodes fontintervenir:lamethodede Tikhonov,lastrategied'arr^etde l'ap-prentissage,latailledumodeleetpourterminerl'utilisationdelamethodedeGauss-Newton. Cette appro he de regularisation permet en plus d'eviter lesminima lo aux (qui posent un serieux probleme pour lesmethodes lassiques),en augmentant latailledu modelepour as-surerl'apprentissageetenlereduisantensuitepourlaregularisation.En n,nousillustrerons lamethoded'apprentissagepardesresultatsnumeriques,aussibiensurdes asa ademiques, que sur des as industriels. Tous les aspe ts presentes, sur l'exemple de reseaux neuronaux peuvent, a priori,^etre adaptesa tous problemes inverses

Audernier hapitre,nousverrons ommentnousavonsexploitelesreseauxdeneuroneset leur gradientpour resoudre des problemes d'optimisationdes typespresentes au hapitre 1.

(17)
(18)

Motivation a l'utilisation des reseaux

de neurones

1.1 Derivation d'un probleme d'evolution non lineaire

Lesproblemesmodelisespardesequationsd'evolutionnonlineaires ommel'equationde Burger, les equations de Navier-Stokes oule probleme du pendule possedent des proprietes de stabilite.Ces dernieres sont essentiellement basees sur une estimation de type energie et de oulentdu fait quele probleme non lineairede rit un phenomene physique. Enrevan he, les problemes linearises asso ies ne bene ient pas ne essairement de es m^emes bonnes proprietes. Comme la derivee de la solution d'un probleme d'evolution non lineaire par rapportaun parametrede on eptiondonneest justementsolutionde l'equationlinearisee, onne peut la prendre en onsiderationquesur un intervallede temps ni T.Elleadon un ara tere trop lo aletse revele peu pertinentepour lesproblemesd'optimisation.

1.1.1  Equation de Burger L'equation de Burger u t +  u 2 2  x =0

ou, sous sa formequasi-lineaire,

u t

+uu x

=0

estunmodelequipresentelesm^emes ara teresfondamentauxquelesystemede3equations ( onservation de lamasse, de la quantite de mouvement et de l'energie) a 3 in onnues (par exemple la vitesse, la pression et l'entropie spe i que) de la dynamique des gaz unidimen-sionnelle [53℄.

Ellerepresenteegalementlephenomenedu\bangsonique":loind'unavionsupersonique et en parti ulier pres du sol, lebruit engendre par l'avionse on entre dans ertaines zones oula pressionest gouvernee par l'equationde Burger [18℄.

Le terme  u 2 2 

(19)

Si onajouteun terme lineaire mais dissipatif al'equatione rite i-dessus u t +  u 2 2  x =u xx ;

ave >0,on obtient uneequation de type parabolique.

Le systeme qui suit est un assez bon modele des equations de Navier-Stokes qui seront vues ala se tionsuivante.

u t +uu x = u xx ; dans [0;L℄℄0;T℄ (1.1) u(x;t=0) = u 0 (x); u(x=0;t) = u 0 (0)=0; u(x=L;t) = u 0 (L)=0:

En multipliant (1.1)par u eten integrant par rapportax, onobtient Z L 0 uu t = Z L 0 uu xx Z L 0 u 2 u x (1.2) ouen ore 1 2 ( Z L 0 u 2 ) t = Z L 0 uu xx Z L 0 u 2 u x : (1.3)

Moyennant quelques integrations par parties et l'utilisation des onditions aux limites, ona Z L 0 uu xx = Z L 0 (u x ) 2 +[uu x ℄ L 0 = Z L 0 (u x ) 2 (1.4)

pour le terme de vis ositeet Z L 0 u 2 u x =2 Z L 0 u 2 u x [u 3 ℄ L 0 =2 Z L 0 u 2 u x (1.5)

pour le terme non lineaire.Cela veut dire que,

Z L 0 u 2 u x =0:

En reportant (1.4) dans (1.3), eten utilisant (1.5),on aboutit a

1 2 ( Z L 0 u 2 ) t =  Z L 0 (u x ) 2 <0: (1.6)

La derniere equation montre que la ontribution du terme non lineaire est nulle et que l'energie inetique de ro^t.

Appelons U la derivee de u par rapport a un parametre quel onque. Pour simpli er les al uls, nous disons que e parametre est .Alors U est lasolution de

(20)

Appliquonslam^eme te hnique que pour traiterl'equation(1.1): en multipliantpar U eten integrant par rapport a x, ona

1 2 ( Z L 0 U 2 ) t = Z L 0 UU xx + Z L 0 Uu xx Z L 0 U 2 u x Z L 0 uUU x : (1.8)

En faisant quelques integrations par parties et en tenant ompte des onditions aux limites, onobtient Z L 0 UU xx =[UU x ℄ L 0 Z L 0 (U x ) 2 = Z L 0 (U x ) 2 ; (1.9) Z L 0 Uu xx =[Uu x ℄ L 0 Z L 0 U x u x = Z L 0 U x u x ; (1.10) Z L 0 U 2 u x =[ U 2 u℄ L 0 +2 Z L 0 UU x u=2 Z L 0 UU x u: (1.11)

En reportant dans (1.8), onobtient

1 2 ( Z L 0 U 2 ) t =  Z L 0 (U x ) 2 Z L 0 U x u x + Z L 0 UU x u: (1.12)

Onperdlesproprietesdestabilitepourdepetitesvaleursde,etonnepeutplusgarantir lade roissan e de l'energie.

On illustre e phenomene numeriquement ave u 0 = 1 os (4x) 2 0x0:5 et  = 10 3 .

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Burger

u initial

u a T/4

u a T/2

u a 3T/4

u a T

Pro ls de u pour t = 0,T=4, T=2, 3T=4 etT

0

2

4

6

8

10

12

14

16

18

20

0

20

40

60

80

100

120

140

160

180

200

Burger − énergie en fonction du temps



Energieen fon tion du temps

Fig. 1.1{ 

Equation de Burger

D'apres la gure 1.1, on peut noter que l'energie de ro^t en fon tion du temps. En re-van he, dans le as linearise( gure1.2),onne peutpas fairelam^eme aÆrmation:l'energie \explose".On en deduitque le al uldes derivees en utilisant l'equation lineariseen'est pas

(21)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

−90

−80

−70

−60

−50

−40

−30

−20

−10

0

10

Burger linéarisé

du initial

du a T/4

du a T/2

du a 3T/4

du a T

Pro ls de U pour t = 0,T=4, T=2, 3T=4 etT

0

2

4

6

8

10

12

14

16

18

20

0

1

2

3

4

5

6

7

x 10

5

Burger linéarisé − énergie en fonction du temps



Energieen fon tion du temps

Fig. 1.2{ 

Equation de Burger linearisee

1.1.2 Navier-Stokes

On onsideremaintenantlemouvementd'un uidemodelisepar lesequationsde Navier-Stokes donnees i-dessous dans un domaine borne de R

2

, dont la frontiere est suÆ-samment reguliere.

u t

+(u:r)u u+rp = 0; dans℄0;T℄ (1.13)

div (u) = 0; dans℄0;T℄ (1.14)

u(x;t) = 0; dans ℄0;T℄ (1.15)

u(x;0) = u 0

(x); dans : (1.16)

Le ve teur u etle s alairep representent respe tivement lavitesse du uide etsa pression.

En multipliant par u eten integrant par rapport ax, onaboutita

Z u:u t = Z u:u Z (u:r)u:u Z u:rp (1.17)

ouen ore,en integrantparpartiesleterme R

u:ueten tenant omptedes onditions aux limites, 1 2 ( Z juj 2 ) t =  Z jru j 2 Z (u:r)u:u Z u:rp: (1.18)

(22)

On aaussi Z (u:r)u:u = Z X i u i ((ru)u) i = Z X i u i X j u i x j u j = Z X i;j u i (u i u j x j u j u i x j )+ Z X i;j u 2 i u j = Z X i u 2 i div (u)+ Z X i u i X j u j u i x j = Z div(u)juj 2 + Z (u:r)u:u; et Z urp= Z X i u i Æp x i = Z X i u i x i p Z X i u i p= Z div(u)p On en deduit, en utilisant(1.14), 1 2 ( Z u 2 ) t =  Z (ru) 2 <0: (1.19)

En ore unefois,onmontre quel'energie inetiquetotale de ro^t.Enappliquantlam^eme te hnique quepour l'equation de Burger, on onstate anouveau une pertede stabilitede la solutionde l'equationlinearisee pour de petites valeurs de .

1.1.3 Pendule elastique

On onsidere un ressort de raideur k et de longueur nominale l n

mobile autour d'un axe de rotation. Une masse m est suspendue au ressort dont la longueur devient l, ave l = p x 2 +y 2

(x position horizontale, y position verti ale). La masse m est alors soumise a son poids

! P = m

!

g et a la for e de rappel du ressort !

F = k

!

IM. On neglige lamasse du ressortet tous lesfrottements [64℄. Appliquons la relationfondamentale de ladynamique ausysteme, il vient

m ! a = ! F + ! P = k ! IM +m ! g (1.20) ou !

a est l'a elerationet ! IM = ! OM ! OI ! IM =  x y   x n y n  = 0 B  l l n l x l l n l y 1 C A :

En projetant sur lesaxes, larelation fondamentale de la dynamique donne 8 > < > : mx tt = k(l n l) l x; my tt = k(l n l) y mg:

(23)

F ! I P ! M O xn y n y x

Fig. 1.3{ Penduleelastique

On suppose maintenantquelamasseestunitaireetonsedonneun parametre quijoue le r^ole d'une a eleration dont l'obje tif pourrait ^etre de ontr^oler la position horizontale de M. Le systeme devient alors

8 > < > : x tt = k(l n l) l x+ ; y tt = k(l n l) l y g: (1.21)

Si onderive (1.21) par rapport a , onobtient lesysteme linearise 8 > > < > > : X tt = d d  k(l n l) l  x+ k(l n l) l X+1; Y tt = d d  k(l n l) l  y+ k(l n l) l Y;

ouX (resp. Y) represente la derivee de x (resp. y) par rapporta et

d d  k(l n l) l  = k l n l 3 (xX+yY):

Le systeme linearises'e rit alors  X tt Y tt  =A  X Y  +  1 0  (1.22) ave A= 0 B  k(l n l) l kl n l 3 x 2 kl n l 3 xy kl n 3 xy k(l n l) kl n 3 y 2 1 C A :

(24)

Cal ulons lesvaleurs propresde lamatri e A det (A I) =  k(l n l) l k l n l 3 x 2   k(l n l) l k l n l 3 y 2   k 2 l 2 n l 6 x 2 y 2 =  k(l n l) l   2  k(l n l) l   k l n l 3 y 2 +k l n l 3 x 2  =  k(l n l) l   k(l n l) l   k l n l  =  k(l n l) l   ( k ):

Les deux valeurs propres de A sont don  1 = k et  2 = k(l n l) l

. Si les deux valeurs

propressontnegatives,lasolutionse omporte ommee i

p  t

.Enrevan he, siAaunevaleur

proprepositive, lasolutionse omporte omme e  p t .Desque l<l n , 2 = k(l n l) l >0.

On illustre lesproprietesetablies i-dessus pour un ressort de longueur nominale l n

=1 et de raideurk =10en prenant omme onditions initiales

 x(t=0)=x 0 ; x t (t=0)=0; y(t=0)=y 0 ; y t (t =0)=0:

Dans la gure 1.5, on peut observer que si la longueur du ressort a un instant t est plus petite que sa longueur nominale, alors la valeur propre de la matri e A devient positive et les derivees des positions par rapport a \explosent", 'est-a-dire que le systeme perd sa stabilite.

Par ontre, si on regarde la gure 1.4, on peut remarquer que la longueur du ressort est toujours plus grande que sa longueur nominale, et le systeme linearise ne perd pas ses proprietesde stabilite.

La gure1.6representel'evolutiondel'ordonneey(T)del'extremiteduressortal'instant nal onsidere en fon tion de y

0

. On peut onstater que la ourbe est assez os illante, en parti ulier, omme prevu, lorsque y(0) est hoisi loindu er le d'equilibre (ligne rouge). Il est assez aisede on evoir quele al uldes deriveesdans e typede situationsoitune t^a he

(25)

0

5

10

15

20

25

30

35

40

−3.5

−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

x(t)

Position horizontale du ressort

0

5

10

15

20

25

30

35

40

−3.5

−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

y(t)

Position verti ale du ressort

0

5

10

15

20

25

30

35

40

−40

−30

−20

−10

0

10

20

30

40

u(t)

Derivee de xpar rapport a

0

5

10

15

20

25

30

35

40

−40

−30

−20

−10

0

10

20

30

40

v(t)

Derivee de y par rapporta

0

5

10

15

20

25

30

35

40

1

1.5

2

2.5

3

3.5

4

l(t)

Longueur du ressort

0

5

10

15

20

25

30

35

40

−12

−10

−8

−6

−4

−2

0

valeurs propres de A

Valeurs propresde A

Fig. 1.4{ Systeme de pendule stable :(x 0

;y 0

(26)

0

5

10

15

20

25

30

35

40

−3.5

−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

1

x(t)

Position horizontale du ressort

0

5

10

15

20

25

30

35

40

−3.5

−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

1

y(t)

Position verti ale du ressort

0

5

10

15

20

25

30

35

40

−1500

−1000

−500

0

500

1000

1500

2000

2500

u(t)

Derivee de xpar rapport a

0

5

10

15

20

25

30

35

40

−4000

−3000

−2000

−1000

0

1000

2000

3000

v(t)

Derivee de y par rapporta

0

5

10

15

20

25

30

35

40

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

l(t)

Longueur du ressort

0

5

10

15

20

25

30

35

40

−15

−10

−5

0

5

10

15

valeurs propres de A

Valeurs propresde A

Fig. 1.5{Systeme de pendule instable: (x 0

;y 0

(27)

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

Evolution de l’ordonnee finale du ressort en fonction de y(0)

Fig. 1.6 {Evolution de y(T)en fon tion de l'ordonnee initialey0

1.2 De l'inter^et des reseaux de neurones

Unmoyen depallierauxproblemesde ritsdans lase tion1.1est d'utiliserlesreseauxde neurones [33, 37, 4,40℄pour reer une surfa e de reponse asso iee auprobleme etoptimiser le modeleainsi obtenu.

Uneautreappli ationpossibleest l'optimisationdefon tionsdontl'evaluation o^ute her et /ou dont onne peut pas al ulerle gradient.

Lesreseauxneuronauxpermettentegalementde her herleminimumglobalde fon tions os illantes telles quela fon tion de Griewankoude Rastrigin.

1.2.1 Pour l'optimisation globale

Cal ulerleminimumglobaldefon tionstresos illantesestunet^a hediÆ ile.Considerons, par exemple, la fon tion de Rastrigin representee sur la gure 1.7page 14. Ellepossede de nombreux minimalo aux, mais ellen'a qu'un minimumglobal, quelle quesoitladimension du probleme.

−2

−1

0

1

2

−2

−1

0

1

2

−1

0

1

2

3

4

5

6

7

8

9

Var. fixes :

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

Fig. 1.7{ Lafon tion de Rastriginen 2 dimensions etses ontours

Suruntelexemple,lesreseauxdeneuronesnouspermettentd'obteniruneapproximation tres grossiere de la fon tion (se tion 3.7.1 page 49). On exploite ensuite le modele ainsi obtenu pour obtenir le minimum global (se tion 4.2.1 page 70) sans ^etre piege dans les

(28)

1.2.2 Pour l'optimisation de fon tions de type < bo^te noire >

Dans laplupartdes problemes pratiques ouindustriels,la fon tiona appro her (et opti-miser)n'estpasexpli ite:onnela onna^tquepardesmesures parfois o^uteuses oudiÆ iles 

arealiser.Dans e as,on onstruit unesurfa e de reponse apartirdes donnees donton dis-pose. Pour e faire,plusieurs methodes existent,dontlesmethodes neuronales.Un avantage non negligeable de es dernieres est qu'elles permettent un al ul de gradient pour un o^ut ajoutenegligeable.

Considerons,parexemple,leproblemedelamodelisationd'un ho frontald'unvehi ule sur unmur(se tion3.7.2page55). On her he aoptimiserun ertain ritere dedeformation en fon tion de parametres tels que la position du pare- ho s ou sa raideur. Une te hnique naturelle onsistea utiliserune methode d'optimisationbasee sur le gradientdu ritere. Un al ulde e dernierviaun ode dedi erentiationautomatique onduitlademar he al'e he pour les raisons mentionnees i-dessus (se tion 1.1).

(29)
(30)

Les methodes de plan d'experien e

L'utilisationde reseaux de neurones ne essite une phase d'apprentissage. Ce dernier est base sur la onnaissan e de ouplesd'apprentissage. Laqualitede l'apprentissage du reseau depend en grande partie de la bonne repartition de es ouples dans l'espa e de re her he. Dans la majorite des as, pour des raisons de o^ut ou de temps de al ul, le nombre de ouplesd'apprentissagen'estpastreseleve.Ilestdon importantqu'ilssoientjudi ieusement repartis dans l'espa e de re her he. C'est pourquoi nous nous sommes interesses aux plans d'experien e.

Lesmethodesde pland'experien e[13℄depassentlargementle adredu al ulnumerique et elles sont bien anterieures au developpement re ent des outils de al ul. Elles ont tout d'abord ete utilisees pour reduire le nombre d'experien es reelles a e e tuer (realisation de prototypes, sondages geologiques, ...). Dans la litterature, les parametres sont appeles fa teurs etles di erentes valeurs dis retes prises par un fa teur sont lesniveaux.

Nous ommen onsparunepresentationdesplansd'experien esinspireeparunelitterature abondante sur e sujet [73, 12, 61,66,6, 67, 25,26,27℄. Malheureusement, anotre onnais-san e, il n'existe pas de do umenta essible presentant une appro he systematiquepour la onstru tiondeplansd'experien e.Nousessayons, dans e hapitre,de ontribuera ombler e vide.

2.1 Plan fa toriel pour deux fa teurs a deux niveaux

Prenonsparexemplel'etudedelaresistan e( riteredeVonMises)d'unestru ture oque dependantdedeuxfa teurs,l'epaisseure2f3;5getlemoduled'YoungE 2f310

4 ;410

4 g. Les4traitementsou ombinaisonsdeniveauxdes2fa teurs,epaisseuretmoduled'Young, sont

e ode (A) e reel E ode(B) Ereel

1 1 3 1 310 4 2 +1 5 1 310 4 3 1 3 +1 510 4 4 +1 5 +1 510 4

(31)

etniveau hauta +1. Ce hangement d'unitepermet l'etudesimultanee de fa teursde nis a des e helles di erentes et fa ilitel'appro he mathematiquede e type de probleme.

Ces 4traitementspeuvent^etrerepresentesgraphiquementparlessommetsdu arredans l'espa ede ni par les fa teurs odes.

Untelplan estdesigne ommeplanfa toriel 2 2

ouplus generalementplanfa toriela b

ou a est le nombre de fa teurs et b est le nombre de niveaux.

Nous supposons que la reponse Y est reliee aux niveaux des fa teurs odes, notes A et B, par :

Y =f(A;B)+"

ouf(A;B)estappeleelareponsetheoriqueetrepresentelaresistan edelastru turepourles niveaux onsideresde AetB et"estl'erreur. Pour les4traitements,lesreponsestheoriques sont presentees dans le tableau

A B f(A;B)

1 1 f( 1; 1)

1 1 f(1; 1)

1 1 f( 1;1)

1 1 f(1;1)

etpeuvent^etreestimees en realisantdes experien es. Neanmoins, ellesne permettentpas de omparer les in uen es respe tives de A etB sur Y.

Pour e faire,onde nit lese ets fa torielsde A etde B de la maniere suivante:

{ E et de A : 1 2



(moyenne de f pour A =+1) - (moyennede f pour A= 1)  e(A) = f(1; 1)+f(1;1) 4 f( 1; 1)+f( 1;1) 4 = f(1; 1)+f(1;1) f( 1; 1) f( 1;1) 4 { E et de B : 1 2 

(moyenne de f pour B =+1) -(moyenne de f pour B = 1)  e(B) = f(1;1)+f( 1;1) 4 f(1; 1)+f( 1; 1) 4 = f(1;1)+f( 1;1) f(1; 1) f( 1; 1) 4 Notant aussi e(A )= f(1; 1) f( 1; 1) 2 l'e et de A lorsque B = 1 e(A+)= f(1;1) f( 1;1) 2 l'e et de A lorsque B =1,

(32)

On de nit don l'e et d'intera tion entre A etB par e(AB) = 1 2  f(1; 1) f( 1; 1) 2 f(1;1) f( 1;1) 2  = f(1; 1) f( 1; 1) f(1;1)+f( 1;1) 4

et lamoyenne generale notee e(1) par

e(1)=

f( 1; 1)+f(1 1)+f( 1;1)+f(1;1) 4

:

Les 4 e ets fa toriels de nis a partir des 4 reponses theoriques sont don

la moyennegenerale e(1)= 1 4 (f( 1; 1)+f(1; 1)+f( 1;1)+f(1;1)), l'e et de A e(A)= 1 4 (f(1; 1)+f(1;1) f( 1; 1) f( 1;1)), l'e et de B e(B)= 1 4 (f(1;1)+f( 1;1) f(1; 1) f( 1; 1)),

l'intera tion entre A etB e(AB)= 1 4

(f(1; 1) f( 1; 1) f(1;1)+f( 1;1)).

On peut e rire lareponse sous laforme

f(A;B)=e(1)+e(A)A+e(B)B+e(AB)AB:

Si l'one rit le plan d'experien esous laforme

1 A B AB f(A;B)

1 1 1 1 f( 1; 1)

1 1 1 1 f(1; 1)

1 1 1 1 f( 1;1)

1 1 1 1 f(1;1)

les e ets pre edents sont obtenus en e e tuant le produit s alaire des 4 olonnes par la olonne f(A;B) et en divisant le produit s alaire par 4. Ce i peut ^etre e rit sous forme matri ielleen onsiderantla matri e des e ets

H = 0 B B  1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 C C A

qui represente les olonnes 1;A;B;AB du tableau pre edent. On peut alors e rire 0 B B  e(1) e(A) e(B) e(AB) 1 C C A = 1 4 H T 0 B B  f( 1; 1) f(1; 1) f( 1;1) f(1;1) 1 C C A ouen ore e= 1 H T f:

(33)

Commela matri eH est orthogonale(HH T

=4I), ona

f =He:

D'une maniere generale, une matri e H de rang n dont les termes ne prennent que les valeurs 1telle que HH

T

= nId n

est appelee matri e de Hadamard. Une telle matri e n'existe que pour n =2 etpour n multiple de 4.

2.2 Plans fa toriels fra tionnaires pour fa teurs a deux

niveaux

Considerons un plan fa toriel pour 7 fa teurs a 2 niveaux. Le plan omplet omprend 2

7

=128 experien es. Il permet d'estimer 128 e ets quise de omposent en

1 moyenne,

7 e ets prin ipaux,

21 intera tions entre 2fa teurs, 35 intera tions entre 3fa teurs, 35 intera tions entre 4fa teurs, 21 intera tions entre 5fa teurs, 7 intera tions entre 6fa teurs, 1 intera tion entre 7fa teurs.

Mais,sil'onpeut estimer ese ets, ilsnesontpas tousimportants.Ilexiste une ertaine hierar hie entre eux : les e ets prin ipaux tendent a ^etre superieurs aux intera tions de 2 fa teurs, quisontelles plus grandes (en valeur absolue)quelesintera tions de 3fa teurs, ... Il est souvent vrai qu'a un ertain niveau, les intera tions d'ordre le plus eleve sont negligeables et peuvent don ^etre eliminees. De plus, quand le nombre de fa teurs grandit, il arrivesouvent que ertains d'entre euxn'aientpas d'e et.

Si p n'est pas petit, il existe une redondan edans un plan 2 p

qui orrespond aun ex es du nombre des intera tions et parfois du nombre de fa teurs envisages. Les plans fa toriels fra tionnaires exploitent ette redondan e.

Lesprin ipesde onstru tionde fra tionsde plans fa toriels2 p

sont presentes i-dessous pour des as simples ave p=2;3;4 et5 fa teurs.

2.2.1 Cas de deux fa teurs a deux niveaux

Dans un plan fa toriel omplet 2 2

pour les fa teursA etB, le tableaudes 4 experien es qui permet le al ul des e ets fa toriels s'e rit :

1 A B AB f(A;B)

1 1 1 1 f( 1; 1)

1 1 1 1 f(1; 1)

(34)

Examinons le as d'e ole suivant : on ne peut experimenter que 2 experien es parmi les 4. On hoisitde sele tionner lepremier etlequatrieme pour lesquels AB =1.

1 A B AB f(A;B)

1 1 1 1 f( 1; 1)

1 1 1 1 f(1;1)

La realisation de es deux experien es permet d'estimer f en 2 points :

f( 1; 1) = e(1)+e(AB) (e(A)+e(B)) f(1;1) = e(1)+e(AB)+(e(A)+e(B))

eten resolvant e systeme,onpourra al ulere(1)+e(AB)d'unepartete(A)+e(B)d'autre part.

Ces e ets, groupes par paquets de 2, indisso iables l'un de l'autre, sont dits onfondus. Lenombre d'experien es aetedivisepar 2 mais lese ets que l'on al ule ne sontplus purs, ils sont onfondus 2par 2.

Le as d'e ole a 2 fa teurs n'est pas tres interessant pratiquement, ar on ne peut plus estimer lese ets prin ipaux des 2 fa teurs.

Si onnote X la matri e X =  1 1 1 1 1 1 1 1 

lese ets onfondus orrespondent ades olonnes lineairementdependantes.

LarelationAB =1quiapermisde sele tionnerlesexperien es duplanfa toriel omplet est appelee relation de de nition du demi-plan.On ditquel'e etde AB est onfondu ave lamoyenne generale. Larelation A=B peut^etre retrouvee formellementen faisant le produit d'un fa teur donne (par exemple B) par le terme dont l'e et est onfondu ave la moyenne generale : en utilisantlefait que B

2

=1,on a

AB =1=)AB 2

=B =) A=B:

2.2.2 Trois fa teurs a deux niveaux

Dans le plan omplet 2 3

pour les fa teurs A, B, C, le tableau permettant le al ul des e ets est 1 A B C AB AC BC ABC f(A,B,C) 1 -1 -1 -1 1 1 1 -1 f(-1,-1,-1) 1 1 -1 -1 -1 -1 1 1 f(1,-1,-1) 1 -1 1 -1 -1 1 -1 1 f(-1,1,-1) 1 1 1 -1 1 -1 -1 -1 f(1,1,-1) 1 -1 -1 1 1 -1 -1 1 f(-1,-1,1) 1 1 -1 1 -1 1 -1 -1 f(1,-1,1) 1 -1 1 1 -1 -1 1 -1 f(-1,1,1)

(35)

Pour realiser seulement la moitie des 8 essais, hoisissons les experien es 2, 3, 5 et 8 pour lesquels ABC =1. 1 A B C AB AC BC ABC f(A,B,C) 1 1 -1 -1 -1 -1 1 1 f(1,-1,-1) 1 -1 1 -1 -1 1 -1 1 f(-1,1,-1) 1 -1 -1 1 1 -1 -1 1 f(-1,-1,1) 1 1 1 1 1 1 1 1 f(1,1,1)

La determination de f en es 4 points permet de resoudre lesysteme suivant :

f(1; 1; 1) = e(1)+e(ABC)+(e(A)+e(BC)) (e(B)+e(AC)) (e(C)+e(AB)) f( 1;1; 1) = e(1)+e(ABC) (e(A)+e(BC))+(e(B)+e(AC)) (e(C)+e(AB)) f( 1; 1;1) = e(1)+e(ABC) (e(A)+e(BC)) (e(B)+e(AC))+(e(C)+e(AB)) f(1;1;1) = e(1)+e(ABC)+(e(A)+e(BC))+(e(B)+e(AC))+(e(C)+e(AB))

dont lesin onnues sont les paquets d'e ets onfondus

e(1)+e(ABC); e(A)+e(BC); e(B)+e(AC); e(C)+e(AB):

Commedans le as de 2fa teurs, lese ets onfondusentre eux orrespondent aux olonnes lineairementdependantes de la matri e

X = 0 B B  1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 C C A :

Contrairementauplanpre edent,lese etsprin ipauxe(A),e(B),e(C) nesontplus onfon-dus entre eux mais ave lesintera tions de 2 fa teurs e(BC), e(AC), e(AB). Le demi-plan ainsiobtenupermetde al ulerlese etse(A);e(B);e(C)silesintera tionse(BC);e(AC);e(AB) sont negligeables.

La relation de de nition ABC = 1 peut ^etre multipliee par tout autre fa teur pour obtenirles autres relationsBC =A;AC =B;AB =C.

I i,la onfusiondes e etsprin ipauxave lesintera tionsde 2fa teurspeut^etre g^enante ar les intera tions d'ordre 2 ont de faibles han es d'^etre negligeables. Cette propriete du plan hoisi s'exprime ave la notion de resolution: leplan de rit est de resolutionIII ar la relationde de nition onfonduneintera tionde3fa teursave lamoyenne.Cetteresolution III signi eaussi queles e ets prin ipauxsont onfondus ave les intera tions de 2 fa teurs.

2.2.3 Quatre fa teurs a deux niveaux

Le plan omplet 2 4

pour les fa teurs A, B, C, D omprend 2 4

= 16 experien es. Si on 3

(36)

on va sele tionner elles pour lesquelles ABCD = 1. Cette relation de de nition permet d'etablir que D = ABC. On peut don onstruire les 2

3

= 8 experien es du plan fa toriel pour les4 fa teurs A, B, C et D a partir du plan fa toriel omplet pour les fa teurs A, B, C en al ulant la olonne D viale produit terme aterme des olonnes A,B etC.

1 A B C D=ABC 1 -1 -1 -1 1 1 1 -1 -1 1 1 -1 1 -1 1 1 1 1 -1 1 1 -1 -1 1 1 1 1 -1 1 1 1 -1 1 1 1 1 1 1 1 1

A,B,C sontnommesfa teurs de base du planfra tionnaire.Enmultipliantlarelation de de nition par lestermes d'ordre1 (e ets prin ipaux), on obtient D=ABC, A=BCD, B =ACD;C =ABDetsionmultiplieparlestermesd'ordre2,onaCD=AB,AC =BD, BC =AD.

Finalement, la relation de de nition s'e rivant ABCD = 1, l'e et onfondu ave la moyenne est une intera tion de 4 fa teurs : le plan est de resolution IV (quatre)... Cela signi e aussi que les e ets prin ipaux(d'ordre 1) sont onfondus ave des intera tions de 3 fa teurs (1+3=4)et queles intera tions de 2 fa teurs sont onfondues entre elles (2+2=4).

L'avantage qualitatif de e plan par rapport a eux qui ont ete vus pre edemment est quelese ets prin ipaux ne sont pas onfondusave lesintera tions d'ordre2.Ces dernieres sont onfondues par paires.

2.2.4 Cinq fa teurs a deux niveaux

Pour onstruiredeux demi-plansd'unplanfa toriel2 5

,onpartageen deuxletableaudes e ets aumoyen d'une relation de de nition.L'un des demi-plans fa toriels est onstruit en utilisantABCDE =1,tandisquel'autre est de nipar ABCDE = 1.Pour ha und'eux, lamoyenne generale est onfondue ave une intera tion d'ordre 5.

Pour ouper le plan en 4, on ne onfond plus 1 mais 2 e ets ave la moyenne generale. Ce i orrespond al'egalitede 2 olonnesave la olonnedelamoyennegenerale.Dansle as ouon onfondlese etsde l'intera tiondes 3fa teursABC etdel'intera tiondes3 fa teurs

(37)

aunombre de 8: 1 A B C D E ABC CDE 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

La onstru tionde e quart de plan est en faitrealisee en notant queABC=CDE =1 implique C =AB, D =CE = ABE. Le plan est don etabli en al ulant C et D a partir d'un plan omplet2

3

de ni pour les fa teurs de base A;B et E.

On aurait pu aussi hoisir les experien es pour lesquels ABC = CDE = 1, ou bien ABC =CDE =1, oubien ABC =CDE 1.

La onfusion des e ets de ABC et de CDE ave la moyenne generale de nit don 4 fra tions de plan di erentes.

Apartirde larelationABC = CDE =1,en e e tuantleproduitde ABC etde CDE, on deduit que 1 = ABC

2

DE = ABDE. L'e et de ABDE est don egalement onfondu ave lamoyenne generale.

Les e ets onfondus entre eux sont don eux des 4 termes suivants

1;ABC;CDE;ABDE:

On en deduit les e ets onfondus ave un e et quel onque, par exemple elui de A, par multipli ation ave ha un des 4 termes :

e(A)=e(A 2 BC)=e(ACDE)=e(A 2 BDE); ouen ore

e(A)=e(BC)=e(ACDE)=e(BDE):

Lasommed'e etsquipourra^etreestimeeest don e(A)+e(BC)+e(ACDE)+e(BDE). Cettesommedonnerauneestimationdee(A)a onditionquelesintera tionse(BC),e(ACDE) et e(BDE)soient negligeables.

Les sommes omprenant les4 autrese ets prin ipauxet pouvant^etre estimees sont

e(B)+e(AC)+e(BCDE)+e(ADE); e(C)+e(AB)+e(DE)+e(ABCDE); e(D)+e(ABCD)+e(CE)+e(ABE); e(E)+e(ABCE)+e(CD)+e(ABD):

Les e ets prin ipaux e(A);e(B);e(C);e(D);e(E) seront don estimables si les intera tions presentes dans es sommes sont negligeables. A partir des 8 experien es du quart de plan, trois autres sommesd'e ets omprenant des intera tions pourrontaussi ^etreestimees.

Les termes d'ordrele plus faibledont l'e et est onfondu ave la moyenne generale sont 5 2

(38)

2.2.5 Bilan

Le nombre de fa teurs onsideres est p. On n'etudie qu'une fra tion 1=2 q

de l'ensemble des 2

p

experien es. Seulement 2 p q

experien es sont don realisees. Les 2

p

e ets fa toriels : moyenne, e ets prin ipaux, intera tions jusqu'a l'ordre p ne pourront tous ^etre estimes ar il y a seulement2

p q

observations. Mais es e ets sont regroupes en 2

p q

groupes de 2 q

e ets. Les 2 q

e ets de ha un des groupes ne sont pas disso iables : ils sont onfondus. On n'estimera qu'une ombinaison de eux- i. Si l'un des e ets de ette ombinaison est important et que les autres sont negligeables, onpeut onsiderer que l'e et importantest estimable.

Cesplanssontde nisparl'ensembledesqe ets onfondusave lamoyennegenerale.Des reglesalgebriquessimplespermettentde onstruire leplanetdetrouverlese ets onfondus. Enformant lesproduits des q termes onfondusave lamoyenne generale,onobtientun ensemblede 2

q

e ets onfondus. Pour obtenirleplan,on onstruit unplan fa toriel omplet pour p q fa teurs dits fa teursde base etonen deduit lesniveaux des q autresfa teurs en utilisantlesrelations de onfusion.

Sil'intera tiond'ordrele plusfaibleappartenanta et ensembleest une intera tion de 3 fa teurs,leplan est ditde resolutionIII;si 'estune intera tion de4fa teurs, leplanest de resolutionIV.

La notation lassique d'une fra tion 1=2 q d'un plan 2 p de resolutionR est 2 p q R . Ave p=5fa teurs,ona onstruit unefra tion

1 4 duplan omplet2 5 :q =2; 2 5 2 =8 experien es sont retenus. Les32e ets fa torielssont onfondusparpaquets de 2

2

=4e ets. Le plan est de ni par ABC =CDE =1 relation quiest ompletee (par produit des termes entre eux) en ABC = CDE = ABDE = 1. Cette derniere relation permet de trouver les e ets onfondus ave un e et quel onque (par exemple AB) en la multipliant par le terme onsidere :

ABABC=ABCDE =ABABDE =AB 1

C=ABCDE =DE =AB:

La ombinaison e(C)+e(ABCDE) +e(DE)+e(AB) fait partie des 8 ombinaisons estimables. Les fa teurs de base sont A;B;E a partir desquels on onstruit C = AB;D = ABE. Le plan appartienta l'ensembledes plans notes2

5 2 III

:

2.3 Constru tion re ursive de plans fa toriels

fra tion-naires

Ons'interessei iadevelopperune methodede onstru tiondes pointsd'unplanfa toriel fra tionnaire 2

p q

. Par sou i de larte, on notera Q =p q. On her he don 2 Q

sommets de l'hyper ube [ 1;+1℄

p

.Nousdetaillonsi i unemaniere re ursive de onstruire es points. On divisel'espa ede re her he en deux sous-espa es de dimension (p 1):

(39)

Dans ha un de es 2 sous-espa es, on her he 2 Q 1

points en onstruisant deux plans fa -toriels fra tionnaires 2

(p 1) q

. On repete ette pro edure, de maniere re ursive, tant que le nombrede pointsa onstruire estsuperieuraun. A e niveau,onprend,auhasard,unpoint dans l'hyper ube [ 1;1℄

q .

Onnotepf(p;Q;flag)leplanfa torielfra tionnaire(2 Q

points)de pfa teursa2niveaux (flag2f 1;1g).La methode re ursive quenous proposons est resumee dans la gure 2.1.

Pro edure plan=pf(p;Q;flag) si(Q =0),

plan = f(flag;flag;:::;flag

| {z } pfois )g sinon p=p 1 Q=Q 1 N =2 Q

appel apf(p;Q;flag)qui retourne fd 1 ;d 2 ;:::;d N gR p

appel apf(p;Q; flag)qui retourne fg 1 ;g 2 ;:::;g N gR p plan=f(1;d 1 );(1;d 2 );:::;(1;d N );( 1;g 1 );( 1;g 2 );:::;( 1;g N )gR p+1 n du si

Fig.2.1{Constru tionre ursived'unplanfa torielfra tionnaire:algorithmepf(p;Q;flag)

Parexemple, pour un plan fa toriel fra tionnaire (2 2 1

points) de p=2fa teurs a deux niveaux, il y a deux solutions. Une des solutions est donnee par flag = 1 et l'autre par flag= 1 ( f. g. 2.2).

-1

+1

-1 +1

Fig. 2.2 {Plan fa toriel fra tionnaire 2 2 1

(p=2, q=1,Q=1)

Un exemple du al ul re ursif du plan fa toriel fra tionnaire 2 3 1

est montre dans la g. 2.3 pour trouverquatre points(Q=2)dans [ 1;1℄

3 .

2.4 Constru tion de plans fa toriels fra tionnaires

or-thogonaux

(40)

1 −1 −1

1 1 1

−1 1 −1

−1 −1 1

pf(3,2,1) 1pf(2,1,1) -1pf(2,1,-1) 1 -1 -1 1 1 pf(1,0,1) pf(1,0,-1) -1 pf(1,0,-1) 1 pf(1,0,1) -1

Fig. 2.3 {Plan fa toriel fra tionnaire 2 3 2

(p=3, q=2,Q=1)

Sinon,on risque de reer des plansfa toriels quisont lineairement dependants. On onstate en e et sur la gure 2.4 que les 2 dernieres olonnes de la matri e a 4 lignes et 5 olonnes onstruite en utilisantpf(5;2;1)sont identiques.

Pour eviter e probleme, on ommen e par onstruire un plan fa toriel omplet de Q fa teurs a 2 niveaux. Considerons l'ensemble des points ainsi obtenus omme un tableau de 2

Q

lignes et Q olonnes. L'obje tif est ensuite de ompleter e tableau, en rajoutant des olonnes lineairement independantes, entre elles et ave elles deja onstruites, jusqu'a l'obtention d'un nouveau tableau a 2

Q

(41)

1 1 1 1 1

1 −1 −1 −1 −1

−1 1 −1 −1 −1

−1 −1 1 1 1

1 -1 1 -1 pf(5,2,1) 1pf(4,1,1) pf(3,0,1) pf(3,0,-1) -1pf(4,1,-1) pf(3,0,-1) pf(3,0,1) (1,1,1) (-1,-1,-1) (-1,-1,-1) (1,1,1)

Fig. 2.4{ Plan fa toriel fra tionnaire 2 5 3

(p=5, q=3,Q=2): non orthogonal

Pro edure plan=pfo(p;Q;flag)

Cal ulerleplan fa toriel omplet pf(Q;Q;flag). Notons (

1 ;:::;

Q

)les olonnes du tableauainsi onstruit. Cal ulerlenombre des olonnes a ajouter : nb ol =p Q. Pour k =1 jusqu'a k=nb ol, repeter

(a)sele tionner auhasard deux olonnes distin tes i

et j

, (b) notons n leproduit terme a termede

i et

j ,

( ) si lanouvelle olonnen est lineairementindependante de ( 1 ; 2 ;:::; Q+(k 1) ), Q+k =n , sinon retourner a (a). n pour.

(42)

2.5 Appli ation a la generation de points bien repartis

dans un domaine donne

L'approximation et l'optimisationd'unefon tion de p variables par reseaux de neurones ne essite la onnaissan e d'un ensemble de points initiaux a n de onstruire un premier modele.Ce modeleinitialdoit etre^ pertinent, sanspourautantexiger un nombre important de points, ar les fon tions aappro her peuvent ^etre tres o^uteuses en temps de al ul.

Lafa onlaplusfa ilede hoisirlespointsinitiauxestd'utiliseruneseriepseudo-aleatoire. Maisunetellemethodenepermetjamaisd'obtenirdesinformationspourlesvaleursextr^emes du domaine de re her he. Dans e as, dans les zones extremales, le reseau fon tionne en extrapolation.

Une interpolation etant toujours preferable, tant pour l'apprentissage que pour l'opti-misation,les points d'initialisationdu modelesont repartisde maniere a donner aumodele une information dans les oins de l'ensemblede de nition.Cependant, omme il existe une in nite de fon tions quadratiques qui ont la m^eme valeur en tous les sommets d'un hyper- ube,ilest indispensablede onsiderer despointsal'interieurdu domainede re her he pour interpoler une fon tion.

Dans un espa e de grande dimension p, il n'est pas possible d'utiliser tous les sommets de l'hyper ube ommepointsinitiaux:en e et, leurnombregranditexponentiellementave ladimension du probleme.

Pour toutes es raisons, nous hoisissons trois types de points:

{ des sommets de l'hyper ube externe (dont les oordonnees sont dans f 1;1g p

), { des sommets d'un hyper ubeinterne(dont les oordonnees sont dans f 1=3;1=3g

p ), { des points tiresaleatoirementdans [ 1;1℄

p .

Dans ertains as, le nombre de points initiaux est limiteet ne permet pas d'utiliserles trois types de points de rits i-dessus. Nous pro edons alors omme dans la gure 2.6. Le hoix de l'entier Q est guide par la volonte de onstruire une matri e de taille2

Q

p ave des olonnes lineairement independantes.

(43)

Soit N init

le nombre de points initiaux. On her he Q telque p2

Q . SiN init >=2 Q , alors on hoisit 2 Q

sommetsde l'espa ede re her he :externes=pfo(p;Q;1), siN

init >=2

Q+1

, alors on omplete par 2

Q

sommets d'un hyper ube interne :

internes=externes=3, et par N

init 2

Q+1

pointspseudo-aleatoires, sinon

on omplete par N init

2 Q

points pseudo-aleatoires. n du si sinon si N init >= 2 Q 1 , alors on hoisit 2 Q 1

sommetsde l'espa ede re her he : externes=pfo(p;Q 1;1), siN

init >=2

Q

, alors on omplete par 2

Q 1

sommetsd'un hyper ube interne :

internes=pfo(p;Q 1; 1)=3, et par N

init 2

Q

points pseudo-aleatoires, sinon

on omplete par N init

2 Q 1

points pseudo-aleatoires. n du si

sinon

sion souhaiteutiliser des plans d'experien es, alors il fautaugmenter N init , sinon on se ontentede tirer N init

pointspseudo-aleatoires. n du si

n du si

(44)

Optimisation pour l'apprentissage

Dans le adrede l'approximation de fon tions, ilexiste plusieursmethodes :

{ l'appro he lineaire, oulesfon tionsde base sont xees al'avan e, d'unemaniereind e-pendente du phenomene a appro her (ex.: polyn^omes, splines, ...),

{ l'appro henonlineaire,oulesfon tionsdebasesont onstruitesenfon tiondesdonnees 

a apprendre(ex. : reseaux de neurones).

Il onvientde iteruneappro heintermediaire: unebasehilbertiennedeL 2

est onstruite 

al'avan e(Fourier,ondelettes),maisonne onsidere qu'unsous-ensemblede ette base.On retrouve alors

{ une appro he lineaire, dans le as ou laserie est tronquee aun ordre xe,

{ une appro he non-lineaire, sione arteles fon tions de base asso iees aux petits oef- ients.

Nous avons hoisi d'utiliserles reseaux de neurones [4℄, et nous allons montrer les avan-tages de ette methode.

Les reseaux de neurones sont des systemes arti iels apables de simuler ertaines apa- ites des systemes naturels [72℄. Le erveau, par exemple, e e tue des al uls d'une fa on ompletementnon onventionnelle et omplexe.Lesreseaux de neurones doivent leur eÆ a- ite,d'une part,aleur stru ture paralleleet, d'autrepart,a leur apa ited'apprentissageet de generalisation.

Les reseaux de neurones [16℄ ont ete beau oup etudies et utilises dans divers domaines depuis des annees : la re onnaissan e de formes, la dete tion d'anomalies, la predi tion de donnees, ...

L'utilisationdes reseaux deneuroneso re,entreautres[33℄lapossibilited'appro herdes phenomenes reels omplexeset non lineaires.

Dansdenombreux as,enparti ulierdansles ontextesindustriels,lenombredeneurones peut devenir enorme. En onsequen e, la taille du probleme, et don les temps de al ul, grandissent demesurement. Dans e hapitre, nous de rivons une te hnique d'apprentissage

(45)

3.1 Les neurones biologiques

Le neurone biologiqueest lapierreelementaire du erveau. Il existeenviron 10000 types di erents de neurones [74℄. On ompte au total quelques 10

11

neurones, ha un pouvant re evoir,parl'intermediairedesesdendrites(Fig. 3.1),lesinformationsprovenantd'environ 200000 entrees. Le erveau est forme par un ensemble de neurones, onne tes entre eux par des liens appeles synapses. Les poids de es liaisons onditionnent le me anisme de memorisationetd'oubli.Le erveauhumainre oitdessignauxd'entree de plusieurssour es; les signaux sont traites pour reer une reponse. Le erveau a des millions de neurones qui sont inter onne tes pour elaborer des "Reseaux de Neurones". Ces reseaux exe utent les millions d'instru tions ne essaires pour avoir une vie normale. Deux elements du neurone biologiquesont parti ulierementinteressants pour nous :les dendrites etles synapses.

Fig. 3.1{ Unneurone biologique

Lesdendritessontdesextensionsduneuronequiluipermettentdese onne terad'autres neurones, tandis que les synapses sont des portes qui a eptent des onnexions provenant d'autresneurones.Unneuronebiologiquepeutdon alafoisse onne terad'autresneurones ommea epterdes onnexions en provenan e d'autres neurones. Ainsinous avonslesbases d'un reseau. Le pro essus ele tro- himique de transfert de l'information entre les neurones est omplexe. Le signal se propage le long des axones jusqu'aux synapses. La synapse a la parti ularite de pouvoir moduler la di usion des neuro-mediateurs et peut avoir un e et aussi bien ex itateur qu'inhibiteur. Ainsi un faible in ux nerveux peut engendrer la trans-missionde l'information.Lesdendrites ne modi entpas lesignal re u en entree. Sile signal resultantestsuÆsant,ilya reationd'unsignalatransmettre.Unneuronenaturelre oitdes neurones voisins une ertainequantited'informationsousformed'impulsionsele triquespar l'intermediairede ses dendrites. L'information,une foistraiteepar leneurone, est transmise 

ad'autres neurones par l'intermediairedessynapses. Cetteinformationn'esttransmise qu'a partir d'un ertainseuil.

3.2 Stru ture d'un neurone arti iel

Le on ept de reseau de neurones est inspire du omportement du erveau humain. Le reseau arti iel est onstitue d'un ensemble de ellules appelees neurones. La gure 3.2

(46)

{ unensemblede e entrees(X 1 ;X 2 ;:::;X e

)quirepresentent lesparametresindependents du probleme (signaux d'entree),

{ un ensemble de e poids synaptiques (w i

) (un poids w i

represente la onnexion entre l'entree x

i

etle neurone), { un biais b,

{ un operateurde sommation (les entrees sont ponderespar lespoids), { une fon tion d'a tivation.

A haque neurone, on asso ie une valeur reelle z, appelee etat du neurone, qui est al ulee aumoyen de laformule z =f e X i=1 W i X i +b ! :

z

f

W 2 W e X 1 X 2 X e P b W 1 1

Fig. 3.2 {La stru ture d'un neurone arti iel

3.3 Ar hite tures neuronales

Un reseau est onstitue par un ensemble de neurones inter onne tes par des poids et organise ommeune su ession de ou hes. Un reseaua aumoins deux ou hes (une ou he d'entrees et une ou he de sorties) [40℄. Les neurones d'entree sont les valeurs des pa-rametres independants du probleme et la ou he de sortieest onstituee par les parametres dependants.Lesneurones quisetrouvententre la ou hed'entree etla ou he de sortiesont appelesneurones a hes etl'ensemblede es neurones formela(ou les) ou he(s) a hee(s). La fa on dont sont disposes les neurones dans un reseau et la maniere dont ils sont onne tes entre euxdonnentlieuadi erentstypesd'ar hite tures.Nousen mentionnonsi i trois genres di erents.

Reseau a deux ou hes

Dans e type de reseau, il n'existe au une ou he a hee. Les neurones de la ou he d'entree sont dire tement onne tes (via les poids synaptiques) ave les neurones de la ou he de sortie. Ce genre de reseau est essentiellement utilise dans des problemes qui sont

(47)

Fig. 3.3 {Stru ture d'un reseau mono ou he

Il est onnu[33,44℄qu'unreseauselimitantadeux ou hes (une ou hepourles ellules d'entree et une ou he pour les ellules de sortie) peut se reveler insuÆsant pour l'appren-tissage de fon tions simples telles quele ou ex lusif

g : f0;1gf0;1g ! f0;1g (x 1 ;x 2 ) 7 ! x 1 +x 2 2x 1 x 2 :

En e et, un reseau a deux ou hes ne peut e e tuer qu'une separation lineaire. Cela s'explique par le fait que (si f est monotone) l'ensemble X = fx 2 R

e : f( P w j x j )  ag est le demi-espa e delimite par l'hyperplan

P w j x j = f 1

(a). Par ailleurs, g prend deux valeurs 1et0.On peut voirfa ilementque l'onne peut pas onstruireune droitequi separe lesdeux ensembles g

1

(1)etg 1

(0):lesdeux enveloppes onvexes de es deux ensembles ne sont pas disjointes.

Reseau ave ou he(s) a hee(s)

Ce typedereseauest unegeneralisationdupre edent. Ilauneouplusieurs ou hesdites a hees. Les neurones qui appartiennent a es ou hes s'appellent neurones a hes.Chaque neurone est onne te a tous les neurones de la ou he suivante (il n'y a pas de y les). L'information ir ule de l'entree du reseau vers sa sortie.

Reseaux re urrents

C'est un reseau dans lequel un neurone peut ^etre onne te ave lui-m^eme ou ave des neurones des ou hes pre edentes [2℄.

3.4 Evaluation d'un reseau ave ou he(s) a hee(s)

(48)

Fig. 3.4{ Stru ture d'un reseau multi ou hes

Fig. 3.5{ Stru ture d'un reseau re urrent

fon tion d'a tivation.

L'etat des neurones qui appartiennenta lapremiere ou he a hee peut s'e rire

z =f e X j=1 w j x j +b ! (3.1)

ou, de fa on ve torielle,

z =f(w T

x+b) (3.2)

L'etat des autres neurones est de ritpar :

z =f m X j=1 w j x j ! (3.3)

ou, de fa on ve torielle,

(49)

ouw=[w 1 ;w 2 ;:::;w e ℄ T

representeleve teurdes onnexionsentreneurones,x=[x 1 ;x 2 ;:::;x e ℄ T

l'ensemble des signaux d'entree et f represente la fon tion d'a tivation qui de nit l'etat du neurone. La fon tion d'a tivation la plus utilisee dans le domaine des reseaux de neurones est la fon tion sigmoide de nie par

f(x)=

1 1+e

(x )=

: (3.5)

et representee sur la gure 3.6pour di erentes valeursdes parametres et.

−30

0

−20

−10

0

10

20

30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Fonction d’activation

tau = 1

tau = 10

tau = 100

Fig. 3.6 {Fon tion sigmoidepour =0( =1en noir,  =10en rouge, =100 en bleu)

3.4.1 La solution retenue

D'apres un resultat d^u a Kolmogorov [37, 38, 39℄, on peut appro her n'importe quelle fon tion reguliere ave un reseau a trois ou hes. (Naturellement, la taille de la ou he entralepeutaugmenter rapidementave lapre ision de l'approximation.)Nousavons don hoisi de nous limitera de tels reseaux.

Dans le premier etage (entre la ou he d'entree et la ou he a hee), nous utilisons la fon tion d'a tivation suivante

f(x)= 8 > > > > > > < > > > > > > : 1 1+e x= si jxj; (x )  e =   1 1+e =  2 +  1 1+e =  si x>; (x+)  e =   1 1+e =  2 +  1 1+e =  si x< ; (3.6)

ou=3 et =0.Il s'agit simplementde lafon tion sigmodehabituelle modi ee de telle sorteque lespoidsne deviennentpas tropgrands( f. gure 3.7).Ce premieretagenoussert 

a onstruire une base de fon tions non orthogonale.

Dansledeuxiemeetage,nous utilisonsunefon tiond'a tivationlineairequinouspermet de realiser l'approximation de la sortie souhaitee par les fon tions de base reees dans le premieretage.

La stru ture des reseaux que nous avons hoisie est illustree par la gure 3.8.

Le nombre optimal de neurones dans la ou he a hee, est diÆ ile a determiner. C'est pendant laphase d'apprentissage ( f.3.5page 37) que l'on peut se rendre ompte de

(50)

l'apti-−50

−40

−30

−20

−10

0

10

20

30

40

50

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

tau=5

tau=10

tau=100

Fig. 3.7 { Fon tionsigmoidemodi ee pour  =0 ( =5 en rouge,  =10 en noir,  =100 en bleu)

3.5 L'apprentissage

Le pro essus d'apprentissage d'un reseau onsiste aajuster les poids de onnexionentre lesneurones.

Les di erents types d'apprentissage

On peut lasser les algorithmes d'apprentissage en deux ategories ( f. gure 3.9 issue de [70℄) : supervises et non supervises. Dans les algorithmes non supervises, on ne onna^t pas la sortie que doit appro her le reseau (sortie souhaitee). Le reseau s'organise alors en regroupant selon les m^emes ara teristiques les di erents signaux d'entree. Dans les algo-rithmessupervises,on onna^tlasortiesouhaiteeetonpeutfairela orre tiondelasortiedu reseau par rapport ala sortie iblee. On observela sortie donnee par le reseau eton al ule ladi eren e entre elleetlasortie souhaitee. Ensuite,les poids des onnexions sont modi es a n d'attenuer ette di eren e. L'apprentissage supervise peut lui-m^eme ^etre de 2 types : l'apprentissage par renfort et l'apprentissage par orre tion. Dans le premier, l'information est dutypebooleenne.Ils'agit don de lassi ation.Dansl'apprentissagepar orre tion,on onna^t l'ordre de grandeur de l'erreur, et on peut modi er les poids de onnexion de telle sorte que ette erreursoit laplus petitepossible.

L'apprentissage : un probleme d'optimisation

Notons R la reponse du reseau a trois ou hes onsidere, e le nombre d'entrees (sans ompter le biais), m le nombre de neurones a hes, s le nombre de sorties et p le nombre de poids de onnexion a ajuster. En se referant a la gure 3.4, il est fa ile d'etablir que p=(e+1+s)m.

La reponse R depend de l'entree du systeme x (l'etat des ellules d'entree) etdes poids de onnexions W2R p R: R e R p ! R s (x;W) ! R (x;W):

Ainsi on peut e rire W =  W 0 1  , W 0 2 R m( e+1) et W 1 2 R sm

(51)

1 x 0 1 x 0 2 x 0 e x 1 1 x 1 2 x 1 3 x 1 m 2 x 1 m x 1 m 1 x 2 1 x 2 2 x 2 s | {z }

reationdesfon tions

| {z } re her hedes debase oeÆ ients −30 −20 −10 0 10 20 30 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Fonction d’activation x f(x) −30 −20 −10 0 10 20 30 −30 −20 −10 0 10 20 30

Fonction d’activation linéaire y

x

Fig. 3.8 { Stru ture du reseau et fon tions d'a tivation retenues

W 0

et W 1

ne jouent pas lesm^emes r^oles. Le ve teur W 0

permet la de nitiondes fon tions de base et W

1

est le ve teurdes oeÆ ientsdans ette base.Cette remarque jouera un r^ole fondamentaldans la regularisationdu probleme d'apprentissage.

La phase d'apprentissage (supervise) onsiste a minimiser l'e art, au sens des moindres arres,entrelasortiesouhaiteeG(x)etlasortiedureseauR (x;W).Ils'agitdon deresoudre le probleme min W 2R p J(W)= 1 2 X x2 kR (x;W) G(x) k 2 ; (3.7)

dans lequel est l'ensemble des ouples d'apprentissage. Un element (x;G(x)), x 2 est appele ouple d'apprentissage.

Lefaitd'avoir hoisiunefon tiond'a tivationf di erentiablepermetd'utiliserlesmethodes lassiquesd'optimisation.Legradientde J estgeneralement al uleparlamethode lassique de \retropropagation du gradient".

L'eÆ a ite de l'apprentissage depend de la stru ture du reseau (nombre de neurones a hes). Si le nombre de neurones est insuÆsant, l'apprentissage se revele impossible. Au

Figure

Fig. 1.6 { Evolution de y(T ) en fon
tion de l'ordonn ee initiale y0
Fig. 2.1 { Constru
tion r e
ursive d'un plan fa
toriel fra
tionnaire : algorithme pf (p; Q; f lag)
Fig. 2.3 { Plan fa
toriel fra
tionnaire 2 3 2
Fig. 2.6 { Algorithme pour le 
hoix de points bien r epartis
+7

Références

Documents relatifs

I Une description trop pauvre ⇒ on ne peut rien faire.. I Une description trop riche ⇒ on doit ´ elaguer les

Objectifs: Apprentissage supervis´ e, non supervis´ e, fouille de donn´

I Combinaison d’entit´ es simples: arbitrairement complexe pourvu que les entit´ es ne soient pas lin´ eaires. I Le r´ eseau est une fonction de redescription des

Active Learning as a Game Position du probl` eme Algorithme BAAL Validation exp´ erimentale Constructive Induction... Apprentissage

R´ egler le syst` eme pour minimiser le taux de panne Algorithme: apprendre ≡ optimiser?. I Apprentissage: trouver “la

MCTS and Upper Confidence Tree Feature Selection: the FUSE algorithm Experimental Validation... Apprentissage

Pour l’impl´ ementation Octave, chaque attribut, valeur d’attribut et classe sont repr´ esent´ es par un entier.. Exemple (exercice

Après une première loi en 1971 qui clarifiait le statut d’apprenti et donnait à l’apprentissage et ses centres de formation d’apprentis (CFA) une valeur équivalente en dignité