TABLE DES MATIÈRES
Parmi les plus anciennes méthodes utilisées pour résoudre les problèmes du type (P ), on peut citer la méthode du Gradientconjugué. Cette mé- thode est surtout utilisée pour les problèmes de grande taille.Cette méthode a été découverte en 1952 par Hestenes et Steifel , pour la minimisation de fonctions quadratiques strictement convexes.Plusieurs mathématiciens ont étendu cette méthode pour le cas nonlinéaire. Ceci a été réalisé pour la première fois, en 1964 par Fletcher et Reevese (méthode de Fletcher-Reeves) puis en 1969 par Polak, Ribière et Ployak (méthode de Polak-Ribière-Ployak). Une autre variante a été étudiée en 1987 par Fletcher (Méthode de la descente conjuguée). Une nouvelle variante a été proposée en 1991 par Liu et Storey (Méthode de Liu et Storey). Et en…n une dernière variante qui a été étudiée en 1999 par Dai et Yuan (Méthode de Dai et Yuan) Toutes ces méthodes
Le but de cette thèse est de présenter des nouvelles classes de recherches linéaires non monotones lesquelles appliquées à la méthode du gradient conju- gué donnent de bons résultats de convergence et assure la condition de des- cente su¢ sante. Plus particulièrement, appliquées à la méthode du gradientconjugué de Fletcher Reeves (FR) avec des fonctions fortement convexes as- surent la convergence globale et donnent de bonnes performances numériques. Mots clés : Gradientconjugué, Algorithme, Convergence globale, Re- cheche linéaire inexacte, Règle d’Armijo, Règle de Wolf, Méthode de Hestenes- Stiefel, Méthode de Fletcher-Reeves, Méthode de Polak-Ribière-Polyak, Mé- thode de la descente conjuguée, Méthode de Gradientconjuguénon mono- tone, La recheche linéairenonmonotone.
CHAPITRE 1 INTRODUCTION
L’optimisation de boîtes noires est un sujet de recherche qui croît fortement en popularité depuis les années 90 avec la sophistication des ordinateurs. Les ingénieurs sont maintenant en mesure de créer des programmes plus performants capables de simuler des phénomènes physiques complexes. En résulte ainsi un désir accru d’en optimiser les paramètres [22, 50]. Cependant, les irrégularités issues de simulations physiques, ainsi que la complexité des al- gorithmes, rendent bien souvent les méthodes d’optimisation classiques, telles que les multi- plicateurs de Lagrange [36], inapplicables. Plus particulièrement, le gradient de la fonction peut être peu fiable, trop coûteux en temps à calculer ou même inexistant, d’où l’intérêt grandissant envers l’optimisation sans dérivées (DFO). Quelques familles d’algorithmes se trouvent dans cette catégorie. Parmi les plus connues, on y retrouve : les algorithmes géné- tiques [37], la méthode de Nelder-Mead [49], les régions de confiance [24] et les algorithmes par recherche directe [39]. Ce projet est uniquement concerné par cette dernière famille en raison de l’existence de preuves de convergence théoriques ainsi que par la flexibilité permise dans leurs implémentations et l’ajout d’extensions [8, 57].
Le concept central est celui de direction de descente. On le retrouvera dans des contextes variés, également pour résoudre des problèmes avec contraintes. Tous les algorithmes d’optimisation n’entrent pas dans ce cadre. Une autre classe importante de méthodes se fonde sur la notion de région de con…ance. Après avoir décrit comment fonctionne un algorithme à directions de des- cente, nous donnons quelques exemples d’algorithmes de ce type. Nous dé- crivons ensuite les principales règles de recherchelinéaire.
3. Préconditionneur
Comme il est usuel dans le cas de l’utilisation de méthodes itératives, il est souhai- table de préconditionner le problème afin d’en accélérer la résolution (Saad, 2005). Le préconditionneur proposé est basé sur des remarques sur les espaces fonctionnels aux- quels appartiennent les différents objets manipulés dans l’algorithme. Durant la phase de recherchelinéaire, le multiplicateur de Lagrange λ est mis à jour par la formule λ k + αW k . Or, ces deux vecteurs n’appartiennent pas aux mêmes espaces fonction-
Le second chapitre traite l’optimisation unidimensionnelle et les notions de recherchelinéaire exacte et inexacte(Armijo, Goldstein et Wolfe).
Le chapitre 3 est consacré à l’étude de la méthode du gradientconjugué dans le cas linéaire et nonlinéaire. On va aborder d’abord le principe géné- ral d’une méthode à directions conjuguées et le théorème fondamental qui garantit la convergence d’un algorithme à directions conjuguées appliqué à une fonction quadratique à n variables. On s’intéresse ensuite à la méthode du gradientconjugué dans le cas linéaire. On passe en…n à la méthode du gradientconjugué dans le cas nonlinéaire.
Le concept central est celui de direction de descente. On le retrouvera dans des contextes variés, également pour résoudre des problèmes avec contraintes. Tous les algorithmes d’optimisation n’entrent pas dans ce cadre. Une autre classe importante de méthodes se fonde sur la notion de région de confiance. Après avoir décrit comment fonctionne un algorithme a directions de des- cente, nous donnons quelques exemples d’algorithmes de ce type . Nous dé- crivons ensuite les principales règles de recherchelinéaire
Conclusion et perspectives
Dans cette thèse, nous avons proposé une famille à deux paramètres des méthodes du gradientconjuguénonlinéaire et étudié la convergence globale de cette méthode. Cette famille comprend non seulement les trois méthodes du gradientconjugué déjà connues, mais aussi une autre famille des méthodes du gradientconjugué comme sous- famille. Tout d’abord, nous pouvons voir que la propriété de descente de la direction joue un rôle important à établir des résultats généraux de convergence de cette méthode avec la recherchelinéaire de Wolfe faible (6.4) et (6.11 ), même en l’absence de la condition de descente su¢ sante (6.53), à savoir, les théorèmes 6.1, 6.2 et 6.3. Ensuite, d’après le théorème 6.4, nous avons prouvé que la famille à deux paramètres peut assurer une direction de descente à chaque itération et converge globalement sous condition de la recherchelinéaire (6.4) et (6.9) où les scalaires 1 and 2 satisfont
Dans [28], Dai et Yuan montrent qu’avec la méthode de FR, les conditions Wolfe fortes n’engendrent pas en général des directions de descente quand σ > 1/2, même pour la fonction
f (x) = λ kxk 2 , où λ > 0 est une constante. Par conséquent, la contrainte σ ≤ 1/2 doit être
imposée pour assurer la descente. Dans les implémentations typiques des conditions Wolfe, il est souvent plus efficace de choisir σ proche de 1. Par conséquent, la contrainte σ ≤ 1/2, nécessaire pour assurer la descente, représente une restriction importante dans le choix des paramètres de la recherchelinéaire. D’autre part, Dai et Yuan montrent dans [25] que, lorsque σ > 1/2
La figure 5 compare la convergence des deux méthodes en fonction de la raideur de l’inclusion. On peut constater que la sensibilité à la raideur de l’inclusion est bien mois grande pour la méthode accélérée par gradient conjuguée, le gain pouvant être très importants pour les forts contrastes. On remarquera cependant que pour les valeurs de autour de 0.1 la méthode de base semble plus efficace. En réalité, cette observation est probablement due à l’algorithme utilisée pour la résolution du problème linéaire : le gradientconjugué (« bicgstab » dans matlab) est introduit dans une boucle au sein de laquelle sa tolérance est diminuée si la solution obtenue ne vérifie pas le critère d’équilibre, ainsi, le nombre d’itération est toujours sur évalué.
Il apparaît clairement que les variables d’amplitude (onde de ciel et onde de sol) possèdent un modèle linéaire conditionnellement à toutes les autres variables. De plus, la fonction d’observation est continûment dérivable par rapport aux variables : et ) . Cette propriété, mariée au fait que les bruits de dynamiques (erreurs de mesure des capteurs de cap et vitesse) sont de faible puissance, fait que le !ltre de Kalman étendu peut être utilisé dans de bonnes conditions en poursuite, c’est à dire quand l’écart type d’estimation est faible vis à vis de la longueur d’onde du signal (5''' 4&% En d’autres termes, si l’écart type de position est inférieur au quart d’une longueur d’onde (@9' 4), le !ltre de Kalman étendu est stable autour de la bonne position. Tout le problème réside alors dans l’acquisition de la position quand l’incertitude initiale est de l’ordre de "' :4, valeur type utilisée par les marins. En effet, la pseudo-périodicité de l’onde rend la densité de probabilité a posteriori multi-modale.
– Bifurcation.
Lorsqu’on fait varier un paramètre de contrôle d’un système dynamique, le point de bifurcation cor- respond à une modification du comportement qualitatif du système. Par exemple, si plusieurs po- sitions d’équilibre peuvent coexister, leur stabilité peut changer en variant un paramètre physique. Lorsqu’une position d’équilibre devient linéairement instable, l’amplitude d’une petite perturbation autour de cette position augmente exponentiellement. Rapidement, les effets non-linéaires deviennent prédominants ; ainsi, de "nouvelles" positions d’équilibre peuvent devenir stables. C’est l’exemple le plus simple d’une bifurcation (pour une définition plus générale de la notion de bifurcation, voir Bergé et al ou Manneville.)
Finalement nous avons illustre cette methode a l'aide de deux problemes relies a des applications reelles de problemes de melange : un probleme de diete pour pore et un probleme d[r]
fait, dans la plupart des algorithmes d’optimisation modernes, on ne fait jamais de recherchelinéaire exacte, car trouver signi…e qu’il va falloir calculer un grand nombre de fois la
fonction ', et cela peut être dissuasif du point de vue du temps de calcul. En pratique, on
cherche plutôt une valeur de qui assure une décroissance su¢ sante de f: Cela conduit à la
densités de puissance utilisées en régime femtoseconde à haute cadence (puissance crête typique de l’ordre du TW/cm²) peuvent être plus destructives localement. Il y a donc des conditions d’excitation à respecter. Ces conditions sont difficiles à estimer, puisqu’elles dépendent de nombreux paramètres tels que la concentration et le type de fluorophore utilisé, la longueur d’onde d’excitation, le type d’échantillon étudié, et demeurent aujourd’hui encore un vaste domaine de recherche. Des études ont ainsi démontré que la puissance moyenne des faisceaux lasers excitateurs au niveau de l’échantillon ne doit pas dépasser quelques mW pour éviter tous phénomènes de saturation ou dégradation thermique [116, 117]. Selon une étude récente, il apparaît qu’à faible intensité d’excitation, les taux de photo‐ blanchiment suite à des excitations mono et bi‐photoniques sont comparables [118]. Néanmoins, en microscopie de fluorescence sous excitation mono‐photonique, l’excitation induit des effets de photo‐blanchiment sur la quasi‐totalité du trajet du faisceau. Une dégradation progressive de l’échantillon lors d’acquisition dans des plans focaux successifs est ainsi induite, dégradant la qualité et la fiabilité des images obtenues.
tonie rationnelle faible. 2
7.4 Conclusion sur les proprietes
Tous les resultats demontres dans les sections precedentes (section 7.3.1 page 42 a section 7.3.13 page precedente) sont recapitules dans les tableaux 7.1 et 7.2 page suivante. On constate ainsi que les relations graduelles etudiees verient tres peu de proprietes parmi celles denies par [KLM90, GM94]. Ce resultat n'est pas surprenant puisque ces proprietes avaient ete denies initialement dans le cadre de relations d'inference non-monotone utilisant le principe d'inference Uni . Remarquons cependant que les resultats
polynomial : pour de tr`es nombreux probl`emes, d’utilit´e pratique importante, on ne connaˆıt pas d’algorithme
polynomial et on n’a pas pu d´emontrer qu’il n’en existait pas.
La th´eorie de la complexit´e offre un palliatif `a cette situation en introduisant la notion d’algorithmes non d´eterministes polynomiaux (NP, contenant la classe des algorithmes polynomiaux) et en distinguant parmi ceux-ci la classe particuli`erement riche des algorithmes “les plus difficiles de NP” (ou NP-complets : elle contient de tr`es nombreux probl`emes classiques de logique, de recherche op´erationnelle ::: ) telle que si l’un de ces probl`emes se r´esout en temps polynomial (personne n’a encore r´eussi cet exploit), alors tous les prob- l`emes de NP se r´esolvent en temps polynomial.
6.1 Modèle cohésif et maillage adaptatif
La résolution numérique des problèmes basés sur des approches cohésives, parce qu’ils modélisent, à l’aide de loi de comportement particulièrement non-linéaire, le phénomène de rupture localisé sur une interface, requièrent des discrétisations particulièrement fines. En effet, seule l’utilisation d’éléments à une échelle très locale permet d’obtenir une "process zone" qui peut s’approcher de la zone transition entre fissure macroscopique et endommagement observable au cours d’essais sur structures réelles. Dans ces conditions, l’utilisation de modèles cohésifs pour la simulation de fissures longues (à l’aide d’élé- ments finis) est directement liée à la possibilité de raffiner et de déraffiner le maillage à mesure de la propagation pour éviter des coûts de calculs rédhibitoires.
Sulsky a étendu la méthode FLIP pour appliquer aux matériaux solides [Sulsky, 1994 ; Zhou, 1998] en ajoutant la force interne entre les particules, ce qui n’existe pas dans la FLIP [Sulsky, 1995]. Cette méthode, dite MPM (Material Point Method), est une des méthodes sans maillage [Frank, 2010] ; elle a obtenu des succès dans le traitement des problèmes concernant la grande déformation des matériaux solides. Dans cette méthode, le matériau est discrétisé en plusieurs particules (points matériels), comme une image numérique représentée par pixel [Nairn, 2006]. Ces points matériels emmènent toutes les propriétés du matériau et donc gèrent les équations constitutives dans l’approche lagrangienne. [Frank, 2010]. Comme la FLIP, la MPM utilise deux discrétisations de matériau, l’une basée sur la grille de calcul et l’autre basée sur les points matériels. Cette approche combine les avantages des descriptions eulérienne et lagrangienne en évitant les défauts de chacune [Sulsky, 1995]. Premièrement, les mailles de calcul utilisées dans la MPM ne sont jamais trop déformées. Les points matériels se déplacent à travers des mailles mais la grille de calcul est réactualisée à chaque boucle de calcul, donc il n’apparaît pas sa distorsion. Deuxièmement, la MPM gère automatiquement le contact entre les points matériels ainsi qu’entre les parois cellulaires lors de la densification du bois [Nairn, 2006]. Un autre avantage de la MPM est la discrétisation simple de matériau complexe [Bardenhagen, 2005], y compris la discrétisation directe à partir des images 2D ou 3D [Frank, 2010].
Kraus, Lehmann, Magidor obtiennent alors le theoreme de representation 4.1.3.
Theoreme de representation 4.1.3 Soient et deux formules du langage L , j p , il
existe un modele preferentiel denissant une relation j = p telle que j = p .
P peut-il ^etre considere comme un systeme convenable pour faire du raisonnement non-monotone ? Il semblerait que l'on ne puisse ajouter aucune autre regle de type deductif (permettant de deduire de nouvelles assertions). On peut par contre rajouter des regles d'un autre type, celles qui deduisent de l'absence d'une assertion l'absence d'une autre assertion :