Les effets de l'exposant de la fonction barrière multiplicative dans les méthodes de points intérieurs

(1)

RAIRO Oper. Res.37(2003) 99-117 DOI: 10.1051/ro:2003016

LES EFFETS DE L’EXPOSANT DE LA FONCTION BARRI` ERE MULTIPLICATIVE DANS LES M´ ETHODES

DE POINTS INT ´ ERIEURS

Adama Coulibaly

¹

et Jean-Pierre Crouzeix

²

Abstract. Potential functions in interior point methods are used to determine descent directions and to prove the convergence. They de- pend on a parameter which is usually taken equal to or greater than the size of the problem. Actually, smaller values give a better conditioning of the method near an optimal solution. This assertion is illustrated by a few numerical experiments.

Résumé. Les méthodes de points intérieurs en programmation linéaire connaissent un grand succès depuis l’introduction de l’algorithme de Karmarkar. La convergence de l’algorithme repose sur une fonction potentielle qui, sous sa forme multiplicative, fait apparaˆıtre un exposantp. Cet exposant est, de fa¸con générale, choisi supérieur au nombre de variables n du problème. Nous montrons dans cet article que l’on peut utiliser des valeurs de p plus petites que n. Ceci per- met d’améliorer le conditionnement de la méthode au voisinage de la solution optimale.

Mots Cl´es. Interior point methods, Karmarkar algorithm, multiplicative and additive potential functions, barrier function.

Classification Math´ematique. 49M35, 90C05, 26B25.

Re¸cu en avril 2003.

1 UFR Math.-Info., Universit´e de COCODY, BP 582, Abidjan 22, Cˆote d’Ivoire.

2 CUST et LIMOS, Université Blaise Pascal, Campus des Cézaux, 63174 Aubière, France.

c EDP Sciences 2003

(2)

1. Introduction et notations

On s’intéresse au problème de programmation linéaire α= min

x [hc, xi : x∈Rⁿ, x≥0, Ax=a] (LP) o`ua∈R^m, c∈Rⁿ et Aest une matrice r´eellem×nde rangm. On pose

S={x∈Rⁿ:x≥0, Ax=a}, Se={x∈Rⁿ:x >0, Ax=a},

S_opt={x∈Rⁿ:x≥0, Ax=a, hc, xi=α}·

La méthode du simplexe permet de résoudre ce problème en un nombre fini d’opérations élémentaires, mais ce nombre d’opérations augmente de fa¸con expo- nentielle avec la taille du problème. Une alternative consiste à utiliser une méthode de points intérieurs. Dans ce travail, on considère le problème

inf [f_p(x) :x∈S] (P_m)

où la fonction f_p, p > 0, appelée fonction barrière multiplicative, est d´efinie sur Separ

f_p(x) = (hc, xi −α)^p Yn i=1

x⁻¹_i

et est prolongée par semi-continuité inférieure surS. On peut tout autant, et de fa¸con totalement équivalente, considérer lafonction barrière logarithmique

g_p(x) = ln(f_p(x)) =pln(hc, xi −α)− Xn i=1

ln x⁻¹_i et le probl`eme associ´e

inf h

g_p(x) :x∈Se i

. (P_l)

On sait que les fonctionsf_p et g_p sont pseudoconvexes sur S dès que p≥ndans le cas général et dès quep≥n−1 lorsqueS est compact. En outref_pest convexe sur S dès que p ≥ n+ 1 dans le cas général et dès que p ≥ n lorsque S est compact [3, 4, 10, 12].

En raison du comportement de leurs fonctions objectives sur la frontière relative de S, les probl`emes (P_m) et (P_l) peuvent être considérés comme des problèmes d’optimisation sans contraintes ; on peut alors utiliser une méthode de descente, par exemple la méthode de Newton. Au voisinage d’une solution optimale on se trouve confronté à un problème de conditionnement, de sorte qu’il est difficile d’approcher cette solution optimale. Il ressort des expériences numériques que nous avons effectuées que le conditionnement s’améliore lorsquep diminue, d’où

(3)

l’intérêt de choisirple plus petit possible sans pourtant perdre les propriétés de convexité des fonctionsf_p etg_p. C’est l’objet de cet article.

Dans les parties 2 et 3, nous nous intéressons tout d’abord aux valeurs de p pour lesquelles les problèmes (LP), (P_m) et (P_l) admettent les mêmes solutions optimales, ensuite aux valeurs pour lesquelles les seuls points stationnaires de (P_m) ou (P_l) sont les solutions optimales des problèmes, puis aux valeurs de p pour lesquelles les fonctionsf_p etg_p sont convexes ou pseudoconvexes.

Nous étudions ensuite, dans la partie 4, les effets du paramètrepsur la direction de Newton, puis, dans la partie 5, le comportement de la méthode de Newton au voisinage de la solution optimale lorsque celle-ci est unique. Enfin, dans la dernière partie, nous présentons des expériences numériques.

Les notations utilis´ees dans cet article sont les suivantes :

h. , .i, k.k, k.k_∞ désignent respectivement le produit scalaire usuel, la norme euclidienne et la norme du maximum deRⁿ. Étant donnésx, y ∈Rⁿ, on dira que x≤y (respectivementx < y) si et seulement si pour touti∈ {1,· · ·, n},x_i≤y_i (respectivement x_i < y_i). Étant donné x ∈ Rⁿ, on désigne par X = diag(x) la matrice diagonale d’ordrendéfinie par X_ii=x_ipour touti. Pourx∈S, on note I(x) l’ensemble

I(x) ={i∈ {1,· · ·, n}:x_i= 0}·

Idésigne la matrice identité etele vecteur dont toutes les composantes sont égales

`

a 1. S’il est besoin de faire apparaˆıtre la dimensionk, on utilisera les notationsI_k ete_k.

Etant donn´´ ee une matrice carrée symétrique réelleM d’ordren,l’inertiedeM notée Inertie(M) est le triplet

Inertie(M) = (µ₊(M), µ₋(M), µ₀(M)) (1) où µ₊(M), µ₋(M), et µ₀(M) désignent respectivement les nombres de valeurs propres de M strictement positives, strictement négatives et nulles ; les valeurs propres sont comptées avec leur ordre de multiplicité et doncµ₊(M) +µ₋(M) + µ₀(M) =n.

SoitM une matrice carrée décomposée en blocs de la fa¸con suivante M =

A B

C D

,

les matrices Aet Détant carrées et Anon singulière. On appellecomplément de SchurdeAparM la matrice notéeM/Adéfinie par

M/A=D−CA⁻¹B. (2)

On a alors

det(M) = det(M/A) det(A) (3)

et lorque la matrice M est sym´etrique,

Inertie(M) = Inertie(M/A) + Inertie(A). (4)

(4)

Etant donn´´ esx∈Rⁿ et Amatrice m×n de rangm, on dénote par proj(x|A) = (I−A^t(AA^t)⁻¹A)xla projection euclidienne dexsur le noyau deA. Pour calculer numériquementy= proj(x|A) on résout le système linéaire d’ordren+m

I A^t

A 0

y u

= x

0

.

2. Les probl` emes (LP ), (P

_m

) et (P

_l

)

Dans tout l’article, on suppose que les hypothèses suivantes sont vérifiées :

• (H0) : la matriceA est de rangmeta6= 0 ;

• (H1) : Se6=∅;

• (H2) : S_opt6=∅et S_opt6=S;

• (H3) : la valeur optimaleαest connue.

L’hypothèse (H0) signifie que le système Ax = a n’est pas redondant et que le problème n’est pas dégénéré (si a = 0 alors ou bien 0 est solution optimale du problème ou bienα=−∞).

L’hypothèse (H1) implique que Se est l’intérieur relatif de S et que S est la fermeture deS. L’hypothè ese (H2) implique queS_opt∩Se=∅ et donc queS_opt est contenu dans la frontière relative deS. Ce sont des hypothèses classiques dans les méthodes de points intérieurs.

L’hypothèse (H3) est plus contraignante. On sait cependant qu’étant donné un problème de programmation linéaire on peut, par adjonction du problème dual, se ramener à ce cas (on a alorsα= 0). Cette opération a l’inconvénient d’augmenter la taille du problème.

Remarque 2.1. On note que, en raison des hypoth`eses (H0), (H1) et (H2), la n×(m+ 1) matrice (A^t, c) est de rangm+ 1.

Rappelons que nous voulons résoudre le problème (LP) au moyen du prob- lème (P_m). La première condition à imposer au paramètre p est d’être tel que les problèmes (LP) et (P_m) partagent les mêmes solutions optimales. Pour cela, définissons

ˆ

p₀= max [ card(I(x)) : x∈S_opt]. (5) En raison des conditions d’optimalité appliquées à (LP), on a l’inégalité ˆp₀ ≥ n−m+ddans laquelledest la dimension du sous espace affine engendré parS_opt. Dans le cas particulier oùS_optest réduit à un point on a ˆp₀=n−m.

Proposition 2.1. Supposonsp >pˆ₀. Alors,

f_p(x) =





(hc, xi −α)^pQ_n

i=1x⁻¹_i six∈S,e

0 six∈S_opt,

+∞ ailleurs.

(6)

Il s’ensuit que les probl`emes (LP)et(P_m)ont les mˆemes solutions optimales.

(5)

Démonstration. On note tout d’abord que f_p(x)>0 pour tout x appartenant à Seet donc par semi-continuité inférieuref_p(x)≥0 pour toutxdansS. Il est clair que f_p(x) = +∞ si x appartient à la frontière relative de S sans être solution optimale. Il reste le cas où xest solution optimale : prenonsxearbitraire dans Se et, pourt∈]0,1[,x_t=x+t(ex−x). Alorsx_t∈Seet

f_p(x_t) =t^phc,ex−xi^p Yn i=1

[x_i+t(ex_i−x_i)]⁻¹

=t^p−cardI(x)hc,ex−xi^p Y

i∈I(x)

(ex_i)⁻¹ Y

i /∈I(x)

[x_i+t(ex_i−x_i)]⁻¹.

Passer `a la limite lorsquet→0₊. On en d´eduit quef_p(x) = 0.

Si on travaille avec la fonction barri`ere logarithmiqueg_p,f_p(x) = 0 correspond

`

a g_p(x) =−∞.

On supposera désormaisp >pˆ₀.Les solutions des problèmes (LP), (P_m) et (P_l) étant les mêmes et les problèmes (P_m) et (P_l) pouvant être considérés sans contraintes, on pourra résoudre ces problèmes à l’aide d’une méthode de descente.

De fa¸con générale, une méthode de descente génère une suite d’itérés qui converge vers un point stationnaire. On demandera donc aux problèmes (P_m) et (P_l) de n’admettre comme points stationnaires que des solutions optimales. Rappelons qu’un point stationnaire est un point vérifiant les conditions d’optimalité du premier ordre. Les points stationnaires de (P_m) et (P_l) sont les mêmes. Introduisons les fonctions suivantes

fe_p(x, t) =Q_nt^p

i=1x_i et eg_p(x, t) =plnt− Xn i=1

lnx_i (7)

d´efinies sur

Te={(x, t) : x >0, Ax=a, hc, xi −t=α} (8) et prolongées par semi-continuité inférieure sur

T ={(x, t) : x≥0, Ax=a, hc, xi −t=α} et les probl`emes associ´es

inf [f_p(x, t) : (x, t)∈T], (P_ma) inf [g_p(x, t) : (x, t)∈T]. (P_la) Il est facile de voir que x ∈ Se est un point stationnaire de (P_m) et de (P_l) si et seulement (x, t=hc, xi −α) est un point stationnaire de (P_ma) et (P_la). Par d´efinition, (x, t) est stationnaire pour ces probl`emes lorsque le vecteur∇gp(x, t)

(6)

est combinaison lin´eaire desm+ 1 colonnes de la matrice A^t c

0 −1

.

Nous avons vu dans la remarque 2.1 que ces colonnes sont lin´eairement ind´ependantes.

On en d´eduit le r´esultat suivant :

Remarque 2.2. Le point (x, t) ∈ Te n’est pas stationnaire si et seulement si la matrice

A^t c −X⁻¹e 0 −1 ^p_t

!

est de rang m+ 2.

On choisira p de fa¸con `a ce que cette condition soit satisfaite.

Les méthodes de descente sont particulièrement efficaces lorsque la fonction est convexe ou pseudoconvexe. Rappelons qu’une fonction différentiablef est dite pseudoconvexesur le convexeCsi

x, y∈C etf(y)< f(x) =⇒ h∇f(x), y−xi<0 et strictement pseudoconvexesi

x, y∈C, x6=y etf(y)≤f(x) =⇒ h∇f(x), y−xi<0.

Si f est pseudoconvexe et f(y)< f(x), alorsy−xest direction de descente, en outre le long d’une direction de descente tout minimum local est global. Il est clair qu’une fonction convexe est pseudoconvexe. Nous utiliserons les caractérisations du second ordre de convexité et pseudoconvexité sur un sous-espace affine suivantes.

Proposition 2.2[3]. SoientC un convexe ouvert de Rⁿ,b∈R^m,B une matrice m×n de rangm,D={x∈C : Bx=b} etf :C−→Rdeux fois diff´erentiable surD n’admettant aucun point stationnaire sur D. Alors,

a) f est convexe surD si et seulement si

x∈D et Bh= 0 =⇒ h∇²f(x)h, hi ≥0 ;

b) si h∇²f(x)h, hi > 0 pour tout x∈ D et h 6= 0 tels que Bh = 0 alors f est strictement convexe sur D. Si en outre ∇²f est continue en x, f est fortement convexe surD dans un voisinage dex;

c) f est pseudoconvexe surD si et seulement si

x∈D,h∇f(x), hi= 0 etBh= 0 =⇒ h∇²f(x)h, hi ≥0 ;

d) si h∇²f(x)h, hi>0 pour tout x∈D eth6= 0 tels queh∇f(x), hi= 0 et Bh= 0 alors f est strictement pseudoconvexe surD.

(7)

On est ainsi amené à étudier la semi-définie positivité d’une forme quadratique sur un sous-espace affine, on utilise pour cela la proposition suivante.

Proposition 2.3 [1]. Soit la matrice suivante M =

A B^t

B 0

oùAest une matrice symétrique n×netB est une matricem×nde rangm. On a les résultats suivants :

• µ₊(M)≥met µ₋(M)≥m;

• (Bh= 0⇒ hAh, hi ≥0)⇐⇒µ₋(M) =m;

• (Bh= 0, h6= 0⇒ hAh, hi>0)⇐⇒µ₊(M) =n.

Il est clair que f_p, g_p et fe_p sont pseudoconvexes si et seulement si eg_p l’est. En raison des deux propositions ci-dessus on est amené à étudier, pour tout (x, t)∈Te, l’inertie de la matrice suivante

N(p, x, t) =







X⁻² 0 A^t c −X⁻¹e 0 −_t^p2 0 −1 ^p_t

A 0 0 0 0

c^t −1 0 0 0

−e^tX⁻¹ ^p_t 0 0 0





 .

Notons que, en raison de la remarque 2.2, si (x, t) est un point stationnaire alors det(N(p, x, t)) = 0 et si (x, t) n’est pas stationnaire alorsµ₋(N(p, x, t))≥m+ 2.

La matriceN(p, x, t) a la mˆeme inertie que la matrice suivante







I 0 XA^t Xc −e

0 −_p¹ 0 −^t_p 1

AX 0 0 0 0

c^tX −_p^t 0 0 0

−e^t 1 0 0 0





 .

En prenant le compl´ement de Schur de cette matrice par la matrice

−¹_p 1

1 0

on voit que la condition suffisante de stricte pseudoconvexit´e en (x, t) tient si et seulement si la matrice

N(p, x, t) =ˆ







I−¹_pee^t XA^t Xc−_p^te

AX 0 0

c^tX−^t_pe^t 0 0







(8)

a exactementn valeurs propres strictement positives, cette condition est vérifiée dès que p > ncar la matrice I−¹_pee^test alors définie positive. PosonsP_x,t(p) = (−1)^m+1det( ˆN(p, x, t)), P_x,t est un polynôme de degré 2 en ¹_p, la condition de stricte pseudoconvexité de la proposition 2.2 en (x, t) estP_x,t(p)>0.

La fonctionf_p est convexe surS si et seulement sife_p l’est surT. La condition suffisante de forte convexité de la fonction fe_p en (x, t) est reliée à l’inertie de la matrice suivante

M(p, x, t) =







X⁻¹(I+ee^t)X⁻¹ −^p_tX⁻¹e A^t c

−^p_te^tX⁻¹ −^p_t2² +^p_t 0 −1

A 0 0 0

c^t −1 0 0







qui a mˆeme inertie que la matrice suivante

Mf(p, x, t) =







I+ee^t −e XA^t Xc

−e^t 1−¹_p 0 −_p^t

AX 0 0 0

c^tX −_p^t 0 0





·

PosonsQ_x,t(p) = (−1)^m+1det(Mf(p, x, t)),Q_x,t est un polynˆome de degr´e 2 en ¹_p· Puisque la matrice

A^t c

0 −1

est de rangm+ 1, la condition de forte convexité defe_p en (x, t) est donc équivalente à Q_x,t(p)>0.

En prenant le compl´ement de Schur de la matriceMf(p+ 1, x, t) par la matrice d’ordre 1 _p+1^p , on voit que la condition de forte convexit´e en (x, t) pourfe_p+1 tient si et seulement si la matrice

Mˆ(p, x, t) =







I−_p¹ee^t XA^t Xc−_p^te

AX 0 0

c^tX−^t_pe^t 0 −_p(p+1)^t²







a exactementnvaleurs propres strictement positives. On en d´eduit la proposition suivante :

Proposition 2.4. a) Sip≥n alors la fonction f_p+1 est convexe sur S.

b) Si la fonctionf_p+1 est convexe surS, alors les fonctionsf_pet g_p sont pseu- doconvexes sur S.

Démonstration. a) Sik > nalors la matriceI−¹_kee^test définie positive, la fonction fe_k+1 est strictement convexe surTe, passer à la limite lorsquek tend versp.

(9)

b) Il est clair queµ₊( ˆN(p, x, t))≥µ₊( ˆM(p, x, t)).

Nous avons vu que les polynômes P_x,t et Q_x,t sont de degré 2 en ¹_p et sont strictement positifs dès que p > n pour le premier et p > n+ 1 pour le second. Il est donc possible de déterminer, en fonction des racines éventuelles de ces polynômes, les quantités minimales p₁(x, t) et p₂(x, t) telles que les conditions de stricte pseudoconvexité et stricte convexité tiennent pourp > p₁(x, t) et p > p₂(x, t) respectivement. On pose ensuite

ˆ p₁= sup

h

p₁(x, t) : (x, t)∈Te i

et ˆp₂= sup h

p₂(x, t) : (x, t)∈Te i

.

Proposition 2.5. Si p > pˆ₁, les fonctions f_p et g_p sont strictement pseudocon- vexes sur S, sie p >pˆ₂, la fonctionf_p est strictement convexe surS.e

S’il est possible de calculer les coefficients des polynomesP_x,tet Q_x,tet par l`a les valeursp₁(x, t) etp₂(x, t), on peut chercher des majorations plus commodes de p₁(x, t) etp₂(x, t). Pour cela consid´erons la restriction de la fonction

h_p(x, t) =t^pΠx⁻¹_i t >0, x >0

au sous-espace affine {(x, t) : Ax=a}. La convexit´e de cette fonction est li´ee `a l’inertie de la matrice

Q(p, x, t) =







X⁻¹(I+ee^t)X⁻¹ pt⁻¹X⁻¹e A^t pt⁻¹e^tX⁻¹ (p²−p)t⁻² 0

A 0 0







qui a mˆeme inertie que la matrice

Q(p, x, t) =e







I+ee^t e XA^t e^t 1−¹_p 0

AX 0 0





.

La condition de forte convexit´e en (x, t) tient siµ₊(Q(p, x, t)) =e n+ 1 soit encore, puisque la matriceAX est de rang m, si

δ= (−1)^mdet(Q(p, x, t))e >0.

Il est facile de voir que (−1)^mδ= det



 I+ee^t 0 XA^t

0 1 0

AX 0 0



−1 pdet



 I+ee^t 0 XA^t

0 1 0

AX 0 0





= det

I XA^t

AX 0

−1 pdet

I+ee^t XA^t

AX 0

.

(10)

On en d´eduit que la condition tient si et seulement si p >(n+ 1) det

AX²A^t− 1 n+ 1aa^t

det

(AX²A^t)⁻¹ .

Soit encore, en considérant la matrice symétrique définie positive B telle que B²AX²A^t=I, si

p >(n+ 1) det

I− 1

n+ 1B⁻¹aa^tB⁻¹

=n+ 1−

(AX²A^t)⁻¹a, a

·

On pose pour tout x >0

p₃(x) =n+ 1−D

AX²A^t₋₁ a, a

E

(9) et

ˆ p₃= sup

h

p₃(x) : x∈Se i

.

La fonction f_p est alors strictement convexe sur Se d`es que p >pˆ₃. En raison de la proposition 2.4, la fonction f_p est strictement pseudoconvexe sur Se d`es que p >pˆ₃−1.

La d´etermination dep₃(x) est donc beaucoup plus facile que celles dep₁(x, t) et p₂(x, t). Nous allons ´etudier cette fonctionp₃ dans la section suivante.

3. Quelques propri´ et´ es de la fonction p

3

La fonction r(x) =h(AX²A^t)⁻¹a, ai a été étudiée par Crouzeix–Kebbour [4].

Nous compl´etons cette ´etude ci-dessous.

Soit x∈ S, on sait que la matricee AX est une matricem×n de rangm. On posera

P_x=I−XA^t(AX²A^t)⁻¹AX

P_x est la matrice projection sur le noyau de la matrice AX. On a les relations suivantes :

p₃(x) = 1 +kPxek² (10)

=n+ 1−inf

y [kyk² : AX(y−e) = 0] (11)

=n+ 1 + inf

v [kXA^tvk²−2ha, vi] (12)

= 1 + inf

u [kXA^tu−ek²] (13)

=n+ 1−sup

u

hXA^tu, ei²

kXA^tuk² : u6= 0

. (14)

L’équivalence entre (9) et (10) vient de la relationAXe=Ax=a, en r´esolvant les problèmes d’optimisation on obtient l’équivalence entre (9, 11) et (12), l’équivalence

(11)

entre (12) et (14) est obtenue en faisant v = tu, t ∈ R dans (12) et en prenant l’infimum par rapport `a t, enfin (13) est une r´e´ecriture de (12).

A partir de (12) on voit que la fonction` p₃est définie non seulement surSemais aussi sur tout l’espaceRⁿ. En outre, on a les propriétés suivantes :

Proposition 3.1. a)p₃ est semi-continue sup´erieurement surRⁿ; b) 1< p₃(x)< n+ 1 pour toutx∈Rⁿ;

c) si S est compact, alors p₃(x)< npour toutx∈Se; d) la fonction p₃ est diff´erentiable sur Seet on a

∇p₃(x) =−2X⁻¹diag(P_xe)(e−P_xe).

D´emonstration. a) Pour toutu, la fonctionx→ kXA^tu−ek² est continue enx.

En raison de (12), la fonction p₃ est semi-continue supérieurement puisque elle est l’infimum de fonctions semi-continues supérieurement. b) On ne peut avoir P_xe = 0 car on aurait alors 0 = AXe = Ax = a 6= 0 et donc 1 < p₃(x). De même, on ne peut avoir y = 0 dans (11) et donc p₃(x) < n+ 1. Fixonsx ∈ S,e sup[hX⁻¹e, yi:y ∈S] est fini car S est compact. Par dualité en programmation linéaire, il existe u ∈ R^m tel que A^tu ≥ X⁻¹e > 0. Posons w = XA^tu, alors w ≥ e > 0. Puisque n⁻¹ < khk² ≤ 1 pour tout h > 0 tel que hh, ei = 1, (14) impliquep₃(x)< n. La fonctionϕ(x, u) = 2⁻¹kXA^tu−ek²= 2⁻¹kdiag(A^tu)x−ek² est différentiable à tout ordre sur (0,∞)ⁿ×R^m. x∈Seétant fixé, elle atteint son minimum au pointu(x) = (AX²A^t)⁻¹Ax. Il s’ensuit que

2⁻¹∇p3(x) =∇ϕx(x, u(x))

= diag(A^tu(x))[diag(A^tu(x))x−e]

=X⁻¹diag(XA^tu(x))[XA^tu(x)−e]

=−X⁻¹diag(e−P_xe)P_xe

=−X⁻¹diag(P_xe)(e−P_xe).

En effet XA^tu(x) =e−P_xe.

Remarque 3.1. Soitx∈S, la restriction dee p₃au sous espace{y : Ay=a} est stationnaire enxsi et seulement sih∇p₃(x), Xhi= 0 pour touthtel queAXh= 0.

Cela signifie queP_x(X∇p₃(x)) = 0, c’est-`a-direP_x(diag(P_xe)(e−P_xe)) = 0.

Remarque 3.2. On peut voir à partir de la démonstration qu’en fait p₃ est différentiable en toutx∈Rⁿ tel que AXest de rang m.

Int´eressons nous maintenant au comportement de la fonctionp₃ aux points de la fronti`ere relative deS.

Proposition 3.2. Soitx∈S/S. Posonse q(x) =n−card(I(x)). Alors1< p₃(x)≤ q(x) + 1. Si en outreS est compact, p₃(x)≤q(x).

(12)

Démonstration. Posons J(x) = {i = 1,2,· · ·, n : i /∈ J}, B et C les matrices obtenues à partir deAen ne retenant respectivement que les colonnes correspon- dant aux indices appartenant à I(x) etJ(x), de la même fa¸con, les vecteursy et z sont obtenus à partir du vecteur x. On a alorsx= (y, z) et Ax=By+Cz. La fonction h_p(z) = t^pΠz⁻¹_k est convexe dans un voisinage dex sur le sous espace {z : z > 0, Cz = a} dès que p ≥ q(x) + 1 en raison du b) de la proposition précédente etp≥q(x) lorsque{z : z≥0, Cz=a}est compact, ce qui est le cas

lorsque S est compact.

Corollaire 3.1. SiS est compact alors pˆ₃< n.

D´emonstration. Puisque la fonction p₃ est semi-continue sup´erieurement sur S, son maximum sur S est atteint. On a vu que surSeet S/Seon a p₃(x)< n.

La fonction p₃ d´epend de l’ensembleS et non du vecteurc. On sait queS est compact si et seulement si

d≥0 etAd= 0 =⇒d= 0.

LorsqueS est non compact, on a le r´esultat suivant.

Proposition 3.3. SiS est non compact, alorsn≤pˆ₃≤n+ 1.

D´emonstration. Prenonsc=eet supposons que la fonction f_p est convexe avec, pour contradiction,p < n. On note queS_optest alors non vide et compact puisque

d≥0, hc, di ≤0 etAd= 0 =⇒d= 0.

Il s’ensuit que la fonctionf_pest inf-compacte. D’autre part, il existe ˆd≥0 tel que Adˆ= 0 ethe, di>0. Soit ¯x∈S, on a pour toute t >0

f_p

¯ x+tdˆ

= D

c,x¯+tdˆ E−α

_p Π

¯ x_i+tdˆ_i

₋₁ .

Lorque p tend vers l’infini, f_p(¯x+td) tend vers 0 et puisqueˆ f_p est convexe, f_p(¯x+td)ˆ ≤f_p(¯x) pour toutt≥0 et ainsif_p est non inf-compacte. De l`a, ˆp₃≥n

puisque f_p est convexe pour toutp≥pˆ₃.

4. Influence du facteur p sur la direction de Newton

Une des méthodes les plus efficaces en optimisation sans contraintes pour mi- nimiser une fonction f deux fois différentiable est la méthode de Newton. Elle s’applique également lorsque l’ensemble réalisable est un sous-espace affine. Dans le cas présent du problème (P_m), elle consiste, l’itéréx_k>0 tel queAx_k =aayant

(13)

´

eté obtenu lors de l’itération précédente, à calculer la directiond_k en résolvant le problème d’optimisation quadratique

mind

1

2h∇²f_p(x_k)d, di+h∇fp(x_k), di : Ad=a

puis à déterminert_k solution du problème

mint [f_p(x_k+tkdkk⁻¹d_k) : t∈R], on prend ensuitex_k+1 =x_k+t_kd_k.

Pour obtenird_k, on résout le système linéaire

∇²f_p(x_k) A^t

A 0

! d_k v_k

!

= −∇f_p(x_k) 0

!

. (15)

Ce syst`eme a une solution et une seule d`es lors que la restriction def_p au sous espace affine est fortement convexe dans un voisinage dex_kce qui est le cas lorsque p > p₃(x). Rappelons quef_p(x) = exp(g_p(x)) et donc

1

f_p(x)∇fp(x) =∇gp(x) et 1

f_p(x)∇²f_p(x) =∇²g_p(x) +∇^tg_p(x)∇gp(x).

Consid´erons le syst`eme

∇²g_p(x_k) A^t

A 0

! δ_k u_k

!

= −∇g_p(x_k) 0

!

. (16)

Les solutions des systèmes (15) et (16) sont clairement reliées. Il est en effet facile de voir que (1− h∇g_p(x_k), δ_ki)d_k = δ_k. Le deuxième système est plus facile à résoudre que le premier. Puisqued_k etδ_k sont colinéaires,t_k est aussi solution du problème

mint

g_p x_k+tkδkk⁻¹δ_k

: t∈R .

Il est à noter qued_k etδ_k peuvent être de signe contraire et donc la direction δ_k peut être une direction de montée et non de descente enx_k pour les fonctionsf_p etg_p, ce sera en fait le cas ici. Notons que l’on a

h∇gp(x_k), δ_ki=

∇gp(x_k) 0

,

δ_k u_k

=−

∇²g_p(x_k) A^t

A 0

δ_k u_k

,

δ_k u_k

=−h∇²g_p(x_k)δ_k, δ_ki

de mˆeme, on ah∇fp(x_k), d_ki=−h∇²f_p(x_k)d_k, d_kice qui est conforme au fait que d_k correspond `a la direction de Newton enx_k pourf_p.

(14)

En rempla¸cant dans (16) ∇gp(x_k) et ∇²g_p(x_k) par leurs valeurs on obtient le syst`eme

I−pˆc_kcˆ^t_k X_kA^t

AX_k 0

! X_k⁻¹δ_k u_k

!

=

e−pˆc_k 0

(17) o`u ˆc_k= (hc, x_ki −α)⁻¹X_kc.

Il en r´esulte qu’il existeλtel que

X_k⁻¹δ_k=P_ke+λP_kˆc_k

o`u P_k =I−X_kA^t(AX_k²A^t)⁻¹AX_k d´esigne la matrice projection sur le noyau de la matriceAX_k. Finalement, on obtient

X_k⁻¹δ_k =P_ke+p1− hPkˆc_k, ei pkP_kˆc_kk²−1P_kcˆ_k

=

P_ke+1− hPkˆc_k, ei kP_kˆc_kk² P_kˆc_k

+ 1− hPkcˆ_k, ei

kP_kˆc_kk²(pkP_kˆc_kk²−1)P_kˆc_k. Il est int´eressant de comparer cette direction δ_k avec la direction du gradient projet´e

δˆ_k=P X_k⁻¹[pˆc_k−e]

o`uP =I−A^t(AA^t)⁻¹Ad´esigne la matrice projection sur le noyau de la matriceA.

On voit quepa un effet multiplicatif sur le vecteur ˆc_kpour ˆδ_ket un effet contraire pour δ_k.

5. Le comportement pr` es d’une solution optimale

Dans cette partie, nous supposons que ¯xest la solution unique du problème (LP) et que la matrice AX¯ est de rang m. Nous allons montrer que la direction de Newton en un pointx= ¯x+h∈Seproche de ¯xest très proche deh. Ce sera donc une très bonne direction.

Puisque AX¯ est de rangm et ¯xest solution optimale, il résulte des conditions de complémentarité que ¯xa exactementmcomposantes strictement positives, en outre lesmcolonnes deAcorrespondantes sont linéairement indépendantes. Nous supposons que l’on ap > n−m, nous savons alors qu’en raison des propositions 2.4 et 3.2, les fonctionsf_p et g_p sont strictement pseudoconvexes dans un voisinage de ¯x.

Sans perte de généralité, on suppose que lesn−mpremières composantes de

¯

xsont nulles. Il existe une matrice R= (I_n−m, M) avecM matrice (n−m)×m telle que

A(x−x) = 0¯ ⇐⇒ ∃y∈R^n−m tel quex= ¯x+R^ty.

Lorsquex= ¯x+R^ty∈Se(on a alorsy >0), on pose h_p(y) =g_p(¯x+R^ty).

(15)

On a

∇hp(y) =R∇gp(x) et ∇²h_p(y) =R∇²g_p(x)R^t,

la direction de Newton ∆ en y pour la fonction h_p est reli´ee `a la direction de Newton δenxpour la fonctiong_p par la relation ∆ =R^tδ. Notons que

h_p(y) =plnhRc, yi − Xn i=1

ln( ¯x_i+r^t_iy)

o`ur^t_i d´esigne la ligneideR^t. Posons ˆ

c=Rc et b_i= r_i

¯

x_i+n−m ∀i= 1,· · ·, m.

Puisque ¯x est solution optimale unique, on a ˆc > 0. L’´equation ∇²h_p(y)∆ =

−∇h_p(y) s’´ecrit

Y⁻²+X b_ib^t_i

(1 +hb_i, yi)²−p cˆˆc^t hc, yˆ i²

∆ =Y⁻¹e+X b_i

1 +hb_i, yi−p cˆ hˆc, yi· Posonsktel que ∆ =Y(e+k). On a alors

Y⁻¹k=X b_i

(1 +hbi, yi)² +phY²c, Yˆ ⁻¹ki

hˆc, yi² cˆ−XhY²b_i, Y⁻¹ki (1 +hbi, yi)²b_i·

On note que le vecteurY⁻¹k∈R^n−mest combinaison lin´eaire desm+1 vecteurs ˆc et b_i. Donc, il existe µ_i et λtels queY⁻¹k=P

µ_ib_i−λˆc, il n’y a pas unicité en général. On remplace Y⁻¹k par sa valeur dans l’expression ci-dessus. On obtient un système linéaire den−méquations àm+ 1 inconnues. Notons que si on sait trouverµ_i etλtels que

(1 +hb_i, yi)²µ_i= 1−X

j

µ_jhY b_i, Y b_ji+λhY b_i, Yˆci

−hˆc, yi²λ=pX

j

µ_jhYˆc, Y b_ji −pλkYckˆ ²

notre problème est résolu. Nous sommes en présence d’un système linéaire dem+1

´equations `a m+ 1 inconnues. On obtient

λ=X phYc, Y bˆ _ii pkYˆck²− hYc, eiˆ ²µ_i· Notons que l’on a

pkYckˆ ²− hYˆc, ei²=h(pI−ee^t)Yc, Yˆ ˆci·

(16)

Les valeurs propres de la matrice (pI −ee^t) sont p et p−n+m et sont donc strictement positives. Il s’ensuit que

(p−n+m)kY ck²≤pkYˆck²− hYˆc, ei²· Pour chaque ion a

|hYˆc, Y b_ii| ≤ kYˆck kY b_ik ≤ kYˆck kykkb_ik∞. D’autre part, puisque le vecteur ˆcest strictement positif,kYˆck= (P

ˆ

c²_jy_j²)¹² est une norme pour le vecteury et il existe donc une constanteγ d´ependant uniquement de ˆc tel quekYˆck ≥γkyk. Il s’ensuit que

phYˆc, Y b_ii pkYˆck²− hYˆc, ei²

≤ pkbik∞

(p−n+m)γ· (18)

On reporte la valeur de λdans lesmpremières équations, on obtient un système de m équations à m inconnues. En négligeant les termes du premier ordre en y, on obtient les approximations suivantes :

µ_i ∼1 pour tout i, puis λ∼ˆλ=p hYc,ˆ P Y b_ii pkYˆck²− hYc, eiˆ ²· On voit queλest born´e.

On a donc ∆ ∼ y +Y²(P

b_i −λˆc). La droite d’origine x = ¯x+R^ty et de direction R∆ passe donc tr`es près de la solution optimale ¯xet est donc une très bonne direction de descente, on voit d’après l’équation (18) que la distortion due à cdiminue lorsquepdiminue. Par ailleurs, dans la recherche linéaire, le numérateur (hc, xi−α)^pest moins proche de 0 si on travaille avecf_p, la quantitéplog(hc, xi−α) est moins proche de−∞si on travaille avecg_p, la détermination du pas est donc moins sujette à erreurs.

6. Exp´ eriences num´ eriques

Afin de montrer que le choix de petites valeurs pour p permet effectivement d’améliorer la précision, nous avons comparé sur des problèmes tests un algorithme, appelé ici Alg I, basé sur les résultats que nous avons exposés ci-dessus avec deux algorithmes proposés par Gonzaga, appelés ici Alg II [6] et Alg III [8].

Les probl`emes tests sont issus de la biblioth`eque NETLIB, ils sont de la forme β = min

y [hd, yi : y≥0, By=b] (P r) oùd∈Rⁿ¹,b∈Rⁿ² etB est une matricen₂×n₁. La valeurβ étant inconnue, on adjoint au problème son dual

β = max

z,w [hb, zi : w≥0, B^tz+w=d]. (D)

(17)

On est donc conduit `a trouvery, w∈[0,∞[ⁿ¹ et u, v∈[0,∞[ⁿ² tels que By =b, B^t(u−v) +w=d et d^ty−b^t(u−v) = 0 avecz=u−v. Finalement le probl`eme est mis sous la forme

0 = min [hc, xi : x≥0, Ax=a], (LP) o`u

x=





 y u v w λ





, c=





 0 0 0 0 1





, a=



 b d 0



, A=



 B 0 0 0 b−Be₁ 0 B^t −B^t I d−e₁ d^t −b^t b^t 0 −d^te₁



,

ete₁, e₂sont les vecteurs respectivement deRⁿ¹etRⁿ²dont toutes les composantes sont égales à 1. Icin= 2(n₁+n₂) + 1 etm=n₂+n₁+ 1. On note que le vecteur x₀, où x^t_o= (e^t₁, e^t₂, e^t₂, e^t₁,1), est une solution réalisable du problème.

Pour l’algorithme Alg I, nous nous sommes donnés 2 valeursρ₁, ρ₂ >1 (dans les expériences nous avons pris ρ₁= 2 etρ₀ = 1,5). A l’itérationk, x_k ayant été calculé dans l’étape précédente, nous prenons

p_k= max [n−m+ρ₁, p₃(x_k) +ρ₀].

On fait une recherche linéaire sur la direction de Newton en x_k pour la fonction g_p_k. Le paramètrep_k est donc ajusté à chaque itération.

L’algorithme Alg III est le même algorithme mais avec p fixe. Nous avons considéré le choix préconisé par Gonzaga dans son article [8]p=n+√

n.

L’algorithme Alg II (Gonzaga [6]) n´ecessite une transformation pr´ealable. (LP) est mis sous la forme

0 = min

hh˜c,xi˜ : ˜x≥0, A˜˜x= 0, X

˜ x_i = 1

i ,

où ˜c^t = (c,0)^t est un vecteur de Rⁿ⁺¹, Ã = (A,−a) est une matrice m×(n+ 1). L’algorithme minimise la fonctiong_p avec, compte tenu de l’adjonction d’une variable supplémentaire,p=n+ 1.

Dans les expériences numériques sur les trois algorithmes, les itérations ont été poursuivies jusqu’à ce que, compte-tenu des erreurs d’arrondis, elles n’apportent plus de modifications dans les itérés successifs.

Nous donnons dans le tableau suivant, pour chaque algorithme et pour chaque exemple, le nombre d’itérations it qui a été nécessaire, et, afin de vérifier la conformité des solutions optimales approchées primales et duales, les quantités nf p=kBy−bket nf d=kB^tz+w−dk. Enfin nous donnons le saut de dualit´e sd=|hd, yi − hb, zi|.

(18)

A.COULIBALYETJ.-P.CROUZEIX

Cetableaumontrequelechoixdepetitesvaleursdeppermetunenetteéliorationdelaprécisiondesrésultats,leconditionnementprèsdelasolutiondoncbienamélioré.Encontrepartie,lenombred’itérationsestaugmentémaiss’estapprochéplusprèsdelasolutionetd’autrepartilestclairquepourlessitérés,lorsquel’onestloindelasolution,ilestpréférablededonnerunidsplusimportantàcetdoncchoisirunpgrand.

Comparaison des 3 algorithmes.

Alg I Alg II Alg III

pb it nfp nfd sd it nfp nfd sd it nfp nfd sd

Afiro 19 2,5d-12 8,7d-15 1,d-12 20 8,41d-07 9,12d-05 2,96d-02 18 7,9d-08 4,3d-05 4,2d-03 Sc50a 25 3,d-12 1,3d-14 9,4d-12 18 6,15d-07 3,38d-04 5d-03 17 3,6d-08 9,7d-05 1, 8d-03 Sc50b 24 4,8d-12 2,6d-14 6,1d-13 16 5,3d-08 2,5d-05 2,6d-03 18 1,1d-08 9,4d-05 7 ,9d-04 Adlittle 34 2,5d-08 2,5d-08 2,9d-07 21 7d-05 1d-02 0,4 19 5,3d-06 4,7d-02 0,4

Blend 26 7,4d-12 6,7d-12 1,9d-13 16 6,6d-07 5,69d-05 1,02d-05 23 4,1d-08 8,2d-05 8,9d-06 Share2b 38 1,2d-09 1,7d-10 1,5d-10 28 2,7d-05 1,9d-02 4,68d-06 36 1d-06 8,6d-03 1,2d-05 Scagr7 45 1,1d-09 4,2d-10 4d-09 19 1,3d-03 4,8d-03 6,19 33 7,53d-06 1,35d-03 0,1 5

Sc105 34 1,8d-10 3,3d-12 6,2d-13 18 2,9d-08 2,4d-04 3d-02 29 6,2d-10 4,59d-05 6, 96d-03 Sc205 46 2,65d-07 5d-09 4,76d-10 26 3,7d-08 2,8d-03 4,6d-02 25 2,24d-09 5,45d-04 1,34d-04 Beaconfd 37 5,1d-06 1,3d-07 1,4d-07 22 1,9d-05 6,17d-02 1d-02 18 0,52 9,41d-02 3 ,75d-02

Scorpion 47 1,6d-09 4,1d-08 2,6d-07 27 9,07d-07 5,13d-04 2,54d-04 36 2,08d-08 2, 65d-03 9,4d-04 Stocfor1 25 1,9d-08 3,5d-09 2,6d-10 22 8,4d-06 1,4 5d-05 38 2,43d-08 1,96d-02 2, 49d-06

E226 58 5,9d-05 6,4d-07 2,4d-07 28 1,91d-05 9,89d-03 1,93d-05 44 6,75d-07 1,36d- 02 1,42d-05 Scsd1 21 4,4d-12 1,9d-10 7,5d-09 19 2d-07 1,1d-05 1,2d-05 30 6,97d-08 1,24d-02 1 ,4d-04