• Aucun résultat trouvé

2.5 Estimateurs et crit` eres d’optimisation

2.6.3 M´ ethodes it´ eratives pour le cas non lin´ eaire

Les m´ethodes analytiques permettent de faire l’estimation pour des mod`eles particuliers (la classe la plus importante est celle des mod`eles lin´eaires et bilin´eaires). Pour r´esoudre les probl`emes pr´ec´edents dans le cas g´en´eral d´erivable, les m´ethodes d’optimisation it´eratives s’imposent.

2.6. R ´ESOLUTION 41 Principe. Les m´ethodes it´eratives que nous examinons ici partent d’une estimation ini- tiale β0 de la solution. Elles construisent une suite (βk)k d’estimations de β convergeant

vers la solution. `A chaque pas, elles utilisent une approximation affine, de validit´e locale du mod`ele, bas´ee sur la valeur de la fonction f et sa matrice jacobienne

∂f (x, β)

∂β et, dans le cas ODR

∂f (x + δ, β) ∂δ

L’estimation initiale β0 doit ˆetre pertinente, sous peine de converger vers un optimum local

au lieu de l’optimum global recherch´e.

L’algorithme peut cesser d’it´erer pour une des raisons suivantes : – il a atteint un nombre limite d’it´erations ;

– la matrice du syst`eme lin´eaire (d´ependant les matrices jacobiennes de f ) associ´e au βk courant n’est pas de rang plein (`a la pr´ecision machine pr`es) ;

– la suite d’estimations devient stationnaire ;

– le crit`ere ne peut plus ˆetre am´elior´e (`a la pr´ecision machine pr`es), en particulier s’il est nul.

Les deux premiers cas sont des ´echecs, les deux derniers des succ`es. 2.6.3.1 Moindres carr´es verticaux

L’optimisation du crit`ere OLS dans le cas non lin´eaire utilise une approximation lin´eaire du mod`ele.

Notons r la fonction de β qui d´efinit le vecteur de r´esidus :

r : Rp −→ Rnq β 7−→    W (f (xe1, β) −ye1) .. . W (f (fxn, β) −yen)   

La relation avec le crit`ere est :

kr(β)k2 = K([xe1 · · · fxn], [ye1 · · · yen], β) La solution au sens OLS (´equation (2.3)) s’´ecrit donc :

[

βOLS= argmin β∈Rp

kr(β)k2 (2.16)

Gauss-Newton. La suite (βk)k∈N est construite pour qu’`a l’´etape (k + 1), βk+1 soit dans

le « voisinage » de βk, c’est-`a-dire que le pas

∆ = βk+1− βk

est petit. Un d´eveloppement de Taylor-Young `a l’ordre 1 de r permet d’´ecrire : r(βk+ ∆) ≈ r(βk) + r0(βk)∆

Cette approximation peut ˆetre utilis´ee pour solutionner l’´equation (2.16) : min ∆ kr(βk+ ∆)k 2 ≈ min ∆ kr(βk) + r 0 (βk)∆k2

C’est un probl`eme de moindres carr´es lin´eaires ayant pour solution : d

∆GN = −r0(βk)+r(βk)

Ceci d´efinit le sch´ema it´eratif de Gauss-Newton. La matrice jacobienne de r s’exprime sans difficult´e `a partir de la matrice jacobienne de f par rapport `a β pour les diff´erentes exp´eriences.

Am´elioration. L’inconv´enient de l’approche pr´ec´edente est qu’elle est trop confiante : la valeur estim´ee ∆GN peut « tomber » en dehors du domaine de validit´e de l’approximation

lin´eaire de r.

Les pistes d’am´elioration consistent `a :

– s’assurer que le pas d’estimation reste `a l’int´erieur d’une r´egion de confiance dans laquelle l’approximation est consid´er´ee comme fiable ;

– changer la matrice de la relation lin´eaire qui lie le r´esidu courant au pas `a effectuer : b

∆ = −Ar(βk)

o`u A est une matrice « bien choisie » pour donner une meilleure approximation du pas que r0(βk)+.

Levenberg-Marquardt. L’algorithme de Levenberg-Marquardt ([Lev44] eq6 p165, [Mar63] p434 eq10, eq11, eq12, [DS83] eq10.2.15, [Mor78] p106 eq2.3) met en œuvre ce canevas. La r´egion de confiance est une boule de centre βk et de rayon ρk, mis `a jour `a chaque it´eration.

Le pas d∆LM est contraint `a ne pas sortir de cette boule.

Cette contrainte est garantie par une modification de la matrice A en fonction la r´egion dans laquelle se trouve d∆GN :

– si k d∆GNk ≤ ρk,

A = r0(βk)+

c’est l’estimation de Gauss-Newton ; – sinon,

A = (r0(βk)>r0(βk) + αIdp)−1r0(βk)>

o`u α satisfait `a k d∆LMk = ρk. Cette valeur existe (r´esultat de la th´eorie de Lagrange-

Karush-Kuhn-Tucker) mais son calcul n´ecessite la r´esolution algorithmique d’une ´equation non lin´eaire2.

2 La pr´

esentation de Levenberg ne « peut pas » s’appuyer sur les r´esultats d’optimisation avec contraintes d’in´egalit´e ´etablis par Karush en 1939 [Kar39]... dans un m´emoire de maˆıtrise... et « ap- profondis » ensuite par Kuhn et Tucker [HT51]. Par contre, Marquardt qui aurait pu le faire ne le fait pas explicitement... et avoue avoir ignor´e le travail de Levenberg !

2.6. R ´ESOLUTION 43 `

A chaque pas d’it´eration, les r´esidus sont ´evalu´es. Deux cas se pr´esentent :

– si kr(βk+1)k < kr(βk)k, l’approximation est fiable, et l’algorithme ´etend la r´egion de

confiance (ρk+1 > ρk) ;

– sinon l’approximation n’est pas fiable et l’algorithme restreint la r´egion de confiance (ρk+1 < ρk). L’estimation « repart » de βk.

Nous utilisons la mise en œuvre de l’algorithme (calcul de ρket α) de minpack [MGH80]

(fonction lmder).

2.6.3.2 R´egression en distance orthogonale

Le probl`eme (PODR) peut ˆetre consid´er´e comme un probl`eme de moindres carr´es pour

lequel :

– les param`etres `a estimer sont la juxtaposition des param`etres initiaux β et les erreurs en entr´ee (δi)i=1..n :

β0 = [β> δ1> · · · δ>n ]>∈ Rp+nm – les r´esidus `a traiter sont :

r(β0) =          W (ye1 − f (xe1+ δ1, β)) .. . W (yen− f (fxn+ δn, β)) Ωδ1 .. . Ωδn          ∈ Rnq+nm

La matrice jacobienne qui en r´esulte se pr´esente sous la forme g´en´erique (en utilisant les notations de [BBS87] p1057, reprises dans [Bj¨o02] eq10 p228)

J =J V nq p 0 nm D nm  o`u :

– le bloc J se d´eduit de ∂f (x,β)∂β aux points (xei, β) ;

– la matrice V est diagonale par blocs et se d´eduit de ∂f (x+δ,β)∂δ ; – la matrice D est constitu´ee de n blocs diagonaux Ω.

R´esolution. Pour r´esoudre ce probl`eme, on peut utiliser la m´ethode de Levenberg- Marquardt. Le cœur d’une it´eration de l’algorithme LM est la d´ecomposition QR de J . Si on ne tient pas compte du caract`ere structur´e de cette matrice, la complexit´e de ce calcul est en O((nq + nm)(p + nm)2), ce qui est prohibitif.

Plusieurs propositions ont ´et´e faites pour rem´edier `a cette difficult´e :

– Schwetlick et Tiller [ST85] « contournent le probl`eme » en n’impl´ementant le principe des r´egions de confiance de LM que pour les param`etres β, et non pour les erreurs (δi)i=1..n;

– Boggs et al. [BBS87] se ram`enent au calcul de la d´ecomposition QR d’une matrice de la forme M J , o`u M est diagonale. Leur « levier » est la formule d’inversion de Sherman-Morrison-Woodbury ;

– Hartley et Zisserman ([HZ01] p571) traitent des probl`emes moindres carr´es plus g´en´eraux (que celui sous-jacent a (PODR)) pour lesquels ri(β0) d´epend uniquement de

β et δi. Ils ignorent donc :

– la pr´esence du bloc de z´eros dans J ; – la structure diagonale par blocs de D.

Leur algorithme « Levenberg-Marquardt creux » ´evite n´eanmoins une complexit´e en O(n2), mais celle-ci demeure en O(nqp2) + O(nmp2) + O(nm2(q + m)) + · · · . De plus,

il demande `a ˆetre adapt´e afin d’impl´ementer compl`etement le principe des r´egions de confiance. Trop g´en´eral pour traiter le cas (PODR), cet algorithme peut trouver son

utilit´e dans des cas plus sp´ecifiques.

– Bj¨orck [Bj¨o02] fait une proposition concurrente a celle de Boggs et al. Ici la clef est la d´ecomposition QR d’une matrice de Hessenberg « inf´erieure » [D> v0>]>. C’est tout simplement dommage qu’il n’existe `a ce jour aucune impl´ementation de ce « bel » algorithme... Avis aux amateurs !

En pratique, nous utilisons la biblioth`eque odrpack (fonction dodrc) qui exploite l’optimisation de Boggs et al. pour r´esoudre le probl`eme efficacement [BBRS92].

2.6.3.3 Moindres carr´es repond´er´es

Dans le cas d’un mod`ele lin´eaire, un algorithme it´eratif peut faire la M-estimation (§ 2.5.3). Le principe est de r´esoudre une s´erie de probl`emes de moindres carr´es lin´eaires en changeant uniquement la matrice de poids ([Mee01] p71)

La justification de cette « strat´egie » trouve son origine dans l’´equation d’Euler, `a savoir la solution β satisfait `a :

∂ ∂β n X i=1 ρ(kW (f (xei, β) −yei)k) = 01,p donc : n X i=1 ωi(β)ri(β)>ri0(β) = 01,p o`u : – le r´esidu vectoriel ri(β) = W (f (xei, β) −yei) ; – le poids ωi(β) = ρ0(kri(β)k) kri(β)k

En exploitant la lin´earit´e,

2.6. R ´ESOLUTION 45 o`u

 Ai = W C(xei)

bi = W (D(xei) −yei)

la condition n´ecessaire devient

n X i=1 ωi(β)A>i Aiβ = n X i=1 ωi(β)A>i bi

C’est cette ´equation qui justifie que dans la m´ethode des moindres carr´es repond´er´es, `a l’it´eration k, βk est la solution du syst`eme lin´eaire suivant :

n X i=1 ωi(βk−1)A>i Ai ! | {z } A βk= n X i=1 ωi(βk−1)A>i bi

La r´esolution peut se faire `a l’aide d’une factorisation de Cholesky de la matrice A, sym´etrique d´efinie positive.

Fonction de mod´eration adaptative. L’algorithme peut ˆetre adapt´e au cas o`u la fonc- tion de mod´eration ρ d´epend d’un facteur d’´echelle (´equations (2.6) et (2.7)). L’adaptation consiste `a faire ´evoluer le facteur σ au fil des it´erations ([BJ98] § 4) :

– au d´ebut, σ est ´elev´e. La solution courante est loin de l’optimum donc le r´esidu ne permet pas de distinguer clairement les mesures aberrantes ;

– `a la fin, σ est petit. La solution est proche, donc la distinction entre mesures l´egitimes et aberrantes devient plus nette.

Convergence. La convergence du processus est garantie si ρ est convexe. Dans ce cas, ρ n’est pas born´ee, donc le crit`ere ne peut pas ˆetre robuste ([Hub81], p103).