• Aucun résultat trouvé

4.2 Terme de pénalisation

4.2.3 Étude des constantes de pénalisation

Hlj !2 =k1TH˜k2 2 (4.11)

avec1∈Rk le vecteur colonne dont tous les termes sont égaux à 1. Ainsi cette pénalité favorise la parcimonie dans la répartition des abondances de marqueurs fonctionnels au sein des CTFA. Nous pouvons désormais compléter la fonction de coût (4.2) et écrire le problème d’optimi-sation suivant : T(W,H, α, β˜ ) = kA˜−WH˜k2 F +αkWk2 F +βk1TH˜k2 2 (4.12) et (W?,H˜?) = argmin (W,H˜)∈C˜ T(W,H˜, α, β), (4.13)

où(W?,H˜?) est le couple solution.

4.2.3 Étude des constantes de pénalisation

Le problème de NMF sans terme de pénalisation est "mal posé" puisque l’on peut trouver une infinité de matrices inversibles Q∈ Mk,k(R) telles que

W H=W QQ1H et(W Q, Q1H)∈C˜.

seule constante de pénalisation.

Proposition 4.2.1 Si (W?, H?) est un optimum local de T, alors soient λ, α, β ∈R+

T(λW?,H˜?/λ, α, β) =T(W?,H˜?, α, β) ⇒ λ = 1 (4.14)

Preuve Nous travaillons dans l’espace de dimension finieMn,k(R)×Mk,r(R), toute les normes sont équivalentes donc nous choisissons de le munir de la norme infinie associée au produit cartésiens des espaces métriques(Mn,k(R),k·kF)et(Mk,r(R),k·kF), c’est à direk(W, H)k = max(kWkF,kHkF).

Soit (W?,H˜?)un minimum local de T dans C˜. Il existe ρ∈R+ tel que

∀(W,H˜)∈ B((W?,H˜?), ρ)∩C˜, T(W,H, α, β˜ )≥T(W?,H˜?, α, β).

etB((W?,H˜?), ρ) la boule de Mn,k(R)× Mk,r(R) définie par

B((W?,H˜?), ρ) = {(W, H)∈ Mn,k(R)×Mk,r(R)| max(kW−W?kF,kH˜−H˜?kF)≤ρ}. (4.15) Soient λ, α, β ∈R+ , (λW?,H˜?/λ)∈C˜et T(λW?,H˜?/λ, α, β) =T(W?,H˜?, α, β) + (λ2 −1)αkW?k2 F + 1 λ2 −1 βk1TH˜?k2 2 Considérons la fonction g(λ) = (λ2 −1)αkW?k2 F + (1/λ2 −1)βk1TH˜?k2

2. Ils suffit de prouver que si g(λ) s’annule alors λ= 1.

La dérivée de g : g0(λ) = 2(λαkW?k2 F −βk1TH˜?k2 23) s’annule en λ0 = βk1TH˜?k2 2 αkW?k2 F !1/4 . (4.16)

La fonction g est strictement décroissante sur ]0, λ0[, atteint son minimum en λ0 et est stric-tement croissante sur ]λ0,+∞[. Supposons λ0 6= 1, la fonction g est strictement croissante ou décroissante au voisinage de1, il existe doncλ0suffisamment proche de1tel que(λ0W?,H˜?0)∈ B((W?,H˜?), ρ)∩C˜ et g(λ0) < g(1) = 0. Ceci contredit le fait que (W?,H˜?) est un minimum

local de T et prouve l’égalité.

Ainsiλ0 = 1 et pout tout λ∈R+ différent de1, g(λ)>0. Ceci prouve la proposition.

En conséquence de la démonstration précédente et par définition de λ0, nous avons montré le corollaire suivant

Corollaire 4.2.1 Soit (W?,H˜?) un minimum local de T, alors

αk1tH˜?k2

2 =βkW?k2

F.

Ce résultat nous permet qu’on peut n’utiliser qu’une seule constante de pénalisation et que ceci équivaut à fixer le rapportk1tH˜?k2

2/kW?k2

F à1. Pour cela, définissons

E(W,H, α˜ ) = T(W,H, α, α˜ ). (4.17)

Nous allons établir une équivalence entre les minima locaux de (4.12) et ceux de (4.17) dans la proposition suivante.

Proposition 4.2.2 Pour tout α, β >0, soit λ= (β/α)1/4.

(W?,H˜?) est un minimum local de T(W,H, α, β˜ ) si et seulement si (λW?,H˜?/λ) est un mini-mum local de E(W,H,˜ √

αβ).

Preuve Par définition du minimum local, il existe ρ ∈ R+ tel que pour tout (W,H˜) ∈ B((W?,H˜?), ρ)∩C˜

T(W,H, α, β˜ )≥T(W?,H˜?

, α, β), (4.18)

oùB((W?,H˜?), ρ)est la boule fermée de centre(W?,H˜?)et de rayonρtelle que définie en (4.15). Soit ρ0 = min(ρλ, ρ/λ). Alors pour tout(W,H˜)∈ B((λW?,H˜?/λ), ρ0)∩C˜

kW/λ−λW?/λkF ≤ρ0/λ≤ρ kλH˜ −λH˜?

/λkF ≤λρ0 ≤ρ

Soient α, β >0, définissons λ= (α/β)1/4, de telle sorte que βλ2 =√ αβ etα/λ2 =√ αβ. Alors T(W/λ, λH/, α, β˜ ) = kA˜−W/λ˜ k2 F +α/λ2kWk2 F +βλ2k1tH˜k2 2 =kA˜−WH˜k2 F +αkWk2 F +βk1tH˜k2 2 =T(W,H,˜ p αβ,p αβ) =E(W,H,˜ p αβ)

De même, on montre que T(W?,H˜?, α, β) = E(λW?,H˜?/λ,√

αβ). Nous avons donc montré que pour tout (W,H˜)∈ B((λW?,H˜?/λ), ρ0)∩C˜,

E(W,H,˜ p

αβ)≥E(λW?,H˜?/λ,p αβ)

Ceci prouve que(λW?,H˜?/λ)est un minimum local deE(W,H,˜ √

αβ). La réciproque se montre de manière symétrique.

Cette proposition démontre que la minimisation de E permet d’obtenir un minimum de

T et donc qu’il suffit de résoudre le problème de NMF pénalisé à une constante pour obtenir directement une solution du problème pénalisé à deux constantes.

4.3 Propriétés du problème d’optimisation de NMF

Nous présentons dans un premier temps les propriétés du problème de NMF classique. Dans un deuxième temps nous revenons sur l’impact de l’ajout de la contrainte deC˜sur ces propriétés.

4.3.1 Le problème général

Nous considérons le problème de minimisation de la fonction de coût suivante :

f(W, H) =D(A|W H) +pen1(W) +pen2(H) (4.19) pour lequel nous faisons les hypothèses suivantes

– pen1 etpen2 sont convexes, dérivables et de dérivées continues sur C0

– il existe κ1, κ2 ∈R+ etγ1, γ2 ∈ {1,2}tels que pour tout (W, H)∈ C0

pen1(W)≥κ1kWkγ1

F (4.20)

pen2(H)≥κ2kHkγ2

On peut appliquer à la NMF les outils classiques d’optimisation sous contrainte, ce sera l’objet de la Section 4.3.1.1. Cependant, il s’agit d’un problème d’optimisation bi-convexe. On peut donc exploiter cette structure particulière, dont les propriétés sont rappelées dans la Section 4.3.1.2, pour proposer des approches de minimisation adaptées et garantir des résultats théoriques de convergence (section 4.3.1.3).

4.3.1.1 Point stationnaire et minimum local

Dans le cas d’un problème d’optimisation soumis à des contraintes linéaires d’égalité ou d’inégalité, des résultats en théorie de l’optimisation (Bertsekas, 1999) garantissent que les conditions de Karush-Kuhn-Tucker (KKT) sont des conditions suffisantes pour obtenir un point stationnaire. Le problème de minimisation de NMF peut s’écrire sous cette forme

min

W∈Mn,k(R),H∈Mk,r(R) f(W,H)

tel que (−W)≤0 (−H)≤0.

L’écriture des conditions de KKT fait appel à une fonction intermédiaire, le Lagrangien, dont l’expression est ici donnée par

L(W, H, UW, UH) =f(W, H)−tr(UWT W)−tr(UHTH), (4.21) où UW ∈ Mn,k(R+) et UH ∈ Mk,r(R+), sont les matrices de multiplicateurs de Lagrange et

tr(·) l’opérateur trace.

Dans ces conditions (W, H) vérifie les conditions de KKT pour le problème de NMF si il existe UW ∈ Mn,k(R+) et, UH ∈ Mk,r(R+) tels que :

[W,H]L(W, H, UW, UH) = " ∇Wf(W, H)− ∇Wtr(UWT W) ∇Hf(W, H)− ∇Htr(UHTH) # = " 0W 0H # et (

(UW)i,lWi,l = 0, pour tout i∈ {1,· · · , n}et l∈ {1,· · · , k},

de cette fonction est atteint en ce point.

Dans le cas général, tout minimum local def(W, H)surC0est un point stationnaire. Cependant la réciproque est fausse : tout point stationnaire n’est pas un minimum local, comme le montre l’exemple ci-dessous.

Un point stationnaire n’est pas toujours un minimum local. Considérons

f(W, H) =kA−W Hk2

F +α(kWk2

F +kHk2

F), (4.23) où A est une matrice non nulle à termes positifs et α sont tel qu’il existe (i, j) pour lesquels

Aij > α >0. Considérons le point nul (0W,0H), et (UW, UH) = (0W,0H). Alors

[W,H]L(0W,0H,0W,0H) = " 0W 0H # .

Les conditions supplémentaires (4.22) sur les termes de0W et0H sont également vérifiées, donc

(0W,0H)est un point stationnaire.

Par ailleurs, soit B((0W,0H), ρ) la boule de Mn,k(R)× Mk,r(R) de centre (0W,0H) et de rayon ρ. Si (0W,0H) est un minimum local, il doit exister ρ∈R+ tel que pour tout (W, H)∈ B((0W,0H), ρ), f(W, H)≥f(0W,0H).

Or quel que soitρ∈R+, on peut construire( ˆW ,Hˆ)∈ B((0W,0H), ρ)qui contredit l’inéga-lité précédente. Soit(i, j) tel que Aij −α >0, considérons les matrices Wˆ etHˆ suivantes :

ˆ Wlm = ( V1/2 si (l, m) = (i,1) 0 sinon ˆ Hlm = ( V1/2 si(l, m) = (1, j) 0 sinon

où V est une constante vérifiant V < min (ρ2,2(Aij −α)). Alors par construction ( ˆW ,Hˆ) ∈ B((0W,0H), ρ). D’autre part, f( ˆW ,Hˆ) =kA−WˆHˆk2 F +α(kWˆk2 F +kHˆk2 F) =kAk2 F −2V Aij +V2 + 2αV =kAk2 F + (2α+V −2Aij)V <kAk2 F =f(0W,0H),

ce qui prouve que(0W,0H) est un point stationnaire sans être un minimum local.

4.3.1.2 Propriétés de la fonction de coût

Soit g une fonction définie sur une ensemble X = X1 ×X2 tel que X1 et X2 soient des ensembles convexes, on dit queg est bi-convexe sur X si et seulement si, pour tout x1 ∈X1 la fonctionx2 7→g(x1, x2)est convexe sur X2 et pour tout x2 ∈X2, la fonction x1 7→g(x1, x2)est convexe surX1.

Dans le cas de la NMF, la fonction de coût f définie en (4.19) est bi-convexe sur C0 car :

fH(W) = D(A|WH) +pen1(W) est convexe en W surMn,k(R+) (4.24) et

fW(H) = D(A|WH) +pen2(H) est convexe en Hsur Mk,r(R+) (4.25) Ces propriétés de convexité impliquent que fH et fW possèdent chacune un unique mini-mum global et aucun autre minimini-mum local. En revanche les minimiseurs associés ne sont pas nécessairement uniques.

Par contre une fonction bi-convexe n’est pas nécessairement convexe,f peut donc avoir plusieurs minima locaux. Toutefois, elle possède un minimum global ainsi qu’un minimiseur associé, c’est l’objet de la proposition qui suit.

Proposition 4.3.1 La borne inférieure de f sur C0, notée µ= inf (W,H)∈C0

f(W, H), est finie et il existe (W?, H?)∈ C0 tel que µ=f(W?, H?)

Preuve Comme f est positive, µ est finie et positive.

Soit 0W ∈ Mn,k(R+) et 0H ∈ Mk,r(R+) les matrices nulles et K = f(0W,0H), par définition

µ≤K. Définissons

LK ={(W, H)∈ C0|f(W, H)≤K}, (4.26) on a donc par constructionµ= inf f(W, H) = inff(W, H).

grâce à l’hypothèse (4.20), kWkF ≤ 1 κ1pen1(W) 1/γ1 ≤ 1 κ1f(W, H) 1/γ1 ≤ K κ1 1/γ1 kHkF ≤ 1 κ2pen2(H) 1/γ2 ≤ 1 κ2f(W, H) 1/γ2 ≤ K κ2 1/γ2

On en déduit que LK est fermé borné donc compact. Le minimum de f est donc atteint sur

LK et il existe(W?, H?)∈LK tel que µ=f(W?, H?).

4.3.1.3 Minimisation des problèmes bi-convexes

Au vu des propriétés de f, une idée intuitive pour améliorer la résolution du problème de minimisation de f consiste à exploiter la bi-convexité en minimisant (4.25) et (4.24) de façon alternée. En effet, comme souligné précédemment, même en présence de contraintes de positivité, la minimisation des fonctions convexes est très bien documentée dans la littérature. L’algorithme général de minimisation alternée est présenté ci-dessous.

Algorithme 1 Minimisation alternée dans le cas de la NMF Initialisation aléatoire de W(0) etH˜(0)

while Convergence 6= Truedo

W(t+1) = argmin W∈Mn,k(R+) f(W, H(t)) (4.27) H(t+1) = argmin H∈Mk,r(R+) f(W(t+1),H) (4.28) end while

Cet algorithme est une méthode de type Gauss-Seidel, encore appelée méthode de minimisa-tion par blocs dans la littérature (Grippo and Sciandrone (2000)). En appliquant l’Algorithme 1, on génère une suite de valeurs de la fonction de coût qui converge puisqu’elle est minorée par 0, monotone et décroissante. En effet, pour toutt ∈N,

f(W(t+1), H(t+1))≤f(W(t+1), H(t))≤f(W(t), H(t)).

Cependant, ceci ne donne aucune information sur la convergence de la suite{(W(t), H(t))}t∈N. Or il à été supposé ou démontré dans les sections précédentes que :

– f est continuement différentiable sur C0

– C0 = Mn,k(R+)× Mk,r(R+) est le produit cartésien des deux sous-espaces sur lesquels (4.25) et (4.24) sont minimisées.

– les sous-espaces Mn,k(R+)et Mk,r(R+) sont fermés, non-vides et convexes.

– enfin, nous avons montré dans la Section 4.3.1.2 que pour tout (W0, H0)∈ C0 l’ensemble

Lf(W0,H0) défini en (4.26) est un compact.

D’après Grippo and Sciandrone (2000), ces hypothèses sont suffisantes pour garantir la conver-gence d’une suite extraite de{(W(t), H(t))}t∈N dont la limite est un point stationnaire du pro-blème de NMF.