Approximations parcimonieuses non linéaires sur dictionnaires infinis et continus

naires infinis et continus

Revenons maintenant aux problèmes inverses parcimonieux initiaux (1.1), où l’on cherche à estimer les paramètres non linéaires {ν_`}_` de façon continue, en plus du faible ordre du modèle L et des amplitudes {x`}` des atomes continus. On peut trouver dans la littérature deux approches différentes permettant notamment l’estimation continue des paramètres non linéaires. La première vise à résoudre directement ce problème en exploitant la norme atomique sur un dictionnaire infini. La seconde se place dans le cadre des approximations parcimonieuses, mais utilise un dictionnaire continu de dimension finie dont les atomes dépendent continument des paramètres non linéaires, plutôt que le dictionnaire discret des APL.

Nous distinguerons dans ce manuscrit les dictionnaires infinis et les dictionnaires continus. Dans la littérature, le terme de dictionnaire continu est employé dans les deux approches. 1.3.1 Norme atomique et relaxation convexe sur dictionnaire infini

La norme atomique a été introduite par [CRPW12] et est notamment utilisée dans le cadre de l’acquisition compressée (Compress Sensing) pour l’estimation de spectres de raies [TBSR13]. Le principe est de s’exempter de la discrétisation du paramètre continu en considérant l’ensemble suivant :

A =n_{h(ν) ∈ F}N_{, ν ∈ Λ ⊂ R}po

Nous appelons cet ensemble A le dictionnaire infini, dans le sens où il est de dimension infinie et où il s’agit du cas limite du dictionnaire discret H quand le nombre d’atomes J tends vers l’infini. Notons que les paramètres non linéaires ν peuvent ici contenir à la fois le paramètre de localisation mais aussi les paramètres de forme ; pour rendre les explications plus simples, nous considérons ici que les atomes h(·) sont composés d’une seule colonne (m = 1). La norme atomique d’un vecteur z ∈ FN est alors définie pour le dictionnaire infini A :

kzkA = inf    X j |x_j|, z =X j xj h(νj) avec h(νj) ∈ A   

Cette norme correspond à la généralisation au dictionnaire infini de la norme `1sur les amplitudes

du dictionnaire discret : kzkA est la plus petite norme `1 des amplitudes x permettant d’écrire

1.3. Approximations parcimonieuses non linéaires sur dictionnaires infinis et continus

le signal z comme une combinaison linéaire d’un nombre arbitraire d’éléments de A. On peut d’ailleurs considérer que la norme atomique est la relaxation convexe d’une « pseudo-norme 0-atomique » que nous notons par abus de langage k·kA,0 et définie comme :

kzkA,0 = inf    kxk₀, z =X j xj h(νj) avec h(νj) ∈ A   

Ce terme permettrait une prise en compte exacte de la parcimonie, mais est bien évidemment difficile à prendre en compte dans un problème d’optimisation, à l’image de la pénalisation `₀ pour les APL. On utilise donc en pratique la norme atomique.

Dans le cas de signaux y bruités11, une reformulation du problème (1.1) similaire à celle de la pénalisation `₁ est alors envisagée [BTR13] et nommée Atomic soft thresholding (AST) par analogie :

min

z ky − zk

2_{+ λkzk}

A (1.18)

La norme atomique est une régularisation parcimonieuse [CRPW12], au même titre que la norme `1 des amplitudes, puisque que ce problème revient à trouver z approchant suffisamment bien

le signal y et s’exprimant comme une combinaison linéaire d’éléments de A dont les amplitudes sont de norme `₁ minimale. La résolution du problème d’AST (1.18) n’est pas une tâche facile ; cependant, dans des applications en acquisition compressée comme l’estimation de spectres de raies [BTR13] ou encore celle de décalages temporels en déconvolution [PSC17], le problème d’AST peut être reformulé en Semi Definite Program (SDP) permettant ainsi sa résolution à l’aide de routine d’optimisation12.

La résolution du problème d’AST a gagné en popularité grâce à de nombreux théorèmes prouvant son optimalité, notamment pour des problèmes d’estimation de spectres de raies en acquisition compressée, sous des hypothèses d’absence (ou de faible) bruit et de fréquences suffisamment séparées [TBSR13,BTR13]. Cependant, elle présente quelques inconvénients dans le cadre des problèmes inverses non linéaires considérés dans nos travaux. D’abord, les garanties de bonnes estimations ne sont plus toujours valables quand l’amplitude du bruit augmente. En- suite, la reformulation en SDP du problème d’AST dépendra de l’application en jeu, et donc des fonctions h(·) du dictionnaire infini. Par exemple, dans le cadre d’analyse spectrale en échan- tillonnage irrégulier, [HBLC16] explique que l’échantillonnage irrégulier typique des problèmes en astrophysique rend impossible la reformulation en SDP13. Enfin, [TBR13] démontre que la solution du problème d’AST peut être approchée par celle de la formulation de l’APL avec pé- nalisation `1 quand la grille de discrétisation devient de plus en plus fine. Bien que le problème

de la corrélation du dictionnaire semble être dépassé, le problème d’AST est une relaxation convexe du problème « optimal » qui utiliserait la pénalisation « atomique-0 » ; il souffrira donc des mêmes problèmes que les méthodes sous-optimales dans le cas de l’APL, notamment pour nos applications.

Nous nous intéressons donc à un deuxième axe de recherche pour la résolution du problème inverse non linéaire.

Le norme atomique a d’abord été envisagée dans un cadre non bruité où le signal y peut exactement s’écrire comme une combinaison linéaire du dictionnaire infini [TBSR13].

Les paramètres non linéaires ν peuvent être retrouvés à partir du problème dual de (1.18) [BTR13]. 13_{En effet, la reforfumation en SDP nécessite de pouvoir construire un vecteur ˜}_{t d’instants d’échantillonnage} régulièrement espacés à partir des temps t initiaux. Cela est possible dans le cas de l’acquisition compressée, où l’échantillonnage est régulier avec des données manquantes, mais c’est impossible dans le cas de l’échantillonnage spécifique aux problèmes d’astrophysique ; même si on arrive à trouver un dénominateur commun permettant de construire le vecteur ˜t, ce dernier serait de dimension trop élevée pour une résolution par SDP.

Chapitre 1. Introduction

1.3.2 Approximation parcimonieuse non linéaire sur dictionnaire continu La deuxième approche reste dans le cadre des approximations parcimonieuses à dictionnaire de dimension finie, dans le sens où le problème inverse non linéaire (1.1) est abordé en cherchant à approcher le signal y comme une combinaison linéaire parcimonieuse d’éléments d’un diction- naire, à la différence près que les éléments du dictionnaire ne sont plus constants et dépendent des paramètres non linéaires.

Plaçons nous d’abord dans le cas où les paramètres non linéaires sont composés uniquement d’un paramètre de localisation, comme pour les APL (i.e. υ = ∅). Pour obtenir cette reformu- lation en APL, le paramètre de localisation ν est discrétisé en J valeurs discrètes ¨νj du domaine de localisation Iν = [νmin; νmax]. Au contraire, l’intervalle Iν est ici découpé en J sous-intervalles disjoints Ij de longueurs égales14 ∆ :

I_j = [ν_min+ (j − 1)∆; ν_min+ j∆], avec ∆ = νmax− νmin

J (1.19)

Une telle partition du domaine des localisations, schématisée en Figure 1.2, permet donc de considérer J paramètres νj évoluant continument dans leur intervalle respectif Ij, au lieu des J paramètres ¨νj discrets appartenant à la grille G. Pour simplifier, on parlera encore de grille pour parler de cette partition de Iν.

APL ][ ][ ¨ νj−1 • ν¨•j ν¨j+1• APNL νj−1 ][ ][ ∈ I_j−1 νj ∈ Ij νj+1∈ Ij+1

Fig. 1.2 – Représentation de la discrétisation du domaine des localisations pour la reformulation en APL, et de sa partition pour la reformulation en APNL.

Nous pouvons maintenant associer des paramètres de formes υj ∈ Iυ à chaque paramètre de

localisation ν_j pour former les paramètres non linéaires ν_j = [ν_j, υj] ; ils permettent de préciser la forme de l’atome h(·) localisé dans l’intervalle Ij. En regroupant l’ensemble des J paramètres non linéaires νj dans le vecteur ν = [ν1, . . . , νJ], on introduit la notation suivante :

ν ∈ I ⇔ ∀j ∈J1; J K, νj ∈ Ij : νj ∈ Ij et υj ∈ Iυ

Le dictionnaire discret H est alors remplacé par un dictionnaire de même dimension que nous notons H(ν), et que nous appelons dictionnaire continu dans le sens où chacun de ses J éléments h(νj), que nous appelons atome continu, dépend continument des paramètres non linéaires :

H(ν) = [h(ν1), . . . , h(νJ)] ∈ FN ×mJ défini pour ν ∈ I

Le problème inverse non linéaire (1.1) peut alors se reformuler de la façon suivante :

Estimer x parcimonieux et ν ∈ I tels que y = H(ν)x + = J X

j=1

h(ν_j)x_j+ . (1.20)

Le problème (1.20) sera appelé par la suite problème d’approximation parcimonieuse non li- néaire (APNL), par analogie avec les problèmes d’APL. Le problème d’APNL permet de for- maliser exactement le problème inverse non linéaire (1.1) dans le sens où il autorise l’estimation

14_{Ce découpage régulier de I}

ν n’est pas obligatoire en théorie : on peut au contraire considérer des intervalles

de tailles différentes ∆j. Cependant, on simplifie ici en supposant un découpage régulier, que l’on adoptera dans

l’ensemble de nos travaux.

1.3. Approximations parcimonieuses non linéaires sur dictionnaires infinis et continus

continue des paramètres non linéaires, contrairement au problème d’APL. Ceci se fait au prix de la réintroduction de la non-linéarité dans le modèle puisque chaque atome continu dépend de façon non linéaire des ν_j. Cependant, la partition en J intervalles du domaine des localisations Iν apporte un double avantage. D’une part, elle permet l’estimation directe de l’ordre L du modèle comme la dimension du support Ω = Supp (x), de façon similaire aux problèmes d’APL (voir (1.6)). D’autre part, elle restreint l’espace de recherche des paramètres de localisations ν_j dans des intervalles de taille ∆, J fois plus petits que la taille de Iν. Pour les problèmes inverses considérés, la détection correcte du support Ω et des paramètres non linéaires {νj}j∈Ω corres- pondant sera donc primordiale. Notons par ailleurs que le nombre J d’atomes du dictionnaire continu H(ν) pour les APNL peut être bien plus faible que le nombre d’atome du dictionnaire discret H pour les APL, puisque que ce dernier nécessite une fine discrétisation du paramètre de localisation pour réduire les erreurs de précision. Pour les APNL, le choix de la partition du domaine des localisations se basera par exemple sur des critères de résolution pour l’analyse spectrale (au sens de la distance minimale entre deux fréquences pour pouvoir être distinguées), comme nous le verrons en § 1.5.1. Trois types d’approches ont été proposées pour bénéficier de ces avantages et essayer de résoudre ce problème d’APNL.

Interpolation de dictionnaire : approximation linéaire des atomes continus. Dans le cadre de signaux à valeurs réelles et amplitudes positives, d’atomes composé d’une seule colonne et de l’absence de paramètres de forme, [ETS11] a proposé de bénéficier du fait que les para- mètres de localisation νj appartiennent à un petit intervalle pour effectuer une approximation linéaire des atomes continus, permettant de bénéficier d’une « interpolation de dictionnaire ». Le problème d’APNL (1.20) est alors approché par le suivant :

Estimerx ∈ C parcimonieux tels que y =_e Hex +_e _e = J X

j=1 e

h_jx_ej +e. (1.21)

On retrouve un problème d’APL classique (1.4), à la différence de la présence des contraintes e

x ∈ C : il sera donc nommé problème d’approximation parcimonieuse linéaire sous contraintes

(APLsc). Ces contraintes sont issues de la nécessité de pouvoir identifier l’amplitude x_j et le paramètre de localisation νj à partir de la nouvelle amplitude xej. Notons que x parcimonieuxe s’entend toujours au sens de la parcimonie structurée : en effet, la linéarisation de la colonne

h(νj) donne un nouvel atome he_j constitué de k > 1 colonnes et appelé « atome interpolé » ; e

H est appelé le « dictionnaire interpolé ». Le principe d’une telle reformulation en APLsc sera nommé « interpolation de dictionnaire » dans ce manuscrit. Le problème d’APLsc est alors résolu à l’aide des méthodes classiques d’APL, adaptées à la présence des contraintes ; [ETS11] a proposé d’utiliser la relaxation `₁ des amplitudes tandis que [KYHP14,FDJ15] adaptent des algorithmes gloutons. Par ailleurs, différents types d’interpolation de dictionnaire ont été propo- sés, des plus basiques comme l’approximation de Taylor au premier ordre à des plus complexes comme l’interpolation polaire proposée par [ETS11]. Ils se différencient majoritairement par l’erreur d’approximation qu’elles induisent. Notons que [FDJ15] a généralisé l’interpolation po- laire et la résolution avec pénalisation `1 aux cas de signaux à valeurs complexes et amplitudes

quelconques.

Les approches ci-dessus sont sous-optimales pour la résolution de ce problème d’APLsc, puisqu’elles s’appuient sur de la relaxation `₁ ou sur des algorithmes gloutons. Leur performance peut donc être entravée à la fois par l’erreur d’approximation induite par l’approximation linéaire des atomes continus et par les méthodes sous-optimales utilisées.

Chapitre 1. Introduction

Modèle Bernoulli-Gaussien étendu. Nous définissons le modèle Bernoulli-Gaussien étendu comme l’extension au problème d’APNL du modèle BG classique vu en § 1.2.3, en prenant en compte les paramètres non linéaires ν. Dans le cadre bayésien, on étudiera donc la loi a poste- riori p(q, ν, x, θ | y).

Un premier modèle Bernoulli Gaussien étendu aux non linéarités a d’abord été proposé par [Dub96]. Ce dernier proposait de faire une approximation linéaire de son atome continu pour obtenir un problème similaire à celui d’APLsc (1.21) - bien qu’antérieur à ces travaux. Il proposait alors l’estimation au sens du MAP des paramètres, en maximisant p(q,x | y) avec l’algorithmee SMLR mais sans prendre en compte les contraintes reliant les nouvelles amplitudes x aux am-_e

plitudes et fréquences initiales.

Une autre extension a ensuite été proposée par [BC06] pour l’analyse spectrale de signaux irrégulièrement échantillonnés. La loi a posteriori p(q, ν, x, θ | y) est échantillonnée suivant un algorithme dit de « Gibbs-hybride » : l’échantillonnage est similaire au cas des APL pour les variables (q_j, xj) mais les paramètres νj (ici les fréquences des raies recherchées) sont échan- tillonnés à l’aide d’une étape de Metropolis Hastings. La probabilité λ = Pr(qj = 1) représente alors la probabilité d’avoir une fréquence dans l’intervalle Ij. Les auteurs ont cependant noté des ralentissements dans l’échantillonnage par rapport à celui du BG classique et quelques pro- blèmes théoriques, qui mériteraient d’être étudiés.

Plus récemment, des méthodes s’appuyant sur des algorithmes d’optimisation locale ont été proposés pour l’estimation des paramètres du modèle Bernoulli Gaussien étendu15 pour des problèmes d’estimation de spectres de raies en acquisition compressée [BHF17,HFR18]. Il est proposé dans [HFR18] d’effectuer une optimisation de type Block Coordinate Descent exploitant les propriétés du SMLR. [BHF17] se place quant à lui dans le cadre « variationnel » consistant à approcher la loi a posteriori, pour la rendre plus simple à maximiser par des algorithmes d’optimisation locale de type Expectation-Maximisation mêlés à des algorithmes gloutons.

Les travaux de Kail [KHN15,KHN15] utilisent un autre type de modèle Bernoulli Gaussien étendu : en restant dans le cadre du problème d’APL, les paramètres de localisation sont dis- crétisés très finement sur la grille, permettant une grande réduction de l’erreur de précision. Le modèle BG classique est alors adapté pour prendre en compte une contrainte de distance mi- nimum entre deux (q_j₁, qj2) égaux à un. Cela permet notamment de diminuer le coût de calcul

lié à une grille de grande taille J et aussi d’éviter des instabilités numériques. La résolution du problème d’APL sous ce modèle BG adapté est alors effectuée, soit au sens du MAP en adaptant l’algorithme SMLR, soit via un échantillonnage stochastique de la loi a posteriori.

APL et optimisation locale. Une autre solution envisagée pour résoudre le problème d’APNL (1.20) est d’associer aux techniques classiques de résolutions d’APL des étapes d’opti- misation locale en les paramètres non linéaires νj pour améliorer localement le critère d’attache aux données. C’est par exemple le principe de l’approche CLEANEST [Fos95] et du logiciel Period04 [LB04], utilisés dans la communauté astrophysique, et qui consistent en une optimisation locale à partir du support trouvé, à chaque itération d’un algorithme glouton. Dans [Bou14], des étapes de descente de gradient ont été introduites au sein d’algorithmes gloutons pour la détection d’exoplanètes.

15_{Le modèle BGE est ici légèrement différent ; les paramètres de localisation ν}

j associés aux variables de Ber-

noulli qj appartiennent tous au même intervalle, alors que pour le problème d’APNL, nous les contraignons à

appartenir à des intervalles distincts, provenant du découpage du domaine des localisations.

Dans le document Vers la résolution "optimale" de problèmes inverses non linéaires parcimonieux grâce à l'exploitation de variables binaires sur dictionnaires continus : applications en astrophysique (Page 41-46)