• Aucun résultat trouvé

1.2 Approximations parcimonieuses linéaires et différentes approches pour leur réso-

1.2.3 Approches stochastiques

Nous considérons maintenant le problème d’APL (1.4) de façon probabiliste : les paramètres d’amplitudes x ainsi que le bruit  sont supposés être les réalisations de variables aléatoires. Notons que dans l’ensemble de ce manuscrit, on ne distinguera pas dans nos notations la variable aléatoire de sa réalisation. Le signal y est donc un processus aléatoire résultant de la réalisation du modèle linéaire suivant :

y |{z} Aléa. = H |{z} Déter. x |{z} Aléa. +  |{z} Aléa.

où le dictionnaire H est déterministe. Le problème d’APL revient alors à estimer, à partir d’une réalisation du signal y, la réalisation des amplitudes x qui est « responsable » de l’obtention d’un tel signal. Une première approche est d’utiliser les connaissances que nous avons sur le bruit ; en effet, la loi probabilité du signal y connaissant les amplitudes x s’écrit suivant la loi a priori sur le bruit :

p(y | x) = p(Hx +  | x) = p(y − Hx | x)

Prise comme une fonction des amplitudes x, cette fonction est appelée vraisemblance (likelihood en angais). C’est une mesure de l’adéquation entre la réalisation y des données et la réalisation x, sans a priori sur les amplitudes x. Une deuxième approche consiste à étudier la loi de probabilité a posteriori des amplitudes x connaissant y, qui prend en compte la vraisemblance, mais aussi une information a priori sur les amplitudes x. En effet, d’après la règle de Bayes, la probabilité a posteriori s’écrit :

p(x | y) = 1

p(y) p(y | x) p(x)

loi a posteriori constante de vraisemblance loi

normalisation a priori

La prise en compte d’une loi a priori pour les amplitudes x associée à la vraisemblance plonge le problème d’APL dans le paradigme bayésien. C’est bien la prise en compte d’une connaissance

6

Thèse en cours (2016-2019) menée par Ramzi Ben Mhenni et sous la direction de Sébastien Bourguignon.

1.2. Approximations parcimonieuses linéaires et différentes approches pour leur résolution

a priori sur les amplitudes qui différencie la loi a posteriori de la vraisemblance.

La règle de Bayes permet d’écrire la loi a posteriori des paramètres d’intérêts x, que l’on peut alors exploiter pour estimer ces paramètres. Les estimateurs les plus utilisés sont l’estimateur du maximum a posteriori (MAP) et l’estimateur de l’espérance a posteriori (EAP) qui s’écrivent :

Maximum a posteriori : xbMAP(y) = arg maxxp(x | y)

Espérance a posteriori : xbEAP(y) = E{x | y} =R x p(x | y) dx

Le choix de l’estimateur n’est pas une question évidente. L’estimateur du MAP donne les am- plitudes x maximisant la loi a posteriori, soit les plus probables au regard des données et des connaissances a priori. Il peut être vu comme la minimisation en moyenne d’une erreur de type tout ou rien. L’estimateur de l’EAP correspond au minimiseur de l’erreur quadratique moyenne (MMSE), peut cependant donner des valeurs peu probables dans le cas de lois a posteriori multi- modales.

Dans le cas de l’APL, la loi a priori sur les amplitudes x doit modéliser du point de vue statistique la parcimonie de la solution. Nous présentons ici le lien entre le modèle probabiliste et les approches déterministes décrites précédemment ; nous commençons par relier l’estimateur du MAP avec le problème d’optimisation bi-objectif `0, puis nous détaillons un modèle probabiliste structurel de la parcimonie : le modèle Bernoulli-Gaussien.

Interprétation probabiliste du problème bi-objectif au sens du MAP. Le calcul de l’estimateur du maximum a posteriori (MAP) est un problème d’optimisation, puisque l’on cherche à maximiser la loi a posteriori. La constante de normalisation ne dépendant pas de x, l’estimateur du MAP peut se réécrire sous la forme suivante :

b

xMAP(y) = arg maxx p(y | x) p(x)

= arg max

x log(p(y | x)) + log(p(x)) log-vraisemblance log-prior

On voit alors apparaître un critère à deux termes : la log-vraisemblance et le logarithme de la loi a priori, ce qui rappelle la forme des problèmes d’optimisation bi-objectif (1.7) vue précédem- ment. Ce n’est pas étonnant, puisqu’en voulant maximiser la loi a posteriori selon x, on cherche à la fois à maximiser la vraisemblance, une mesure de l’adéquation de x aux données y, et la probabilité a priori d’obtenir x. Dans le problème bi-objectif, l’utilisation de la pseudo-norme `0 indique en effet que la solution est a priori parcimonieuse. Nous donnons ici quelques exemples de lien entre les problèmes déterministes et leur interprétation bayésienne.

Comme nous l’avons vu précédemment, la vraisemblance s’écrit suivant la loi sur le bruit. Ainsi, si l’on considère un bruit gaussien centré indépendent et identiquement distribué (i.i.d.) de variance σ2, alors la log-vraisemblance est proportionnelle à la norme du résidu au carré, qui est le terme classique d’attache aux données vu précédemment :

log p(y | x) ∝ −ky − Hxk

2 2

2

Cela justifie notamment la prise en compte de la variance du bruit (voir d’une matrice de co- variance) dans le terme d’attache aux données dans les approches déterministes. De la même façon, la log-vraisemblance sera proportionnelle à ky − Hxk1 si le bruit est i.i.d. suivant une loi de Laplace.

Chapitre 1. Introduction

En ce qui concerne la loi a priori, une loi de Laplace donne un terme de pénalisation dont le logarithme est proportionnel à la norme `1 des amplitudes, ce qui est strictement équivalent à la classique relaxation `1. Il n’existe pas de loi p(x) qui s’exprime directement en fonction de la pseudo-norme `0 des amplitudes. Cependant, l’introduction de variables binaires q suivant une

loi de Bernoulli et conditionnant la nullité des amplitudes x permet d’introduire un tel a priori en considérant la loi jointe :

log p(q, x) ∝ kxk0=

X

j qj

avec un a priori conditionnel particulier pour x (voir [SIBD11]). Nous revenons par la suite sur un tel modèle probabiliste.

Finalement, une telle interprétation probabiliste au sens du MAP des problèmes d’optimi- sation déterministes étudiés précédemment permet de justifier la forme des termes d’attache aux données en fonction des connaissances a priori sur le bruit. Elle donne aussi une meilleure interprétation des hyperparamètres réglant le compromis entre l’attache aux données et la par- cimonie, notamment dans le cas de la formulation pénalisée (1.8), puisqu’ils peuvent s’écrire directement7 en fonction des lois a priori sur le bruit et sur les amplitudes. Enfin, le contexte bayésien permet de considérer d’autres estimateurs que celui du MAP, comme celui de l’espé- rance a posteriori EAP, voire d’étudier la loi a posteriori dans son ensemble, puisqu’elle contient bien plus d’informations que simplement ces estimateurs. Le paragraphe suivant s’intéresse donc à un modèle bayésien modélisant structurellement la parcimonie, et permettant d’aller au-delà du cadre classique de l’estimateur du MAP : le modèle Bernoulli-Gaussien.

Le modèle Bernoulli-Gaussien, modèle probabiliste pour la parcimonie. Afin de dé- crire de manière structurelle un a priori de parcimonie sur les amplitudes, un modèle Bernoulli- Gaussien (BG) a été introduit pour la première fois par [KM82] pour la déconvolution de train d’impulsions.

Ce modèle repose sur l’introduction d’une séquence binaire q = [q1, . . . , qJ] ∈ {0, 1}J de la même dimension que la grille de discrétisation G, telle que pour tout indice j, la variable qj indique si l’amplitude associée xj, est nulle via l’implication suivante :

qj = 0 ⇔ xj = 0 (1.15)

Si l’introduction de variables binaires conditionnant la nullité des amplitudes associées rappelle la reformulation du problème `0 en MIP vue dans le cadre déterministe, ce n’est pas un hasard ; l’idée de la reformulation en MIP présentée dans [BNCM16] est le fruit d’une collaboration avec des chercheurs en Recherche Opérationnelle, initiée après la présentation de travaux exploitant le modèle Bernoulli-Gaussien.

Les lois a priori sur la séquence binaire q et sur les amplitudes x permettent de traduire cette implication. La séquence binaire q est supposée i.i.d. et suit une loi a priori de Bernoulli :

qj ∼ B(λ) (

Pr(qj = 1) = λ

Pr(qj = 0) = 1 − λ (1.16)

où l’hyperparamètre λ ∈ [0; 1] est la probabilité que chaque qj soit égal à 1.

7

Notons tout de même que ces lois a priori dépendent elle-même d’hyperparamètres parfois inconnus, comme la variance du bruit ou encore la probabilité de Bernoulli dans le cas du modèle Bernoulli-Gaussien (voir paragraphe suivant). Ils ont cependant un « sens » en terme probabiliste qui peut être exploité pour les régler, contrairement aux hyperparamètres des formulations (1.8).

1.2. Approximations parcimonieuses linéaires et différentes approches pour leur résolution

Conditionnellement à qj, la loi a priori sur les amplitudes xj est la suivante :

xj| qj ∼ N (0, qjσx2Im) (

xj| qj = 1 ∼ N (0, σx2Im)

xj| qj = 0 ∼ loi Dirac en zéro

(1.17) Les amplitudes xj, supposées mutuellement indépendantes, sont gaussiennes centrées de va- riances σ2x quand qj = 1 et la loi Dirac en zéro force les amplitudes à être nulles dans le cas contraire. Cette définition conditionnelle de la loi a priori sur les paramètres (q, x) permet de respecter l’équivalence8 de l’équation (1.15).

Les variables de Bernoulli qjpermettent alors de caractériser la présence (qj = 1) ou l’absence (qj = 0) de l’atome hj (et donc du ¨νj associé) dans le signal y. Notons que l’on peut directement exprimer l’ordre du modèle L (soit la pseudo-norme `0 des amplitudes) comme la somme des

qj : L = kxk0 = kqk0 = J X j=1 qj

La loi a priori de Bernoulli pour les variables binaires est donc bien un a priori de parcimonie sur les amplitudes x, à condition que l’hyperparamètre λ ∈ [0; 1], la probabilité a priori que qj = 1, soit faible.

Notons que dans la littérature sur le modèle BG, un autre type de loi a priori est aussi considéré pour les amplitudes xj. Plutôt que d’utiliser une forme conditionnelle de la loi a priori comme [CCL96] par exemple, l’article fondateur du modèle BG [KM82] ou plus récem- ment [SIBD11, DHD12] utilise une forme produit, où chaque amplitude xj s’écrit comme le produit de qj avec une nouvelle amplitude aj; ces dernières suivent toutes une loi a priori gaus- sienne, indépendamment de la valeur du qj associé. D’un point de vue théorique, ce deux formes sont strictement équivalentes puisque la loi a priori sur xj (marginalisée par rapport à qj) est strictement identique : p(xj) = λ g(xj; 0, σx2Im) + (1 − λ)δ0(x) (où g(x; µ, Γ) est la densité de

probabilité d’une variable x de moyenne µ et de matrice de covariance Γ). Mais en pratique, cela amène à la manipulation de lois a posteriori différentes. Dans le cadre de ce manuscrit, nous utilisons la forme conditionnelle de la loi a priori dans la continuité des travaux de [Bou05].

Un tel modèle BG est généralement associé à un bruit gaussien centré de matrice de cova- riance Σ. Le modèle est alors entièrement décrit par les paramètres (q, x) et les hyperparamètres

θ = (λ, σ2x, Σ) décrivant les lois a priori et la loi du bruit. On distingue le cadre supervisé où les hyperparamètres θ sont supposés connus et où l’on étudie la loi a posteriori p(q, x | y), et le cadre non supervisé où les θ sont inconnus et où l’on étudie p(q, x, θ | y). L’estimation des paramètres peut se faire au sens du MAP ou de l’EAP.

Le problème d’optimisation résultant du calcul de l’estimateur du MAP des paramètres du modèle BG est très similaire aux problèmes d’optimisation faisant intervenir la pseudo-norme `0. En effet, d’après [SIBD11], le calcul dans le cadre supervisé du maximiseur de la loi p(q, x | y)

revient, pour un bruit i.i.d. de variance σ2, à résoudre le problème de minimisation suivant9 : arg min x,q ky − Hxk 2+ λ 0kxk0+ σ2 σ2 x kxk2

8L’implication directe est évidente (q

j = 0 ⇒ xj = 0), et on a l’implication réciproque presque partout. En

effet, si xj∼ N (0, σx2Im,), la probabilité que xj= 0 est un ensemble de mesure nulle.

9Cette équivalence entre le calcul de l’estimateur du MAP et le problème pénalisé par la pseudo-norme `0 est en fait démontrée par [SIBD11] pour le modèle BG produit, où xj= qjaj. On peut cependant sans difficulté

Chapitre 1. Introduction

avec λ0 = 2σ2log(1/λ − 1). Cela revient, quand on fait tendre σ2xvers l’infini10, à la formulation pénalisée du problème `0 (1.8) que nous avons vue dans le cas des approches déterministes.

Dans le cadre supervisé (et pour σx2 < ∞), des algorithmes ont été proposés pour le calcul du MAP, comme l’algorithme SMLR (Single Most Likely Replacement), proposé par [KM82], qui permet une exploration locale de l’espace des configurations. Le critère à maximiser suivant

q vient soit de la loi a posteriori jointe p(q, x | y), soit de la loi a posteriori marginale Pr(q | y).

Notons tout de même qu’il a été montré que l’estimation suivant la loi jointe donnait lieu à davantage de fausses détections [CGI96]. Le principe du SMLR est de partir d’une séquence q(0) initiale, et d’améliorer le critère itérativement en ne modifiant qu’une seule composante de la séquence courante q(t), plus particulièrement celle dont la modification augmente le plus la loi a posteriori. L’algorithme SMLR n’a aucune garantie de converger vers le maximum global de la loi a posteriori mais seulement vers un maximum local. Dans le cadre non supervisé, des solutions ont été proposées pour l’estimation des hyperparamètres au sens du MAP, basées pour la plupart sur des algorithmes d’optimisation alternée ; la loi a posteriori est d’abord maximisée en q avec le SMLR (θ fixé), puis elle est maximisée suivant θ à q fixé (voir par exemple [CGI96,KHN15]). Dans tous les cas, la méthode envisagée est toujours sous-optimale à cause de l’emploi du SMLR. À la différence du calcul du MAP, le calcul de l’estimateur de l’EAP revient par définition à un problème de calcul d’intégrale qui n’est pas résolvable analytiquement. Plus précisément, l’intégration sur les amplitudes x se fait aisément à q fixé. Le calcul de l’EAP revient alors à faire une moyenne pondérée sur toutes les configurations possibles pour q, ce qui revient à une exploration combinatoire. La méthode la plus utilisée est alors de générer des échantillons des paramètres d’intérêt suivant la loi a posteriori afin de pouvoir calculer leur moyenne empirique. Par exemple, si l’on possède T échantillons (q(t), x(t)) ∼ p(q, x | y), alors la moyenne a posteriori marginale de la séquence de Bernoulli s’estime de la façon suivante :

b qEAP 1 T T X t=1 q(t)

Même si la loi a posteriori ne revêt pas d’expression simple permettant de simuler directe- ment des échantillons, elle se prête bien à l’échantillonneur de Gibbs, un type d’algorithme Monte-Carlo par Chaînes de Markov (MCMC), solution proposée par [CCL96]. Le principe est de tirer des échantillons de chaque paramètre suivant les lois a posteriori conditionnelles en les autres paramètres ; en effet, dans le cas du modèle BG, la loi a posteriori conditionnelle p(qj, xj| y, q−j, x−j, θ | ) (où u−j correspond au vecteur u sans la je composante) est une loi Bernoulli-Gaussienne et se simule aisément. Nous reviendrons sur cet échantillonnage au Cha- pitre3. Un tel échantillonneur permet d’obtenir asymptotiquement des échantillons tirés suivant une loi cible, ici la loi a posteriori. Notons que les échantillons de la loi a posteriori nous permettent non seulement de calculer l’estimateur de l’EAP, mais aussi de pouvoir approcher l’estimateur du MAP (voir [KTHD12] par exemple) et enfin de mieux comprendre la loi a pos- teriori ; les échantillons nous permettent par exemple d’estimer leur loi marginale sur la base de leur histogramme, et d’estimer leur variance et leurs corrélations.

Bilan sur les approches stochastiques

Nous avons vu que le problème d’APL peut se formaliser de façon probabiliste, en introdui- sant une loi a priori favorisant la parcimonie pour les amplitudes x. Cette modélisation mène à la définition de deux estimateurs et donc à deux problèmes différents :

10

On peut alors parler de modèle Bernoulli-Uniforme (BU).

1.2. Approximations parcimonieuses linéaires et différentes approches pour leur résolution

1. Estimateur du MAP : nous avons vu que le calcul du MAP se ramène à un problème d’op- timisation très proche (voir identique) à ceux décrits dans le cadre déterministe en §1.2.2. Le modèle bayésien apporte cependant une interprétation statistique des hyperparamètres. 2. Estimateur de l’EAP : cet estimateur nécessite l’utilisation d’algorithme d’échantillonnage MCMC afin d’obtenir des échantillons de la loi a posteriori. Bien que le coût de calcul d’une telle démarche soit important, notamment quand le nombre de paramètres à simuler augmente, l’échantillonnage MCMC permet notamment une estimation des hyperpara- mètres dans un cadre non supervisé, mais aussi d’obtenir une meilleure compréhension de la loi a posteriori.

Par la suite, nous différencierons donc les approches déterministes, qui visent idéalement à minimiser les problèmes `0 (1.8) (et se ramènent donc à l’estimateur du MAP), et les approches

stochastiques, qui consistent en une étude globale de la loi a posteriori des paramètres d’intérêt, grâce à des échantillonnages de type MCMC.