Agrégation d'estimateurs pour le débruitage d'image

(1)

HAL Id: inria-00386668

https://hal.inria.fr/inria-00386668

Submitted on 22 May 2009

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Agrégation d’estimateurs pour le débruitage d’image

Joseph Salmon, Erwan Le Pennec

To cite this version:

Joseph Salmon, Erwan Le Pennec. Agrégation d’estimateurs pour le débruitage d’image. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. �inria-00386668�

(2)

Agr´

egation d’estimateurs pour le d´

ebruitage

d’image

Joseph Salmon & Erwan Le Pennec

Laboratoire de Probabilité et Modèles Aléatoires, CNRS-UMR 7599, Université Paris 7-Diderot

175 rue du Chevaleret 75013 Paris

MOTS CLEFS: Modèles semi et non paramétriques, Statistique mathématique, Agrégation, NL-Means, Diffusion.

RÉSUMÉ: Dans ce travail sur le débruitage d’image, nous présentons un nouveau type d’estimateur par patchs inspiré de la méthode NL-Means proposée par Buades, Coll et Morel (2005) et des techniques PAC-Bayésienne étudiées par Dalalyan et Tsybakov (2007). Nous présentons le cadre théorique adapté pour ces estimateurs, leur implémentation ainsi que leurs performances théoriques et pratiques.

ABSTRACT: In this work on image denoising, we present a novel type of patch base estimator inspired by the Non Local Means proposed by Buades, Coll et Morel and the PAC-Bayesian techniques studied by Dalalyan and Tsybakov. We present the theo-retical framework adapted to these estimators and deal with both theotheo-retical and pratical performances of these estimators.

Le débruitage d’images numériques, l’estimation d’images corrompues par un bruit, est un thème classique à la frontière du traitement du signal et des statistiques. Inspirés par les travaux de Buades, Coll et Morel (2005) sur les Non Local Means (NL-means) et les techniques PAC-Bayésienne étudié par Dalalyan et Tsybakov (2007), nous proposons un nouveau type d’estimateur utilisant des patchs qui repose sur des techniques d’agrégation d’estimateurs.

Le modèle considéré est le modèle classique de régression sur une grille fixe: pour chaque pixel i d’une image de taille n × n, on observe

Yi = f (i) + εi ,

o`u f (i) est la vraie valeur et εi, une suite i.i.d. de gaussienne centr´ee de variance σ2connue.

Vectoriellement, Y = f + ε. On recherche alors des bons estimateurs de f en tout point de la grille à partir de l’observation de Y , la perte étant mesurée par la norme ℓ2_{. De}

nombreux estimateurs ont été proposés dans ce cadre: estimateurs à noyaux, seuillage dans des bases d’ondelettes ou des représentations géométriques... Nous étudions ici une classe d’estimateurs différente : celle des estimateurs basés sur des moyennes de patchs voisins.

(3)

Le premier estimateur de ce type a été proposé par Buades, Coll et Morel en 2005 sous le nom de NL-Means. Il est construit de la manière suivante. On place autour d’un pixel i0 une petite fenêtre (que l’on choisira en pratique de taille 5 × 5), et l’on appelle

patch bruité Pi0 la restriction de Y à celle-ci. On considère également dans un voisinage

de ce pixel, M patchs P (i0, 1), . . . , P (i0, M ) de mˆeme forme. On cherche alors `a estimer

la restriction de f à la fenêtre centrée autour de i0 par une combinaison linéaire ˆP (i0) des

patchs voisins, ˆ P (i0) = M X j=1 λ(i0, j)P (i0, j) ,

où les poids λ(i0, j) dépendent de la similarité du patch correspondant à P (i0, j) avec le

patch central. De manière plus précise, les poids associés à la méthode des NL-means sont proportionnels à des exponentielles en la distance ℓ2 _{des patchs et somment à 1:}

λ(i0, j) = exp (−β −1kP i0 − P (i0, j)k 2₎ PM k=1exp (−β−1kPi0 − P (i0, k)k 2₎ .

Le paramètre β, dit paramètre de température, permet de régler la mesure de similarité et joue le rôle de la fenêtre dans les méthodes à noyaux. Il contrôle donc le niveau de lissage. Cette méthode simple donne de très bon résultats pratiques mais il n’existe pas de preuve théorique de son efficacité.

Dans le travail de Dalalyan et Tsybakov (2007) sur l’agrégation d’estimateurs on voit apparaˆıtre une construction similaire pour laquelle ils obtiennent des résultats théoriques. Dans le même modèle statistique, ils se donnent une famille P (1), . . . , P (M ) de pré-estimateurs et cherche à estimer f à partir d’une combinaison linéaire Pλ de ceux-ci

Pλ = M

X

i=1

λ(i)P (i) .

Pour cela, ils fixent une loi a priori π sur RM _{et d´efinissent l’estimateur PAC-Bay´esien}

associ´e ˆfπ par ˆ fπ = R RM Pλexp (−β−1kY − Pλk2) π(dλ) R RM exp (−β−1kY − Pλk2) π(dλ) .

La similarité entre cette formule et celle des NL-Means est frappante. De manière plus précise, on retrouve exactement les NL-Means en restreignant l’estimation au voisinage autour de i0, en choisissant pour pré-estimateurs les patchs voisins P (i) = P (i0, i) et pour

π la loi discrète uniforme sur les pré-estimateurs, soit π = 1/MPM_i=1δei où e1, . . . , eM

est la base canonique de RM_{, et δ}

ei est la mesure de Dirac associ´ee. Lorsque les

pré-estimateurs sont indépendants de Y , ils démontrent que si β ≥ 4σ2 _alors

Ekf − ˆfπk2 ≤ inf p

Z

(4)

o`u p parcours l’ensemble des probabilit´es sur RM _{et K(p, π) est la divergence de}

Kullback-Leibler entre p et π. Le risque de l’estimateur est plus petit que le risque de toute com-binaison des estimateurs Pλ `a un terme pr`es mesurant la distance entre ces combinaisons

et l’a priori utilisé. L’hypothèse d’indépendance n’est pas vérifiée dans le cas d’utilisation des patchs mais des travaux en cours suggèrent qu’une inégalité de la forme

Ekf − ˆfπk2 ≤ inf p

Z

kf − fλk2+ σ2|λ|2p(dλ) + βK(p, π) ,

est vérifiée. Celle-ci signifie que le risque de l’estimateur est majorée par toute le risque de toute combinaison d’estimateur à noyaux à un terme mesurant la distance entre l’a priori et cette combinaison près; on fait “aussi bien” que le meilleur des noyaux possibles au terme de divergence près.

Deux questions se posent alors: Comment choisir l’a priori π pour assurer que le membre de droite de l’inégalité précédente soit proche du minimum sans le terme de divergence? Comment calculer en pratique cet estimateur?

L’efficacité de la méthode repose en grande partie sur le choix de l’a priori sur les pré-estimateurs. L’avantage des NL-means est la simplicité de leur calculs. Le choix d’un a priori uniforme sur les valeurs P (i0, 1), . . . , P (i0, M ) permet de ne pas avoir d’intégrale

à calculer. Dalalyan et Tsybakov ont montré l’intérêt d’un a priori symétrique à queue lourde (par exemple une loi 3-Student) lorsque le meilleur estimateur est une combinaison parcimonieuse des pré-estimateurs. Dans le cadre du débruitage, une approche “noyau” conduit à regarder un a priori gaussien, ou un mélange gaussien.

Dalalyan et Tsybakov (2009) suggèrent une méthode de type Langevin-Monte Carlo, analogue continu des méthodes MCMC classiques, pour le calcul de l’estimateur. Cette méthode est basée sur le faite que si V est une fonction suffisamment régulière (et sous quelques conditions techniques), la solution L de la diffusion régie par l’équation de Langevin,

dLt= ∇V (Lt)dt +

√

2 dW t , L0 = λ0 , t ≥ 0 ,

avec λ0 ∈ RM, Wtun mouvement Brownien M -dimensionnel, a pour distribution

station-naire pV(λ) ∝ eV (λ), λ ∈ RM. En prenant

V (λ) = −β−1kY − f

λk2n− log (π(λ)) ,

la diffusion converge vers la distribution apparaissant dans les estimateurs PAC-Bayésien. L’intégrale R_RM λpV(dλ) s’obtient alors comme limite des intégrales le long d’une

trajec-toire ¯LT = _T1

RT 0 Ltdt.

Cette intégrale est approchée numériquement grâce à la résolution d’un schéma d’Euler discret à pas constant associé à la diffusion. On définit LE

0 = λ0 et pour k = 1, . . . , [T /h]−

1,

(5)

o`u W1, W2, . . . sont des gaussiennes standardis´ees et i.i.d de RM. On approche alors naturellement ¯LT par: ˆ LE_T,h = 1 [T /h] [T /h]−1_X k=0 LE_k.

Cette méthode permet de calculer un estimateur proche de l’estimateur théorique. Nous avons comparer les différents a priori sur des images usuelles et nous montrerons les variations de performances selon le type d’a priori choisi.

Bibliographie

[1] A. Buades, B. Coll, and J-M. Morel (2005) ”A review of image denoising algorithms, with a new one”, Multiscale Model.Simul., vol. 4, no. 2, pp. 490-530.

[2] A. Dalalyan and A. Tsybakov (2007) ”Aggregation by exponential weighting, sharp oracle inequalities and sparsity” in COLT, pp. 97-111.

[3] A. Dalalyan and A. Tsybakov (2009) ”PAC-Bayesian bounds for the expected error of aggregation by exponential weigths” to appear.