Adaptation du contenu spatio-temporel des images pour un codage par ondelettes

(1)

HAL Id: tel-00355207

https://tel.archives-ouvertes.fr/tel-00355207

Submitted on 22 Jan 2009

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

un codage par ondelettes

Benjamin Le Guen

To cite this version:

Benjamin Le Guen. Adaptation du contenu spatio-temporel des images pour un codage par ondelettes.

Autre. Université Rennes 1, 2008. Français. �tel-00355207�

(2)

THÈSE

Présentéedevant

devant l'Université de Rennes 1

pour obtenir

le gradede : Do teur de l'Université de Rennes 1 Mention Traitement du Signal et Télé ommuni ations

par

BenjaminLe Guen

Équipe d'a ueil :TECH/IRIS/CVA (OrangeLabs, Rennes) É ole Do torale: Matisse

Composante universitaire : Supéle -SCEE/IETR-AC

Titre de lathèse :

Adaptation du ontenu spatio-temporel des images

pour un odage par ondelettes

soutenue le14 février2008 devant la ommission d'examen

M. Président du jury Président

M. Mi hel Barlaud Rapporteurs

Mme Béatri e Pesquet-Popes u

MM. Kadi Bouatou h Examinateurs

Vin ent Ri ordel Ja ques Pali ot Ja ques Weiss Stéphane Pateux

(3)

(4)

(5)

(6)

Cetravail aétéréalisé danslelaboratoire TECH/IRISde Fran eTélé om R&Dau seindel'équipeCompressionVidéoAvan ée.Ilestissud'une ollaborationave l'équipe Supéle -SCEE, omposante dulaboratoire IETR.

Jevoudraistoutd'abordremer ierVin entMar attéetAlexandreNollepourm'avoir admisauseindulaboratoireIRIS.Jeremer iesin èrementHenriSansonetLudovi No-bletpour m'avoir a ueillidansl'équipe CVAet m'avoirfourni lesmoyensde onduire et mettreen valeurmes re her hes.

Un grand mer ià StéphanePateuxpour m'avoir guidépendant estroisannéesde thèse. Par son intuition, ses onnaissan es et son sens inné des mathématiques, Sté-phane m'a permis d'avan er onstamment dans mes re her hes et de mener à bien les idées quisontdéveloppées dans e manus rit.

Un grand mer i également à Nathalie Cammas pour l'intérêt qu'elle a porté à ma thèse auquotidien.Sa grandedisponibilitépourrépondreàmesquestionss ientiques et sonsoutienmoral ont largement ontribué à laréussite de ette thèse.

Je tiens à remer ier sin èrement Ja ques Pali ot et Ja ques Weiss, professeurs à Supéle ,pour avoir a epté respe tivement de diriger et d'en adrer ette thèse.Mer i d'avoir prisletemps d'évaluer régulièrement lapertinen ede estravauxet de m'avoir en ouragé àles mettre envaleur autravers de présentations et d'arti les.

Je remer ie M. Mi helBarlaud, professeur à l'Université de Ni e-Sophia Antipolis, etMmeBéatri ePesquet-Popes u,professeuràl'ENST,d'avoira eptélatâ hedi ile de rapporteurs. Je remer ie M. Vin ent Ri ordel, maître de onféren es à l'Université de Nantes, d'avoir a epter dejuger e travail.Enn, ungrand mer i àM. Kadi Boua-tou h, professeur àl'IFSIC, quim'a faitl'honneur deprésider e jury.

CeséjouràFran eTélé om R&Dfutl'o asiondetravaillerenéquipeetde ren on-trerdespersonnestrèssympathiques.A etitre,jevoudraisremer ierIsabelleAmonou, Sylvain Kervade et Maryline Clare pour leurs onseils, leur gentillesse et leur bonne humeur. Mer i à Sid-Ahmed Berrani pour les nombreuses dis ussions que nous avons eues. Mer ià mes ompagnonsdumidi età lajoyeusebande desthésards.

Mer i à mesamisde Supéle et Georgia Te h.

Enn, mer imaman.

(7)

(8)

Table des matières 1

Abréviations 5

Notations 7

Introdu tion 9

1 Cadre de travail 15

1.1 Contenu desimages. . . 15

1.1.1 Contenu spatialet uxgéométrique . . . 15

1.1.2 Contenu temporel et uxoptique . . . 16

1.2 Enseignements de lavision. . . 17

1.2.1 Représentation dess ènesnaturelles . . . 17

1.2.2 Lanotion de qualité . . . 19

1.3 Représentation . . . 20

1.3.1 Analyse-Synthèse . . . 20

1.3.2 Approximationnon linéaire . . . 22

1.3.3 Représentation enfréquen e : Fourier. . . 23

1.3.4 Représentation temps-fréquen e . . . 25

1.3.5 LesOndelettes . . . 26

1.3.6 Né essitéd'exploiterlagéométrieetlemouvement:lesondelettes se onde génération . . . 31 1.4 Compression. . . 32 1.4.1 Briquesdebase . . . 32 1.4.2 Optimisationdébit-distorsion . . . 34 1.4.3 Obje tif s alabilité . . . 35 1.4.4 Codeurs ondelettes . . . 36

2 Adaptivité spatiale dans les odeurs d'images : outilsantérieurs 41 2.1 Basesxes . . . 42

2.1.1 Transformée deRadon . . . 42

2.1.2 Ridgelets . . . 42

(9)

2.1.4 Contourlets . . . 46

2.2 Modélisations géométriqueslo ales . . . 49

2.2.1 Dire tionlets : raisonnement sur latti es . . . 49

2.2.2 Liftingdire tionnel surlatti equin on e . . . 52

2.2.3 Liftingdire tionnel pour un ltrage sous-pixellique . . . 54

2.2.4 Bandelettespour unsuivi deslignesde ux . . . 56

2.2.5 Wedgelets : imagettesde ontours . . . 63

2.3 Modélisations géométriquesglobales . . . 64

2.3.1 Segmentation dudomaine image . . . 64

2.3.2 Création d'unQuadtree adaptatifpar optimisation débit-distorsion 65 2.3.3 Gestion deseetsde bords . . . 67

2.3.4 Maillage2D . . . 68

2.4 Compression. . . 75

2.4.1 Codage dessous-bandes . . . 75

2.4.2 Remarques surlas alabilité . . . 77

3 Adaptivité temporelle dans les odeurs vidéo : outils antérieurs 81 3.1 Modélisation paramétriquedu hampde mouvement . . . 81

3.1.1 Champ de mouvement unidire tionnel . . . 81

3.1.2 Modèletranslationnel par blo s . . . 82

3.1.3 Modèletranslationnel par blo sre ouvrants . . . 83

3.1.4 Blo sdéformables . . . 84

3.1.5 Maillagedéformable ou Control GridInterpolation CGI . . . 87

3.1.6 ModèleshybridesSCGI et SOBMC . . . 89

3.2 Estimationdesparamètres demouvement . . . 90

3.2.1 Blo kMat hing . . . 91

3.2.2 OBME. . . 92

3.2.3 Maillagerégulier . . . 93

3.2.4 Modèleshybrides . . . 96

3.3 Exploitation dumouvement dansles odeurs . . . 97

3.3.1 Codage prédi tif basique . . . 97

3.3.2 Codage hybridebaséondelettes 3D . . . 98

3.3.3 Codage par analyse-synthèse . . . 103

3.3.4 Remarques surlas alabilité . . . 109

4 Codage d'images xes par adaptation du ontenu spatial 113 4.1 S héma proposé . . . 114

4.1.1 Prin ipe général . . . 114

4.1.2 Maillage2D omme modèlede déformation . . . 115

4.1.3 Déformationimage versus déformation ondelette . . . 117

4.1.4 Dis rétisation de latransformée . . . 119

4.2 L'analyse: estimation deladéformation . . . 121

(10)

4.2.3 Gestion desbords. . . 129

4.2.4 Exemples d'analyse-synthèse . . . 129

4.3 Compression. . . 135

4.3.1 Codage de latextureet du maillage . . . 135

4.3.2 Inuen edesparamètres . . . 138

4.3.3 Premières omparaisons ave JPEG2000 . . . 142

4.3.4 Premierbilan . . . 148

4.4 Modi ations dus héma . . . 149

4.4.1 Codage de l'image derésidus . . . 149

4.4.2 Augmentation de larésolution de latexture . . . 150

4.4.3 Amélioration du ompromis adaptativité- oût . . . 151

4.5 Bilandu hapitre . . . 162

5 Adaptation spatio-temporelle d'un groupe d'images pour un odage par ondelettes t+2D 165 5.1 S héma proposé . . . 166 5.1.1 Prin ipegénéral . . . 166 5.1.2 Analyse . . . 167 5.1.3 En odage . . . 171 5.1.4 Synthèse . . . 172

5.2 Résultats ave une modélisation de la géométrie et du mouvement par maillage déformable . . . 172

5.2.1 Analyse-Synthèse : illustrations . . . 172

5.2.2 En odage . . . 179

5.2.3 Résultatsde ompression . . . 181

5.3 Amélioration dela ompensationtemporelle . . . 184

5.3.1 Butde l'étude. . . 184

5.3.2 Résultatsd'analyse temporelle . . . 186

5.3.3 Résultatsde synthèse . . . 189

5.3.4 Résultatsde odage . . . 193

5.4 Bilandu hapitre . . . 194

Con lusion 197 Perspe tives 201 A Création d'un maillage par intégration de lignes de ux géométrique209 A.1 Etatde l'artsurlagénération delignes deux . . . 210

A.2 Appli ation auremaillage de surfa es . . . 212

A.3 Adaptation au réé hantillonnage d'uneimage . . . 213

A.3.1 Constru tiondu hampve toriel . . . 214

A.3.2 Lesmodi ations de l'algorithme . . . 217

(11)

Bibliographie 241

(12)

SVH :Système Visuel Humain. PSNR: RapportSignal à Bruit.

SSIM: Stru tural Similarity ImageMetri . EQM: Erreur QuadratiqueMoyenne.

ITU: International Tele ommuni ationUnion.

ITU-T: ITUTele ommuni ation Standardization Se tor. ISO: International Organization for Standardization. IEC: International Ele trote hni al Commission. JPEG: Joint Pi ture ExpertGroup.

MPEG: MotionPi ture ExpertGroup.

ASt : S hémapar analyse-synthèse temporelles. AS2D: S hémapar analyse-synthèse spatiales.

AS2D+t: S hémapar analyse-synthèse spatio-temporelles.

JPEG2000 : Norme a tuellede ompression s alabled'images xes. H.264/MPEG-4 SVC : Norme a tuellede ompressions alable de vidéos.

OBMC: Ovelapped Blo kMotion Compensation.

SOBMC: Swit hed Ovelapped Blo kMotion Compensation. CGI : Control GridInterpolation.

SCGI : Swit hed Control GridInterpolation.

EZW: Embedded Zerotree Wavelet.

EBCOT : Embedded Blo kCodingwith Optimized Trun ation. SPIHT: Set Partitioningin Hierar hi al Tree.

GOF: Groupe d'images.

CIF: Common Intermediate Format

352 × 288

. DID: Diéren ed'image dépla ée.

(13)

(14)

Généralités

C

α

_(D)

: Ensembledesfon tions dénies sur

D α

fois ontinues et dérivables.

C

α

_\C

α

_(D)

: Ensemble des fon tions dénies sur

D

ontenant des régions de régularité

C

α

séparéespar dessingularités

C

α

.

˜

f

M

: Approximation non linéaire de

f

ave

M

oe ients.

< ., . >

: produits alaire.

k.k

2

: norme

L

2

.

Γ

: uxgéométrique.

γ

: ve teurde

Γ

.

Υ

t

c

→t

r

: hamp demouvement de

t

c

à

t

r

.

υ

t

c

→t

r

: ve teur de

Υ

t

c

→t

r

.

ψ

j,m

:fon tiond'ondelettedilatéedufa teur

2 j

ettranslatéeauvoisinagedupoint

2 j

_m

.

φ

j,m

: fon tiond'é helle dilatéedu fa teur

2 j

et translatée auvoisinage du point

2 j

_m

.

d

j

[m]

: oe ient d'ondelette.

a

j

[m]

: oe ient d'approximation.

R

: Débit.

D

: Distorsion.

Id

: Identité.

ˆ

s

: signal

s

dé odé. Maillage déformable

l

a

:taille d'une arête.

N

s

: nombre de sommets.

i

: indi e d'un sommet.

(x

i

, y

i

)

: oordonnées dusommet

i

dansledomaine image.

(u

i

, v

i

)

: oordonnées dusommet

i

dansledomaine texture.

M

: maillage dansledomaine image.

(15)

˜

M

: maillage dansledomaine texture.

E

_d

: énergie de déformation.

ω

d

: poids asso iéà

E

d

.

Q

m

: pasde quanti ation pour lemouvement.

Q

g

:pas dequanti ation pour lagéométrie.

Analyse-Synthèse spatiales

I

: image.

T

: texture.

D

:domaine image.

˜

D

:domaine texture.

(x, y)

: point oupixel dansledomaine image.

(u, v)

: point oupixel dansledomaine texture.

k

: itération.

w

: transformationspatiale.

w

−1

:transformation inverse.

C

: oûtde des riptionde latexture.

˜

T

j

:approximation de

T

àl'é helle

2 j

.

T

cible

: texture ible.

J

w

: ja obiende ladéformation

w

.

I

⋆

: image de qualité maximale que l'on peut re onstruire sans perte surla texture et ladéformation

w

.

I

ǫ

:image de résidu

I

− I

⋆

.

r

d

: rapportentreles dimensionsde latexture et lesdimensions del'image.

n

p

: nombre deplans de bitsnon re onstruits pour lagéométrie.

T

ssim

: seuilutilisé pour déte terles zonestexturéesmal re onstruites.

T

w

: seuilutilisé pour déte terles déformationsde maillesnon signi atives.

Analyse-Synthèse spatio-temporelles

N

G

: taille desGOF.

I

t

: image àl'instant

t

.

D

t

: domaine image à l'instant

t

.

T

t

: texture àl'instant

t

.

˜

D

t

: domaine texture àl'instant

t

.

t

r

: instant de référen epour une estimation demouvement.

t

c

: instant ourant.

t

p

:instant de proje tion.

¯

I

t

: prédi tion de

I

t

.

¯

I

t

c

→t

r

: prédi tion de

I

t

c

après ompensation enmouvement de

I

t

r

.

I

BF

: basse fréquen etemporelledu GOF ompenséen mouvement.

w

g

_BF

: géométrie al ulée sur

I

BF

.

(16)

Les images et les vidéos ont envahi notre quotidien. L'évolution des te hnologies numériquesetlenombre toujoursplusimportantdeservi esproposésàl'utilisateuront favorisél'explosiondes ontenusmulti-medias.Andesto ker es ontenus,deles trans-férer oude les diuser en temps réel, une étape de ompressionest né essaire: pour une apa itédesto kageoudedébitendiusiondonnée,ilfautfourniràl'utilisateurla meilleurequalitévisuellepossible.Mêmesiles apa itésdesdisquesdursetdesréseaux sesont a rues, laproblématique de ompression reste plus que jamaispertinente. En eet, eta roissementdes apa itésaaussifaitnaîtredenouvellesappli ations omme laTVsurmobile ousur internet,laHDau format progressif

1080

p, laTV3D...

Au-delàdelare her hedumeilleur ompromisdébit-distorsionpossible,ondemande aujourd'huiauxalgorithmesde ompressionunegrandesouplessefa eàlanaturevariée des appli ations, des réseaux et des terminaux. On parle souvent de onvergen e. En parti ulier, la problématique de s alabilité s'est imposée omme un enjeu majeur au ours des dernières années : un ux en odé est dit s alable ou emboîté s'il peut être tronqué pour s'adapter à des apa ités de débit ou des résolutions spatiales et temporelles d'a hage variées.

Pour lavidéo,lestandard de ompression s alablea tuel estH.264/MPEG-4 SVC, amendement au standard non s alable H.264/MPEG-4 AVC. AVC est né d'un eort ommun entre les deux organismesde standardisation quesont l'ITU-T et l'ISO/IEC . Ils'ins rit danslalignée desstandardsH.26xet MPEG-xquis'appuient surun odage prédi tif.Leprin ipeestdeprédireuneimage ouranteàl'aided'uneouplusieursimages déjàen odéesen ee tuant uneestimationpuis une ompensationen mouvement,puis de transmettre le résidu de prédi tion. Chaque brique de transformée et d'en odage a été exploitée et optimisée au ours des deux dé ennies pré édentes. Ave AVC les apa ités ont en ore étémultipliées par deux.

Malgré les bonnes performan es oertes par le s héma de odage prédi tif, il est important de proposer des appro hes en rupture ave e s héma et d'évaluer leur potentiel par rapport aux standards. Dans ette optique, les travaux de Cammas et Pateux[Cam04b,CP03b℄ontaboutiàuns hémade odageditparanalyse-synthèse dont le prin ipe est illustré sur la gure 1. L'idée i i est de déformer le ontenu d'un groupe d'images pour l'adapter àune dé ompositionle longdel'axe temporelxe. Un suivi de mouvement par maillage déformable est appliqué puis, en s'appuyant sur le mouvement estimé, haque image d'origine estprojetée dansun même système de oordonnées.Legrouped'images(GOF) ompenséenmouvementestensuitedé omposé

(17)

Vidéo reconstruite

Séquence vidéo

Texture

Mouvement

ANALYSE

SYNTHESE

Fig. 1 :S héma paranalyse-synthèsetemporellesproposé parCammaset Pateux[Cam04b, CP03b℄.

(18)

paruneondelette1Ddansladire tiontemporelleetlessous-bandestemporellesgénérées sontenvoyéesàJPEG2000.Lemouvementdoitêtretransmispoursynthétiserlesimages enboutde haîne.Dans es héma,onremarquedon quele ontenu des imagesest adapté au noyau de dé omposition temporelle. C'est une distin tion forte par rapportau s héma standard et auxs hémas s'appuyant surune transforméeondelette adaptéeaumouvement (MotionCompensatedTemporelFiltering)où 'estlenoyau quis'adapte au ontenu temporel. Les hémade Cammas et Pateux ore en outreune s alabilité naturelle quia montréde bonnesperforman es par rapportau odeur SVC. Lestravauxquenousavonsmenés dans ettethèse s'ins rivent dansla ontinuité de e s héma.

Comme nous l'avons noté, dans le s héma pré édent les sous-bandes temporelles sont odées par JPEG2000. JPEG2000 est le standard de ompression s alable a tuel pourl'imagexe.Cestandardestbasésurlatransforméeen ondelettesetle odeur EBCOT.JPEG2000afortement amélioréle ompromisdébit-distorsionpar rapportau pré édent standard JPEG à base de DCT, tout en orant la s alabilité. Cependant, desaméliorationssont possibles.En parti ulier, latransforméeenondelettes lassiques opère un ltrage des images selon des dire tions xes (l'horizontale et la verti ale) souvent inadaptéesau ontenulo al.Lorsquel'image ontient des ara téristiques géo-métriques ( ontours, motifs de texture) non horizontales ni verti ales, leur énergie se trouve répartie sur un nombre importants de oe ients dans le domaine ondelette. Lors d'une approximation non linéaire à l'aide d'un nombre limité de oe ients, es oe ients ont une probabilité forte d'être seuillés, e qui se traduit par des rebonds d'ondelettesgênants aprèsre onstru tion de l'image.

Pourremédier à e phénomène,unese ondegénérationd'ondelettesestnée.Le but estde proposer desbasesoudes di tionnairesd'atomes deformesvariéespouvant ap-turer les ara téristiques géométriques d'une image pour produire des représentations par imonieuses.L'énergie d'un ontourest alors on entrée surun petit nombre de o-e ientsdeforteénergiequinesontpasseuilléslorsd'uneapproximationetpermettent une meilleure re onstru tion de la géométrie. Lorsque la based'ondelettes est adapta-tive,les paramètresd'adaptation doiventêtre transmisave les oe ientsd'ondelettes pour pouvoir dé oder l'image. La question est de savoir si le oût de odage de es paramètres est ompensépar larédu tionde l'entropie des oe ientsd'ondelettes.

Les premiers travaux que nous avons menés dans ette thèse on ernent le o-dage d'images xes. L'idée est d'exploiter une appro he similaire à elle adoptée par Cammas et Pateux dansle adre de la vidéo en proposant de déformer le ontenu spatial d'une imagexe pour l'adapter à un ltrage xe horizontal-verti al. Comme dansles travaux pré édents, nous hoisissons de modéliser la déformation par un maillage déformable. Le problème prin ipal est de déterminer une heuristique qui permet de dénir la position des noeuds du maillage, paramètres de déformation. Au hapitre 4, nousdé rivons une te hnique d'estimation qui répond à e problème. Elle s'appuie sur l'expression du oût de odage de l'image déformée en fon tion des pa-ramètres de déformation. A l'issue de ette analyse, l'image est représentée par une image déformée, appelée texture, de moindre oût de odage et par les paramètres de

(19)

ginepeutêtresynthétiséeen inversant ladéformation.Ces héma paranalyse-synthèse spatialeest illustrésurlagure2.Sesperforman es entermesde ompressionpar rap-portàJPEG2000 sont étudiées. Visuellement,on observe unemeilleure re onstru tion des ontours des images ave une atténuation signi ative de l'eet rebond. Cepen-dant, les métriques utilisées (PSNR et SSIM) donnent des résultats obje tifs moins bonsque eux de JPEG2000. L'expli ation vient despertes numériquesintroduites en ré-é hantillonnant l'image lors de l'analysepuis de la synthèse. Ces pertes numériques sontsurtoutvisiblesdansleszonestexturées.Despost-traitementsàl'analysesontalors proposés pour les limiter. Ils permettent de ré-hausser la qualité visuelle et obje tive desimages re onstruites.

I

⋆

T

w

I

A

N

A

L

Y

S

E

S

Y

N

T

H

E

S

E

Fig. 2 :S hémaparanalyse-synthèsespatialeproposéau hapitre4.

Les se ondstravaux quenousavonsmenésdans ettethèseportentsurle odage devidéos. Cestravauxsont dé ritsau hapitre 5.L'idée estdefusionnerlestravauxde thèsede Cammaset nostravauxsurl'image xe. Eneet,dansl'appro he deCammas et Pateux, les images ompensées en mouvement onservent des ara téristiques géo-métriques quine sont pasprisesen ompte.Enadoptant l'analyse spatiale pré édente, il est possible d'adapter les images d'origine d'un GOF à la fois à une dé omposition temporellexeet àune dé omposition spatialexe (horizontale-verti ale). Cependant, estimer et transmettredesparamètres géométriquespour haqueimage duGOF serait prohibitif.Nous proposons don d'estimer une seule géométrie pour toutle GOF om-pensé en mouvement : la géométrie de la basse fréquen e temporelle. Si l'alignement temporel a été e a e, alors toutes les images du GOF ompensé ont une géométrie similaire à ellede l'image de basse fréquen e temporelle. L'adaptation du ontenu de haque image d'origine peut ainsi se faire en appliquant une ompensation en mouve-ment diérente pour haque image suivie d'une ompensation en géométrie identique

(20)

adaptéàunedé ompositionparondelettes3D.Commepourl'imagexe,lesparamètres demouvement et de géométrie doivent êtretransmisave lestextures pourpouvoir re- onstruirelesimagesenboutde haîne.Laquestionestdesavoirsilapriseen omptede lagéométrieapporteungainparrapportaus hémad'analyse-synthèsetemporelle.Bien qu'une seule géométrie soit transmise pour un GOF, nos résultats indiquent que ette géométrie o upe une parttropimportante du débitsi l'on souhaiteextraire susam-mentdedétailsgéométriques.Bien quelare onstru tiondes ontourssoitaméliorée, la qualité visuellegénérale desimages est moinsbonne.Notons ependant que les héma proposéestuns hémagénéral quipeut êtreappliquéave d'autresmodèlesde mouve-ment et/oude géométrie quelemaillage déformable.

Le manus rit estorganisé omme suit:

Chapitre 1 Ce hapitre pose le adre de notre travail. Il dénit le ontenu des images (mouvement et géométrie), s'intéresse à leur impa t visuel puis se pen he sur la problématique de représentation. Les limites des ondelettes séparables et l'intérêt des ondelettes se onde génération sont mis en avant. La dernière se tion est dédiée à la problématique de ompression. Elle rappelle les briques de base d'un algorithme de ompression d'images, énon e le problème de l'optimisation débit-distorsion puis fait un fo us sur la s alabilité avant de dé rire les prin ipaux odeurs de sous-bandes d'ondelettes.

Chapitre 2 Ce hapitre propose un état de l'art sur les outils antérieurs permet-tant deprendre en ompte le ontenu spatial (géométrique)d'une image xe. Dansun premier temps, les bases xes sont traitées (Ridgelets, Curvelets, Contourlets...). Les deux se tions suivantes sont onsa rées aux méthodes adaptatives qui s'appuient sur unmodèle de géométrie àtransmettre. Nous nouspen honstoutd'abord surlesoutils permettantune analyselo ale (latti es,lifting dire tionnel, déformationde blo s, Ban-delettes...). Puis nous étudions les modèles de représentation globaux. Le maillage et sespropriétés sont en parti ulier introduits.

Chapitre 3 Ce hapitre fait é ho au hapitre pré édent en dé rivant les outils an-térieurs permettant une adaptation au ontenu temporel dans une vidéo. La première se tion dé rit diérents modèles de mouvement ( Blo k Mat hing, maillage défor-mable...). La se onde se tion s'intéresse à la manière d'estimer les paramètres de es modèles. Enn, la troisième partie dé rit diérentes façon d'exploiter le mouvement dans un algorithme de ompression. Nous revenons ainsi par exemple sur le odage prédi tifet sur les hémapar analyse-synthèse temporelles deCammas et Pateux.

Chapitre 4 Ce hapitre présente le travail que nous avons mené sur l'image xe. Lapremière se tiondé rit leprin ipegénéral dus hémapar analyse-synthèse spatiales notéAS2D.Nousdistinguonsnotretravail del'artantérieuret introduisonslemaillage

(21)

parti ulier, nousdénissons le oûtdedes riptionde latextureà minimiser,nous l'ex-primonsparrapportauxparamètresdedéformationpuisproposonsunete hnique d'op-timisation ressemblant fortement à une estimation de mouvement entre deux images. La se tion 1.4 dé rit la façon dont nous odons la texture et le maillage et présente despremiersrésultatsde ompressionobtenus enutilisantdesmaillesave unetaillede l'ordrede

16 × 16

pourmodéliserlagéométrie.Cettetailledemaillepermetd'améliorer laqualitévisuelledesimagespossédantunegéométrie simplemaisestinsusante pour desimagesau ontenugéométriqueplusn.Danslase tionse tion4.4,nousproposons d'apporter quelquesmodi ations au s héma pour d'une part améliorer laqualité des zones texturéespar rapportau s héma de base et d'autre partmodéliser des ontenus géométriquesplus omplexes.

Chapitre 5 Ce hapitre présente le travail que nous avons mené sur la vidéo. La première se tion dé rit le s héma général d'analyse-synthèse spatio-temporelles noté AS2D+t . La se onde se tion montre les résultats obtenus en utilisant le maillage dé-formable à la fois omme modèle de géométrie et omme modèle de mouvement. Des résultats omparatifs ave le standard H.264/MPEG-4 SVC et le s héma d'analyse-synthèsetemporelleAS tsont donnés.Lesrésultatsdonnéspar SVCsontmeilleurs que eux donnés par nosimplémentations dess hémas par analyse-synthèse.D'autre part, lesrésultatsindiquent quele oûtdelagéométriedansles hémaAS2D+testtrop im-portantpouraméliorerlesperforman esdus hémaAS t.Dansladernièrese tion,nous avons her hé àaméliorerl'alignement temporeldesimagesenutilisant desmodèlesde mouvement moins ontraints quelemaillage déformablepermettant dereprésenter des dis ontinuités de mouvement. Ces modèles permettent ee tivement un meilleur ali-gnement temporel maislesrésultatsde odage obtenus n'apportent pasd'amélioration signi ativeparrapportà euxobtenusave unmaillagedéformable. Desur roît, auto-riserles dis ontinuités demouvement engendre deszonesnon onne tées à lasynthèse dontla re onstru tionest unproblème ouvert.

Suite au hapitre 5, nous donnons les on lusions de nos travaux en rappelant les prin ipales ontributions. Dans les perspe tives, nous introduisons une nouvelle stru -turepour représenterune vidéo. Ellesera étudiée dansdestravauxde thèse futurs.

(22)

Cadre de travail

Exploiterlesredondan esd'unsignalestunprin ipedebaseen ompression.Lorsque lesignalestune imageou unevidéo, ertaines onnaissan esa prioripeuvent guider la re her he desredondan es. En parti ulier, lagéométrie en2D etle mouvement le long del'axetemporeldénissentdestraje toiresrégulièresdontonpeuttireravantage. S'in-téresser à es informations de stru ture est d'autant plus important qu'elles jouent un rleprimordial dansl'interprétation desimagespar leSystème VisuelHumain (SVH). Dans e hapitre, nousintroduisons es notions qui sont étroitement liées au sujet dethèseetfa iliteront lale turedes hapitressuivants.Aprèsune ourtedes riptiondu ontenu desimages, nousnousarrêtons en se tion1.2 surlepro essus de onstru tion mental des images par le SVH et sur la notion ru iale de qualité. La se tion 1.3 est quant à elle dédiée à la problématique de représentation. Un fo us sur les ondelettes nous permet de pré iser les motivations qui ont onduit à l'étude sur les ondelettes se onde génération. Enn, en se tion 1.4, nous rappelons ertains enjeux spé iques à la ompression et évaluonsles performan es des odeursondelettes nonadaptatifs fa e à esenjeux.Notons quediérentstravaux de thèseont abordéun ouplusieurs de es thèmespré édemment, parexemple[Pen02,Cha05b ,Pey05b ,Vel05b ℄.Desdes riptions mathématiquesplus approfondiespourront être trouvées dans esouvrages.

1.1 Contenu des images

1.1.1 Contenu spatial et ux géométrique

Une image naturelle est une proje tion 2D d'une s ène à un instant donné. Son intensité peut être modélisée par une fon tion bidimensionnelle ontinue

I

dénie sur unintervalle borné

D

.Lavaleurde ettefon tion enunpoint

x

= (x, y)

dépend prin i-palement de laquantité de lumière réé hie par les objetsde la s ène,maiségalement desbruitsd'a quisition. Cettethèses'intéresse enparti ulier auximagesdis rètes dé-niessurune grillede pixels.Lesdimensionsde ettegrille déterminent larésolution de l'image. Au ours de e manus rit, nousserons parfoisamenés à onsidérer une image

I

omme une surfa e donnée par l'ensembledespoints3D

{(x, y, I(x, y))}

(23)

Les images naturelles que l'on roise dans notre quotidien ne sont pas des bruits purementaléatoires.Ellesvéhi ulent uneinformationquiestportéeessentiellementpar troiséléments :

Les ontours.Un ontourestformélorsque deuxobjetsdelas ènesesuperposentou lorsque deux zones ontiguës d'un même objet ont des niveaux de gris très diérents. A l'é helle du pixel, le passage d'un objet à un autre dans une dire tion donnée se ara térise par une modi ation abrupte du niveau de gris nommée dis ontinuité de type point. A l'é helle de l'image, les dis ontinuités de type point seregroupent pour former une dis ontinuité, ou singularité, 1Dquel'÷ilre onnaît omme un ontour. Les zones texturées. Les zones texturées sont des zones de l'image omportant des motifs ns qui se reproduisent à l'é helle du pixel selon un s héma déterministe ou sto hastique [EF01 , HB95 ℄. La dénition d'une zone texturée est dépendante de la résolution de l'image : un motif dans une zone texturée peut apparaître omme un objetà partentière délimitépar des ontours àune résolution plus importante.

Leszones homogènes.Ceszonessontdesrégionsdel'imageoùleniveaudegrisvarie defaçonrégulière.Uneimagedetype artoonest omposéeprin ipalement dezones homogènesdélimitées par des ontours.

Commenouspouvonsl'observer, estroisélémentsporteursd'information ontiennent ha un unedose derégularité plusou moins omplexe àreprésenter.

Nousdénissonsleuxgéométrique

Γ

ommel'ensembledesve teurs

γ(x)

donnant la dire tion de régularité maximale en haque point

x

du domaine image. Une ligne de ux géométrique s'obtient en intégrant le ux de pro he en pro he lorsque ela est possible [MAD05℄. La taille d'une ligne de ux dépend de la régularité des variations du ux.Leslignes seront don plus grandes dansleszones homogèneset ontenant un ontour que dans les zones texturées où le ux est plus haotique. Si la géométrie est dénie omme l'ensemble de es lignes de ux, elle possède don un ara tère multi-é helles : selon le ontenu d'une image, elle peut être apturée à l'é helle du pixel, de quelquespixels ou àl'é helle de l'image lorsqu'unobjeto upe lasurfa e dudomaine. Notons que dansune zone homogène ara térisée par une régularité isotrope (à savoir unezonerégulière danstouteslesdire tions), leuxn'estpasdénidemanièreunique.

1.1.2 Contenu temporel et ux optique

Unevidéoestuneproje tion2Dd'unes ènequiévoluedansletemps.Lesvariations d'intensité dans le temps sont dues au mouvement réel des objets dans l'espa e, mais également aumouvement dela améraet aux hangementsd'illumination: onparlede mouvement apparent. Une vidéo dis rèteest une séquen ed'images a quisesà instants réguliers. Dans la suite, une image parti ulière de ette séquen e à l'instant

t

dis ret seranotée

I

t

et sondomaine de dénition

D

t

.

En se basant sur les variations de l'intensité entre un instant

t

et un instant

t

′

, on peutdéniren haquepoint

x

de

D

t

unve teurmouvement

υ(x)

asso iant

x

àunpoint dans

D

t

′

. L'ensemblede es ve teurssera appelé ux optique ou hampde mouvement et sera noté

Υ

. Chaque ve teur

υ(x)

donne ladire tion de régularité temporelle de la vidéo aupoint

x

entre

t

et

t

′

(24)

optiquede pro he en pro he lorsque ela estpossible (gure 1.1). La taille d'une ligne de ux dépend de la régularité des variations du ux dans le temps. Le mouvement possède don également un ara tère multi-é helles. L'intégration d'une ligne de ux s'arrêtelorsque leuxoptiqueestdis ontinu. Ce iarriveenparti ulier lorsqu'unezone de l'image apparaît ou disparaît entre l'instant

t

et l'instant

t

′

. On parle de zone à o ultation.

flux optique

(i i, ontour ferme)

ligne de flux temporelle t 2 t 1 t3 t 4 zones a o ultations x y x y

flux geometrique

ligne de flux geometrique

Fig. 1.1 :Fluxgéométrique,ux optiqueet lignesdeux.

1.2 Enseignements de la vision

La problématique de ompression est avant tout une problématique de représen-tation. Il s'agit de déterminer l'approximation d'un signal ayant la meilleure qualité possible pour un nombre xé de oe ients. Comme les images et les vidéos sont des signauxdestinés à être visualisés, l'÷ilhumain est leseul juge pertinent de ette qua-lité.L'étudedelaper eptionvisuelleestdon essentielle poursavoir omment l'homme se onstruit une représentation mentale du monde qui l'entoure et ainsi identier les ara téristiqueslesplusimportantes dansuneimage.Elleore despistespourélaborer denouvellesreprésentations et de nouvellesméthodesd'évaluation.

1.2.1 Représentation des s ènes naturelles

L'étude de la vision humaine peut être abordée de diérentes façons. Il y a tout d'abord les appro hes basées sur desspé ulations théoriques, omme le modèle fonda-teur proposé par David Marr [Mar82 ℄ au début des années 80. Selon e modèle, dit onstru tiviste, la re onnaissan e d'un objet 3D par le SVH suit un pro essus itératif bottom-up en

3

temps illustré sur la gure 1.2. Les ontours jouent un rle pri-mordial arils sont déte tésen premier (stade primal).Les surfa eset orientations nesontdéte tées quedansun se ondtemps (stade 2D+1/2).Chaqueétape génère dessignaux qui sont mis en orrespondan e ave desmodèles ou patterns présents en mémoire (d'après e modèle, la omparaison pixel à pixel serait un pro essus bien

(25)

dis riminéesensuivantuneappro hetopdown. Cestravauxsuggèrent l'importan e des ontoursdanslepro essusdereprésentation mentaledesobjets.Lathéorieplus an- iennede laGestalt[Wer38 ℄avaitdéjà misen éviden el'importan edes ontours dans laper eption.Enparti ulier, leprin ipe debonne ontinuationsemblesuggérerque leSVHopèreunpro essusd'intégrationduuxgéométriquequiluipermetde apturer les régularitéslelong des ontours,et parfoismême au-delà (illusions d'optique).

000

111

0

1

y x Image Primale suggestions signaux

2. Top-down (dis rimination et suggestions) 1. Bottom-up (aggregation et abstra tion)

E ran

(retine)

Image Donnees Brutes

Image 2D+1/2 Re onnaissan e de l'objet 3D

Contours Surfa es +

Orientations

Memoire

Fig. 1.2 :Appro hefondatri edeDavidMarr[Mar82℄,dite onstru tiviste.

Il y a ensuite les appro hes pratiques qui se basent sur des systèmes sophistiqués d'imagerie du erveau humain ou sur l'implantation d'éle trodes sur des animaux. Le but estd'analyserle omportement desdiérentes airesdu ortex visuelfa eà des sti-mulipour omprendrequelstypesdesignauxélémentairessontutilisésparleSVHpour onstruire une représentation globale desobjets.Enparti ulier, les travauxde Fieldet al. [Fie87 ,Fie93 , FHH93℄ ont montréque laréponse desneurones (en parti ulier dans larégion V1du ortex)était trèssensible à lapositionet à l'é helle d'unstimulus. Les observations de l'auteur semblent suggérer d'une partque la vision est un phénomène naturellement multi-é helles et d'autre part que la réponse des neurones de la région V1 àun stimulus adespropriétés très omparables à elles d'uneondelette (voir para-graphe 1.3.5). D'autres études empiriques [OF96 ,vHvdS98℄ ont ensuite montré que la réponse desneurones estaussi très sensible à l'orientation et l'élongation du stimulus. Ce i suggère que les éléments de base permettant une représentation ompa te d'une s ène naturelle sont fortement dire tionnels, ontrairement aux ondelettes. Enn, des expérien esd'imageriedu erveau[MDF

+

99,Wan95 ℄,baséessurl'observationparIRM fon tionnelledelaréponseneuronale àdesimages ontenant des ourbesallongées,ont mis en avant une forte a tivité dansla région V3 du ortex, omme si une tâ he d'in-tégration omplexe s'ydéroulait. Ce résultat empirique est don à mettre en relation

(26)

D'aprèsles étudessurlavision,ilsembleévident quelareprésentation pixelàpixel d'une image ne orrespond pas au pro essus de onstru tion exer é par l'÷il humain. L'÷ilhumainnevoit pasl'imagepixelàpixel:il apturelesrégularitésàdiérentes é helles.Si l'onveuts'inspirer delavision pourbâtir unereprésentation mathématique d'uneimage,onvoitdon qu'ilfautdénirdesfon tionsélémentairesdetypeondelettes possédant despositions,é helleset orientations variées.

1.2.2 La notion de qualité

La qualité d'une image ou d'une vidéo est une notion hautement subje tive. Le résultat de la per eption est propre à ha un et dépend de nombreux fa teurs tel le niveau d'attention,l'état émotionnelou levé u delapersonne.Lesélémentssto késen mémoire inuen ent l'interprétation en omplétant laper eption pardesimages et des souvenirs.Dansun adrede ompressionave pertes,lesimagessontsus eptiblesd'être dégradéesetilestdon né essaired'évaluerleurqualité.Cetteévaluationpeutêtrefaite à l'aidede tests subje tifs suivant un proto ole biendéni [BT.02 ℄ pour aboutir à une noteMOS(Mean OpinionS ore). Cependant, estestssont très oûteux en temps et ilest don plus pratique d'évaluer laqualité ave desmétriques obje tives.

Les métriques obje tives peuvent être groupées en trois grandes lasses, selon que l'imageoriginale(nondégradée)servantderéféren epourla omparaisonestdisponible ounon.Laplupartdesappro hesexistantessontditesàréféren e omplète etsupposent quel'imagederéféren eest onnue.Enpratique,lorsqu'un ontrledequalitéest né es-sairedans une haîne de transmission, l'image de référen en'est en général pas dispo-nible.Certainesdeses ara téristiquespeuventêtre extraitesaumomentde l'en odage puistransmisesandepermettreuneévaluationditeàréféren e réduite (RR)[CCB03 , CVGPC06℄.Dansle asextrêmeoùau uneinformationn'estdisponible,uneévaluation ditesansréféren e oublind(NR)estrequise[YWCW05 ,FK05 ℄.Engénéralles mé-triquesRRetNRse on entrentsurdesartefa tsparti uliers ommelesphénomènesde blo sou de rebonds. Dans notre adre expérimental, nous supposerons queles images d'origine sont disponibles lors de l'évaluation des images dégradées et nous utiliserons don unemétrique àréféren e omplète.

La métrique à référen e omplète laplus simple et laplus largement utilisée est le PSNR (PeakSignal to NoiseRatio).Elle sebase surl'erreur quadratiquemoyenne (EQM), al ulée en moyennant l'énergie du résidu entre l'image d'origine

I

et l'image dégradée

I

˜

:

P SN R( ˜

I, I) = 10 log

₁₀

M AX

2 EQM ( ˜

I, I)

(1.1)

où

M AX = 255

si les valeurs de l'image sont odées sur

8

bits. Le PSNR a plusieurs avantages : il est simple à al uler, possède une signi ation physique laireet omme nousleverronsl'EQMesttrèspratiquedansun ontexted'optimisationmathématique. Cependant,lePSNRne orrespondpasbienàlaqualitévisuelleperçue[Gir93,WBL02℄. Eneet,l'EQM omparelesimagespixelàpixel.Or,nousavonsvuplushaut quel'÷il humain est sensible aux stru tures géométriques et temporelles des images. En outre,

(27)

qu'on appelle le phénomène de masquage. Pour s'en onvain re, il sut d'observer la surfa ed'uneimage naturelledansunespa e3D(voirgure1.3). Ons'aperçoitqueles donnéesbrutessontbienplusbruitéesqu'iln'yparaîtenregardant l'image.Cela estdû à e phénomène de masquage.C'est e mêmephénomène qui empê he l'÷ilhumain de distinguer desdiéren esde niveaude gris inférieuresà un ertain seuil.

(a) (b) ( )

Fig. 1.3 :Eet demasquageopéréparl'÷il humain.(a) ImageLena

I

d'origine,(b) Points

{(x, y, I(x, y))}

(x,y)∈D

dansl'espa e3D,pointdevuedel'image,(b)Vuede tédelasurfa e. L'÷ilhumainnedis ernepaslespi s(trèshautes fréquen esoubruitsd'a quisition).

Depuis plusieurs années, de gros eorts ont été onsentis pour développer des mé-triques tenant ompte des ara téristiques du SVH (un état de l'art de es métriques pourl'image xeet lavidéoest présenté dans[PS00a, EB98 ,WSB03℄).La majorité de esméthodesproposentdemodierl'EQMpourpénaliserleserreursselonleurvisibilité. Ré emmentWangetal.ontintroduitunenouvellemétriqueSSIM(Stru tural Simila-rityImageMetri ) pour l'évaluation d'images xes [WBSS04 ℄et de videos[WLB04 ℄. Elleintègrel'hypothèsequeleSVHextraitles ara téristiquesstru turellesd'uneimage à partir du uxgéométrique et montre une bonne orrélation ave leMOS omparé à d'autres mesures.Nous l'utiliserons don dans ertains de nosrésultats pour pondérer le PSNR. Notons ependant quel'élaboration d'une métrique adaptée à la per eption reste un problème ouvert et d'autant plus important que l'évaluation des algorithmes en dépend.

1.3 Représentation

La représentation d'une image numérique par ses données brutes (niveaux de gris) n'est pas pertinente pour le odage ar elle ne prend pas en ompte la orrélation entre un pixel et son voisinage. Or, réduire la orrélation est essentiel dans un adre de ompression ou d'approximation. Dans ette se tion, nousnous pen hons don sur ette problématique de représentation.

1.3.1 Analyse-Synthèse

Considérons l'ensemble desfon tionsdis rètesde arré intégrableet déniessurun domaine

D ∈ Z

d

(28)

espa eve toriel muni duproduit s alaire

<, >

dénipar :

< f, g >=

X

x

_∈D

f (x)g

∗

(x)

_{∀(f, g) ∈ L}

2 (

D)

(1.2) La notation

∗

désigne le omplexe onjugué. Dans la suite nous restreignons

L

2 (

D)

à l'ensemble des fon tions à valeurs dans

R

. Ave e produit s alaire, l'énergie d'une fon tion

f

∈ L

2 (

D)

s'é rit :

kfk

2 =

X

x

_∈Z

2 < f, f >

(1.3)

Lareprésentationd'unefon tionfaitappelàdesbriquesélémentairesquipermettent l'analyseetlasynthèsedusignal.Soit

F = {ψ

m

}

m

unefamilledefon tionsélémentaires génératri e de

L

2 _(Z

2 ₎

. L'analyse d'une fon tion

f

par

F

est réalisée en al ulant les produits s alaires de

f

ave haque brique élémentaire

ψ

m

. Ces proje tions donnent unesuitede oe ients

{c

m

=< f, ψ

m

>

}

m

.Laquestionestdesavoirsilaseuledonnée de es oe ients permet de ara tériser

f

et de la re onstruire. C'est le as si

F

est uneframe, 'est-à-diresietseulementsiilexiste deux onstantes

K

1

et

K

2

stri tement positivestelles que, pour toute fon tion

f

∈ L

2 (

D)

:

K

1 kfk

2

6 X

m

| < f, ψ

m

>

|

2

6 K

2 kfk

2

(1.4) Un tel en adrement montre que la suite des produits s alaires ara térise

f

de façon stable. Il signie aussi que l'opérateur d'analyse qui asso ie à

f

la suite

{c

m

}

m

est

inversibleàgau he.Onpeutdon onstruireunedeuxièmefamille

˜

F =

n ˜

ψ

m

o

m

appelée frameduale quipermet lasynthèse de

f

parla formulede re onstru tion :

f =

X

m

c

m

ψ

˜

m

=

X

m

< f, ψ

m

> ˜

ψ

m

(1.5)

En esens,lasuitede oe ients

{c

m

}

m

estbienunereprésentation de

f

arsa onnais-san eest formellement équivalente à ellede

f

. Notons que laformule (1.5) ne orres-pond pasfor émentà ladé omposition de

f

dansune base de fon tions.En eet,dans le as général, une frame est une famille liée qui aboutit don à une représentation redondante : le nombre de briques élémentaires

ψ

m

né essaire et susant pour repré-senter toute fon tion

f

∈ L

2 (

D)

est supérieur au nombre d'é hantillons dans

D

. Dans e as,lefa teurderedondan e

r

estsimplementlerapportentrelesdeuxnombres.Par omparaison,unebase estuneframequienplusestunefamillelibre.Lareprésentation dansunebaseestdite àé hantillonnage ritique arlenombre de briquesélémentaires

ψ

m

né essaireetsusantpourreprésentertoutefon tion

f

∈ L

2 (

D)

estégalaunombre d'é hantillons dans

D

. Si les fon tions de base sont orthogonales alors

K

1 = K

2

dans l'expression(1.4). Si ellessont orthonormales, on obtient l'égalité de Parseval:

X

m

c

2 _m

=

X

x

_∈D

(29)

1.3.2 Approximation non linéaire

Soit

B = {ψ

m

}

m

une baseorthonormée de

L

2 (

D)

. La sommepartielle

˜

f

M

=

X

m∈I

M

< f, ψ

m

> ˜

ψ

m

,

(1.7)

estuneapproximationde

f

obtenueenneretenantque

M

proje tions.

I

M

donneles in-di esdes oe ientsretenus.L'orthonormalitédelabasepermetd'exprimerfa ilement l'erreur quadratiqued'approximation:

kf − ˜

f

M

k

2 =

X

m /

∈IM

| < f, ψ

m

>

|

2

(1.8) Une approximationlinéaire se al uleenxant arbitrairement lejeud'indi es

I

M

. Une approximationnonlinéaire [DeV98 ℄se al uleendéterminant

I

M

demanièreadaptative pourminimiserl'erreur d'approximation. Dansle asd'unebaseorthonormale, le hoix se simplie grandement ar la meilleure approximation non linéaire est obtenue en retenant les

M

oe ients de plus grande amplitude. Cette simpli ité fait de la base orthonormale un outil de représentation privilégié.

Dans [PM05 ℄, Le Penne et Mallat formulent le problème de représentation de la façon suivante. Pour une lassedefon tionsparti ulière, ils'agitde déterminer labase orthonormée de représentation qui fournit la meilleure dé roissan e de l'erreur d'ap-proximationnonlinéaireave

M

oe ientslorsque

M

augmente.C'estle ass'ilexiste une onstante

K

et un oe ient

α

tels que :

kf − ˜

f

M

k

2

6 K

· M

−α

(1.9)

où

K

est une onstante qui ne dépend que de

f

. Pour avoir un taux de dé roissan e

α

élevé, il faut don que l'énergie du signal soit on entrée sur un petit nombre de oe ients. Dans e as, la représentation est dite ompa te, reuse ou bien en ore par imonieuse. Cetteappro he du problèmede représentation est très intéressante ar elle permet d'établir la borne théorique d'une représentation pour une ertaine lasse de signauxet don de omparerdeuxreprésentations.

Dans le as de la représentation d'images, les travaux théoriques se on entrent souvent sur les images omposées de zones homogènes de régularité

C

α

( 'est à dire

α

fois ontinues et dérivables) séparées par des dis ontinuités 1D de régularité

C

α

. Nous désignerons l'ensemble de es images par

C

α

_\C

α

. Si une image appartient à et ensemble, alors la régularité

α

détermine le taux de dé roissan e optimal [PM05 ℄. La re her he d'une meilleure représentation a don l'obje tif d'atteindre e taux optimal. Avantdeprésenterlesrésultatsobtenus pardiérentesreprésentationsdans e hapitre et le suivant,notons que les bornes théoriques d'approximation sont établies pour des lasses d'images bienparti ulières

C

α

_\C

α

pour un

α

donné.Si lespropriétés de l'image naturelleàapproximers'é artentde ettemodélisation,ilyadefortes han espourque la représentation omporte des résidus de orrélation. Dans un adre de ompression,

(30)

le asd'uneframeredondante,l'approximationnonlinéaireaaussiunsensdufaitdela propriétéde onservationd'énergie(1.4).Mêmesilare her hede

˜

f

M

dans e asestplus omplexe, il n'est pasex lu qu'elle aboutisse à de meilleurs résultats d'approximation qu'une baseorthonormée lorsque

M < N

.

1.3.3 Représentation en fréquen e : Fourier

Au

XIX

e

siè le, Joseph Fourier dé ouvreque tout signal périodique peut être re-présenté par une sommepondéréede sinusoïdesdontles poids onstituent une sériede Fourier. Cerésultat poseles basesde l'analyse harmonique. Latransformée deFourier permet dele généraliserà toutes fon tionsintégrables. Endimension

1

, latransformée deFourier d'unefon tion intégrable

f

∈ L(R)

s'é rit

f(ω)

:

f(ω) =

Z

x

f (x)e

−iωx

dx

(1.10)

où

ω

détermine la pulsation de l'harmonique sur laquelle est projeté le signal. En di-mension

d

la formule est lamême mais

x

est rempla é par un ve teur

x

de dimension

d

. En dimension

2

, les fon tions de base

e

−i(ω

1 x+ω

2 y)

peuvent s'é rire en oordonnées polaires :

e

−i(ω

x

x+ω

y

y)

_{= e}

iρ(x cos θ+y sin θ)

(1.11)

ave

ρ =

q

ω

2 x

+ ω

2 y

. Grâ eà etteé riture, onvoitdon quelesbriquesdebaseservant àl'analysed'uneimagesont lesondesplanesquisepropagent dansladire tion de

θ

en os illant àlafréquen e

ρ

(voirgure 1.4).

0

10

20

30

40

50

60

70

0

10

20

30

40

50

60

70 −1

0

1 x

y

Fig. 1.4 : Partie réelle d'unnoyau deFourier.L'onde planesepropage i idans ladire tion

θ = 45

(

ω

x

= ω

y

).

Danslapratique,latransforméedeFourierdis rèted'uneimagededimension

N

×N

s'obtient en étendant le signalpar périodisation le longdes ligneset des olonnespuis

(31)

n

ψ

k

x

,k

y

(x, y) = e

i2π

N

(k

x

x+k

y

y)

o

06k

x

,k

y

<N

(1.12)

qui onstitue une baseorthogonale de l'espa e desimages périodiquesde période

N

le longdeleurslignesetdeleurs olonnes.Cettefamillede

N

2

ve teursdis retsestle pro-duitséparablededeuxbasesdeFouriermonodimensionnellesdis rètes

e

i2πkx/N

06k<N

. Dans le as général où

f (0)

6= f(N − 1)

le long d'une ligne ou d'une olonne, la périodisation de

f

rée des dis ontinuités spatiales abruptes qui se traduisent par un plus grand nombre de oe ients non nuls lors du passage dans le domaine de Fourier. Pour y remédier, haque ligne et olonne de

f

peut être symétrisée de sorte quelapériodisationdu nouveau signalne génère plusde dis ontinuité. Ce prin ipe est àl'origine de latransforméeen osinus dis rets (DCT).

Limitedelareprésentationfréquentielle. Conformémentàlaformule1.10,un o-e ientdeFourierest al uléenutilisantlesvaleursde

f

surl'ensembledesonsupport. L'observation des oe ientsdeFourier permet don de dé rireunsignalen termesde régularité globale. Dans le asdes signauxnon stationnaires, ette représentation n'est pasé onomique. Un signal onstant partout saufen une dis ontinuité lo aliséeest par exemple représenté par un grand nombre d'harmoniques. Ce i onduit à onsidérer à tortlesignal ommeun signalglobalement peu régulier.Enoutre, puisquel'énergie de ladis ontinuité setrouve propagéesurun grand nombre d'harmoniques,approximer le signalentronquant ertaines fréquen es onduitàunartefa tvisuel onnusouslenom de phénomène de Gibbs : des os illations orrespondant aux harmoniques tronquées apparaissent autourde ladis ontinuité (voir zoomgure1.5).

Fig. 1.5 :Spe trede Fourieret phénomènede Gibbs. (a) Spe tre (amplitude) deLena, (b) Approximationentronquant leshautes fréquen es,( ) Phénomène deGibbs observéprèsdes ontours.

Cettelimite delareprésentation seretrouve dansletauxde dé roissan edel'EQM lorsd'uneapproximationnonlinéaire.Eneet,pourune imagedetype

C

α

_\C

α

,laDCT donne une erreur dutype [Can98 ,CD99a℄ :

kf − ˜

f

M

k

2

6 K

· M

−1/2

(1.13)

(32)

Pourmieuxreprésenterdessignauxquel onques,ilfautdon être apablededé rire des ara téristiques spatio-temporelles globales mais aussi lo ales. Le souhait d'une meilleurelo alisation amotivéla onstru tion desreprésentationstemps-fréquen e.

1.3.4 Représentation temps-fréquen e

Uneidéesimplepour réerdesatomesàlafoislo alisésentempsetenfréquen eest demultiplierune harmonique

e

iωx

parune fon tionfenêtre

g(x)

bienlo alisée spatiale-ment,parexemple unegaussienne ommeleproposeD.Gabordanslesannées1950,et sesversionstranslatées

g(x

− m)

,

m

∈ R

. La proje tion de

f

sur es nouveaux atomes aboutit à latransforméede Fourier à fenêtreglissante :

f(ω, m) =

Z

+∞

−∞

f (x)g(x

− m)e

−iωx

dx

(1.14) D'aprèslaformule(1.14),

f

peut êtrevuede manièreéquivalente ommelatransformée deFourier de lafon tion

f (x)g(x

− m)

. Cepointde vueestd'ailleursprivilégié dansla pratique aril est plussimple de fenêtrerle signalet de luiappliquer une transformée deFourierrapide.Notons ependantque,selonleprin iped'in ertituded'Heisenberg,il n'estpaspossibled'obtenirunelo alisationàlafoistemporelleetfréquentielle arbitrai-rement pré ise. En eet, le supportdu spe tre fréquentiel de l'atome temps-fréquen e est d'autant plus large que son support temporel est ompa t. Ainsi, une harmonique permet une lo alisation fréquentielle innie (un seul pi de fréquen e dans le domaine de Fourier) mais une lo alisation temporelle nulle. Pour un atome de Gabor, la taille dusupport temporel est inversement proportionnelle àlataille du supportfréquentiel. Le hoix de la fenêtre

g(x)

détermine don le ompromis entre lo alisation temporelle etfréquentielle.Souvent,les atomesdereprésentation sonts hématisés omme des re -tanglesdansun plantemps fréquen erepérépar lesaxes

(ω, x)

[Mal99℄.Ces re tangles sont nommés boîtes de Heisenberg ar leur aire minimale est imposée par le prin ipe d'in ertitude.

Comme pré édemment, dansle as2Dlatransforméede Fourier àfenêtre glissante est une transformée séparable obtenue en réalisant des transformées 1D su essives le longdes ligneset des olonnes. Une telle transforméeest présente dansle standard de ompression d'images JPEG [Wal91 ℄ par exemple. Elle onsiste à dé ouper une image enblo sdetaille

8 × 8

puisà ee tuerune DCT sur haque blo .

Limitedela représentation temps-fréquen e. Latransforméeàfenêtreglissante n'apporte qu'une réponse limitée au problème de double lo alisation ar la forme de l'atome de base est xe et arbitraire. Or, les signaux naturels omportent souvent des omposantes de natures diverses : omposantes régulières (basses fréquen es) né essi-tant une analyse plus globale et omposantes moins régulières né essitant une analyse plus lo ale. Le pavage régulier du plan temps-fréquen e n'est don pas optimal pour représenterdetelssignauxetnepermet pasd'améliorerletauxdedé roissan ed'EQM lors d'une approximation non linéaire. En outre, le dé oupage d'une image en blo s

(33)

de blo s.

Pour trouver une meilleure représentation, on voit qu'il est né essaire de onstruire des noyaux apables de apturer les ara téristiques multi-é helles d'un signal. Ce i nous onduit auxondelettes.

1.3.5 Les Ondelettes

1.3.5.1 Bases1D

Unefamilled'ondelettesestobtenueaumoyendedilatationsetdetranslationsd'une fon tion

ψ

élémentaire, appelée ondelette mère. Un noyau d'ondelette s'é rit de façon générale:

ψ

a,b

(t) = a

−1/2

ψ(

t

− b

a

),

(1.15)

où

a > 0

estlefa teurdedilatationoufa teurd'é helledel'ondeletteet

b

∈ R

lefa teur detranslation.L'ondelettemère

ψ

possèdedeux ara téristiquesimportantes[Pey05b℄: La régularité d'ordre

p

.

ψ

possède un nombre

p > 1

de moments nuls, 'est-à-dire quel'on a:

Z

t

ψ(t)t

k

dt = 0

∀k 6 p − 1

(1.16)

p

déterminelarégularité del'ondelette.Unerégularité fortegarantit debonnes proprié-tésdedé orrélation. Enparti ulier,siunefon tion1D

f

estde lasse

C

α

,

α 6 p

,surun intervalle ontenant le supportde l'ondelette

ψ

a,b

, alors le produits alaire

< f, ψ

a,b

>

vaêtre quasiment nul. Ainsi,plus

p

estélevé plus lafamille d'ondelettes pourra repré-senter unelarge lassede régularités.

La lo alisation.Comme

ψ

aunsupport ompa t,leparamètred'é helle ouvrel'a ès à l'analyse de phénomènesos illatoires arbitrairement lo alisés dansle temps.Comme nousl'avons vu, e i se faitau prix d'uneperte de lo alisationen fréquen e : quand

a

tend vers

0

, lesondelettes

ψ

a,b

sontvisualiséespar desre tangles trèsns entemps (de l'ordrede l'é helle

a

) et trèslongs en fréquen es (del'ordre de

1/a

).

Fig.1.6:Fon tiond'ondelette

ψ

deDaube hies[Dau92℄à

5

momentsnulsetfon tiond'é helle

(34)

Labased'ondelettesorthonorméesetmulti-résolutionsestnéedestravauxdeMeyer [Mey88 ℄,Daube hies[Dau88 ℄etMallat[Mal89℄.Elleest onstruiteenutilisantun é han-tillonnage astu ieux des é helles et des temps orrespondant à une partition dyadique duplantemps-fréquen e. Dans le asde signauxréels, ette bases'é rit :

B = {ψ

j,m

\ j > 0, m ∈ Z}

ave

ψ

j,m

= 2

−j/2

_ψ(2

−j

_t

_{− m)}

(1.17)

Dans le as dis ret, l'é helle

j

et le paramètre de translation

m

sont limités par la dimensiondusignal.Supposonsque

f

estunsignaldis retdedimension

2 N

. Sa dé om-positionenondelettesestobtenueen al ulantlesproduitss alaires

d

j

[m] =< f, ψ

j,m

>

appelés oe ientsd'ondelettes. Pourdesraisonspratiques, onpréfèreen généralavoir une dé omposition sur un nombre limité d'é helles. Pour une é helle

j > 0

donnée, on dénitalors les fon tionssuivantes:

φ

j,m

(t) =

j

X

k=0

ψ

k,m

(1.18)

Ces fon tionspeuvent être déterminéespar dilatation et translation d'unemême fon -tion

φ

appelée fon tion d'é helle. Notons

V

1

le sous-espa e de

L

2 _(R)

engendré par la familledefon tions

{φ

1,m

}

m∈Z

et

W

1

lesous-espa ede

L

2 _(R)

engendréparlafamillede fon tions

{ψ

1,m

}

m∈Z

.Unniveaudedé ompositiond'ondelettes onsisteàprojeter

f

sur

V

1

et

W

1

. La proje tion sur

V

1

produitune approximation ou basse fréquen e de

f

de dimension

2 N −1

, tandis que laproje tion sur

W

1

produitune sous-bande dedétails de dimension

2 N −1

. Comme

V

1

et

W

1

sont orthogonaux, la dé omposition est réversible. De même tout espa e

V

j

peut être dé omposé en deux espa es orthogonaux

V

j+1

et

W

j+1

. Ce ipermet de onstruire une pyramide multi-résolutions de

f

en dé omposant ré ursivement labassefréquen e. Lapropriétémulti-résolutionsdelatransforméeen ondelettes peut être ara térisée parl'emboîtement desespa esdans

L

2 _(R)

:

V

j−1

= V

j

⊕ W

j

L

2 (R) =

⊕

j>0

W

j

= V

j

⊕

k>j

W

k

(1.19)

On obtient ainsi la représentation de

f

sur un nombre ni d'é helles

J > 1

, appelé niveau dedé omposition :

f (t) =

2 N−J

₋₁

X

m=0

< f, φ

J,m

> φ

∗

J,m

(t) +

J

X

k=1

2 N−k

₋₁

X

m=0

< f, ψ

k,m

> ψ

k,m

∗

(t)

(1.20) où

φ

∗

j,m

ψ

j,m

∗

,

j > 0

,

m

∈ Z

,sont lesfon tionsdesynthèse orrespondant à

φ

j,m

et

ψ

j,m

. Lapremièrepartiedumembrededroite orrespondàl'approximation(bassefréquen e) de

f

àl'é helle

2 J

(35)

Optimalité dela base 1D Lesbonnespropriétés delabased'ondelettesenfontun outil d'analyse e a e pour des fon tions 1D ayant un nombre ni de dis ontinuités. En parti ulier, si la fon tion

ψ

a

p

moments nuls et que

f

est

C

α

par mor eaux, ave

α 6 p

,onpeutmontrer[Pey05b ℄qu'unetellebaseaboutitàunedé roissan edel'erreur d'approximation du type:

kf − ˜

f

M

k

2

6 CM

−2α

(1.21)

qui orrespondàladé roissan eoptimaleatteignablepour ette lassedesignaux[DeV98 ℄. Comme uneondeletteest os illante,remarquonsquelephénomène de Gibbsreste pré-sent lors dultrage des hautesfréquen es.

1.3.5.2 Bases2D,

d

D

La based'ondelettes2Dest onstruite enee tuantlesproduits tensorielsdes sous-espa es 1D. Ce i revient à réaliser des translations et dilatations de trois ondelettes mères

ψ

H

_{, ψ}

V

_{, ψ}

D

tellesque :

ψ

H

(x, y) = ψ(x)

⊗ φ(y), ψ

V

(x, y) = φ(x)

⊗ ψ(y), ψ

D

(x, y) = ψ(x)

⊗ ψ(y)

(1.22) où

ψ

est l'ondelette mère1D et

φ

est lafon tion d'é helle 1D(gure 1.7). Onparle de basesd'ondelettesséparables arleltrage peut sefaireindépendamment danslesdeux dimensionshorizontale et verti ale.

Fig. 1.7:Untripletd'ondelettes2D.D'après[Pey05b℄.

Comme dans le as 1D, la base d'ondelettes 2Dpermet une approximation multi-résolutionsd'unsignal.Auneé helle

2 j

donnée,lesous-espa ededétails

W

j

est dé om-poséen troissous-espa es

n

W

H

j

, W

j

V

, W

j

D

o

quipermettent respe tivement d'isolerdes détailsglobalementverti aux,horizontauxetdiagonaux.Dessous-espa es d'approxima-tion

V

j

peuventêtre onstruits ommedansle as1Det orrespondentàdesdilatations et translations dela fon tiond'é helle 2D

φ(x, y) = φ(x)

⊗ φ(y)

.

Considéronsuneimage

I

dedimensions

2 n

_×2

n

.Ladé ompositionde

I

dansunebase d'ondelettes2Dsur

J > 1

niveauxs'obtient en al ulant les oe ientsd'é helle

a

J

[m]

pour haque translation

m

∈ [0 . . . 2

n−J

_{− 1]}

2

et les oe ients d'ondelette

d

θ

(36)

haque é helle

j

∈ {1 . . . J}

, orientation

θ

∈ {H, V, D}

et translation

m

∈ [0 . . . 2

n−j

₋

1]

2

:

a

J

[m] =< I, φ

J,m

>

avec

φ

J,m

= 2

−J

φ(2

−J

x

− m, 2

−J

y

− n)

d

θ

_j

[m] =< I, ψ

_j,m

θ

>

avec

ψ

_j,m

θ

= 2

−j

ψ

θ

(2

−j

x

− m, 2

−j

y

− n)

(1.23)

Notonsqu'uneondelette

ψ

θ

j,m

estlo aliséeauvoisinagedupoint

2 j

_m

.Chaque oe ient peut ainsiêtre lo alisé dans le domaine image

D

. Chaque ensemble de détails

d

θ

j

peut

aussiêtre onsidéré ommeuneimagededimensions

(2

n−j

_−1)×(2

n−j

₋₁₎

.Ce ipermet une interprétation visuelle dire te de ladé omposition en ondelettes. La gure 1.8 (a) montrele résultatd'une dé omposition en ondelettesde l'image

Lena

sur

5

niveaux.

Fig. 1.8:(a)Dé ompositionenondelettessur

5

niveaux,(b)Re onstru tionengardant

10

% des oe ientsdeplusgrandeamplitude,( )Idemengardant

3

%des oe ientsdeplusgrande amplitude.L'ondelette deDaube hies

9/7

[ABMD92℄estutiliséei i.

Notons enn que la onstru tion d'une base d'ondelettes pour des signaux de di-mension

d

quel onque sefait ensuivant lemême heminement quepour le as2D.

Su ès des ondelettes séparables. Outre les qualités d'approximation des bases d'ondelettes (gure 1.8(b)), leur attrait prin ipal par rapport auxbases de Fourier ré-side dans leur apa ité à représenter une image sur plusieurs niveaux de résolution, modélisant ainsiune ara téristiqueessentielle delavisionhumaine [Fie93 ℄.Lors d'une approximation,il devientmême possible d'imiterlephénomènede masquageopérépar l'÷ilsurleshautes fréquen espour évaluerlaqualitédusignal.Ce isefaitsimplement en attribuant des poids diérents à haque é helle lors du al ul de l'erreur quadra-tique[Tau99℄. Mais la propriété de multi-résolutions spatiale est surtout un atout im-portantdansun ontextede odages alable(voirparagraphe1.4.3) arellepermet de générer fa ilement un ux emboîté dé odable à diérentes résolutions d'a hage. Cette s alabilité intrinsèque est exploitée de façon performante par le standard JPEG2000 qui est un des aboutissements majeurs des ondelettes en termes