DEVANT L’UNIVERSIT´ E DE RENNES 1

(1)

N

^o

Ordre : 2909

TH` ESE

pr´ esent´ ee

DEVANT L’UNIVERSIT´ E DE RENNES 1

pour obtenir

le grade de : DOCTEUR DE L’UNIVERSIT´E DE RENNES 1 Mention : Informatique

PAR

Marc CHAUMONT

Equipe d’accueil : TEMICS/IRISA/INRIA ´

Ecole Doctorale : Math´ ´ ematiques, Informatique, Signal, ´ Electronique, T´ el´ ecommunications (MATISSE)

Composante universitaire : Institut de Formation Sup´ erieur en Informatique et Communication (IFSIC)

TITRE DE LA TH` ESE :

Repr´ esentation en objets vid´ eo pour un

codage progressif et concurrentiel des s´ equences d’images

Soutenue le 13 novembre 2003 devant la commission d’Examen COMPOSITION DU JURY

M. Claude LABIT Pr´ esident

M. Michel BARLAUD Rapporteur

M. Jean-Marc CHASSERY Rapporteur

M. Atilla BASKURT Examinateur

Mme. C´ ecile DUFOUR Examinateur

M. Henri NICOLAS Examinateur

M. St´ ephane PATEUX Invit´ e

(2)

(3)

A Boubou `

(4)

(5)

Remerciements

Je tiens ` a exprimer mes remerciements aux membres du jury :

– ` a M. Claude Labit pour avoir accept´ e de pr´ esider le jury de th` ese,

– ` a M. Michel Barlaud et M. Jean-Marc Chassery pour avoir accept´ e d’ˆ etre les rap- porteurs de cette th` ese, et pour leurs remarques constructives.

– ` a M. Atilla Baskurt, MMe. Cecile Dufour pour avoir bien voulu juger ce travail.

Je remercie aussi les personnes qui m’ont aid´ e ` a r´ ealiser cette th` ese :

– Christine Guillemot pour m’avoir propos´ e une solution lorsque j’ai d´ ecid´ e de stopper l’´ etude de mon premier sujet de th` ese,

– St´ ephane Pateux pour les nombreuses discussions que j’ai pu avoir avec lui. Je le remercie particuli` erement pour m’avoir fait confiance et avoir accept´ e de me proposer un sujet de th` ese ;

– Henri Nicolas, qui a dirig´ e ma th` ese,

– les membres (et ex-membres) du projet Temics.

Je remercie tous mes amis et les personnes que j’ai cˆ otoy´ es pendant ces 3 ann´ ees et qui

m’ont permis de passer des moments agr´ eables. Enfin, je remercie ma famille.

(6)

(7)

7

Table des mati` eres

Tables des mati` eres 7

Table des figures 12

Glossaire 19

Introduction 21

Pr´ eambule 23

2D, 2D 1/2, 3D : vers une repr´ esentation compacte et s´ emantique . . . 23

Une fonctionnalit´ e int´ eressante : la hi´ erarchisation . . . 27

Les codeurs actuels : vers un codage adapt´ e au signal . . . 28

Le codage objet dynamique : repr´ esentation et le codage adapt´ es . . . 29

Orientation et justification de l’´ etude . . . 29

I La segmentation 31 1 Etat de l’art : les approches de segmentation bas´ ´ ees r´ egions v.s. bas´ ees contours 33 1.1 Les approches bas´ ees r´ egions . . . 33

1.1.1 Les approches par croissance de r´ egions . . . 34

L’approche classique par croissance de r´ egions . . . 34

L’approche par ligne de partage des eaux . . . 34

1.1.2 Les approches par division-fusion . . . 35

Le crit` ere de fusion . . . 36

Les champs de Markov . . . 37

Le formalisme MDL . . . 38

Le formalisme d´ ebit-distorsion . . . 39

1.1.3 Les approches par classification . . . 40

Les caract´ erisations multiples d’un individu . . . 41

Technique de clustering . . . 42

Le Maximum de vraisemblance . . . 44

1.2 Les approches bas´ ees contours . . . 46

1.2.1 Les d´ etecteurs de contours . . . 46

1.2.2 Les contours actifs . . . 46

(8)

Les contours actifs . . . 46

contour actif g´ eod´ esique . . . 48

La m´ ethodologie par r´ egions actives g´ eod´ esiques . . . 49

La m´ ethodologie par ensemble de niveaux . . . 51

1.3 Le suivi de segmentation : le (( tracking )) . . . 51

1.3.1 L’approche par mise en correspondance . . . 53

1.3.2 L’approche par projection initialisation . . . 54

1.4 Les nouvelles approches bas´ ees long terme : la notion de tube spatio-temporel 54 1.4.1 L’approche bas´ ee graphe de Parker et al. . . . 55

1.4.2 L’approche croissance de r´ egion et fusion de tubes de Porikli et al. . 56

1.5 R´ esum´ e du chapitre . . . 58

2 Vers la notion d’objet vid´ eo 59 2.1 D´ efinition d’un objet vid´ eo . . . 59

2.2 Mod´ elisation spatio-temporelle d’un objet vid´ eo . . . 60

2.3 Formulation ´ energ´ etique . . . 61

2.3.1 Le terme d’attache aux donn´ ees E

^d_i,k,t

. . . 62

2.3.2 Les deux termes de r´ egularisation E

_i,k,t^rs

et E

_i,k,t^rt

. . . 63

2.4 Initialisation du probl` eme . . . 63

2.4.1 M´ ethode de calcul des germes : le clustering affine flou . . . 63

2.4.2 Phase de mise ` a jour des param` etres affines : A

_k,t

et T

_k,t

et des probabilit´ es P

_i,k

. . . 65

2.4.3 Extraction des germes . . . 66

2.5 Segmentation en objet par Clustering 3D . . . 67

2.5.1 Introduction d’une classe de rejet . . . 69

2.6 R´ esum´ e du chapitre . . . 69

3 Pr´ esentation des r´ esultats de segmentation 71 3.1 Validation exp´ erimental du sch´ ema propos´ e . . . 71

3.1.1 Clustering 3D avec initialisation manuelle . . . 71

3.1.2 Les s´ equences Mobile et Foreman . . . 73

D´ eroulement algorithmique . . . 73

L’analyse des r´ esultats . . . 74

3.1.3 La s´ equence Stefan . . . 88

3.1.4 R´ eflexion sur les r´ esultats du clustering 3D . . . 88

3.2 Analyse d’une s´ equence vid´ eo : une approche en plusieurs ´ etapes . . . 91

3.2.1 La premi` ere brique : d´ etermination du nombre d’objet . . . 92

3.2.2 La deuxi` eme brique : extraction des logos et zones fixes . . . 93

3.2.3 La troisi` eme brique : extraction d’un mouvement global . . . 93

3.2.4 La quatri` eme brique : des segmentations plus complexes . . . 96

3.2.5 R´ eflexion sur les r´ esultats de la segmentation en plusieurs ´ etapes . . 96

4 Conclusion de la premi` ere partie 99 4.1 Conclusion . . . 99

4.2 Perspectives . . . 99

(9)

Table des mati` eres 9

II Le codage d’objets vid´ eos 101

1 Etat de l’art : les approches de codage par r´ ´ egions et par objets 103

1.1 Les approches de codage par r´ egions . . . 103

1.1.1 Le codeur MORPHECO . . . 104

La segmentation et l’extraction du mouvement . . . 104

Le codage de la partition . . . 104

Le codage des textures . . . 105

1.2 Les approches de codage par objets . . . 106

1.2.1 L’analyse-synth` ese par mod` ele : OBASC . . . 106

1.2.2 L’analyse-synth` ese par mod` ele de mosa¨ıque . . . 108

1.2.3 L’analyse-synth` ese par mod` ele de mouvement affine . . . 109

1.2.4 Le codage par MPEG4 . . . 110

1.3 Le codage de forme . . . 112

1.3.1 Le codage de forme bas´ e image . . . 112

Le codage par Modified-Modified Read (MMR) . . . 112

Le codage par Context-Based Arithmetic Encoding (CAE) . . . 113

Le codage MPEG4 CAE . . . 113

Le codage par d´ ecomposition en squelette . . . 113

1.3.2 Le codage de forme bas´ e contours . . . 115

Le contour par chaˆıne de Freeman . . . 115

Le codage par ligne de base . . . 116

Le codage par contour polygonal . . . 116

Le codage par contour B-Spline . . . 117

Le codage par transform´ ee . . . 119

1.4 R´ esum´ e du chapitre . . . 119

2 Vers une hi´ erarchisation totale d’un flux vid´ eo 121 2.1 Une d´ ecomposition plus hi´ erarchique . . . 121

2.2 Le codeur ondelette 3D . . . 122

2.3 Le codage spatio-temporel long terme de contour . . . 123

2.3.1 Extraction, alignement et prolongement des contours . . . 124

Extraction des contours et compensation en mouvement . . . 125

Mise en correspondance de deux contours cons´ ecutifs . . . 127

Principe de l’Alignement du groupe de contour et du sur-´ echantil- lonnage . . . 127

Principe d’obtention de l’abscisse universelle . . . 128

Prolongement spatio-temporel des contours ouverts . . . 131

2.3.2 Codage spatio-temporel du contour . . . 134

Le sch´ ema IPB . . . 134

La repr´ esentation en B-splines . . . 136

La repr´ esentation en ondelettes . . . 137

2.4 R´ esum´ e du chapitre . . . 138

(10)

3 Pr´ esentation des r´ esultats : codage objet et codage de contour 139

3.1 R´ esultats du codage de contour . . . 139

3.2 R´ eflexion sur le codage de contour . . . 140

3.3 R´ esultat de codage objet hi´ erarchique . . . 143

4 Conclusion de la deuxi` eme partie 149 4.1 Conclusion . . . 149

4.2 Perspectives . . . 149

III Le codage dynamique 151 1 Etat de l’art : le codage dynamique ´ 153 1.1 Pr´ esentation g´ en´ erale . . . 153

1.2 Le codage dynamique appliqu´ e au codage d’objet vid´ eo . . . 155

1.3 Les mesures de distorsion . . . 156

1.4 La r´ epartition des d´ ebits . . . 158

1.5 R´ esum´ e du chapitre . . . 159

2 Le sch´ ema de codage dynamique par objets 161 2.1 Descriptions des codeurs utilis´ es . . . 161

2.1.1 Le codeur m3dcoder . . . 161

L’analyse et la synth` ese . . . 164

La mesure de qualit´ e . . . 165

2.1.2 Le codeur H264/AVC adapt´ e . . . 166

Le codeur H264/AVC . . . 166

La performance de H264/AVC . . . 167

Modification de H264/AVC pour coder des objets vid´ eo . . . 169

2.1.3 Le codeur ondelette 3D objet . . . 171

2.1.4 Le codage par mosa¨ıque . . . 172

2.2 La r´ epartition des d´ ebits entre objets . . . 173

2.2.1 R´ epartition par contrainte de d´ ebit . . . 173

2.2.2 R´ epartition par contrainte de d´ ebit et qualit´ e uniforme . . . 174

2.3 La composition . . . 174

2.3.1 Le padding . . . 176

2.3.2 L’antialiasing . . . 176

2.4 R´ esum´ e de chapitre . . . 177

3 Pr´ esentation des r´ esultats : int´ erˆ et du codage objet et du codage dyna- mique 181 3.1 La s´ equence Foreman et Stephan . . . 181

3.2 La s´ equence Escalier . . . 183

4 Conclusion de la troisi` eme partie 195 4.1 Conclusion . . . 195

4.2 Perspective . . . 195

(11)

Table des mati` eres 11

Conclusion 197

Le codage par objets est-il int´ eressant? . . . 197

Contributions . . . 197

Perspectives . . . 198

A D´ etail des calculs du clustering affine 201 A.1 D´ etail des calculs des param` etres affines A

_k,t

et T

_k,t

. . . 201

A.2 D´ etail du calcul des probabilit´ es P

_i,k

. . . 203

B D´ etail des calculs du clustering 3D 205 B.1 D´ etail des calculs . . . 205

B.2 D´ etail du calcul de l’´ equation des mosa¨ıques M

k

(j) . . . 206

B.3 D´ etail du calcul de l’´ equation des probabilit´ es P

_i,k,t

. . . 207

B.4 D´ etail du calcul de l’´ equation des probabilit´ es Q

_i,k,t

. . . 209

Bibliographie 211

Publications 221

(12)

(13)

Table des figures 13

Table des figures

1 Illustration de l’ordre de profondeur pour les deux objets vid´ eo de la s´ equence Foreman . . . 24 2 Illustration de la notion de r´ egion et d’objet vid´ eo. L’image (a) repr´ esente

l’image 50 de la s´ equence Coastguard. L’image (b) repr´ esente les fronti` eres de r´ egions plaqu´ ees sur l’image 50. L’image (c) repr´ esente la r´ egion grand bateau. L’image (d) repr´ esente l’objet vid´ eo grand bateau . . . 25 3 Illustration de la notion de mosa¨ıque d’objet non rigide. Le mouvement est

estim´ e par un maillage actif, figure (c) et (d), et l’on obtient la mosa¨ıque de la figure (e). La figure (f) repr´ esente l’image 27 reg´ en´ er´ ee grˆ ace ` a la mosa¨ıque et au mouvement . . . 26 1.1 Illustration de l’approche de segmentation par croissance de r´ egions. Figures

extraites de [Benois et al. 92] . . . 35 1.2 Illustration de l’approche par ligne de partage des eaux. Figures extraites

de [Bonnaud 98] . . . 36 1.3 Illustration du quad-arbre d’une image, et sa repr´ esentation sous forme

d’arbre. Figures extraites de [Pateux 98]. Les symboles NO, NE, SO, SE indiquent la position des fils d’un nœud par une localisation g´ eographique . 36 1.4 Illustration de l’approche par fusion de r´ egions et mod´ elisation MDL . . . . 40 1.5 Illustration de la notion d’arbre de partition. Un d´ ebit et une distorsion

sont attribu´ es ` a chaque nœud. Figure extraite de [Salembier et al. 97] . . . 41 1.6 Illustration de l’approche par clustering . . . 43 1.7 Illustration de l’approche par extraction du passage par z´ ero du Laplacien

puis par seuillage . . . 47 1.8 Illustration de l’´ evolution d’un contour actif . . . 47 1.9 Illustration de l’´ evolution de l’ensemble de niveau z´ ero pour une mod´ eli-

sation en r´ egions g´ eod´ esiques actives. Figures extraites de [Paragios 00].

Trois initialisations diff´ erentes m` enent ` a la mˆ eme solution. Le changement de topologie est obtenu automatiquement grˆ ace ` a la r´ esolution par ensemble de niveaux . . . 52 1.10 Illustration de la notion de tube spatio-temporel . . . 55 1.11 Segmentations r´ esultantes d’une approche par tube spatio-temporel. Figure

extraites de [Parker et al. 01] . . . 56 1.12 Illustration des diff´ erentes ´ etapes utilis´ ees pour la segmentation en objets

vid´ eos de [Porikli et al. 01] . . . 57

(14)

2.1 Mosa¨ıque de la s´ equence Lion sur le GOP [0-190] . . . 60

2.2 Illustration du principe de segmentation par clustering 3D (C3D) . . . 61

3.1 R´ esultat C3D avec une initialisation manuel des masques . . . 72

3.2 R´ esultat C3D avec une initialisation manuelle des masques et une nouvelle distance . . . 73

3.3 Illustration de l’estimation de mouvement par maillage actif . . . 74

3.4 Avant l’affectation des r´ egions aux objets . . . 75

3.5 Germes issus du clustering affine flou . . . 75

3.6 Illustration de l’estimation de mouvement sur chaque germe . . . 76

3.7 Illustration des r´ esultats du clustering 3D sur le ballon . . . 77

3.8 Illustration des r´ esultats du clustering 3D sur le train . . . 78

3.9 Illustration des r´ esultats du clustering 3D sur le fond . . . 79

3.10 Illustration des r´ esultats du clustering 3D sur le calendrier . . . 80

3.11 Illustration des r´ esultats du clustering 3D sur le cluster rejet . . . 81

3.12 Illustration des mosa¨ıques associ´ ees ` a chaque objet . . . 82

3.13 Illustration de l’estimation de mouvement par maillage actif sur la s´ equence Foreman . . . 83

3.14 Avant l’affectation des r´ egions aux objets . . . 83

3.15 Germes issus du clustering affine flou pour la s´ equence Foreman . . . 84

3.16 Illustration de l’estimation de mouvement sur chaque germe . . . 84

3.17 Illustration des r´ esultats du clustering 3D sur le visage . . . 85

3.18 Illustration des r´ esultats du clustering 3D sur le fond . . . 86

3.19 Illustration des r´ esultats du clustering 3D sur le cluster rejet sur la s´ equence Foreman . . . 87

3.20 Illustration des mosa¨ıques associ´ ees ` a chaque objet issu du clustering 3D . . 88

3.21 Illustration des r´ esultats du clustering 3D sur le fond . . . 89

3.22 Illustration des r´ esultats du clustering 3D sur le cluster rejet . . . 90

3.23 Illustration de la mosa¨ıque du fond issus du clustering 3D de la s´ equence Stefan . . . 91

3.24 Illustration de l’extraction d’objet logo . . . 94

3.25 Illustration de l’extraction d’objet zone fixe . . . 95

3.26 Illustration de l’extraction des r´ egions de mouvement global . . . 97

1.1 Illustration d’une carte de segmentation obtenue par la technique de [Sa- lembier et al. 95] . . . 104

1.2 R´ esultat de codage ` a 5Hz ` a 32Kbits/s. Figure extraite de [Torres et al. 96] 106 1.3 R´ esultat de codage par SESAME ` a 5Hz ` a 33Kbits/s. Figure extraite de [Torres et al. 96] . . . 107

1.4 R´ esultat de codage avec mod` ele de visage ` a 10Hz ` a 7Kbits/s. PSNR(H263) = 31,08 dB ; PSNR(MAC) = 33,19 dB. Figure extraite de [Eisert et al. 99] 107 1.5 Mosa¨ıque de l’arri` ere-plan de la s´ equence Stefan . . . 108

1.6 Sch´ ema de codage de [Han et al. 97] . . . 109

1.7 R´ esultat d’une segmentation en couche par l’algorithme de [Wang et al. 94]. Figure extraite de [Wang et al. 94] . . . 110

1.8 Sch´ ema de codage de [Schwarz et al. 00] . . . 111

(15)

Table des figures 15 1.9 Sch´ ema de codage du codeur vid´ eo MPEG4. Figure extraite de [ISO/IEC 02]111 1.10 Contexte intra et inter utilis´ es pour le codage par MPEG CAE. Le rond

indique le point ` a coder, les croix le contexte de codage. Dans le cas d’un codage inter, le contexte pris dans l’image pr´ ec´ edente est compos´ e du point mis en correspondance par compensation de mouvement et de ses quatre voisins. . . 114 1.11 Illustration du squelette d’une forme quelconque. Figure extraite de [Herr-

mann et al. 97]. Chaque carr´ e repr´ esente un pixel. Les valeurs pr´ esentes dans chaque carr´ e repr´ esentent la distance au contour ext´ erieur (distance de Chamfer). Les carr´ es gris´ es repr´ esentent le squelette de la forme. . . . . 114 1.12 Illustration de repr´ esentations 4-connexe, 8-connexe, 6-connexe . . . 115 1.13 Illustration de la repr´ esentation d’un contour par ligne de base. Figure ex-

traite de [Katsaggelos et al. 98] . . . 116 1.14 S´ election it´ erative des sommets. Figure extraite de [Jordan et al. 98] . . . 117 1.15 Fonction de forme φ pour une B-Spline bicubique . . . 118 2.1 Illustration du sch´ ema de codage objet avec d´ ecorr´ elation des information

mouvement, texture, forme . . . 122 2.2 Illustration du r´ esultat de prolongement de texture . . . 123 2.3 Sch´ ema de codage de contour . . . 124 2.4 Extraction du contour apparent de l’objet vid´ eo grand bateau de la s´ equence

Coastguard . . . 125 2.5 Estimation du mouvement texture par maillage entre l’image 0 et l’image

8 de la s´ equence Foreman . . . 126 2.6 Contour de l’image 0 et de l’image 8, pour le visage de la s´ equence Foreman,

avec ou sans compensation de mouvement texture . . . 126 2.7 Relation de correspondance M apA entre deux contours cons´ ecutifs (avant

et apr` es l’ajout de (( liens )) la relation M ap) . . . 128 2.8 Visualisation sous dotty d’une partie du graphe r´ esultant de l’alignement

du groupe de contour. Chaque point de chaque contour poss` ede une abscisse universelle . . . 129 2.9 Alignement du groupe de contours par le calcul d’une abscisse universelle.

La notion d’abscisse universelle permet d’ajouter des points (( virtuels )) (sur-

´ echantillonage). Les points (( virtuels )) sont repr´ esent´ es par les cercles en pointill´ es . . . 129 2.10 Deux contours (( li´ es )) avec diff´ erents cas de figure pour le nombre de points

nbI . . . 130 2.11 Ajout de point (( virtuels )) pour fermer les contours ouverts . . . 132 2.12 Signal moyen C

^L

(s) ` a diff´ erents niveaux L . . . 133 2.13 Illustration du prolongement spatio-temporel sur le contour bateau de l’image

50 de coastguard . . . 134 2.14 Plans spatio-temporels pour les positions X et Y. Les zones noires repr´ e-

sentent les (( ruptures )) de contour pr´ esentes avant le prolongement de contour135

2.15 Illustration du codage en plan de bits . . . 136

2.16 Illustration du codage en plan de bits avec diff´ erents nombre de plans de bits138

(16)

3.1 Distorsion en fonction du d´ ebit pour la s´ equence Foreman . . . 140 3.2 Comparaison des techniques de codage pour un d´ ebit d’environ 0.7 bits par

´

el´ ement de contour (environs 600 bits par images ` a 15Hz) . . . 141 3.3 Comparaison MPEG4 CAE et IPB Ondelette ` a distorsion pratiquement

´

egale pour la s´ equence Children sur le GOP [5-10] . . . 142 3.4 Comparaison MPEG4 CAE et IPB Ondelette ` a distorsion ´ egale sur le GOP

[50-55] . . . 142 3.5 Comparaison MPEG4 CAE et IPB Ondelette ` a distorsion ´ egale pour la

s´ equence Foreman sur le GOP [0-5] . . . 145 3.6 VOP de l’image 0 de la s´ equence Foreman pour diff´ erents niveaux de perte

sur le contour en utilisant le codage IPB Ondelette. Ces figures illustrent l’effet visuel dˆ u au codage de forme avec perte. La quantification correspond

`

a un nombre de plans de bits supprim´ es. Ainsi, une quantification de 4 correspond ` a la suppression des 2 derniers plans de bits, une quantification de 8 correspond ` a la suppression des 3 derniers plans de bits ... . . 146 3.7 Comparaison entre ondelette 3D objet et non objet ` a un d´ ebit de 160Kb/s

sur la s´ equence Foreman CIF 15Hz . . . 147 3.8 Comparaison entre H26L VM8 (2 images B, CABAC, 5 frames de r´ ef´ erence,

optimisation RD) et l’ondelette 3D objet (deux objets : avant-plan et fond)

`

a un d´ ebit tr` es faible. Image 20 de la s´ equence Erik CIF ` a 15Hz . . . 147 1.1 Illustration des performances de diff´ erents codeurs en fonction du signal

(figure extraite de [Reusens et al. 97]) . . . 154 1.2 Codage dynamique d’objet de [Reusens et al. 97]. (a) image avant-plan in-

tra d´ ecod´ ee (8Kbit), (b) quad-arbre de l’image avant-plan, (c) image arri` ere- plan intra d´ ecod´ ee (7Kbit), (d) quad-arbre de l’image arri` ere-plan. Figure extraite de [Reusens et al. 97]) . . . 156 1.3 Illustration des artefacts selon le codage . . . 157 1.4 Comparaison entre un codage dynamique en objets vid´ eo et deux m´ ethodes

de codage non objet. Figure extraite de [Fleury 99] . . . 158 1.5 Illustration de la r´ epartition de d´ ebit par r´ egion d’int´ erˆ et. Figure extraite

de [Chai et al. 00] . . . 159 2.1 Sch´ ema du codage dynamique que nous proposons. L’illustration est donn´ e

pour le codage dynamique de deux objets . . . 162 2.2 Analyse-synth` ese pour le codeur m3dcoder. Figure extraite de [Balter et al.

03b] . . . 163 2.3 Comparaison H26L et m3dcoder ` a 82Kb/s sur la s´ equence Rue CIF ` a 25

Hz. Les qualit´ es PNSR sont d’environ 26dB pour m3dcoder et 25 dB pour H26L. Par contre la qualit´ e subjective est tr` es largement sup´ erieure pour le m3dcoder . . . 165 2.4 Chronologie des standards menant ` a H264/AVC . . . 167 2.5 Structure basique pour un codeur H264/AVC pour un macro-bloc. Figure

extraite de [Sch¨ afer et al. 03] . . . 168 2.6 Comparaison d´ ebit-distorsion avec diff´ erents codeurs sur la s´ equence CIF

Tempete ` a 15Hz. Figure extraite de [Schwarz et al. 02] . . . 169

(17)

Table des figures 17 2.7 Illustration du r´ esultat de codage H264/AVC JM5 par objets sur l’objet

visage de la s´ equence CIF Foreman ` a 15 Hz sur les 90 premi` eres images . . 170 2.8 Illustration de la cr´ eation d’une mosa¨ıque grˆ ace ` a l’estimateur de mouve-

ment par maillage. Arri` ere plan de la s´ equence Foreman CIF avec 64 images 172 2.9 Illustration du probl` eme de composition d’objet ayant des fr´ equences d’´ e-

chantillonnage temporelles diff´ erentes. La figure de gauche illustre un codage- d´ ecodage de l’avant-plan et de l’arri` ere-plan ` a 30Hz. La figure de droite illustre le codage de l’arri` ere-plan avec un sous ´ echantillonnage ` a 15Hz et l’avant-plan cod´ e-d´ ecod´ e ` a 30Hz. Les figures sont extraites de [Lee et al. 03].175 2.10 Illustration de la composition d’objet. La technique de padding multir´ esolu-

tion permet de r´ egler les probl` emes de zones non d´ efinies lors du d´ ecodage.

De plus, le padding permet de d´ et´ eriorer la forme sans que cela soit visible au d´ ecodage. . . . 178 2.11 Illustration de la composition d’objets avec ou sans antialiasing. L’antialia-

sing recr´ ee l’effet naturel de discr´ etisation d’un contour lors de l’acquisition d’une image par un capteur . . . 179 3.1 Courbe de la distortion (moyenne sur 60 images de l’erreur quadratique

moyenne) en fonction du d´ ebit. Le codage porte sur l’arri` ere-plan de la s´ equence CIF Foreman ` a 15Hz. Les codeurs utilis´ es sont : H264/AVC adapt´ e objet, ondelette 3D (WLT 3D) et mosa¨ıque avec un mouvement affine . . . 183 3.2 Courbe de la distortion (moyenne sur 60 images de l’erreur quadratique

moyenne) en fonction du d´ ebit. Le codage porte sur l’avant-plan de la s´ equence CIF Foreman ` a 15Hz. Les codeurs utilis´ es sont : H264/AVC adapt´ e objet, et ondelette 3D (WLT 3D) . . . 184 3.3 Images de la s´ equence Foreman cod´ e d´ ecod´ e par codage dynamique objet

`

a 99Kb/s et par codage H264/AVC non objet ` a 100Kb/s. Le tableau 3.3 donne la r´ epartition des d´ ebits . . . 187 3.4 Courbe de la distortion (moyenne sur 90 images de l’erreur quadratique

moyenne) en fonction du d´ ebit. Le codage porte sur l’arri` ere-plan de la s´ equence Stefan 240 × 352 ` a 15Hz. Les codeurs utilis´ es sont : H264/AVC adapt´ e objet, ondelette 3D (WLT 3D) et mosa¨ıque avec un mouvement affine188 3.5 Courbe de la distortion (moyenne sur 90 images de l’erreur quadratique

moyenne) en fonction du d´ ebit. Le codage porte sur l’avant-plan de la s´ equence Stefan 240 × 352 ` a 15Hz. Le codeur utilis´ e est : H264/AVC adapt´ e objet . . . 188 3.6 Images de la s´ equence Stefan cod´ ee d´ ecod´ ee par codage dynamique objet

`

a 100Kb/s (PSNR = 27,2) et par codage H264/AVC non objet ` a 105Kb/s (PSNR = 26,7) . . . 190 3.7 Images de la s´ equence Stefan cod´ ee d´ ecod´ ee par codage dynamique objet

`

a 272Kb/s (PSNR = 30.3) et par codage H264/AVC non objet ` a 256Kb/s

(PSNR = 30.9) . . . 191

(18)

3.8 Courbe de la distortion (moyenne sur 110 images de l’erreur quadratique moyenne) en fonction du d´ ebit. Le codage porte sur la s´ equence Escalier

`

a 25Hz. En entr´ ee de m3dCodeur, la s´ equence est de taille 360 × 288. En entr´ ee de H264/AVC et ondelette 3D (WLT 3D), la s´ equence est rogn´ ee ` a une taille de 352 × 288 . . . 192 3.9 Images de la s´ equence Escalier cod´ ee d´ ecod´ ee par m3dCoder ` a 100Kb/s

(PSNR = 31.3) . . . 193

(19)

Glossaire

C3D Clustering 3D

Algorithme de segmentation spatio-temporel en objet vid´ eo.

CIF Common Intermediate Format

Format d’images pour la vid´ eo 352 × 288.

CAE Context-based Arithmetic Coding Codage entropique

CABAC Context-based Adaptive Binary Arithmetic Coding Codage entropique avec pr´ ediction

des symboles ` a coder par utilisation d’un contexte adaptatif.

DC Dynamic Coding

mise en concurence de technique de codage DCT Discrete Cosine Transform

DFD Displaced Frame difference

DPCM Differential Pulse Coding Modulation Mode de codage diff´ erentiel.

On parle de MICD en fran¸cais.

DWT Discrete Wavelet Transform

EBCOT Embedded Block Coding with Optimized Truncation [Taubman 00]

Algorithme de compression d’images fixes (utilis´ e dans JPEG-2000).

EQ Erreur Quadratique

EQM Erreur Quadratique Moyenne

EZW Embedded Zerotree of Wavelet [Shapiro 93]

Algorithme de compression d’images fixes.

FGS Fine Granular Scalability GOP Group Of Picture

H.26X H.261, H.262, H.263X, H.26L

Ce sont des recommandations de compression vid´ eo num´ erique bas d´ ebit issues de l’ITU.

Notons que H.264/AVC est issue du groupe

de travail commun ISO et ITU et prolonge la norme H.26L.

(20)

INTRA (I) Mode de codage sans utilisation de pr´ ediction temporelle INTER (P,B) Mode de codage avec utilisation de pr´ ediction(s) temporelle(s)

Le mode INTER regroupe le codage par Pr´ ediction simple (P) et par pr´ ediction Bidirectionnel (B)

IPB Codage en Intra, en Pr´ ediction Simple,

et en Pr´ ediction Bidirectionnelle pour un GOP ISO Organisation Internationale de normalisation ITU International Telecommunications Union

Institut de normalisation des T´ el´ ecommunications.

JPEG Joint Picture Expert Group

JPEG et JPEG 2000 sont des normes de compression d’images fixes.

LZW Lempel Ziv Welsh

Codage par substitution. Il y a prise en compte de motifs r´ ep´ etitifs

MDL Minimum Descrition Lenght [Rissanen 78]

Formalisme permettant d’intoduire le coˆ ut de codage par exemple dans la mod´ elisation du probl` eme de segmentation.

MICD Modulation par Implusion Cod´ ees Diff´ erentielles Mode de codage diff´ erentiel.

On parle de DPCM en anglais.

MPEG Motion Picture Expert Group

MPEG-1, MPEG-2 et MPEG-4 sont des normes de compression num´ erique.

MPEG-7 est une norme de description d’outils audio-visuels.

OBASC Object Based Analysis-Synthesis Coder Codeur bas´ e objet par analyse-synth` ese.

PSNR Peak Signal to Noise Ratio

Mesure de la qualit´ e visuelle d’un signal apr` es distortion.

Pour une image en niveaux de gris cod´ ee sur 8 bits on a : P SN R = − 10 × log

10

EQM 255²

QoS Quality of Service

SPIHT Set Partitioning In Hierarchical Tree [Said et al. 96]

Algorithme de compression d’images fixes.

SVH Syst` eme de Vision Humain

Suite de traitements r´ ealis´ es par l’Homme pour analyser les informations visuelles.

SA Shape Adapted

Un codage adapt´ e a la forme

On parle souvent de SA-DCT ou SA-WLT.

VO Video Object

Objet vid´ eo (texture,mouvement,forme)

d´ efini pour un intervalle de temps dans MPEG-4

VOP Video Object Plan

Objet vid´ eo (texture,mouvement,forme) d´ efini ` a un instant donn´ e

WLT Wavelet

Transformation ondelette

WLT 3D Wavelet 3D

Sch´ ema de codage spatio-temporel par ondelette.

(21)

Introduction

Transmettre des flux vid´ eo sur un r´ eseau ou bien les stocker sur disque n´ ecessite une compression pr´ ealable, du fait de l’importance du volume d’information impliqu´ e. Par exemple, le d´ ebit sans compression pour un film transmis ` a la t´ el´ evision est de 237 Mb/s et pour une heure et demi de film la taille de fichier est de 1,22 t´ erabits. Un tel d´ ebit et un tel volume sont trop importants.

La r´ eduction de la taille des flux vid´ eo passe par des techniques de compression avec perte. Des standards de compression et des recommandations ont ´ et´ e propos´ es : MPEG1, MPEG2, MPEG4, H261, H262, H263, H263+, H263++, H264/AVC. La plupart de ces approches fonctionne sur une technique qui partitionne l’image en blocs pour ensuite effectuer des traitements sur chacun des blocs.

Parall` element aux standards, d’autres techniques de codage ont ´ et´ e propos´ ees prenant en compte de mani` ere plus prononc´ ee le contenu des images. Ces approches recherchent la pr´ esence de mod` eles (mouvement ou 3D) dans l’image pour ensuite coder la s´ equence en utilisant le mod` ele obtenu. Ainsi, le codage de la vid´ eo n´ ecessite deux ´ etapes : l’analyse (recherche d’un ou plusieurs mod` eles) puis la synth` ese (le codage).

Par ailleurs, la compression vid´ eo doit s’adapter aux nombreuses applications et aux nombreux supports de diffusion. En effet, chaque application et chaque support ont leur propres besoins. Il y a par exemple des besoins en gamme de d´ ebit, en qualit´ e requise, en robustesse aux pertes, d’adaptation aux variations de la bande passante, de synchronisa- tion, de r´ esolution de la s´ equence etc. Ainsi, pour les applications de t´ el´ evisions num´ erique avec diffusion par satellite, on souhaite du haut d´ ebit ` a grande qualit´ e. On utilise pour cela un codage MPEG2. H264/AVC est d’ailleurs ´ etudi´ e pour remplacer ce standard car il donne des performances bien meilleures. De la mˆ eme fa¸con, on peut ´ emettre des vid´ eos sur des r´ eseaux comme l’Internet ou le GSM, o` u on a besoin de faibles d´ ebits avec une adaptation aux variations de la bande passante et une robustesse aux pertes. Les appli- cations de consultations de bases de donn´ ee n´ ecessitent aussi une compression adapt´ ee permettant l’acc` es ` a diff´ erentes r´ esolutions temporelles et spatiales.

L’´ etude pr´ esent´ ee dans ce manuscrit s’inscrit dans la recherche de techniques de codage par mod` ele objet. Notre objectif est de mesurer l’int´ erˆ et de techniques bas´ ees objet. Plus pr´ ecis´ ement, nous nous int´ eressons au probl` eme de segmentation automatique et semi- automatique (extraction d’objets vid´ eo) et aux probl` emes de codage des objets vid´ eo.

Dans cette ´ etude, nous nous posons 2 questions. La premi` ere est de savoir si la segmen- tation en objets permet de gagner en efficacit´ e de compression; la deuxi` eme est de savoir s’il est envisageable d’obtenir des objets de mani` ere automatique utilisable pour le codage.

Des r´ eponses positives permettront d’envisager des solutions alternatives au codage d´ efini

par les standards, mais aussi de proposer un codage plus proche de la physique de la sc` ene.

(22)

Pour r´ epondre ` a ces questions, trois points seront abord´ es : la segmentation en objets vid´ eo, le codage hi´ erarchique d’un objet vid´ eo, et le codage dynamique d’objets vid´ eo.

La segmentation en objets vid´ eo est int´ eressante pour le codage car elle permet, grˆ ace

`

a l’obtention d’objets vid´ eo, une r´ epartition des d´ ebits entre objets. Elle est d’ailleurs aussi utilis´ ee pour des domaines comme l’indexation vid´ eo (indexation par objet) et pour le montage vid´ eo (modification, suppression, ajout d’objets vid´ eo).

Le codage hi´ erarchique vid´ eo est une fonctionnalit´ e qui est utile pour les applications r´ eseaux et pour le stockage de donn´ ees. En effet, l’ordonnancement des informations du flux vid´ eo selon un crit` ere d’ordre permet d’avoir une flexibilit´ e sur la quantit´ e d’information souhait´ ee.

Enfin, le codage dynamique permet de mettre en concurrence plusieurs codeurs pour coder un objet. Cette approche permet ainsi de valoriser l’approche objet en adaptant le codage aux propri´ et´ es de chaque objet.

Ce m´ emoire est compos´ e de 3 parties : la segmentation, le codage hi´ erarchique et le codage dynamique. Au d´ ebut de chacune de ces parties un ´ etat de l’art du domaine est pr´ esent´ e. Ensuite, nous pr´ esentons nos contributions. Enfin, les troisi` emes chapitres exposent les r´ esultats et en donnent une analyse critique.

Avant d’aborder ces trois parties que sont la segmentation en objet vid´ eo, le codage

d’objet vid´ eo hi´ erarchique et le codage dynamique d’objet vid´ eo, nous proposons un cha-

pitre de pr´ eambule permettant de positionner le manuscrit.

(23)

Pr´ eambule

Ce pr´ eambule ´ evoque les diff´ erentes tendances du codage vid´ eo. Il s’agit d’une r´ eflexion permettant d’introduire le plan du manuscrit et de cibler l’´ etude. En effet, deux grands domaines du traitement du signal sont abord´ es : la segmentation de contenu vid´ eo et le codage bas d´ ebit. Nous donnons ´ egalement ici un aper¸cu quant aux ´ evolutions propre ` a chacun de ces deux domaines.

Ainsi, ce pr´ eambule est compos´ e de 4 parties. La premi` ere partie introduit la notion de segmentation sous forme chronologique en montrant l’´ evolution vers des repr´ esentations s´ emantiquement riches. La deuxi` eme partie aborde les fonctionnalit´ es de hi´ erarchisation

¹

propos´ ees maintenant par les codeurs vid´ eos et adapt´ ees aux besoins des applications. La troisi` eme partie pr´ esente le codage, ` a proprement parler, avec la mise en ´ evidence d’une adaptation au signal ` a diff´ erentes ´ echelles : blocs, macroblocs, r´ egions, images. Enfin, la quatri` eme partie introduit le codage vid´ eo dynamique bas´ e objet qui consiste ` a choisir la repr´ esentation et le codeur les plus adapt´ es pour le codage des objets.

2D, 2D 1/2, 3D : vers une repr´ esentation compacte et s´ eman- tique

Le domaine du codage vid´ eo n´ ecessite une repr´ esentation compacte des informations.

L’histoire du codage vid´ eo montre que les repr´ esentations ont tendance ` a aller vers une structuration s´ emantique des donn´ ees. Ainsi, en une quarantaine d’ann´ ees, les ´ etudes ont

´

evolu´ ees de la notion de signal ` a la notion de mod` ele 3D.

Les premi` eres approches de codage de flux vid´ eos ´ etaient uniquement bas´ ees sur la compression d’une suite de symboles avec des outils de compression entropique (Huffman, LZW, ...). Les approches suivantes ont raisonn´ e sur le signal vid´ eo lui-mˆ eme en le dis- tordant, c’est-` a-dire en autorisant des pertes par rapport au signal original. La distorsion introduite s’appuie sur des crit` eres fr´ equentiels, spatiaux et psychovisuels [ISO/IEC 93].

En permettant le codage vid´ eo avec perte, les taux de compression ont ´ enorm´ ement aug- ment´ e, permettant ainsi le stockage et la transmission des flux vid´ eo.

Dans les ann´ ees 85, l’analyse du signal s’est enrichie en exploitant les caract´ eristiques du Syst` eme de Vision Humain (SVH) et en consid´ erant une image comme un ensemble de r´ egions. On passait alors d’une repr´ esentation pixel ` a une repr´ esentation r´ egion. On a ainsi parl´ e de codage de deuxi` eme g´ en´ eration [Kunt et al. 85].

1. hi´ erarchisation: scalability en anglais, (( Le terme scalabilit´ e est un calque inutile de l’anglais )), Le

grand dictionnaire terminologique, http://www.granddictionnaire.com.

(24)

Durant les ann´ ees 90, la norme MPEG 4 [ISO/IEC 98] a introduit la notion d’objet vid´ eo et de codeur bas´ e objet. Cette nouvelle approche structure la vid´ eo en un ensemble d’objets poss´ edant un ordre de profondeur relatif. La figure 1 illustre cette notion d’objet vid´ eo. Par rapport ` a l’approche r´ egion, l’approche objet est plus riche car elle propose une ind´ ependance de la carte de segmentation et permet de donner ` a un objet sa forme r´ eelle.

Ces deux notions sont illustr´ ees par la figure 2(b) et 2(c) qui repr´ esentent respectivement une approche r´ egion et une approche id´ eale en objet vid´ eo.

z

Fig. 1 – Illustration de l’ordre de profondeur pour les deux objets vid´ eo de la s´ equence Foreman

Il faut bien remarquer que la notion d’objet vid´ eo reste ´ evasive et qu’en aucun cas la norme MPEG 4 ne la d´ efinit. En effet, la norme MPEG4 se contente de d´ efinir la syntaxe de codage et de d´ ecodage. Ainsi, le codeur MPEG 4 prend en param` etres:

– un masque par image et par objet vid´ eo, – une texture par image et par objet vid´ eo, – un ordre de profondeur par objet vid´ eo.

Au d´ ecodage, une composition de la sc` ene est effectu´ ee en respectant l’ordre de profondeur relatif associ´ e ` a chaque objet de sorte que, dans les zones de superposition, l’objet le plus

´ eloign´ e soit recouvert. Ainsi, la d´ efinition et l’extraction automatique de ces informations restent probl´ ematiques.

Entre le 2D 1/2 et la 3D, l’approche par mosa¨ıque pour un objet de type arri` ere plan, ou pour tout type d’objet [Pateux et al. 01], [Cammas et al. 03a] permet d’obtenir une texture et un mouvement pour un groupe d’images. Cette repr´ esentation permet d’apprendre la texture associ´ ee ` a un objet. En effet, les zones se d´ ecouvrant au cours du temps enrichissent la mosa¨ıque. De plus, l’utilisation d’un maillage permet d’estimer des mouvements long terme tr` es fins. La figure 3 montre la mosa¨ıque associ´ ee au visage de la s´ equence vid´ eo nomm´ ee Armel.

Cette repr´ esentation est tr` es int´ eressante puisqu’elle permet d’avoir une mod´ elisation

de l’objet par une seule texture ou une texture ` a faible variation dans le temps, et un

(25)

2D, 2D 1/2, 3D : vers une repr´ esentation compacte et s´ emantique 25

(a) image 50 coastguard (b) fronti` eres plaqu´ ees

(c) r´ egion pour l’image 50 (d) objet pour l’image 50

Fig. 2 – Illustration de la notion de r´ egion et d’objet vid´ eo. L’image (a) repr´ esente l’image 50 de la s´ equence Coastguard. L’image (b) repr´ esente les fronti` eres de r´ egions plaqu´ ees sur l’image 50. L’image (c) repr´ esente la r´ egion grand bateau. L’image (d) repr´ esente l’objet vid´ eo grand bateau

mouvement 2D adapt´ e. Ainsi, la texture d’un objet vid´ eo repr´ esente plusieurs images ` a la fois et non plus une seule. Il est ´ evident que l’on gagne en compacit´ e ainsi qu’en s´ emantique avec l’approche mosa¨ıque.

L’approche par mod´ elisation 3D permet en th´ eorie d’obtenir la position 3D de tous les points 2D d’un groupe d’images et les positions de la cam´ era. Ainsi, un objet est repr´ esent´ e par la g´ eom´ etrie 3D du mod` ele, les positions de la cam´ era et une texture. Cette approche est encore moins coˆ uteuse qu’une approche mosa¨ıque puisqu’il suffit de d´ ecrire le mouvement de la cam´ era pour passer d’une image ` a la suivante.

Cette approche bas´ ee mod` ele 3D est ` a priori plus compacte et plus riche s´ emantiquement

mais c’est aussi la plus complexe en temps de traitement. En pratique l’identification d’un

tel mod` ele est souvent tr` es difficile ce qui n´ ecessite l’introduction d’hypoth` eses restrictives

sur le contenu des sc` enes. Par exemple [Galpin et al. 01] ne fait pas d’a priori sur le

(26)

(a) image 0 Armel (b) image 27 Armel

(c) maillage sur l’image 0 (d) maillage sur l’image 27

e) mosa¨ıque (f) image 27 reconstruite

Fig. 3 – Illustration de la notion de mosa¨ıque d’objet non rigide. Le mouvement est estim´ e

par un maillage actif, figure (c) et (d), et l’on obtient la mosa¨ıque de la figure (e). La figure

(f ) repr´ esente l’image 27 reg´ en´ er´ ee grˆ ace ` a la mosa¨ıque et au mouvement

(27)

Une fonctionnalit´ e int´ eressante : la hi´ erarchisation 27 mod` ele 3D mais consid` ere que la sc` ene doit ˆ etre rigide. Le codage de visage par mod` ele 3D [Eisert et al. 99] suppose quant ` a lui un mod` ele param´ etrique de visage 3D r´ eserv´ e ` a ce type de sc` ene.

L’´ evolution du codage vid´ eo montre l’importance de d´ eterminer la bonne repr´ esentation de l’information, c’est-` a-dire de choisir le mod` ele 2D, 2D 1/2 ou 3D le plus adapt´ e aux informations ` a coder. Cependant, ces approches sont bien souvent non g´ en´ eriques et se heurtent au probleme de l’analyse de la s´ equence avant son codage. Dans cette optique d’analyse, la premi` ere partie de ce manuscrit ´ etudie le th` eme de la segmentation et donne des pistes pour renforcer l’apport de l’analyse du signal vid´ eo avant le codage.

Une fonctionnalit´ e int´ eressante : la hi´ erarchisation

La hi´ erarchisation vid´ eo consiste ` a avoir un flux d’information dont les informations sont r´ eparties dans des sous-ensembles hi´ erarchis´ es, de telle sorte qu’elles puissent ˆ etre utilis´ ees par ordre d’importance, au moment de reconstituer les images. On d´ efinit alors plusieurs types de hi´ erarchisations c’est-` a-dire diff´ erents ordonnancements : spatial, tem- porel, qualit´ e, train binaire

²

et objet ([Marquant 00] p.39-44).

On peut noter que toutes les hi´ erarchisations ne sont pas propos´ ees par les codeurs.

H264/AVC [Schwarz et al. 02] par exemple, ne propose que la hi´ erarchisation de type tem- porelle (sch´ ema de codage IPB). MPEG4 propose la hi´ erarchisation temporelle, spatiale (diff´ erentes r´ esolutions), qualit´ e et objet.

Sachant que les applications utilisatrices de flux vid´ eos sont fortement demandeuses de hi´ erarchisations, il y a un r´ eel effort ` a faire dans ce sens. En effet, pour les applications sur r´ eseaux, un fichier unique peut ˆ etre ´ emis avec un d´ ebit pouvant varier tant ` a l’´ emission (adaptation du d´ ebit ` a la bande passante disponible), qu’` a l’int´ erieur du r´ eseau. Ce mˆ eme fichier peut aussi ˆ etre ´ emis sur plusieurs canaux (s’il existe une syst` eme de diff´ erentiation de service avec qualit´ e de service (( QoS )) ). ` A la r´ eception du flux, le d´ ecodeur, de par les propri´ et´ es du flux, peut n’en d´ ecoder qu’une partie. Pour les applications de type consultation de base de donn´ ees vid´ eo ou bien de montage vid´ eo, la hi´ erarchisation permet d’avoir un aper¸cu rapide de la vid´ eo sans la visualiser en pleine r´ esolution (spatiale et temporelle) ni ` a qualit´ e maximale. Il est ´ evident que pour des raisons de stockage, la hi´ erarchisation train de bits permet de n’avoir qu’un seul fichier au lieu d’en avoir plusieurs, correspondant ` a diff´ erents d´ ebits.

Une hi´ erarchisation particuli` erement int´ eressante est la hi´ erarchisation du train de bits. Pour le codage d’image, cette hi´ erarchisation permet la troncature, au bit pr` es ou par pallier, du fichier binaire. Les donn´ ees du train binaire sont donc rang´ ees dans un ordre d´ ecroissant d’importance. Pour ce faire, on applique une transform´ ee sur l’image puis on ordonne avec une priorit´ e spatiale, fr´ equentielle ou d´ ebit-distorsion les coefficients issus de la transform´ ee. Ces techniques ont entre autre ´ et´ e mises en valeur avec l’utilisation d’une transform´ ee ondelette dans EZW (1993) [Shapiro 93] , SPIHT (1996) [Said et al. 96]

puis EBCOT (2000) [Taubman 00].

Pour le codage vid´ eo, plusieurs hi´ erarchisations ont ´ et´ e propos´ ees pour obtenir les mˆ emes possibilit´ es qu’en image fixe. Cependant, assez souvent la hi´ erarchisation vid´ eo

2. Train binaire : traduction du mot anglais (( bitstream ))

(28)

pose des probl` emes de redondance d’information. ` A titre d’exemple, nous pr´ esentons ici la hi´ erarchisation temporelle et la hi´ erarchisation en couches :

– La hi´ erarchisation temporelle: sch´ ema IPB, (( Intra, Pr´ edite, Bidirectionnelle )) . Elle est ` a la base de nombreux codeurs (typiquement les codeurs de type MPEG) puisque le sch´ ema IPB exploite la redondance et permet ainsi de r´ eduire fortement les coˆ uts de codage. Cette hi´ erarchisation permet d’ordonner le flux vid´ eo en donnant plus d’importance aux blocs I qu’aux blocs P et qu’aux blocs B.

– La hi´ erarchisation en couches. Une couche basse est r´ eserv´ ee pour les informations essentielles. Les couches hautes permettent un raffinement des informations de la couche basse. Par exemple, la hi´ erarchisation MPEG4 FGS, (( Fine Granularity Sca- lability )) permet de coder la couche basse ` a d´ ebit constant et ensuite de r´ eguler le d´ ebit global par une couche haute am´ eliorant chaque image s´ epar´ ement. Cette approche ne permet cependant pas de profiter de la redondance apport´ ee lors de l’am´ elioration d’une image pass´ ee.

Pour les images fixes, la transform´ ee en ondelette a permis d’am´ eliorer les performances des sch´ emas progressifs. Il semble int´ eressant d’essayer d’´ etendre ` a la vid´ eo l’utilisation de cette transform´ ee pour obtenir une hi´ erarchisation du train binaire. Ceci est abord´ e dans la deuxi` eme partie de ce manuscrit.

Les codeurs actuels : vers un codage adapt´ e au signal

Tous les types de codeurs (MPEG, H264/AVC, codage par mosa¨ıque, codage par onde- lette 3D, codage par mod` ele) s’adaptent au signal vid´ eo ou en sont fortement d´ ependants.

L’´ evolution du codage peut ˆ etre vue comme un enrichissement des approches actuelles par une complexification des mod` eles. En effet, la tendance est ` a l’augmentation du nombre de param` etres grˆ ace ` a l’utilisation d’optimisation d´ ebit-distorsion.

L’´ evolution du codage peut aussi ˆ etre vue en terme d’´ echelle d’analyse. Les codeurs s’adaptent de mani` ere tr` es locale (CABAC, quantification), de mani` ere locale (blocs, ma- croblocs) ou de mani` ere plus globale (segmentation, mosa¨ıque, objets, mod` ele 3D).

A une ´ ` echelle locale, MPEG et H264/AVC ont ´ evolu´ e vers une diminution de la taille des blocs, une augmentation de la pr´ ecision du mouvement, un grand choix de modes de codage de bloc (Intra, Inter ...). H264/AVC permet mˆ eme de segmenter les blocs. Le choix est donc effectu´ e bloc par bloc. Ce choix est dict´ e par le signal via une optimisation d´ ebit-distorsion et via une analyse locale.

A une ´ ` echelle moins locale, les codeurs par maillages et ondelettes ainsi que les codeurs par mod` eles 3D sont parfaitement adapt´ es au signal lorsque leurs mod` eles repr´ esentent bien le contenu de la s´ equence.

On peut remarquer qu’il y a deux ´ evolutions parall` eles dans le codage vid´ eo. La premi` ere consiste ` a mettre en œuvre des techniques d’optimisation d´ ebit-distorsion et

`

a enrichir les codeurs, c’est-` a-dire ` a complexifier les mod` eles. La deuxi` eme consiste ` a in- troduire l’analyse, par exemple la segmentation, pour trouver des r´ egions homog` enes en texture ou en mouvement, ce qui permet de r´ eduire les coˆ ut de codage. La tendance de tous les codeurs est donc de se rapprocher d’une mod´ elisation plus physique du signal que ce soit par une approche d’optimisation-d´ ebit distorsion ou par une analyse ` a diff´ erentes

´ echelles (blocs, region/objet, mod` ele(sprite, 3D, ...) .

(29)

Le codage objet dynamique : repr´ esentation et codage adapt´ es 29

Le codage objet dynamique : repr´ esentation et codage adapt´ es

Les applications utilisant le codage vid´ eo sont de plus en plus demandeuses de fonction- nalit´ es de hi´ erarchisation telles que la hi´ erarchisation spatiale, temporelle, PSNR, train binaire etc. Ainsi, l’introduction de la notion de codage objet coupl´ e avec une approche dynamique du codage, c’est-` a-dire avec le choix du codage adapt´ e ` a chaque objet, semble attractive [Reusens et al. 97].

En effet, chaque objet a souvent une propri´ et´ e s´ emantique qui induit un codage adapt´ e.

Par exemple, on a tout int´ erˆ et ` a coder un objet vid´ eo de type mosa¨ıque en image fixe ou dynamique. Le codage d’un objet de type sc` ene rigide permettant le calcul d’un mod` ele 3D, tire profit d’une approche bas´ ee mod` ele. Ainsi, dans un codeur bas´ e objets avec co- dage dynamique, au sein d’une mˆ eme image plusieurs objets peuvent cohabiter, avec pour chacun un codage qui leur est propre.

On peut comparer l’approche H264/AVC et l’approche par codage dynamique en terme d’´ echelle d’analyse du signal vid´ eo et en terme de possibilit´ es. Dans le cas de H264/AVC, l’´ echelle d’analyse est locale au bloc. On optimise sur des param` etres simples comme sur le choix du type de codage, le choix de la taille du bloc, le calcul du vecteur mouvement.

Dans le cas de l’approche par codage dynamique, l’´ echelle d’analyse est beaucoup moins locale puisqu’on raisonne sur des objets issus de la segmentation. L’optimisation est alors d’un niveau sup´ erieur et beaucoup plus large puisqu’il faut faire un choix sur le type de codage de l’objet (DCT, Sprite, ondelette ...).

Le codage dynamique d’objet n´ ecessite donc le choix de la repr´ esentation de l’objet lors de l’analyse de la s´ equence ; la premi` ere partie de ce manuscrit aborde cette question.

Ensuite, chaque objet doit ˆ etre cod´ e. On peut alors faire appel aux codeurs d’objets vid´ eo de type MPEG4, ou bien pour plus de hi´ erarchisation on peut utiliser le sch´ ema ondelette 3D comme pr´ esent´ e en deuxi` eme partie du manuscrit. Enfin, si l’on d´ esire choisir pour chaque objet le codage le plus adapt´ e, il faut mettre en concurrence sur chaque objet l’ensemble des codeurs ` a disposition ; ceci est expliqu´ e dans la derni` ere partie du manuscrit.

Orientation et justification de l’´ etude

L’´ evolution du codage en une quarantaine d’ann´ ee fait ressortir deux grandes ten- dances : l’enrichissement des mod` eles (augmentation du nombre de param` etres et optimi- sation d´ ebit-distorsion) et la recherche de mod` eles de plus en plus proches de la physique de la sc` ene (2D, 2D1/2, 3D). En plus de cette ´ evolution, les applications sont de plus en plus demandeuses de fonctionnalit´ es telles que la hi´ erarchisation.

Ainsi, le codage dynamique d’objets vid´ eo s’inscrit parfaitement dans l’´ evolution ac- tuelle du codage. En effet, y sont pr´ esents : la recherche de mod` ele proche de la physique de la sc` ene, la hi´ erarchisation objet et l’adaptation au signal via l’optimisation d´ ebit- distorsion.

Plus g´ en´ eralement, ce manuscrit essaye d’analyser les apports du codage dynamique

d’objets vid´ eo et la faisabilit´ e de la segmentation automatique pour le codage d’objets

vid´ eo. La premi` ere partie de ce manuscrit aborde la segmentation en objets vid´ eo, la

deuxi` eme partie aborde la hi´ erarchisation d’un objet, et la troisi` eme partie aborde le

codage dynamique.

(30)

(31)

31 premi` ere partie

La segmentation

(32)

(33)

33 Chapitre 1

Etat de l’art : les approches de ´ segmentation bas´ ees r´ egions v.s.

bas´ ees contours

Que cela soit dans le domaine spatial, temporel ou spatio-temporel, la segmentation a pour objectif de partitionner une image ou un groupe d’images de sorte que chacune des r´ egions ait une caract´ eristique qui la distingue des autres. Dans le cas des approches bas´ ees r´ egions, on recherche une homog´ en´ eit´ e spatiale, temporelle ou spatio-temporelle de la r´ egion. Dans le cas des approches contour, on cherche des contours prononc´ es spatialement, temporellement ou spatio-temporellement.

De nombreuses techniques de segmentation ont ´ et´ e propos´ ees. Ces techniques ont toutes en commun la minimisation d’une fonctionnelle d’´ energie. Les auteurs de [Zhu et al. 96]

montrent que quelque soit la technique utilis´ ee (contours actifs, croissance de r´ egion ou approches Bayes/MDL), le probl` eme pos´ e est ´ equivalent. Ainsi quelque soit l’algorithme utilis´ e, on peut s’attendre ` a obtenir sensiblement les mˆ emes r´ esultats. Le choix d’un algo- rithme est alors fonction de ses avantages et de ses inconv´ enients (sensibilit´ e par rapport

`

a l’initialisation, vitesse d’ex´ ecution, complexit´ e, convergence ...). L’objectif de l’´ etat de l’art de ce chapitre est de pr´ esenter les fonctionnelles ´ energ´ etiques ainsi que les b´ en´ efices et les d´ efauts des diff´ erentes mod´ elisations.

Les deux premi` eres sections abordent donc les deux grandes familles d’approches : r´ egions et contours, sans faire de distinction entre l’utilisation de crit` eres spatiaux, tempo- rels ou spatio-temporels. La troisi` eme section porte sur le suivi ( (( tracking )) ) et illustre l’approche classique par projection qui permet d’´ etendre le r´ esultat d’une segmentation d’une image aux images suivantes. Enfin, la derni` ere section sur les tubes spatio-temporels aborde les nouvelles techniques de segmentation vid´ eo prenant en compte une dimension temporelle plus importante.

1.1 Les approches bas´ ees r´ egions

Les approches de segmentation bas´ ees r´ egions cherchent des r´ egions homog` enes selon

des crit` eres spatiaux, temporels ou spatio-temporels. Les sections suivantes pr´ esentent

diff´ erentes approches pour obtenir les homog´ en´ eit´ es. Il y a les approches par croissance de

(34)

r´ egions, les approches par division-fusion et les approches par classification. Ces diff´ erentes approches utilisent bien souvent les mˆ emes formalismes de r´ egularisation des solutions (champs de Markov, MDL, optimisation d´ ebit-distorsion ...).

1.1.1 Les approches par croissance de r´ egions

Les approches par croissance de r´ egion sont des techniques de recherche de zone ho- mog` ene mais par contre ne sont pas optimales dans le sens d’une minimisation de fonction- nelle. Ces approches sont cependant int´ eressantes pour leur rapidit´ e. Ici, nous pr´ esentons deux techniques : la croissance de r´ egion classique et l’approche par ligne de partage des eaux.

L’approche classique par croissance de r´ egions

La croissance de r´ egions consiste ` a faire grandir progressivement un ensemble de germes choisis dans l’image. La croissance des r´ egions est effectu´ ee de sorte que l’on respecte un crit` ere d’homog´ en´ eit´ e (luminance, couleur, texture...). Lorsque deux r´ egions se rencontrent, on obtient la fronti` ere [Kunt et al. 85].

L’inconv´ enient majeur est que les fronti` eres des r´ egions ne correspondent pas toujours

`

a une limite nette dans l’image, ce qui rend difficile le r´ eglage de la phase de croissance. On utilise le plus souvent une technique avec file d’attente, avec ajout it´ eratif du point le plus proche d’un germe. On obtient ainsi des r´ egions homog` enes mais ce n’est pas la solution qui permet d’obtenir la partition optimale. Si on mod´ elise le probl` eme par la fonctionnelle 1.1 le r´ esultat n’est pas ´ equivalent ` a la solution minimisant la fonctionnelle. Le r´ esultat est une solution homog` ene mais pas la solution la plus homog` ene.

E = X

K k=1

X

N i=1

P

i,k

d

²_i,k

, (1.1)

X

K k=1

P

_i,k

= 1,

avec d

i,k

une distance d´ efinissant la similarit´ e entre le repr´ esentant de la r´ egion R

k

et le pixel x

_i

, et P

_i,k

valant 1 ou 0 selon que l’individu x

_i

appartienne ou n’appartienne pas ` a la r´ egion R

k

.

Certaines approches essayent de prendre en compte de mani` ere plus forte les contraintes de contour [Benois et al. 92]. Ainsi, on obtient des r´ egions plus homog` enes (cf. figure 1.1). Cependant l’approche par croissance de r´ egions reste assez empirique en terme de positionnement des r´ egions et de nombre de r´ egions. De plus, ´ etant donn´ e que la croissance des r´ egions se fait de mani` ere simultan´ ee, les fronti` eres obtenues ne sont pas n´ ecessairement les fronti` eres de texture.

L’approche par ligne de partage des eaux

Les approches morphologiques comme l’algorithme de ligne de partage des eaux ( (( wa-

tershed )) ) [Meyer et al. 90] permettent de faire grossir des r´ egions en partant de germes

(35)

Les approches bas´ ees r´ egions 35

(a) Image (( lenna )) (b) Fronti` eres plaqu´ es

Fig. 1.1 – Illustration de l’approche de segmentation par croissance de r´ egions. Figures extraites de [Benois et al. 92]

calcul´ es lors d’une premi` ere ´ etape. Les germes sont les zones de gradient local minimum.

On consid` ere l’image de gradient comme une surface topographique dont les valeurs des pixels repr´ esentent l’altitude. On immerge d’eau la surface en partant des germes. Les zones o` u il y a rencontre d’eau provenant de bassins diff´ erents constituent les fronti` eres (barrages) de la carte de segmentation.

Un algorithme possible pour mettre en œuvre cette m´ ethode consid` ere successivement des altitudes h croissantes. Ainsi pour une altitude h, on a immerg´ e toutes les zones d’altitude inf´ erieure et on r´ ealise alors des dilatations conditionnelles des bassins d’altitude h vers l’altitude h + 1. Les zones d’altitude h + 1 n’ayant pas ´ et´ e atteintes constituent de nouveaux bassins. On it` ere ainsi jusqu’` a immersion totale de la surface.

Cet algorithme fait croˆıtre une r´ egion autour d’un germe. On constate que le nombre de r´ egions est difficilement maˆıtrisable puisqu’il est ´ egal au nombre de minima locaux de l’image. On utilise couramment un filtrage de l’image des gradients (filtre de fermeture morphologique) pour r´ eduire ce nombre de minima locaux. On peut, comme cela est fait dans [Perez et al. 99], ajouter des crit` eres pour prendre en compte de mani` ere plus prononc´ ee les contours.

L’approche par croissance de r´ egions est g´ en´ eralement tr` es rapide et permet d’obtenir des r´ egions de tailles ` a peu pr` es similaires et de formes r´ eguli` eres (fig. 1.2). Par contre le nombre de r´ egions est g´ en´ eralement tr` es ´ elev´ e et la r´ eduction de ce nombre de r´ egions se fait au d´ etriment des d´ etails de l’image. De la mˆ eme fa¸con que pour l’approche par croissance de r´ egions, l’approche par ligne de partage des eaux ne repose pas sur la minimisation d’une fonctionnelle.

1.1.2 Les approches par division-fusion

Les approches de division-fusion ( (( split and merge )) ) consistent soit ` a diviser de

mani` ere tr` es fine une image et ensuite ` a fusionner les r´ egions voisines grˆ ace ` a des crit` eres

d’homog´ en´ eit´ e et de coh´ erence soit ` a diviser it´ erativement tant que les r´ egions ne sont pas

assez homog` enes et pas assez coh´ erentes. On utilise couramment une structure en quad-

arbre ( (( quad-tree )) ) (cf. figure 1.3) ou bien en graphe (Region Adjancy Graph - RAG)

pour r´ esoudre le probl` eme. Les r´ egions sont alors repr´ esent´ ees par les nœuds du graphe ou

bien les feuilles de l’arbre. Les algorithmes r´ ealisent alors des fusions-divisions de r´ egions

(36)

(a) Image 0, s´ equence ((Miss America)) (b) Fronti` eres plaqu´ ees

Fig. 1.2 – Illustration de l’approche par ligne de partage des eaux. Figures extraites de [Bonnaud 98]

(feuilles ou nœuds) voisines.

Fig. 1.3 – Illustration du quad-arbre d’une image, et sa repr´ esentation sous forme d’arbre.

Figures extraites de [Pateux 98]. Les symboles NO, NE, SO, SE indiquent la position des fils d’un nœud par une localisation g´ eographique

La suite du document traite des crit` eres de fusions/divisions. Ensuite, on introduit les formalismes Champs de Markov, MDL et d´ ebit-distorsion.

Le crit` ere de fusion

Que ce soit dans les approches de fusion-division ou pour d’autres techniques, il est n´ ecessaire de d´ efinir une mesure de similarit´ e ou de dissimilarit´ e entre deux r´ egions. Cela revient ` a mod´ eliser le probl` eme par une fonctionnelle d’´ energie qu’il faut minimiser.

Le choix de fusionner deux r´ egions peut alors ˆ etre fonction de la variation d’´ energie

avant - apr` es fusion ou fonction de la similarit´ e entre deux r´ egions. Il y a donc une notion de

seuil qui intervient pour stopper les fusions. Diff´ erents seuils peuvent ˆ etre utilis´ es comme

le seuil sur la variation d’´ energie, celui sur la similarit´ e ou celui sur le nombre total de

fusions.