HAL Id: tel-01206260
https://hal.archives-ouvertes.fr/tel-01206260
Submitted on 28 Sep 2015
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Optimisation du système de 3DTV basé sur la technique
d’imagerie intégrale
Shasha Shi
To cite this version:
Shasha Shi. Optimisation du système de 3DTV basé sur la technique d’imagerie intégrale. Signal and Image Processing. Télécom Bretagne; Université de Rennes 1, 2014. English. �tel-01206260�
Sous le sceau de l’Université européenne de Bretagne
Télécom Bretagne
En habilitation conjointe avec l’Université de Rennes 1
Ecole Doctorale – MATISSE
Optimisation du système de 3DTV basé sur la technique
d'imagerie intégrale
Thèse de Doctorat
Mention : Traitement du signal et télécommunications
Présentée par Shasha Shi
Département : Image et traitement de l'information
Directeur de thèse : Basel Solaiman
Supervisée par: Patrick Gioia, Gérard Madec
Soutenue le 31 Janvier 2014
Jury :
Mme Béatrice Pesquet-Popescu, Professeur, Télécom ParisTech (Rapporteur)
M. Laurent Lucas, Professeur, Université de Reims Champagne-Ardenne(Rapporteur)
M. Basel Solaiman, Professeur, Télécom Bretagne (Directeur de thèse)
M. Florent Dupont, Professeur, Université Lyon 1(Examinateur)
Mme Luce Morin, Maître de Conférences, Université de Rennes 1(Examinateur)
M. Gérard Madec, Enseignant Chercheur, Télécom Bretagne (Examinateur)
M. Patrick Gioia, Ingénieur Recherche, Orange (Examinateur)
Acknowledgement
This thesis arose out of three years of research work that has been done in co-supervising of Orange Labs and Image and Information Processing Department in Telecom Bretagne.
By that time, I have worked with a great number of people who contribute in various ways to my research and the making of the thesis. It is a pleasure to convey my most profound gratitude to them all.
First of all, I would like to give my great thanks to my supervisor, Patrick Gioia and Gérard Madec, who oered me the great opportunity to work in the 'compression video avancée (CVA)' group in Orange Labs and Image and Information Processing Department of Telecom Bretagne. Without their help, this thesis would not have been possible. Their invaluable support and guidance throughout the period of my research.
I gratefully acknowledge Professor Basel Solaiman, the director of this thesis, for his advice, supervision and constant support.
I am also indebted to the manager of the group Dider Gaubil for his warmly reception, insightful discussions and instructions on my works.
I would also like to thank the members of my committee for accepting the invi-tation and spent their precious time helping me to improve this thesis: Professor A, ProfessorB, Professor C and D. Their advice and patience are really appreciated.
Many thanks to all members in our research group: Youness Andam, Gordon Clare, Christophe Daguet, Félix Henry, Joel Houssais, BiHhong Huange, Joel Jung, Elie Gabreil Mora, Stéphane Pateux, Pierrick Philippe, Jean-Marc Thiesse, Gilles Tenious and Philippe Vonwyl. The group has been a source of friendships as well as good advice and collaboration.
I am grateful for time spent with friends, Yaning Liu, Hao Lin, Wei Chen, Guozhi Wei, BiHong Huang, Han Yan, Qinglin Lu, Eric Villain, Nathalie Salmon, Jérôme Royan, Raphaèle Balter, Nicolas Monfort and all my friends from Orange and Telecom Bretagne. You leave me many beautiful memories.
Where would I be without my family? Many thanks go in particular to Zhe LI for his attention and help for my research works and life. I am indebted to my parents Hongmin Shi and Yaling Zhang, who tried all their best in improving my living and studying conditions, gave me their full condence and encouraged me during the most dicult times.
Finally, I would like to thank everybody who helped me for the successful realiza-tion of thesis.
iii
Abstract
This thesis focuses on the challenging issues that prevent current integral imaging sys-tems from displaying high quality and eyestrain-free 3DTV. We provide the problems formulation and corresponding solutions that ameliorate the viewers' 3D experience in integral imaging systems.
A new computational integral image generation (CIIG) method is proposed at rst to expand the viewing range of the displayed 3D images. Concretely, the method sim-ulates curve recording panel in computational system, which is realized by changing the viewing direction of each elemental image (EI) according to its own coordinate. The results of our experiments demonstrate that the proposed CIIG method enhances the viewing range of the traditional CIIG methods without increasing the source im-age size.
Then three dierent compression approaches are proposed and evaluated. The rst compression method is based on multi-view video coding (MVC). It is applied on sub-images (SI). In this method, we arrange the group of SIs to suit the format of multi-view video (MVV) and then encode the generated MVV using the MVC standard.
The second compression method is inspired by Multi-View Video plus Depth (MVD) representation. It is also applied on sub-images. The principle of this method is to use the 3D information existing in depth maps to predict the SI for other direc-tions and then remove the inter-view correlation between original SIs. Thanks to the 3D geometrical information in depth map, this method outperforms the MVC-based scheme mentioned before. Besides the MVC and MVD based compression approaches, we also considered applying the discrete wavelet transform (DWT) for integral im-age compression. In the proposed approach, the input IIs are ltered several times by determined high pass and low pass lters until the correlation within one EI and between adjacent EIs are completely eliminated. According to the simulation results, DWT works better than MVC-based method in low-debit situation.
Finally, we investigate the reconstruction process and develop two new computa-tional integral imaging reconstruction (CIIR) techniques to improve the performance and reduce the complexity of the basic CIIR. The rst method takes advantage of Parallel-Group Projection (PGP) techniques. Instead of projecting each point of integral image to the reconstructed plane pixel by pixel, the proposed method recon-structs the 3D image by mapping a series of sub-images onto the reconstructed plane successively. Because of the parallelization between the light rays in each SI, this approach reduces the pixel mapping complexity of the reconstruction process.
The second design aims at increasing the resolution of EI so as to improve the quality of the reconstructed 3D image. In this method, the high denition EI is composed of several synthesized SIs which are generated by depth image rendering. This approach provides various signicant progresses for integral imaging system. It improves the reconstructed 3D image quality and oers scalability for EI resolution by simply augmenting the synthesized SIs number. Additionally, it requires only one color image and one depth map rather than transmitting multiple color images to reproduce the 3D scene, which makes the transmission in integral imaging systems more ecient.
Keywords: integral imaging system, computational integral image generation(CIIG), multi-view video coding, multi-view plus depth (MVD), computational integral image reconstruction (CIIR).
v
Contents
Acknowledgements i
Abstract iii
Contents vii
List of Figures xii
List of Tables xiii
Résumé xvii
1 Introduction 1
1.1 Development of 3DTV . . . 1
1.2 Motivations and Objectives . . . 3
1.3 Contributions . . . 5
1.3.1 A new method for computational integral imaging generation . 5 1.3.2 New techniques for Integral Image compression . . . 5
1.4 Two novel method for computational integral imaging reconstruction . 6 1.5 Thesis Organization . . . 7
2 State of art of 3D technology 9 2.1 Introduction . . . 9
2.2 Depth perception cues in Human Viewing System . . . 10
2.3 (Auto)-stereoscopic 3DTV Systems . . . 12
2.3.1 (Auto)-Stereoscopic 3D content creation . . . 12
2.3.2 (Auto)-Stereoscopic content compression . . . 17
2.3.3 (Auto)-Stereoscopic 3D content transmission . . . 20
2.3.4 (Auto)-Stereoscopic 3D content display . . . 21
2.3.5 Constrains of (Auto)-Stereoscopic 3DTV system . . . 22
2.4 Alternative 3D display technologies . . . 23
2.4.1 Integral imaging display . . . 23
2.4.2 Volumetric display . . . 24
2.4.3 Holographic display . . . 25
3 Computational Integral image Generation 29
3.1 Introduction . . . 29
3.2 Previous computational integral image generation technique . . . 33
3.3 Proposed computational integral image generation method . . . 35
3.3.1 Depth range controlling . . . 35
3.3.2 Viewing range enhancement . . . 35
3.4 Experimental results on proposed generation method . . . 37
3.4.1 Evaluation of depth range controlling method . . . 39
3.4.2 Evaluation of viewing range enhancement method . . . 40
3.5 Conclusions . . . 48
4 Integral image Compression 49 4.1 Introduction . . . 49
4.2 Analysis of the correlation of integral image sequence . . . 51
4.3 Previous integral image compression methods . . . 52
4.3.1 MPEG-II-based encoding method . . . 53
4.3.2 3D-DCT-based compression scheme . . . 54
4.3.3 Hybrid compression method using DCT and DWT . . . 55
4.3.4 Karhunen-Loeve transform (KLT)-based compression technique 56 4.4 Proposed integral image compression methods . . . 57
4.4.1 Multi-view Video Coding (MVC)-based compression method . . 57
4.4.2 Multi-view Video plus Depth (MVD)-based compression method 59 4.4.3 Discrete Wavelet Transform (DWT)-based compression method 63 4.5 Evaluation and comparison of proposed methods . . . 66
4.5.1 Evaluation for MVC-based encoding approach . . . 69
4.5.2 Evaluation for MVD-based encoding approach . . . 72
4.5.3 Evaluation for DWT-based encoding approach . . . 75
4.6 Conclusions . . . 79
5 Computational Integral image Reconstruction 81 5.1 Introduction . . . 81
5.2 Two types of CIIR techniques . . . 82
5.2.1 View-based CIIR . . . 83
5.2.2 Plane-based CIIR . . . 86
5.3 Previous plane-based CIIR Method . . . 88
5.3.1 Traditional method . . . 88
5.4 Pixel-to-pixel mapping method . . . 88
5.5 Proposed plane-based CIIR methods . . . 89
5.5.1 Parallel-group Projection (PGP)-based CIIR method . . . 89
5.5.2 DIBR-based-CIIR . . . 91
5.6 Experimental results . . . 92
5.6.1 Evaluation of PGP-based CIIR . . . 92
5.6.2 Evaluation of DIBR-based CIIR . . . 100
CONTENTS vii
6 Conclusion 105
6.1 Summary of Contributions . . . 105
6.1.1 A new method for computational integral imaging generation . 105 6.2 Three new techniques for Integral Image compression . . . 106
6.2.1 Two novel methods for computational integral imaging recon-struction . . . 106
6.3 Perspectives . . . 107
6.3.1 Computational integral image generation . . . 107
6.3.2 Integral image compression . . . 107
6.3.3 Computational Integral image reconstruction . . . 108
Bibliography 116
Publications 117
ix
List of Figures
1.1 The Wheatstone stereoscope, mirrors A' and A are set at an angle in order to reect the left and right eye drawings (E' and E) towards the
viewer's eyes . . . 2
1.2 Anaglyph 3D technique . . . 2
1.3 Linear polarization technique . . . 3
1.4 Eclipse 3D technique . . . 4
1.5 Flow chart of an integral imaging system (NHK image) . . . 5
2.1 Depth cues in dierent depth distance (E.Cutting and M.Vishton 1995) 11 2.2 Structure of Complete 3DTV Processing Chain . . . 12
2.3 Parallel cameras model . . . 14
2.4 Toed-in camera setup . . . 15
2.5 Example of this video plus depth representation format . . . 15
2.6 Scheme of MVC . . . 18
2.7 Original depth image and its decomposition results of piecewise-linear functions . . . 18
2.8 Frame compatible transmission format . . . 19
2.9 The principle of auto-stereoscopic display . . . 20
2.10 The principle of a multi-view auto-stereoscopic display . . . 22
2.11 Optical setup for generating (left) and displaying (right) 3D scene in integral imaging system . . . 24
2.12 Hologram recording . . . 26
2.13 Hologram reconstruction . . . 26
3.1 Optical setup of integral imaging system . . . 30
3.2 Real mode . . . 30
3.3 Virtual mode . . . 31
3.4 Focus mode . . . 31
3.5 Viewing range in integral imaging system . . . 32
3.6 Degradation of recording resolution for two separated objects . . . 33
3.7 Concept of PRR method . . . 34
3.8 Concept of MVR method . . . 34
3.9 Concept of PGR method . . . 35
3.10 Pickup and display process of traditional CIIG method . . . 36
3.12 An example of curve lens array and concept of the recording and display
process . . . 37
3.13 Flow chart of proposed CIIG method . . . 37
3.14 CIIG system . . . 38
3.15 Integral image generated by traditional CIIG method and its recon-structed 3D image . . . 38
3.16 Integral image generated by depth controlling CIIG method and its reconstructed 3D image . . . 39
3.17 Reconstructed results of further object by traditional CIIG method and depth controlling CIIG method . . . 39
3.18 Integral image generated by traditional CIIG method with large reso-lution and its reconstructed 3D image for dierent viewing position for 3D object `cube' . . . 40
3.19 Integral image generated by traditional CIIG method with half record-ing density in each EI and its reconstructed 3D image for 3D object `cube' . . . 41
3.20 Integral image generated by traditional CIIG method with half record-ing range in each EI and its reconstructed 3D image in large viewrecord-ing range (b, c, d) and halved viewing range (e, f, g) for 3D object `cube' . 42 3.21 Integral image generated by viewing angle enhanced CIIG method and its reconstructed 3D image for 3D object `cube' . . . 43
3.22 Integral image generated by traditional CIIG method with large reso-lution and its reconstructed 3D image in dierent viewing position for 3D object `spaceship' . . . 44
3.23 Integral image generated by traditional CIIG method with half record-ing density in each EI and its reconstructed 3D image for 3D object `spaceship' . . . 45
3.24 Integral image generated by traditional CIIG method with half record-ing range in each EI and its reconstructed 3D image in large viewrecord-ing range (b, c, d) and halved viewing range (e, f, g) for 3D object `spaceship' 46 3.25 Integral image generated by viewing angle enhanced CIIG method and its reconstructed 3D image for 3D object `spaceship' . . . 47
4.1 Integral image of `cube' . . . 51
4.2 Integral image of `spaceship' . . . 52
4.3 Spatial domain correlation in an integral image . . . 52
4.4 Temporary domain correlation in an integral image sequence . . . 53
4.5 Process of MPEG based integral image encoding method . . . 53
4.6 Three dierent mode for scanning elemental images in an II . . . 54
4.7 Scheme of 3D-DCT-based compression method . . . 54
4.8 Scheme of hybrid compression method using DCT and DWT . . . 55
4.9 Scheme of Packet partition process . . . 55
4.10 Sub-image generation scheme . . . 56
4.11 Block diagram of KLT-based encoding method . . . 57
4.12 Viewing angle and object size are invariable for corresponding sub-images 58 4.13 Flow chart of the proposed integral images compression system . . . . 58
LIST OF FIGURES xi
4.14 Converting SIs into MVV . . . 59
4.15 Spiral scanning topology for SIs . . . 59
4.16 Scheme of MVC . . . 60
4.17 Concept of sub-image . . . 60
4.18 Flow chart of proposed compression method . . . 61
4.19 Mapping a 3D point to 2D clip plane by orthographic (left) and oblique (right) projection . . . 62
4.20 Flow chart of the compression scheme . . . 64
4.21 2D-DWT decomposition . . . 65
4.22 DWT process for one II . . . 66
4.23 Hybrid MPEG-4 based method . . . 66
4.24 `spaceship' original integral image . . . 67
4.25 `spaceship' generated Sub-images . . . 68
4.26 Performance of MVC compression scheme for SIs, AVC scheme for SIs and baseline AVC scheme for integral images sequence . . . 69
4.27 `cube' original integral image . . . 70
4.28 `spaceship' generated Sub-images . . . 71
4.29 Performance of MVC compression scheme for SIs, AVC scheme for SIs and baseline AVC scheme for integral images sequence . . . 72
4.30 Original SIs and depth map . . . 73
4.31 Synthesized SIs (up) and Errors (down) between original SIs and syn-thesized SIs . . . 74
4.32 Performance of proposed compression method (labeled `SIs_MVD'), MVC-based method (labeled `SIs_MVC') and baseline H.264/AVC method (labeled `II_AVC') . . . 75
4.33 `spaceship' DWT coecients . . . 76
4.34 Performance of proposed compression method (labeled `SIs_MVD'), MVC-based method (labeled `SIs_MVC') and baseline H.264/AVC method (labeled `II_AVC') . . . 77
4.35 `cube' DWT coecients . . . 78
4.36 Performance of proposed compression method (labeled `SIs_MVD'), MVC-based method (labeled `SIs_MVC') and baseline H.264/AVC method (labeled `II_AVC') . . . 79
5.1 Optical setup for displaying 3D scene in integral imaging system . . . 82
5.2 Principle of view-based CIIR . . . 83
5.3 view-based reconstructed images for 3D object `spaceship' . . . 84
5.4 view-based reconstructed images for 3D object `cube' . . . 85
5.5 Principle of plane-based CIIR . . . 86
5.6 Example of reconstructed image by plane-based CIIR technique . . . . 87
5.7 Reconstruction principle of traditional CIIR method . . . 88
5.8 Reconstruction principle of pixel-to-pixel mapping CIIR method . . . . 89
5.9 Concept of proposed CIIR method . . . 90
5.10 Block diagram of proposed CIIR method . . . 90
5.11 Computational reconstruction . . . 91
5.13 Generated SIs for 3D scene `spaceship' . . . 92 5.14 II composed by the generated SIs for 3D scene `spaceship' . . . 93 5.15 Comparison of reproduced ROI of three dierent methods for 3D scene
`spaceship' . . . 94 5.16 Generated SIs for 3D scene `cube' . . . 95 5.17 II composed by the generated SIs for 3D scene `cube' . . . 96 5.18 Comparison of reproduced ROI of three dierent methods for 3D scene
`cube' . . . 97 5.19 Computation cost of pixel-to-pixel and parallel-group projection CIIR
for the 3D scene `spaceship' . . . 99 5.20 Computation cost of pixel-to-pixel and parallel-group projection CIIR
for the 3D scene `cube' . . . 99 5.21 Reference SI from viewing angle equals to 0◦ and its corresponding
depth map . . . 100 5.22 Synthesized virtual SIs . . . 100 5.23 Synthesized virtual SIs . . . 101 5.24 Integral image composed by three sub-images shown in gure 5.22 . . 102 5.25 Reconstructed images from −15◦, 0◦ and 15◦ . . . 102
xiii
List of Tables
2.1 Comparison of 3D display types . . . 27 3.1 PSNR comparison of traditional and depth controlling CIIG method . 40 3.2 PSNR comparison of traditional and proposed CIIG method for `cube' 43 3.3 PSNR comparison of traditional and proposed CIIG method for
`space-ship' . . . 47 4.1 Comparison of proposed integral image compression methods . . . 80 5.1 Comparison of the computation time of three CIIR methods for
`space-ship' . . . 98 5.2 Comparison of the computation time of three CIIR methods for `cube' 98 5.3 PSNR comparison of 3D image reconstructed by three sub images and
LIST OF TABLES xv
xvii
Résumé
Motivations de la Thèse
Cette thèse vise à lever les verrous existant dans l'application de l'imagerie intégrale aux systèmes de 3DTV. L'objectif de cette thèse est de trouver des solutions pour améliorer l'expérience 3D des téléspectateurs dans le système d'imagerie intégrale.
L'apparition de la 3D stéréoscopique remonte à 1838 lorsque Charles Wheatstone découvrit le principe de la vision binoculaire. Il a indiqué que l'homme est capable d'appréhender la profondeur du monde qui nous entoure grâce à diérents indices ; la vision binoculaire étant un des indices importants de perception de la profondeur qui permet au cerveau d'interpréter l'information 3D. La rétine de chaque ÷il forme une image en deux dimensions de notre environnement. L'image d'un objet n'est pas projetée au même endroit sur chaque ÷il, cette diérence de parallaxe horizontale est analysée par notre cerveau qui produit une représentation de son environnement en 3D.
La seconde phase de la technologie 3D a commencé avec l'apparition de la tech-nique des lunettes anaglyphes. L'image anaglyphe superpose sur un écran deux images : une teintée en rouge pour l'image gauche et en vert pour l'image droite. un léger décalage horizontal appelé disparité est appliqué entre les deux images. Ensuite, des lunettes spéciales dites anaglyphes disposant de ltres colorés adaptés vont fournir les images indépendantes gauche et droite à chaque ÷il. Le cerveau fusionne les deux informations et perçoit grâce à la disparité une scène en trois dimensions.
Le soi-disant "engouement pour les lms 3-D" dans les années 1952 à 1955 com-mence avec l'utilisation de lunettes polarisantes. Semblable à la technique anaglyphe, deux images sont superposées sur un même écran ; Elles sont projetées via des ltres polarisants diérents. Une paire de lunettes 3D avec des ltres polarisants corre-spondants est utilisée pour séparer les images gauche et droite. Chaque ltre ne laisse passer que les rayons lumineux de même polarité et bloque la lumière polarisée diéremment pour distribuer une image diérente sur chaque ÷il. Comme elle est capable de reproduire un lm de haute qualité stéréoscopique avec un assez faible coût, cette technique de polarisation ouvra une nouvelle ère à la technologie 3D.
A partir de 1985, avec la sortie de la technique IMAX 3D, le lm en 3D a connu un énorme succès. IMAX, une norme de format de lm pour très grand écran, a créé une technologie 3D mathématiquement exacte, de sorte qu'elle avait la capacité d'éliminer la fatigue de l'÷il, un eet secondaire qui a été constaté par le public lors de la visualisation des lms utilisant d'autres technologies. En fait, cette exactitude mathématique de la visualisation 3D a diminué de manière signicative les géométries
approximatives et imprécises précédentes. En outre, le projecteur 3D IMAX ore une luminosité et un contraste inégalés par rapport aux autres technologies 3D disponibles aujourd'hui. Deux méthodes sont exploitées en IMAX pour créer l'illusion 3D pour le téléspectateur. La première est la technique de polarisation introduite précédemment. L'autre est le procédé Eclipse, qui utilise des lunettes actives qui obturent l'÷il gauche lorsque l'image droite est achée et vice versa.
2009 et 2010 constituent le point culminant pour les lms 3D. Avec des block-busters tels que "Monstres vs Aliens", "Up" et "Avatar" distribués au grand public, la stéréoscopie s'est attribuée une place sur le long terme. Au même moment, la tech-nologie s'est étendue de l'industrie du cinéma à la production télévisuelle. Plusieurs chaînes de télévision ont annoncé leur intention de diuserdes programmes et des spectacles en 3D, ce qui a amené l'industrie à se poser les problèmes liés à la com-pression et à la transmission des contenus. Certains organismes de normalisation, tels que ISO/MPEG, ITU, DVB, HDM, ont développé des normes de transmission et d'interopérabilité des systèmes 3DTV. Tous les téléviseurs de nouvelle génération sont désormais compatibles 3D et ont atteint un niveau de prix compatible avec les exigences grand public. A terme, même s'il reste encore des réticences au niveau de l'utilisation de lunettes et de la qualité des contenus proposés, on peut penser que le téléviseur 3D deviendra un centre de divertissement omniprésent et irremplaçable à la maison.
Du fait qu'elle est beaucoup plus immersive que la technologie 2D, la 3D a eu un énorme succès sur le marché du cinéma grand public au cours des dernières années. Dans le même temps, la télévision 3D a également attiré une attention non négligeable. Cependant, en dépit de sa brillante perspective, la 3DTV a encore de nombreuses dicultés à franchir avant d'atteindre à la fois une qualité visuelle de premier plan et une expérience de visualisation confortable. Les limites de la 3DTV stéréoscopique actuelle sont les suivantes:
• Impossibilité de fournir des images de haute qualité 3D sans lunettes spéciales. • Conit entre le point de convergence et le point d'accommodation de l'÷il qui conduit à une gêne visuelle lors d'une observation prolongée. Comme nous l'avons mentionné précédemment, la création de sensation de profondeur est juste une simulation de la procédure de perception 3D humaine, elle n'est pas en mesure d'orir un eet rigoureusement identique à ce qu'on perçoit dans la vie courante. La diérence essentielle entre la perception de la profondeur par stéréoscopie et la perception de la profondeur dans le monde réel pourrait provenir de l'incohérence entre l'accommodation et la convergence. En eet, dans la vie réelle, les yeux convergent et focalisent dans le même plan, alors qu'en stéréoscopie, les yeux focalisent toujours dans le plan de l'écran, où l'image est générée alors qu'ils convergent dans le plan où semble apparaître l'objet, ce qui peut rendre spectateur mal à l'aise lorsque les valeurs de profondeur sont importantes.
• Lorsque le spectateur se déplace, la scène le suit ; il est impossible de tourner autour des objets comme dans la vie réelle.
xix • Pas de parallaxe bidirectionnelle qui permettrait à l'observateur de voir
dif-férentes images correspondant à diérentes positions verticale et horizontale. Une technologie 3DTV qui résout les problèmes ci-dessus permettrait aux ob-servateurs de voir une image en 3D comme s'il s'agissait d'un objet réel. À cette n, de nombreuses autres technologies d'achage 3D basées sur la volumétrie, l'imagerie holographique intégrale ont été proposées et conçues ces dernières décennies. Parmi ces nouvelles technologies, l'imagerie intégrale est la plus at-trayante en raison du bon compromis atteint entre la complexité et l'eet 3D. L'imagerie intégrale a été introduite par Gabriel Lippmann en 1908. Dans cette technologie, un réseau de microlentilles est utilisé pour acquérir une scène 3D, une même scène est enregistrée sous diérents angles légèrement diérents en horizontal et en vertical. Lorsque les images qui en résultent sont rectiées et vues à travers un réseau similaire de lentilles, une image unique, composé de petites portions de l'ensemble des images, est vu par chaque ÷il. La partie observée de chaque microlentille est déterminée par la position de l'÷il.
Système d'imagerie Intégrale
Diérent des systèmes de vision binoculaire traditionnels qui simulent la percep-tion 3D humaine en transmettant des images diérentes dans les yeux gauche et droit, le système d'imagerie intégrale permet la génération de vraies im-ages 3D en reproduisant les rayons lumineux de la scène 3D avec diérentes couleurs et direction. Pour cette raison, il est théoriquement capable d'éliminer l'incohérence entre la convergence et l'accommodation dans le système de vi-sion humain, de fournir une véritable expérience 3D pour les téléspectateurs sans sentiments désagréables.
Comme présenté auparavant, chaque image élémentaire est enregistrée derrière une lentille élémentaire. La coordonnée de cette lentille détermine la position de visionnement de cette image élémentaire. Chaque image élémentaire représente la scène 3D à partir d'un angle de vue diérent. De même, dans le processus d'achage, chaque sous-image est projetée à travers le réseau de lentille corre-spondant. L'image 3D reconstruite est observée aux points d'intersection des rayons de lumière projetés émanant du réseau de lentilles.
Construire un système d'imagerie optique intégrale est un projet très sophistiqué exigeant des dispositifs optiques de haute précision et un travail de calibrage pré-cis. An de faciliter les activités de recherche, un système intégrale d'imagerie, qui vise à simuler le processus d'enregistrement et de reproduction d'un sys-tème d'imagerie optique intégrale (OII) de façon numérique, a été récemment développé et largement étudié. Comme le système optique, le système OII est également composé de deux processus fondamentaux, appelés la génération et la reconstruction. Le processus de génération est mis en ÷uvre par la technique de rendu par ordinateur pour créer une image intégrale (II) d'une scène 3D fournie, alors que le processus de reconstruction est obtenu en simulant l'eet optique de projection dans un procédé d'achage d'une matrice de lentilles virtuelle par ordinateur.
L'achage d'imagerie intégrale 1D est très similaire à l'achage multi-vues. La principale diérence réside dans la façon de projeter la distribution des fais-ceaux. En raison de projections de faisceaux parallèles, l'exposition de formation d'image intégrale peut fournir une parallaxe continue d'image en 3D avec une qualité constante. Néanmoins, la qualité de l'image perçue de l'achage multi-vues va changer avec diérents points d'observation en raison de la convergence du faisceau projeté.
Grâce à un grand nombre de microlentilles, l'imagerie intégrale est en mesure de fournir une vision 3D complète aux spectateurs sans dispositifs de visualisation de type lunettes, de façon à alléger les problèmes d'inconfort d'un système 3DTV traditionnel. Toutefois, certains inconvénients importants persistent. L'angle de vision est limité, la profondeur de l'image et le grand volume de données em-pêchent encore l'application pratique de système d'imagerie intégrale. L'objectif de cette thèse est d'améliorer les performances du système d'imagerie intégrale. Notre travail couvre les aspects majeurs de la technologie d'imagerie intégrale (1), la génération d'images intégrale, (2) la compression de l'image intégrale et (3) la reconstruction de l'image intégrale.
Cette thèse porte sur les questions diciles qui empêchent le système d'imagerie intégrale d'acher la 3DTV de haute qualité. Nous fournirons la formulation des problèmes et les solutions correspondantes qui améliorent l'expérience 3D du spectateur dans un système d'imagerie intégrale par trois aspects respectifs. La première partie se concentre sur la génération d'image intégrale. Les prob-lèmes de la plage de profondeur limitée et de l'étendue de l'achage sont pris en compte et résolus dans cette partie.
Avec le développement des capacités du matériel informatique et des techniques graphiques sur ordinateur, la qualité de l'image générée par la technique CIIG (génération d'image intégrale) a été améliorée de manière signicative. Cepen-dant, certains problèmes inhérents tels que l'angle de vision limité, la profondeur de l'image et la résolution d'achage faible sont encore en suspens.
Dans un système de base de l'imagerie intégrale, il existe toujours un compromis entre le champ visuel, l'image 3D en continue et la résolution d'image 3D. Ce compromis peut être expliqué de deux façons : D'une part, le nombre total de pixels sur la plaque de capture est le produit du nombre de lentilles élémentaires avec le nombre de pixels dans chaque image élémentaire, d'autre part, en cours d'achage, le nombre de reproduction des vues 3D est le produit de la densité de l'angle de visualisation et de la portée de visualisation.
Un autre inconvénient du système d'imagerie intégrale réside dans la limitation de la gamme de profondeur enregistrée. Bien que le mode de mise au point soit capable de garder la même dénition enregistrée sur l'ensemble de la scène 3D avec la direction de profondeur, la résolution d'un objet spécique se dé-grade si elle sa localisation est éloignée du réseau de lentilles. La résolution de l'enregistrement de l'objet lointain est inférieure à celle d'un objet proche en raison d'un nombre réduit de rayons d'échantillonnage recoupés dans sa surface. En conséquence, sur le côté de l'écran, l'impression de haute qualité est
con-xxi trainte à la proximité de l'objet avec la matrice de lentilles. L'eet de distorsion
avec un objet observé peut être observé dans certains angles de vue.
En conclusion, il existe un compromis entre ces trois critères importants de l'eet 3D: le champ visuel, l'angle de vision limité et la dénition de l'image 3D achée. L'amélioration de quelqu'un d'entre eux mènera à la dégradation des deux autres facteurs. La recherche d'une méthode appropriée pour briser cette restriction est un objectif essentiel pour de nombreuses équipes de recherche. Nous avons proposé et démontré une nouvelle méthode de CIIG pour contrôler l'intervalle de profondeur et élargir le champ visuel du système CII(imagerie in-tégrale) traditionnel. Deux principales contributions ont été fournies dans notre système de génération. Premièrement, le déplacement des caméras virtuelles pour rendre chaque concentration de sous-image dans la même zone peut enreg-istrer un objet 3D lointain avec une résolution plus élevée. Deuxièmement, le changement de direction de chaque EI(image élément) améliore le champ visuel pour le spectateur. Les résultats de nos expériences montrent que la méthode de CIIG proposée permet de contrôler la portée de la profondeur des méthodes de CIIG traditionnelles, d'améliorer ainsi la qualité de l'image reconstruite de l'objet 3D lointain. En outre, il permet aussi d'améliorer la gamme visible de l'achage d'une scène 3D sans eet de réduction des autres critères de l'eet 3D tel que la densité de l'angle de visualisation et de la résolution d'image reconstruite.
La seconde partie aborde les questions de compression de l'image intégrale. Comme nous le savons, la transmission d'importants volumes de données est un des plus gros problèmes pour l'application pratique du système d'imagerie intégrale. L'objectif de cette thèse est d'étudier la propriété de l'image intégrale, comprendre les limites des méthodes de compression et de proposer des nouvelles approches de codage an d'améliorer l'ecacité de la compression.
Comme expliqué précédemment, l'image intégrale est un cas particulière d'image 2D qui enregistre une scène 3D en un nombre d'images élémentaires des points de vue diérents. Par conséquent, l'ensemble des EI peut décrire non seule-ment la couleur et l'intensité, mais aussi l'information de direction des rayons lumineux rééchis par l'objet 3D. Dépendamment de l'information 3D com-plète, le système d'imagerie intégrale peut fournir une parallaxe complète et d'une parallaxe d'observation quasi-continue pour les téléspectateurs sans con-trainte de visualisation indésirable dépendants des techniques stéréoscopiques 3D traditionnels.
En fonction de l'analyse, la dénition de l'image 3D produite est égale au nombre des EI, tandis que la densité de l'angle de vision de l'image observée est en accord avec le nombre de pixels dans une EI. Pour cette raison, an de fournir une image 3D de haute qualité pour le spectateur, nous devons fournir une image intégrale de très haute résolution dans le côté de l'écran. La question qui est posée est comment compresser le volume important de II (image intégrale), qui est un problème important lors de la mise en ÷uvre pratique d'un système d'imagerie intégrale.
An de mieux comprendre les diverses techniques de codage pour l'image in-tégré, on réalise une analyse générale de la distribution de corrélation dans un II. La corrélation d'une seule image intégrale peut être détectée non seulement entre les pixels voisins, mais aussi entre les EIs adjacentes. Ces deux types de corrélation sont composés des quatre dimensions spatiales redondantes au sein d'un II, plus la corrélation temporelle entre IIs successives, sachant qu'une séquence II contient cinq corrélations dimensionnelles au total.
B Diverses méthodes de compressions traditionnelles ont été testées récemment. Le principe et les limites de quatre méthodes de codage diérentes sont exam-inés. Sur la base de notre étude, ces méthodes de compression sont parvenues à améliorer l'ecacité de l'encodage dans une certaine mesure, mais ils conti-ennent aussi certaines limites. An d'exploiter la redondance dans la séquence d'image intégrale de manière plus approfondie, trois nouvelles méthodes de com-pression sont proposées. Leurs structures, les avantages et les problèmes seront exposés en détail.
La première méthode est basée sur la technique du codage vidéo multi-vue (MVC). Cette méthode est appliquée sur les sous-images (SI), qui est une autre forme d'image 2D transformée à partir d'images élémentaires d'origine. Chaque SI représente la scène 3D à partir de directions d'observations parallèles et con-tient une capacité de compression supérieure par rapport à l'image élémentaire (EI) capturé à l'origine. Pour cette raison, nous considérons l'organisation du groupe de SIs comme le format de vidéo multi-vues (MVV) puis le codage du MVV généré selon la norme MVC. Cette approche améliore l'ecacité de la compression compararé à la méthode traditionnelle MPEG-4/AVC.
La deuxième méthode de compression est inspirée par la représentation Multi-View-plus-Depth (MVD). Elle est également appliquée aux sous-images. Le principe de cette méthode est d'utiliser les informations 3D dans la carte de profondeur pour prédire de la SI puis retirez la corrélation inter-vue entre les diérentes sous-images. Grâce l'information 3D de la carte de profondeur, cette méthode est meilleure que MVC mentionnée précédemment.
Outre les approches de compression basées sur MVC et MVD, nous avons égale-ment considéré l'application de la transformée en ondelettes discrète (DWT) pour la compression de l'image intégrale. Contrairement à la DCT, la DWT est capable de transformer l'information 2D originale du domaine pixel dans le domaine pixel-fréquence tout en conservant les informations du domaine spatial des données de l'image. Dans l'approche proposée, les entrées IIs sont ltrées de multiple fois par un ltre passe-haut et un ltre passe-bas, jusqu'à ce que la corrélation au sein d'une EI et entre EI adjacentes soit totalement éliminée. Selon la simulation, les résultats montrent que DWT fonctionne mieux que la méthode MVC en situation de faible débit.
Enn, nous étudierons le processus de reconstruction et le développement de deux nouvelles techniques de reconstruction d'imagerie intégrés qui améliorent les performances et réduisent la complexité de CIIR(reconstruction d'image in-tégrale).
xxiii Comme indiqué précédemment, dans le processus de reconstruction d'image
intégré, la plaque d'achage est placée là où était la plaque de capture, et est irradiée par une source de lumière incohérente. Les faisceaux lumineux passant à travers la plaque d'achage et le réseau de lentilles retrace la route d'origine, puis convergent à l'endroit où l'objet était, ce qui forme une image 3D.
Dans un système optique, l'eet 3D achée est aecté non seulement par la qualité de l'image intégrale, mais également par la diraction et la limitation des dispositifs optiques. An d'éviter le facteur instable d'ouverture optique, le système CIIR à été développé et largement étudié récemment. L'objectif de CIIR est de simuler l'eet de projection de rayons optiques d'un EI dans OIIR (reconstruction d'image intégrale Optical) à l'aide d'un ordinateur simulant des lentilles virtuelles ou des trous microscopiques.
Grâce à l'amélioration de la capacité de calcul des ordinateurs, la performance du système CIIR a progressé de façon spectaculaire, mais il existe encore quelques limitations qui font obstacle à son utilisation pratique, comme une faible qualité de l'image en sortie reconstruite (ROI) et la complexité élevée du calcul. Dans cette thèse, deux nouvelles approches seront proposées et testées pour améliorer la performance de CIIR.
La première méthode s'appuie sur la technique de projection en groupes par-allèles (PGP). Plutôt que de projeter chaque point de l'image intégrale par rapport au plan reconstruit pixel par pixel, la méthode proposée reconstruit l'image 3D en cartographiant une série de sous-images sur le plan reconstruit successivement. En raison de la parallélisassions des rayons lumineux dans chaque SI, cette approche permet de simplier la complexité du processus de reconstruction.
La seconde conception vise à augmenter la résolution de l'image élémentaire (EI) an d'améliorer la qualité de l'image 3D reconstruite. Dans cette méthode, la dénition de l'EI est constituée par le nombre de SIs synthétisés, qui sont générés en image de profondeur. En outre, cette méthode ne nécessite qu'une seule image couleur et une carte de profondeur plutôt que la transmission de multiples images de couleur pour reproduire la scène 3D, qui pourrait rendre la transmission dans le système d'imagerie intégrale plus ecace.
Organisation de la thèse
Cette thèse est composée de six chapitres, et elle est divisée en trois parties. La première partie, contenant les chapitres 1 et 2, vise à donner un aperçu général et les informations de base qui sont requises pour la compréhension de cette thèse. Chapitre 1 fournit une description générale du contexte sur la base duquel la recherche est eectuée. Premièrement, nous identions plusieurs grandes étapes de l'évolution de la technologie 3D. Deuxièmement, nous présen-tons les problèmes actuels de la télévision en 3D, et en particulier nous illustrons les dés et les solutions apportées par l'utilisation de la technologie "imagerie intégrale". Les contributions majeures de cette thèse sont également décrites
dans cette partie. Dans le chapitre 2 intitulé "Etat de l'art de la technologie 3D", nous détaillons les connaissances de base qui permettent de comprendre les étapes de développement de la partie technique et les problèmes associés à la technologie 3D actuelle. Nous examinons d'abord les études dans le système visuel humain, tout en décrivant les facteurs physiologiques et psychologiques pertinents à la sensation et à la visualisation en 3D, dans l'objectif de fournir les informations nécessaires pour comprendre les facteurs humains jouant un rôle dans la visualisation du contenu 3D. Ensuite, nous présentons le schéma d'une chaîne typique de diusion Télé en 3D, y compris le processus d'acquisition du contenu 3D, la compression, la transmission et l'achage. Chaque étape sera traitée et présentée à part. Par la suite, les avantages et les limites de plusieurs techniques alternatives de visualisation 3D (comme l'imagerie inté-grale, volumétrique et holographique) sont analysées séparément. Nous termi-nons cette partie avec une étude approfondie du système de l'imagerie intégrale, où nous présentons une analyse de son principe du fonctionnement, et nous for-mulons les problèmes. Nous présentons également les motivations derrière nos travaux pour l'amélioration du système d'imagerie intégrale. Dans la deux-ième partie de cette thèse (c.à.d. dans les chapitres 3, 4 et 5), le principe de fonctionnement et les problèmes dans diérentes procédures de la technologie "image intégrale", comme la génération, la compression et la reconstruction sont présentées et étudiées respectivement. Après l'identication des problèmes et des limites dans chaque procédure du système d'imagerie intégrale, plusieurs méthodes sont proposées et évaluées comme solutions à ces problèmes.
Le chapitre 3 intitulé "Acquisition des images intégrales", traite le principe et propose des solutions pour la génération de l'image dans la technologie "imagerie intégrale". Tout d'abord, un résumé de la méthode de génération d'image in-tégrale est donné, les avantages et les inconvénients de la technique CIIG sont présentés en détail. Ensuite, nous illustrons les méthodes proposées pour ré-soudre les inconvénients des méthodes utilisées dans CIIG. Par la suite, une nouvelle approche basée CIIG est proposée pour surmonter les limitations des méthodes précédentes. Enn, nous montrons la capacité de notre proposition à contrôler la profondeur d'enregistrement de la scène 3D, et à élargir la gamme de visualisation 3D pour les téléspectateurs sans augmenter le volume de données source.
Le chapitre 4 est intitulé : "Compression d'une image intégrale". Dans ce chapitre, nous analysons les diérentes techniques de compression d'image util-isées pour réduire la consommation excessive de la bande passante lors de la transmission. Tout d'abord, l'importance et le principe de la compression d'image intégrale sont présentées. Ensuite, les méthodes de codage utilisées dans le système actuel d'imagerie intégrale sont présentées et analysées. Par la suite, trois techniques de compression d'image sont proposées et expliquées. Enn, toutes les approches présentées sont évaluées pour mettre en évidence leurs avantages et leurs inconvénients.
Le chapitre 5 est intitulé : "La reconstruction de l'image intégrale". Ce chapitre traite la conception d'un système de reconstruction d'image intégrale. Tout
xxv d'abord, deux techniques de reconstruction d'image intégrale sont présentées
(une basée sur la vision et l'autre basée sur le plan). Ensuite, deux nouvelles méthodes de reconstruction (basées sur plan) sont proposées. L'une est basée sur la projection en groupes parallèles, et l'autre est réalisée par un algorithme d'analyse d'image en profondeur. Enn, les avantages de la méthode proposée sont mis en évidence par les résultats de nos travaux expérimentaux.
Le chapitre 6, intitulé "Conclusion", résume toute la thèse. Les avantages et inconvénients des solutions proposées sont discutés. Les lignes directrices pour l'extension et les améliorations de nos travaux sont présentées.
Travail Future
Nos travaux de recherche permettent d'améliorer considérablement l'expérience des utilisateurs naux dans le système d'imagerie intégrale utilisé pour le 3D. Les améliorations notables ont été accomplies dans divers aspects tels que la portée visuelle, la gamme de profondeur de l'image et la résolution d'achage. Cependant, il y a des questions qui restent à résoudre dans de nombreuses directions. La proposition d'appliquer la technologie d'imagerie intégrale dans le système 3DTV doit encore progresser.
Dans cette thèse, nous avons proposé une méthode pour contrôler l'intervalle de la profondeur enregistrée de la scène 3D, qui est capable de sélectionner une région intéressante dans le sens de la profondeur et d'enregistrer cette région avec une résolution plus élevée. Cependant, cette approche ne peut pas agrandir la longueur totale de la profondeur. Elle améliore la qualité de certaines plages de profondeur en sacriant la qualité d'autre plages de profondeur. Par con-séquent, dans nos travaux futurs, nous avons l'intention d'explorer une approche d'augmentation de la portée de la profondeur, qui sera en mesure d'étendre la plage d'enregistrement de l'image intégrale sans réduire la qualité d'achage de l'autre intervalle de profondeur.
Un autre sujet de recherche intéressant est l'application de la technique CIIG pour générer hologramme, qui peut être utilisée pour fournir un alternatif pro-cessus d'acquisition de l'hologramme conventionnel.
Toutes les méthodes de compression proposées ont été appliquées sur des scènes en 3D très simple. Des évaluations devront être menées sur des scènes 3D plus complexes pour mettre en valeur le prot de nos contributions. Pour la méthode de compression à base de MVC, un algorithme d'estimation de disparité plus pertinente devra être trouvé an de réduire l'erreur résiduelle de l'image prédite. Pour la méthode de compression basée sur MVD, nous pourrions envisager un nouvel algorithme de DIBR (image rendu basé sur image profondeur) avec une complexité de calcul inférieure de manière à fournir une approche de codage plus ecace. Pour la méthode de compression basée sur la décomposition en ondelette (Discrete Wavelet Transform - DWT), diérentes méthodes de décom-position en ondelettes seront appliquées et testées pour comparer leur ecacité avec la méthode de Haar.
Pour le processus CIIR, outre les contributions présentées pour la reconstruction de l'image et qui sont basées sur le plan, nous prévoyons de proposer une nouvelle méthode pour améliorer l'ecacité de la reconstruction basée sur la vue. En se basant sur nos travaux et les travaux de recherches actuelles, nous esti-mons que l'application de l'imagerie intégrale sera adoptée par les industrielles dans les années voir les mois à venir.
1
Chapter 1
Introduction
In this chapter, we rst motivate our studies by providing a brief retrospection on the evolution of three-dimensional (3D) technology. Then, we present the brief of a particular 3DTV system that leverages the integral imaging technol-ogy. Thereafter, the objectives and contributions of this thesis are highlighted. Finally, we present the summary of the following chapters and the thesis orga-nization.
1.1 Development of 3DTV
As a necessary technique to provide natural viewing experience, 3D technology is considered as the next major revolution in the development of Television. From rough black-and-white prototype to sophisticated volumetric or holographic in-strument, 3D technology has gone through a long and tortuous course of de-velopment. In this chapter we try to summarize the main milestones along its evolution.
The appearance of 3D can be estimated to 1838 when Charles Wheatstone dis-covered the principle of binocular vision [WPM02]. He found that binocular vision is an important depth perception for the viewer to interpret the 3D in-formation. As one looks around, the retina of each eye forms a two-dimensional image of the surrounding. The same objects are projected to two images in dierent horizontal positions, and the brain processes these images into a 3D visual experience. Based on this principle, he invented the world rst 3D viewing device [WPM02]. As shown in Figure 1.1, this instrument produces separated drawing for left and right eyes by using several tilted mirrors; when both images are viewed at the same time, 3D eect is generated.
The rst bloom of 3D technology began with the emergence of the anaglyph technique around 1915 [Lue11]. This technique superimposes a red and a green-tinted image upon each other to represent the 3D object, and the viewers use special anaglyph 3D glasses with corresponding to color lters so as to deliver the left and right images to each eye. In a red-green anaglyph, the eye viewing
Figure 1.1: The Wheatstone stereoscope, mirrors A' and A are set at an angle in order to reect the left and right eye drawings (E' and E) towards the viewer's eyes
through the red lter sees red within the anaglyph as "white, and the green within the anaglyph as "black", as illustrated by Figure 1.2. The eye viewing through the green lter perceives the opposite. The brain merges together the red and green channeled images into a perception of a three dimensional scene. The so-called "3-D movie craze" in the years 1952 through 1955 started with the application of linear polarizing projection and glasses [Kaw02]. Similar to anaglyph technique, two images are superimposed on the same screen and projected by dierent polarizing lters. A pair of 3D glasses with corresponding polarizing lters is used to separate left and right images. Figure 1.3 shows an example of linear polarization 3D display. As illustrated, each lter passes only the light rays similarly polarized and blocks the light dierently polarized to distribute dierent image to each eye. As it is able to produce the high quality 3D lm with rather low cost the polarized technique opens a new era of 3D technology.
1.2. Motivations and Objectives 3
Figure 1.3: Linear polarization technique
From 1985, along with the release of IMAX 3D technique, 3D movies have experienced a huge success. IMAX, a projection standard and lm format, created 3D technology that was mathematically accurate, so that it had the ability to eliminate fatigue of the eye, a side-eect that was experienced by audiences when viewing movies using other 3D technologies. Actually, it em-phasized mathematical correctness of the 3D rendition and thus signicantly diminished the imprecise approximate geometries of previous 3D experiences [Umb06]. Furthermore, IMAX 3D projectors deliver 3D images of unsurpassed brightness and clarity, better than any other 3D technology available at that time. Two methods are exploited in IMAX to create the 3D illusion for the viewers. One is the previous introduced polarization technique. The other is eclipse method, which applies a shutter to block light from each appropriate eye when the converse eye's image is projected on the screen [DN10]. As explained by Figure 1.4, two projectors display each frame alternatively at a high rate, and the glasses block or transmit light to each eye in synchronization with the projector, so that only the corresponding image is send to each eye.
2009 and 2010 reached the pinnacle for 3D in movies. With blockbusters such as Monsters v Aliens, Up, and Avatar being served to audiences, 3D has set itself up for the long haul. Meanwhile, the bloom of 3D technology has ex-tended from lm industry to the television industry. Several TV broadcasters announced that they would be showing programs and shows in 3D, which yields transmission and compression issues. Some standards groups, such as MPEG and ISO, are seeking the norms of manufacturers and system interoperability for 3DTV. 3DTV is now becoming a household device gradually. It can be foreseen that 3DTV will turn to be a ubiquitous and irreplaceable entertainment facility at home. It suces to say that 3DTV will widely replace current 2DTV as long as it is feasible and aordable.
1.2 Motivations and Objectives
Because of its great attraction of more natural perception and enhanced psy-chological impact than traditional 2D technology, 3D cinema has got a huge
Figure 1.4: Eclipse 3D technique
success in the consumer market during the past few years. At the same time, 3DTV has also attracted a considerable attention. However, despite of its bright prospective, 3DTV still contains many diculties to achieve both of the promi-nent visual quality and comfortable viewing experience. A brief summary of its defects are listed as follows:
Impossibility to provide high quality 3D image without special glasses Mismatch between convergence point and the eye's accommodation point
leads to visual discomfort in prolonged viewing
Lack of full parallax which enables the observer to see dierent images corresponding to dierent positions horizontally and vertically
A 3DTV technology solving the above problems would enable observers to see a 3D image as though it were a real object. To this end, many other 3D display technologies such as volumetric, integral imaging and holography have been proposed and designed recently. Among these new technologies, integral imaging is often considered as the most attractive one due to its compromise in feasible complex and produced 3D eect.
Integral imaging was introduced by Gabriel Lippmann in 1908 [PHL09]. It uses an array of micro-lenses to record the 3D scene from many slightly dierent horizontal and vertical locations. When the resulting images are rectied and viewed through a similar array of lenses, a single integrated image, composed of small portions of every image, is seen by each eye. The observed part of each micro-lens is determined by the position of the viewer. As shown in Figure 1.5, the ow chart of a typical integral imaging system is almost the same as for traditional 2DTV system.
1.3. Contributions 5
Figure 1.5: Flow chart of an integral imaging system (NHK image)
Thanks to the large number of micro-lenses, integral imaging is able to pro-vide full and movement parallax to spectators without having to wear goggles, so as to alleviate the visual discomfort problem in traditional 3DTV systems. However, some severe drawbacks such as limited viewing angle, image depth and large volume of sours data still limit the practical application of integral imaging system.
The objective of this thesis is to improve the performance of integral imaging systems. Our work covers the major aspects of integral imaging technology (1) computational integral image generation; (2) integral image compression and (3) computational integral image reconstruction.
1.3 Contributions
This thesis focuses on the challenging issues that prevent current integral imag-ing systems to display high quality 3DTV. We provide the problems formulation and corresponding solutions that improve the viewer's 3D experience in integral imaging systems.
1.3.1 A new method for computational integral imaging gener-ation
The rst part focuses on integral image generation. The problem of limited depth range and viewing range is addressed and solved in this part. The pro-posed method is compro-posed of two parts. Firstly, a special multi-camera setup is applied to control the recorded depth range. Then, the curve lens array used in optical integral imaging (OII) system is simulated in computational approach so as to enlarge the reconstructed 3D image viewing range. The results of our experiments demonstrate that the proposed CIIG method is able to control the re-encoded depth range of the 3D scene, and enhance the viewing range of the traditional CIIG methods without increasing the source image size.
1.3.2 New techniques for Integral Image compression
Second part discusses the compression issues of integral image. Three dierent compression approaches are proposed and evaluated.
The rst one is based on multi-view video coding (MVC) technique. This method is applied to sub-images (SI), which is an alternative form of 2D images transformed from original elemental images. Each SI represents the 3D scene from parallel viewing directions and contains superior compression capabilities than original captured EI. For this reason, we consider arranging the group of SIs as the format of multi-view video (MVV) and then encode the generated MVV by MVC standard. This approach improves the compression eciency comparing to the traditional MPEG-4/AVC method.
The second compression method is inspired by Multi-View Video plus Depth (MVD) representation. It is also applied to sub-images. The principle of this method is to use the 3D information existing in depth maps to predict the SI for other direction and then remove the inter-view correlation between dierent sub-images. Thanks to the 3D geometrical information in depth map, this method outperforms the MVC-based scheme mentioned before.
Besides the MVC and MVD based compression approaches, we also considered applying the discrete wavelet transform (DWT) for integral image compression. As opposed to DCT, DWT is able to transform the original 2D information from pixel domain into pixel-frequency domain, which still preserves the spatial domain character of the source data. In the proposed approach, the input IIs are ltered multiple times by some given high pass and low pass lters until the correlation within one EI and between adjacent EIs are completely eliminated. According to the simulation results, DWT works better than MVC-based method in low-debit situation.
1.4 Two novel method for computational integral
imag-ing reconstruction
Finally, we investigate the reconstruction process and developed two novel plane-based computational integral imaging reconstruction (CIIR) techniques to improve the performance and reduce the complexity of CIIR process. The rst method leverages the Parallel-Group Projection (PGP) technique. In-stead of projecting each point of integral image to the reconstructed plane pixel by pixel, the proposed method reconstructs the 3D image by mapping a series of sub-images onto the reconstructed plane successively. Because of the par-allelization between the light rays in each SI, this approach can simplify the pixel mapping complexity in the reconstruction process. Moreover, it supports convenient conversion between 2D and 3D perspective by switching between full SI and single SI projection.
The second design aims at increasing the resolution of EIs so as to improve the quality of reconstructed 3D image. In this method, the high denition EI is constituted by a large number of synthesized SIs that are generated by depth image rendering algorithms. This approach provides signicant improvements for integral imaging systems. It improves the reconstructed 3D image quality
1.5. Thesis Organization 7 and oers scalability for EI resolutions by simply increasing the number of
synthesized SIs. Additionally, it requires only one color image and one depth map rather than transmitting multiple color images to reproduce the 3D scene, which could make the transmission in integral imaging system more ecient.
1.5 Thesis Organization
This thesis is consists of six chapters divided into three parts.
The rst part, Chapter 1 and Chapter 2, aims to provide an overview and necessary background information of the thesis. Chapter 1, i.e. the current chapter, provides a broad description on the context based on which the re-search is carried out. We rst identify several major evolutionary steps on the 3D technology. Second, we give a brief summary for the problems of current 3DTV systems, especially regarding the challenges and opportunities for inte-gral imaging. Major contributions of this thesis are also described in the last section.
In chapter 2, we detail some background knowledge that help us to understand how the main technical part is developed and what are the problems in current 3D technology. We rst review the studies in human visual system, describ-ing the physiological and psychological factors relevant to depth sensation, thus providing background information for understanding the function human fac-tors play in 3D content viewing. Then, we present the scheme of a typical (auto)-stereoscopic 3DTV broadcast chain, including the process of 3D content acquisition, compression, transmission and display. A short review of each step is given. Thereafter, the advantages and limitations of several alternative 3D vi-sualization techniques such as integral imaging, volumetric and holography are analyzed individually. Finally, we conduct a substantial study of the current integral imaging systems, investigate the principle, develop the models and for-mulate the problems. The challenges for integral imaging systems that precisely motivate our work are highlighted in the end.
In the second part of this thesis, chapter 3, 4 and 5, the working principle, diagram, and problems of dierent procedures, i.e. integral image generation, compression and reconstruction are presented and studied respectively. Follow-ing the analysis of the limitations in each procedure of the integral imagFollow-ing systems, several methods are proposed and evaluated.
Chapter 3, Acquisition of integral image, studies the principle and proposes the solutions for computational integral image generation. A short review of the optical integral image generation method and computational integral image generation method is given, and the advantages of CIIG technique are stressed. Then, we illustrate the previous CIIG methods, explain their structures and address the identied problems. Thereafter, a new CIIG approach is proposed to overcome the limitations of previous methods. Finally, we demonstrate that our proposal is able to control the recording depth range of the 3D scene, and
enlarge the 3D viewing range for the viewers without increasing the volume of source data.
Chapter 4, "Compression of integral image", this chapter conducts substan-tial studies on various integral image compression techniques in order to save valuable transmission bandwidth. First, the importance and principle of inte-gral image compression is illustrated. Then, the encoding methods applied in current integral imaging system are presented and analyzed. Thereafter, three integral image compression techniques are proposed and explained. Finally, all the presented approaches are evaluated to highlight their benets.
Chapter 5, "Reconstruction of integral image", this chapter addresses the design of a computational integral image reconstruction (CIIR) system. First, two ba-sic types of computational integral image reconstruction methods are presented, known as view-based and plane based CIIR. Then, two novel plane-based re-construction methods are proposed. One is based on parallel-group projection, and the other is realized by using depth image rendering algorithm. Finally, the advantages of the proposed method are emphasized by the results of our experiments.
Chapter 6, "Conclusion" summarizes the whole thesis. Pros and cons of the problem formulation, analysis, solutions and the verications are discussed. Possible directions on which this work may be extended are given.
9
Chapter 2
State of art of 3D technology
This chapter presents the state-of-art of 3D technologies, with special emphasis on their applications, characteristics and problems. We start by the mechanism of the human viewing system and its role in human depth perception. Then, we provide an overview of an end-to-end (auto)-stereoscopic 3DTV broadcast chain. A thorough investigation is given about each component of the entire 3DTV model (i.e., generation, distribution, display) together with its challenges and design issues regarding the various techniques. Our analysis reveals that integral imaging system is a prospective technology for future 3DTV since it allows the production of satisfactory 3D eect with relatively low costs.
2.1 Introduction
Creating the illusion of the real world in its absence is the nal target of visual-ization technologies. In the history, artists, engineers and scientists have made a great deal of eort to achieve this goal. Along with the creation of photography technology, invention of color and high denition television, current 2DTV pro-vides a very high resolution near the limitation of human visual system [Pas91]. Therefore, the requirement of real natural visual eect with the third dimension becomes the most anticipated feature for next generation TV. Due to the high customer demand of 3D viewing experience, 3DTV is considered as the comple-ment of HDTV in the near future, and will generate a huge potential market in the eld of digital TV.
A successful 3DTV system should meet the following conditions [MIS04] [Red02]. First, it should be compatible to traditional 2DTV systems, which ensures a smooth transition from current broadcast systems to 3D broadcast systems. Next, it should be able to provide high quality 3D images, at least comparable to traditional 2DTV. Flexibility is also very important to make it possible to switch between 2DTV and 3DTV, and adapt the content to a wide range of 2D and 3D displays. Finally the system should not introduce any additional user-wearing devices, yield eye strain or other uncomfortable eect.
Compared to the big success of 3D cinema, 3DTV has not kept its promises of bringing high quality content without viewing strain 3D video to our living rooms. Some unsolved problems such as eye strain, glass wearing and unnatural 3D eect prevent the development of 3DTV to the massive consumer market [OSO+06].
In order to solve the problems raised by in current 3DTV system, it is impor-tant to rst understand the depth perception principle underlying human visual system. The various depth cues and their meanings are reviewed in Section 2.2. Once the depth interpretation principle explained, section 2.3 gives a thorough investigation of the current 3D broadcast chain. Most of the current 3DTV systems are constructed by use of stereoscopic technology, which provides the 3D eect by delivering two dierent views of the 3D scene to the respective eyes of the viewer. Similar to 2DTV, this 3DTV system is also composed by four basic blocks from content production, coding, transmission to display. Each component of them can be realized by diverse approaches, which are discussed individually in this section.
To overcome the limitations in the current binocular system, various alternative visualizing techniques are also presented and explored, e.g. integral imaging dis-play, volumetric display and holographic display. Their performance and char-acters are illustrated and compared in section ??. According to the comparison, considering both complexity and quality, integral imaging system is selected as an appropriate technology for the future 3DTV.
2.2 Depth perception cues in Human Viewing System
The research related to human perception plays an important role in the 3DTV development. Relevant to perceptual and usability issues, the comprehension of human factors helps optimize the 3DTV technologies from an end-user per-spective.
As illustrated in Figure 2.1, various depth cues help the human visual system to interpret the depth information [WPM02] [Pas91]. Some depth cues require both eyes to see the scene, known as binocular cues, such as convergence and binocular parallax. Others hold also when watching with only one eye; they are denoted as monocular cues, such as accommodation, occlusion, linear and aerial perspective, relative size, relative density, and motion parallax. That is why people with one eye vision could also evaluate depth in real world. Their relative potency at various distances is thoroughly discussed by E.Cutting and M.Vishton in 1995.
The meaning and eect of each depth cue are listed here[RHF10] [MMIW09]: 1. Accommodation and convergence: accommodation represents the tension
of the muscle that impacts the focal length of our eyes, to make the eye focus on object and keep the retinal image sharp. Convergence represents
2.2. Depth perception cues in Human Viewing System 11
Figure 2.1: Depth cues in dierent depth distance (E.Cutting and M.Vishton 1995) the dierence of optical axes of two eyes to watching an object close. Both of them are only eective at short viewing distance.
2. Binocular parallax: the dierence between two images perceived by left and right eyes. The HVS is very sensitive to this depth cue, and it is the most important depth cue for medium viewing distance.
3. Monocular movement parallax: the relative movements of objects caused by observer movement, to make us extract depth information in two suc-cessive images sensed by one eye.
4. Retinal image size: the dierence between the real size of the object and its sensed size. The HVS can extract the depth information of the object by comparing this dierence.
5. Linear perspective: the fact that two straight lines meet each other in depth direction.
6. Texture gradient: the fact that one can see more details of the same texture at shorter range.
7. Overlapping: when one object blocks another in our sight, the nearer ob-jects can occlude the further one in the perceived image.
8. Aerial perspective: the dust and moisture in the air make the further object bluer and decreased in contrast comparing to foreground object.
All of the available cues listed above are used automatically by the human brain when watching a real scene. The objective of 3D display is to reproduce these depth cues for the end user. Diverse 3D display technologies are created