• Aucun résultat trouvé

État de l’art : estimation 2D+Z mono-capteur passive

Historiquement, l’estimation de profondeur a été introduite par Pentland [84] en 1987. Il a proposé une méthode d’analyse du flou d’images acquises à partir d’un système mono-capteur passif. Ses travaux ont donné naissance à un domaine de recherche axé sur l’estimation 2D+Z d’une scène, à partir d’analyses d’une ou de plusieurs images acquises avec un tel système.

Les images obtenues dans le cas d’un système optique simple ne sont pas forcément op-timales pour estimer cette information 2D+Z. C’est pourquoi l’état de l’art se compose de différentes voies de recherches que l’on peut classer selon le type de système mono-capteur utilisé. De plus, nous avons séparé celles-ci en fonction du nombre d’images acquises pour effectuer ces estimations.

Utilisation d’un système optique simple

Les méthodes utilisant un système optique simple (achromatique) cherchent à effectuer une analyse du flou image pour estimer la profondeur de l’objet considéré. L’image couleur EDOF souhaitée étant reconstituée en même temps ou après cette estimation.

Méthodes multi-images

Dans les méthodes d’analyse de flou à partir de plusieurs images, nous avons distingué deux techniques dites Depth From Defocus (DFD) et Shape From Defocus (SFD). Celles-ci se différencient par l’utilisation d’hypothèses de scènes différentes.

Depth from defocus

Dans ses travaux, Pentland [84] propose d’estimer la profondeur en analysant le flou relatif entre deux images acquises avec des diamètres d’ouverture système Φd différents.

Fig 1.6: Évolution du flou image (proportionnel à Φt équation 1.1), pour deux diamètres d’ouverture Φd1<Φd2.

Cette figure illustre la méthode proposée par Pentland, qui consiste a étudier le flou relatif entre ces deux images, qui évolue proportionnellement à P hit1−Φt2, selon la profon-deur D considérée. Ainsi, en considérant la PSF du système utilisé comme une gaussienne 2D, il met en évidence une relation entre D, les paramètres du système considéré et le rapport de la transformée de Fourier des deux images acquises pour Φd1 et Φd2. Ce qui permet d’estimer D à partir de la valeur de ce rapport. Avec cette méthode, la profondeur de champ commune aux deux ouvertures utilisées induit une plage de profondeurs non estimables. De plus, il peut y avoir ambiguïté entre les profondeurs D correspondant à un même niveau de flou relatif. Subbarao [99] a ensuite généralisé cette approche pour permettre d’estimer D à partir d’une variation de n’importe quel paramètre système. D’autres méthodes, présentées par Gökstorp [42], puis par Rajagopalan et Chaudhuri [91], proposent une approche fréquentielle locale, par application de filtres de Gabor ou d’une distribution de Wigner, similaire à celle menée par Pentland [84].

Ces méthodes se basent sur l’étude d’un rapport de fréquences spatiales images qui est très sensible au contenu fréquentiel de celles-ci (cf. [103]).

Pour réduire cette sensibilité, Watanabe et Nayar [103] ont utilisé un critère calculé à partir du rapport entre la différence et la somme de deux images, acquises pour différentes ouvertures Φd. Il est montré que celui-ci respecte, de manière plus robuste, une même loi d’évolution dépendante de D. Cette loi est ensuite modélisée à partir de fonctions de base et d’un modèle système se servant d’un calcul de PSF plus fidèle, afin d’estimer plus rapidement et efficacement D à partir de la valeur de ce critère.

Nous pouvons aussi évoquer les travaux de Bove [12], qui propose d’estimer D par un calcul d’entropie effectué entre des images acquises à partir d’ouvertures différentes. Pour effectuer ce calcul, une hypothèse initiale considère la réponse d’un système optique comme un filtrage linéaire faisant varier la prévisibilité statistique des images acquises, proportionnellement à D. Cette propriété est exploitée par un calcul d’entropie pour

es-timer D.

Plus récemment, Rajan et Chaudhuri [92] ont proposé une méthode permettant d’es-timer la profondeur et l’image EDOF d’une scène, à partir d’un calcul de maximum a posteriori. Pour effectuer celui-ci, ces deux informations ont été modélisées par des champs de Markov aléatoires distincts.

Shape from Defocus

Pour plus d’efficacité, d’autres méthodes considèrent la carte de profondeur et l’image EDOF d’une scène comme une surface texturée. Cette hypothèse permet d’introduire des a priori communs à ces deux informations.

Dans ces conditions, Favaro et Soatto [31] ont proposé d’effectuer un apprentissage à partir d’images floues et nettes de référence afin de constituer, par décomposition en valeurs singulières (SVD), une base d’opérateurs linéaires permettant d’estimer la pro-fondeur en temps réel. Notons aussi les travaux de Favaro et Soatto [28] et de Favaro et

al. [32], qui proposent de considérer le flou image comme un processus de diffusion de la

chaleur. La profondeur à estimer et les images acquises pour deux ouvertures Φd1 <Φd2

étant respectivement considérées comme le coefficient de diffusion et le résultat d’une propagation de chaleur d’un temps t1 à t2.

Méthodes mono-image

L’estimation de la profondeur et de l’image EDOF d’une scène à partir d’une unique image est un problème initialement très mal posé. Contrairement aux méthodes multi-images, celle-ci ne peut pas procéder par une analyse relative d’images acquises avec des paramètres différents. Ainsi, avec une seule image, une variation liée à la texture d’un objet peut être interprétée comme un certain niveau de flou image, correspondant à une profondeur. C’est pourquoi ces méthodes sont souvent imprécises et peu fiables.

Nous pouvons tout de même citer les travaux de Bando et Nishita [10] qui proposent de pallier le manque d’image de référence en constituant une base de plusieurs images successivement obtenues par différentes déconvolutions de l’unique image acquise. C’est ensuite une analyse de ces différentes images qui permet d’estimer la profondeur.

Une autre manière de remédier à ce manque d’image de référence consiste à employer des hypothèses sur les données à estimer. C’est le cas des travaux de Namboodiri et

Chaud-huri [66] qui considèrent la dispersion de l’unique image utilisée comme le résultat d’un

processus de diffusion de la chaleur. Ainsi, estimer la profondeur et l’image EDOF revient à remonter le temps pendant lequel l’image EDOF s’est diffusée pour arriver au résultat de l’image acquise.

Utilisation d’un système optique chromatique longitudinal

L’utilisation d’un système optique dit chromatique longitudinal est une solution inté-ressante pour effectuer l’estimation 2D+Z d’une scène. En effet, avec un tel système, les rayons provenant d’un point objet vont converger vers un point image dont la position dépend de la profondeur D, mais aussi, dans ce cas, de la longueur d’onde λ des rayons considérés. Cette propriété vient de la dépendance en λ de la focale équivalente d’un tel système optique.

Fig 1.7: Schéma optique d’un système chromatique mono-capteur.

En utilisant un tel système optique avec un capteur d’image couleur RGB, Guichard

et al. [48] ont montré que chacune des images R, G et B acquises est nette pour des objets

positionnés à différentes distances.

Fig 1.8: Images RGB acquises à partir d’un système chromatique longitudinal. Cette figure est empruntée à [48].

Comme l’ont tout d’abord décrit Garcia et al. [40], sans présenter de résultats, il est possible de retrouver l’information de profondeur de la scène considérée par une analyse relative du flou des trois images couleur R, G et B acquises.

Plus tard, Guichard et al. [48] ont montré la faisabilité d’une telle méthode en dévelop-pant un système chromatique complet et un algorithme qui estime une carte de profondeur par identification du gradient maximum entre ces trois images. L’image couleur EDOF est ensuite reconstituée par copie des hautes fréquences spatiales de l’image R, G ou B la plus nette (fort gradient) vers les autres canaux couleurs. Cette méthode permet d’obtenir les résultats suivants :

Fig 1.9: Résultats d’estimation 2D+Z obtenus avec la méthode de Guichard et al. [48]. Cette figure est empruntée à [48].

Celle-ci est plutôt adaptée à la reconstruction de l’image couleur EDOF, mais pas de la carte de profondeur. Les zones noires de celle-ci étant des zones non reconstruites.

Les résultats les plus denses et précis en termes d’estimation de profondeur ont été obtenus par P. Trouve [102]. Dans son étude, un algorithme d’analyse du niveau de flou des images R, G et B acquises est présenté. Les estimations de profondeur obtenues ont une précision proche de 5cm dans le meilleur des cas et un biais très faible, pour des objets positionnés entre 1m et 5m. Ce qui est une bonne précision compte tenu de l’acquisition d’une seule image et de l’utilisation d’un système passif.

L’image couleur EDOF est ensuite reconstituée par une méthode de transport de hautes fréquences spatiales images, comme celle proposée par Guichard et al. [48].

Utilisation d’un système optique avec ouverture codée

Une autre méthode pour effectuer une estimation 2D+Z consiste à intégrer dans l’ou-verture d’un système optique simple un masque qui va coder la réponse impulsionnelle de celui-ci. La figure suivante montre les conséquences d’un masque binaire (laissant ou non passer la lumière) sur la réponse impulsionnelle (PSF).

Fig 1.10: Schéma optique d’un système mono-capteur avec un masque qui code l’amplitude des rayons (0 ou 1).

L’intérêt de ce codage est de faciliter l’analyse du flou dans l’image acquise, afin d’estimer plus efficacement la profondeur.

Méthodes multi-images

Avec un codage binaire, on peut ne laisser passer que les rayons provenant d’un objet selon une même direction. Ce qui peut permettre de générer des images selon des angles de vues différents. En faisant l’acquisition de plusieurs images selon différents angles de vue (différents codages binaires), Liang et al. [59] proposent d’effectuer un calcul de disparité entre celles-ci, pour estimer la profondeur. L’image couleur EDOF étant ensuite reconsti-tuée par un traitement adapté de ces images. D’un point de vue géométrique, Schechner et Kiryati [95] ont montré qu’une telle mesure de disparité est équivalente à une mesure de la dispersion ou du flou de l’image qui serait acquise avec le même système d’imagerie, sans codage de l’ouverture.

D’autres travaux présentés par Zhou et al. [108] proposent une méthode d’estimation 2D+Z, basée sur l’analyse relative du flou présent dans deux images acquises pour des ouvertures binaires différentes. Cette méthode exploite les artéfacts qui se créent lors de la déconvolution de ces deux images, en utilisant un critère d’erreur spécifique. De plus, le

développement analytique de ce critère a permis de mettre en place une procédure pour optimiser les deux codages d’ouverture à utiliser.

Méthodes mono-image

L’un des avantages d’un codage d’ouverture est de rendre plus abordable l’estimation 2D+Z à partir d’une unique acquisition. Dans ce cas, une multitude de méthodes ont été proposées.

Présentons tout d’abord celle de Levin et al. [55], qui calcule un critère d’erreur sta-tistique à partir d’un modèle système prenant en compte un codage binaire et d’une hy-pothèse statistique sur l’image EDOF à estimer. De ce critère sont dérivés une méthode pour effectuer une estimation 2D+Z et une méthode permettant d’optimiser le codage d’ouverture à utiliser. Dans ces travaux, un tel codage est vu comme une manière de moduler spécifiquement la réponse fréquentielle d’un système d’imagerie, afin de faciliter l’estimation de la profondeur.

Toujours dans le but de moduler spécifiquement la réponse fréquentielle système

Simo-nov et Rombach [98] ont mis en place un élément optique qui effectue un codage de phase

appelé "Chiral Phase coding". Celui-ci permet à la réponse fréquentielle correspondante d’être composée d’oscillations dont l’orientation dépend de la profondeur objet. Ce type de codage pourrait rendre plus facile l’estimation de la profondeur, mais il n’est applicable que pour des systèmes d’imagerie microscopiques.

Une autre méthode présentée par Bando et al. [9] se base sur l’utilisation d’un codage d’ouverture effectué avec trois des filtres colorés R, G et B. Dans ce cas, chaque image R, G ou B acquise à partir d’un capteur d’image couleur est obtenue selon le codage couleur correspondant. Ce qui peut permettre d’obtenir des images couleur issues d’angles de vue différents et d’estimer la profondeur par une mesure de disparité.

Utilisation d’un système plénoptique

Le principe des systèmes plénoptiques découle des travaux effectués par G.

Lipp-man [60] en 1908. Ceux-ci présentent les effets de la disposition d’un réseau de lentilles

convergentes sur une plaque photosensible, le tout positionné devant un système optique principal.

C’est cette disposition judicieuse de lentilles qui a donné naissance aux systèmes dits plénoptiques. Ceux-ci sont composés d’un système optique et d’un capteur d’image revêtu d’une matrice de micro-lentilles. Le bloc de pixels situés sous une micro-lentille étant appelé macro-pixel.

Fig 1.11: Illustration d’un macro-pixel. Cette figure est empruntée à [34]

Ainsi, avec un système plénoptique, les pixels appartenant à un même macro-pixel intègrent chacun un angle spécifique d’arrivée des rayons provenant d’un même point objet. Cela signifie que l’image reconstituée à partir de l’information acquise par les pixels situés à une même position, dans chaque macro-pixel, correspond à un angle de prise de vue spécifique de la scène. Comme illustré dans la figure suivante :

Fig 1.12: Schéma de principe d’un système plénoptique. Cette figure est empruntée à [71]

Ce type de système peut donc permettre, en une seule acquisition, de générer plusieurs images, selon différents angles de vue.

Ainsi, comme l’ont présenté Adelson et Wang [2], une mesure de disparité entre ces différentes images peut permettre d’estimer la profondeur. Cependant, les images recons-tituées avec un tel système sont de faible résolution, car limitées par le nombre de macro-pixels utilisés. En outre, avec un tel système, des problèmes de recouvrement peuvent se produire dans le cas où les rayons lumineux d’un même point objet se propagent dans le macro-pixel voisin.

C’est pourquoi Bishop et Favaro [100], puis Perwass et Wietzke [86] ont développé un algorithme de sur-échantillonnage utilisant un modèle précis de ce type de système. De cette manière, des images de plus grande résolution sont reconstituées selon plusieurs angles de vue, permettant ainsi d’estimer plus précisément la profondeur de la scène considérée, par une mesure de disparité.