Chapitre 4. Etude de la modalité infrarouge pour la segmentation des lèvres
4.4 Création d’une base d’image visible/infrarouge
Dans les sections précédentes de ce chapitre, nous avons étudié les propriétés en émission
de la peau et les contraintes particulières liées au travail dans la bande infrarouge pour
l’analyse labiale (bandes adaptées à l’étude des lèvres, réponses des capteurs, perturbations
liées à l’atmosphère). La plupart des travaux d’analyse faciale tels que ceux présentés dans
(Yoshitomi, 1997; Socolinsky, 2003) ont choisi de faire l’acquisition des images avec des
systèmes d’acquisition travaillant dans la bande LWIR (8-14μm). Nous avons, quant à nous,
privilégié la bande MWIR (cf. section 4.3.3). L’absence de base de données, proposant à la
fois des images de visage dans la modalité infrarouge et dans la modalité visible, nous a
conduit à créer une base d’images combinée visible/infrarouge.
Lors de la création de cette base, l’objectif visé était d’offrir un ensemble d’images de
visage, dans la modalité visible et la modalité infrarouge (bande MWIR, 3-5μm), destiné à
servir de base de test pour des applications d’analyse faciale. Nous voulions pouvoir
comparer les images visibles et infrarouges et permettre la fusion entre les modalités. Les
contraintes auxquelles nous avons été confrontés pour l’acquisition des images ont été les
suivantes :
Acquisition simultanée et synchrone des séquences dans les modalités visible et
infrarouge.
Les vues des 2 caméras devaient être les plus proches possibles pour autoriser la
fusion des images visibles et infrarouges.
Notre base est constituée de séquences d’images de 17 sujets différents (15 hommes et 2
femmes). L’ensemble des sujets inclut aussi bien des individus sans signes distinctifs que
des individus présentant des indices visuels comme des lunettes, une barbe, une moustache,
… . Les sujets ont été filmés dans un environnement fermé avec un éclairage de type
fluorescent sur un fond blanc mat. Les tubes fluorescents présentent l’avantage de ne pas
émettre dans la bande infrarouge. Avec ce type d’éclairage, il n’y a pas de perturbations au
moment de l’acquisition avec une caméra infrarouge. Au contraire, un éclairage par
ampoule à incandescence peut engendrer des perturbations, notamment des réflexions
parasites (ex. réflexions sur les lunettes). Pour chaque sujet, 2 séquences de 400 images ont
été filmées de manière synchrone. Une séquence était filmée avec une caméra visible et une
séquence était filmée avec une caméra infrarouge. On dispose au total de 6800 images dans
chaque modalité. Les images ont été cadrées sur le visage de manière à ce que celui-ci soit
bien centré et que les cheveux soient visibles. Au cours des acquisitions, il a été demandé à
chaque sujet de compter de 1 à 10 en français. La figure 4.6 présente des images tirées de la
base pour les 2 modalités.
Pour faire l’acquisition simultanée des images dans les 2 modalités, nous avons utilisé un
système de paire stéréo avec un signal de synchronisation provenant d’une source externe.
Les 2 caméras étaient montées sur un bras côte à côte de manière à ce que les positions des
capteurs soient identiques. Nous avons employé des objectifs avec une distance focale fixe
de 50mm dans les 2 cas. Les 2 caméras ont été configurées de manière à déclencher la
capture d’une image à partir d’un signal TTL avec une fréquence de 30 Hz. Pour faire
l’acquisition dans la modalité infrarouge nous avons utilisé la caméra infrarouge de R&D
FLIR Systems ThermaCAM TM Phoenix. Cette caméra dispose d’un capteur de type InSb
refroidi opérant dans la bande 3-5μm. La résolution du capteur est de 512x640 pixels. Les
images fournies voient leurs dynamiques codées sur 14 bits. Pour pouvoir afficher les
images de la figure 4.6, la dynamique de chaque image a été centrée sur la distribution du
visage. Une conversion a été effectuée pour obtenir des images dont le niveau de gris est
codé sur 8 bits. Le temps d’intégration de la caméra infrarouge a été fixé de manière à ce
qu’il n’y ait pas de saturation sur la zone du visage.
Figure 4.6 : Exemples d’images tirés de la base conjointe visible/infrarouge
Pour l’acquisition dans la modalité visible, une caméra mono-CCD de vision, avec une
résolution de capteur de 1032x776, a été employée. Cette caméra autorise la
synchronisation de la capture sur un signal externe. Pour obtenir des images en couleurs
avec un signal de synchronisation à 30Hz, la résolution des images capturées a été fixée à
816x590 pixels. Le temps d’intégration du capteur a été ajusté de manière à ce qu’il n’y ait
pas de pixel saturé sur le visage.
La figure 4.7 présente un schéma du système assemblé pour faire l’acquisition de la base
d’image.
Chaque caméra a été reliée à un ordinateur particulier pour l’enregistrement des séquences.
Pour synchroniser les captures sur les 2 caméras, nous avons utilisé un générateur de
fonction programmé pour générer un signal TTL à 30 Hz avec 400 impulsions. Les caméras
étaient programmées pour capturer une image après détection d’un front montant sur le
signal de synchronisation externe. Les acquisitions ont été faites sans calibration préalable
de la paire stéréo. La calibration aurait nécessité la pose ou la projection sur le visage des
30Hz
sujets d’indices visuels visibles dans les 2 bandes (visible et infrarouge) ce qui était difficile
en pratique. Notre objectif étant d’étudier la zone de la bouche une localisation manuelle a
été privilégiée pour extraire la zone de la bouche dans les 2 modalités (cf. section 4.5.1).
Dans le document
Segmentation région-contour des contours des lèvres
(Page 184-188)