Création d’une base d’image visible/infrarouge

Chapitre 4. Etude de la modalité infrarouge pour la segmentation des lèvres

4.4 Création d’une base d’image visible/infrarouge

Dans les sections précédentes de ce chapitre, nous avons étudié les propriétés en émission

de la peau et les contraintes particulières liées au travail dans la bande infrarouge pour

l’analyse labiale (bandes adaptées à l’étude des lèvres, réponses des capteurs, perturbations

liées à l’atmosphère). La plupart des travaux d’analyse faciale tels que ceux présentés dans

(Yoshitomi, 1997; Socolinsky, 2003) ont choisi de faire l’acquisition des images avec des

systèmes d’acquisition travaillant dans la bande LWIR (8-14μm). Nous avons, quant à nous,

privilégié la bande MWIR (cf. section 4.3.3). L’absence de base de données, proposant à la

fois des images de visage dans la modalité infrarouge et dans la modalité visible, nous a

conduit à créer une base d’images combinée visible/infrarouge.

Lors de la création de cette base, l’objectif visé était d’offrir un ensemble d’images de

visage, dans la modalité visible et la modalité infrarouge (bande MWIR, 3-5μm), destiné à

servir de base de test pour des applications d’analyse faciale. Nous voulions pouvoir

comparer les images visibles et infrarouges et permettre la fusion entre les modalités. Les

contraintes auxquelles nous avons été confrontés pour l’acquisition des images ont été les

suivantes :

 Acquisition simultanée et synchrone des séquences dans les modalités visible et

infrarouge.

 Les vues des 2 caméras devaient être les plus proches possibles pour autoriser la

fusion des images visibles et infrarouges.

Notre base est constituée de séquences d’images de 17 sujets différents (15 hommes et 2

femmes). L’ensemble des sujets inclut aussi bien des individus sans signes distinctifs que

des individus présentant des indices visuels comme des lunettes, une barbe, une moustache,

… . Les sujets ont été filmés dans un environnement fermé avec un éclairage de type

fluorescent sur un fond blanc mat. Les tubes fluorescents présentent l’avantage de ne pas

émettre dans la bande infrarouge. Avec ce type d’éclairage, il n’y a pas de perturbations au

moment de l’acquisition avec une caméra infrarouge. Au contraire, un éclairage par

ampoule à incandescence peut engendrer des perturbations, notamment des réflexions

parasites (ex. réflexions sur les lunettes). Pour chaque sujet, 2 séquences de 400 images ont

été filmées de manière synchrone. Une séquence était filmée avec une caméra visible et une

séquence était filmée avec une caméra infrarouge. On dispose au total de 6800 images dans

chaque modalité. Les images ont été cadrées sur le visage de manière à ce que celui-ci soit

bien centré et que les cheveux soient visibles. Au cours des acquisitions, il a été demandé à

chaque sujet de compter de 1 à 10 en français. La figure 4.6 présente des images tirées de la

base pour les 2 modalités.

Pour faire l’acquisition simultanée des images dans les 2 modalités, nous avons utilisé un

système de paire stéréo avec un signal de synchronisation provenant d’une source externe.

Les 2 caméras étaient montées sur un bras côte à côte de manière à ce que les positions des

capteurs soient identiques. Nous avons employé des objectifs avec une distance focale fixe

de 50mm dans les 2 cas. Les 2 caméras ont été configurées de manière à déclencher la

capture d’une image à partir d’un signal TTL avec une fréquence de 30 Hz. Pour faire

l’acquisition dans la modalité infrarouge nous avons utilisé la caméra infrarouge de R&D

FLIR Systems ThermaCAM TM Phoenix. Cette caméra dispose d’un capteur de type InSb

refroidi opérant dans la bande 3-5μm. La résolution du capteur est de 512x640 pixels. Les

images fournies voient leurs dynamiques codées sur 14 bits. Pour pouvoir afficher les

images de la figure 4.6, la dynamique de chaque image a été centrée sur la distribution du

visage. Une conversion a été effectuée pour obtenir des images dont le niveau de gris est

codé sur 8 bits. Le temps d’intégration de la caméra infrarouge a été fixé de manière à ce

qu’il n’y ait pas de saturation sur la zone du visage.

Figure 4.6 : Exemples d’images tirés de la base conjointe visible/infrarouge

Pour l’acquisition dans la modalité visible, une caméra mono-CCD de vision, avec une

résolution de capteur de 1032x776, a été employée. Cette caméra autorise la

synchronisation de la capture sur un signal externe. Pour obtenir des images en couleurs

avec un signal de synchronisation à 30Hz, la résolution des images capturées a été fixée à

816x590 pixels. Le temps d’intégration du capteur a été ajusté de manière à ce qu’il n’y ait

pas de pixel saturé sur le visage.

La figure 4.7 présente un schéma du système assemblé pour faire l’acquisition de la base

d’image.

Chaque caméra a été reliée à un ordinateur particulier pour l’enregistrement des séquences.

Pour synchroniser les captures sur les 2 caméras, nous avons utilisé un générateur de

fonction programmé pour générer un signal TTL à 30 Hz avec 400 impulsions. Les caméras

étaient programmées pour capturer une image après détection d’un front montant sur le

signal de synchronisation externe. Les acquisitions ont été faites sans calibration préalable

de la paire stéréo. La calibration aurait nécessité la pose ou la projection sur le visage des

30Hz

sujets d’indices visuels visibles dans les 2 bandes (visible et infrarouge) ce qui était difficile

en pratique. Notre objectif étant d’étudier la zone de la bouche une localisation manuelle a

été privilégiée pour extraire la zone de la bouche dans les 2 modalités (cf. section 4.5.1).

Dans le document Segmentation région-contour des contours des lèvres (Page 184-188)