Mise en oeuvre exp´ erimentale

Deuxi` eme partie

6.1 Mise en oeuvre exp´ erimentale

Dans cette partie, nous d´ecrivons l’ensemble du dispositif exp´erimental que nous avons mis en place pour effectuer la capture du mouvement. Dans le cadre du projet

semocap, l’inriaa développé les logiciels d’une chaˆıne complète de capture des acteurs et de leurs mouvements, sur une architecture matérielle développée par asica. Les développements nécessaires sont une part importante du travail réalisé pendant la thèse. En effet, la sociétéArtefactOdoit pouvoir utiliser l’ensemble des développements pour utiliser le système de capture du mouvement. Nous avons donc fait en sorte de fournir des développements utilisables par les protagonistes du projet.

6.1.1 Le mat´eriel

Le système est constitué de plusieurs caméras ieee1394 industrielles (nombre va-riable) connectées chacune à unminipc. Chaque minipcest connecté par réseau Ether-net à un poste principal (poste maˆıtre). Le poste maˆıtre contient une ihm (Interface Homme-Machine) permettant de régler chaque caméra, de visualiser les flux vidéos et de les enregistrer, à la manière d’une _«régie vidéo_».

Sur la figure 6.1, nous remarquons que chaque caméra est reliée à un boˆıtier de synchronisation. Les caméras utilisées offrent une possibilité de synchronisation par une source externe. Le boˆıtier de synchronisation envoie à intervalles réguliers un signal qui déclenche la capture d’une image sur chaque caméra. Le flux vidéo est enregistré sur le

minipc relié à la caméra.

Les caméras sont disposées sur des supports mobiles permettant une grande flexi-bilité pour la configuration de l’espace d’acquisition. Afin de minimiser les pertes de

158 6.1 Mise en oeuvre exp´erimentale

Fig. 6.1: Dans le cadre du projet semocap, nous avons utilisé quatre caméras Fire-Wire accompagnées d’unminipc. Chacune des caméras est synchronisée par un boˆıtier externe et commandée par un pc maˆıtre permettant aussi de visualiser les données acquises.

signal, les pc (ouminipc) sont disposés à moins de cinq mètres des caméras. La flexi-bilité est alors au niveau du câblage entre les différents pc et le poste maˆıtre. Le pc

maˆıtre est donc plac´e en dehors du champ de vue de l’ensemble des cam´eras.

L’éclairage de la scène de capture est un point très important. Afin d’avoir un éclairage constant et diffus, nous avons opté pour des Kinoflo. Ces lampes très utilisées lors des tournages pour la télévision permettent de limiter les ombres dans la scène de capture.

Le coût matériel du système dépend du nombre de caméras. Il faut compter environ 2000✘par caméra etpc(ouminipc) associé, et environ 2000✘également pour la station maˆıtre et le module de synchronisation. Pour le système muni de quatre caméras, le coût matériel du système est de l’ordre de 10 000 ✘.

Lors de l’installation du mat´eriel, nous devons faire attention aux deux points sui-vant :

Le volume d’acquisition : A nombre de caméra donné, il existe un compromis entre le volume d’acquisition et la précision avec laquelle la capture du mouvement est faite. En effet, plus le volume d’acquisition est grand, plus le champ de vue des caméras doit être grand et donc plus petite sera la résolution de l’acteur. L’estimation du mouvement s’en retrouvera donc moins précise. Le placement des caméras joue aussi un rôle important. En effet, les différentes caméras doivent être placées de sorte à couvrir au mieux l’acteur. Lors de notre séance d’acquisition `

R´esultats 159

sorte à maximiser le volume d’acquisition. Cependant, ce placement de caméras a contraint l’acteur à effectuer des mouvements face aux caméras. Dans le cadre de la plate-formegrimage, nous disposons de six à huit caméras ce qui permet de cou-vrir un espace beaucoup plus complet. Sur cette dernière plate-forme, nous avons opté pour des acquisitions avec une résolution élevée et donc un volume restreint. Ainsi, des mouvements plus complexes et plus rapides peuvent être capturés. L’éclairage et l’environnement d’acquisition : pour pouvoir effectuer une

sous-traction de fond optimale, il est nécessaire d’avoir un éclairage constant de la scène et qui minimise les ombres portées de l’acteur (que ce soit sur le sol ou sur les murs). Un éclairage trop important peut aussi nuire à la visibilité des contours ou des couleurs dans les images. De plus, le fond de l’image doit être statique. Dans le cadre de nos acquisitions à Rennes, cette dernière condition n’était pas remplie, non pas à cause de mouvements dans la pièce mais à cause de l’éclairage de la scène par les spots de led du système vicon. Le clignotement des led a rendu la soustraction de fond très bruitée.

6.1.2 Principe de fonctionnement

Depuis le poste maˆıtre, l’utilisateur règle les paramètres des différentes caméras (lu-minosité, saturation,etc.) afin de réaliser la capture dans les meilleurs conditions. Tou-jours à partir du poste maˆıtre, l’utilisateur lance ensuite l’enregistrement des séquences. Le format utilisé pour les vidéos est leblkqui est un format lié à la bibliothèque Blinky (développée en interne à l’inria) qui est utilisée dans les développements de l’inria.

L’acquisition des séquences vidéo se déroule en plusieurs étapes :

Calibrage du système : Cette phase permet de s’assurer que le système est opérationnel (flux synchronisés et enregistrement des séquences vidéo opérationnel) et d’estimer les paramètres des caméras.

Acquisition du fond : Nous procédons à l’acquisition de la scène vide. Cette séquence sera ensuite utilisée pour l’apprentissage du fond et permettra de construire un modèle de celui-ci. Ce modèle sera par la suite utilisé pour la segmentation des images, c’est-à-dire la séparation de l’acteur du reste de la scène.

Acquisition des séquences : Les mouvements sont acquis et mémorisés sous forme de vidéos.

Traitement des séquences et extraction du mouvement : Plusieurs calculs sont nécessaires à l’extraction du mouvement et à la génération d’un fichier exploitable dans une application 3D.

Calibrage du système Outre la vérification du bon fonctionnement de l’ensemble du système, cette étape permet de déterminer la position et l’orientation des caméras dans un repère commun ainsi que les paramètres internes de chacune d’elles (la fo-cale et la distorsion). Afin de déterminer tous ces paramètres, nous utilisons un bâton doté de quatre marqueurs lumineux (pour être facilement vu lors des traitements),

160 6.1 Mise en oeuvre exp´erimentale

dont les positions relatives sont connues précisément. Trois séquences sont enregistrées. Les deux premières, au cours desquelles le bâton est posé au sol, permettent de fixer le référentiel du monde dans lequel l’ensemble des coordonnées des caméras seront données. La troisième séquence est un mouvement du bâton dans le volume d’acquisition. Elle per-met de déterminer l’ensemble des paramètres (extrinsèques et intrinsèques) des caméras. Nous présentons quelques captures d’écran dans l’annexe ??.

Acquisition des séquences de fond Il est nécessaire de connaˆıtre l’environnement de capture pour extraire la silhouette de l’acteur dans les images. C’est pourquoi, avant de pouvoir acquérir les séquences des mouvements, il faut enregistrer une séquence vidéo sans l’acteur. En pratique, pendant cette acquisition, nous faisons varier l’éclairage afin de rendre robuste les algorithmes de soustraction de fond aux variations lumineuses naturelles. Cette acquisition doit être répétée s’il survient un changement dans la scène :

– Mouvement d’un objet de le champ de vue d’une cam´era, – Mouvement d’une cam´era,

– Changement notable des conditions d’´eclairage.

Les séquences de fond permettent de construire un modèle statistique pour chaque pixel. Ce modèle doit être suffisamment robuste pour supporter les variations modérées de lumières et les ombres. De la robustesse du modèle dépendra la qualité des silhouettes qui serviront à la capture de mouvement.

Acquisition des séquences La fréquence d’acquisition des caméras est relativement faible puisqu’elle est de l’ordre de 30 images/seconde. Cette fréquence contraint la vitesse d’exécution des mouvements. En effet des mouvements trop rapides peuvent entraˆıner l’apparition de flou dans les images si le temps d’exposition des caméras est trop long. Pour palier à ce flou, un bon éclairage de la scène est nécessaire (pour réduire le temps d’exposition des caméras).

De plus, les mouvements doivent être adaptés au nombre de caméras. Au cours de la thèse, j’ai pu tester diverses configurations avec un nombre variable de caméras. A Rennes, nous disposions de quatre caméras disposées en demi-cercle (c.f. illustration 6.2-(a)), tandis que sur la plate-forme grimage, nous avions six à huit caméras avec différentes configurations se rapprochant de celle illustrée par la figure 6.2-(b).

Les séquences vidéo sont enregistrées au format raw ou avec une compression sans pertes. Pour le format non compressé, l’espace disque nécessaire est conséquent : pour une vidéo de dix secondes, l’espace de stockage est

10 |{z} sec. × |{z}30 img./s. × |{z}3 R,G,B ×780| {z×580} taille image = 400Mo (6.1)

pour chaque cam´era.

Le systèmevicon Les acquisitions que nous avons effectuées à Rennes ont été menées en parallèle avec un système vicon. Ce dernier nous a permis d’obtenir des données

R´esultats 161

(a)

(b)

Fig.6.2: Selon la configuration de caméra utilisée, les mouvements peuvent être plus ou moins complexes. La configuration (a) oblige l’acteur à effectuer des mouvements face aux caméras et quasi-planaires. La seconde configuration (b) autorise n’importe quel mouvement, mais dans un espace restreint.

162 6.1 Mise en oeuvre exp´erimentale

considérées comme vérité terrain pour évaluer la précision de notre algorithme d’esti-mation du mouvement.

Nous avons utilisé le système avec huit caméras. Chacune des caméras est dotée d’une unité de traitement permettant d’extraire les marqueurs vus dans les images. Toutes les caméras sont reliées à une unité de synchronisation et de traitement des données. Cette unité a donc la charge d’effectuer la reconstruction3D en temps réel des marqueurs. Les caméras sont des systèmes rapides pouvant avoir une fréquence d’acquisition de 120 Hz. Le coût du système est de l’ordre de 300 000 ✘, ce qui inclut le matériel et les logiciels de calibrage et d’exploitation.

Les traitements Ceux-ci sont effectués selon une procédure naturelle. Dans un pre-mier temps, le système est calibré. Puis les modèles de fond pour chacune des séquences vidéo sont construits. Ensuite, le modèle 3D de l’acteur est dimensionné. Vient l’esti-mation du mouvement avec la génération d’un fichier de typebvh(décrit dans l’annexe C). Ce fichier permet d’échanger avec l’uhbles données des mouvements estimés. L’uhb

utilise le fichierbvhpour générer un squelette adimensionné ainsi que le mouvement as-socié, filtré et corrigé, pour pouvoir animer différents modèles graphiques d’acteur. Cette dernière animation est utilisée par ArtefactOpour pré-produire des cinématiques de jeux vidéo ludiques.

6.1.3 Les logiciels

Dans la section précédente, nous avons présenté le matériel que nous avons utilisé pour effectuer la capture du mouvement, que ce soit avec les partenaires du projet à Rennes ou au sein de l’inriaavec la plate-formegrimage. A l’inria, avons implémenté un prototype complet pour le suivi :

– mvcamera qui permet la vérification du fonctionnement du système et la cali-bration des caméras. Deux captures d’écran montrent l’application. 6.3 montre la visualisation des données vidéos acquises. 6.4 est une vue 3D de la position des caméras avec la trajectoire du bâton de calibration au centre.

– mvbackgroundest un outil en ligne de commande permettant d’effectuer l’ap-prentissage du mod`ele de l’image pour la soustraction de fond.

– mvactor permet de dimensionner le modèle 3D pour que celui-ci soit correcte-ment adapté à la morphologie de l’acteur (des captures d’écran sont visibles avec la figure ??du chapitre 5).

– mvposerpermet d’effectuer l’estimation des param`etres de pose. Les figures 6.5, 6.6 et 6.7 sont des captures d’´ecran de l’application.

Dans la suite de ce paragraphe, nous présentons rapidement les outils que nous avons utilisés pour implémenter ces logiciels.

Interface Graphique L’ensemble des interfaces a été développé avecQT¹. Cet en-vironnement nous permet de créer une interface graphique permettant de visualiser

R´esultats 163

Fig. 6.3: La vue principale de l’interface permet de r´egler les param`etres pour la cali-bration et de visualiser les images avec les marqueurs extraits.

164 6.1 Mise en oeuvre exp´erimentale

Fig.6.4: Nous représentons dans la vue3D l’ensemble des caméras ainsi que les trajec-toires des marqueurs au cours de la séquence de calibration.

R´esultats 165

Fig. 6.5: La vue principale de l’interface permet de r´egler les param`etres pour la cali-bration et de visualiser les images avec les marqueurs extraits.

166 6.1 Mise en oeuvre exp´erimentale

Fig. 6.6: La vue OpenGL de l’application permet de visualiser en 3D et donc plus facilement l’évolution du modèle lors de l’estimation du mouvement. A droite nous pouvons apercevoir des curseurs permettant de rectifier la pose de l’acteur si nécessaire

R´esultats 167

Fig. 6.7: Cette vue, différente de la vue principale, permet d’afficher divers résultats comme les images avec les silhouettes, les cartes de chanfrein, le modèle3Dprojeté dans les images etc.

168 6.1 Mise en oeuvre exp´erimentale

l’ensemble des résultats mais aussi d’interagir avec l’ensemble des algorithmes que nous avons implémentés (notamment le réglage dynamique des paramètres, comme par exemple lors de la détection de contours standard). Avec cette interface nous pouvons afficher aussi bien des données 2D comme des images que du contenu 3D comme le modèle 3D de l’acteur ou les caméras.

Librairies Pour implémenter l’ensemble des algorithmes, nous avons utilisé essentiel-lement deux librairies :OpenCV etminpack. La première librairie permet d’effectuer les traitements images standards comme la détection de contours (Canny), la trans-formée en distance, les conversions colorimétriques des images,etc. La seconde librairie est une implémentation efficace en Fortran d’algorithmes d’optimisation. Nous l’avons utilisé pour effectuer l’estimation des paramètres (algorithme de Levenberg-Marquardt). Nous avons aussi utilisé une implémentation du filtrage anisotropique gaussien pro-posé dans [144]. Cette implémentation efficace du filtrage nous permet de calculer les cartes de contours utilisant le modèle 3D.

Enfin, la librairie OpenGL nous a permis de calculer les cartes de visibilité du modèle 3D, mais aussi les diagrammes de Vorono¨ı comme décrit au chapitre 5. Ces calculs sont en réalité effectuéoff-screen à l’aide des pbuffers.

R´esultats 169

6.2 R´esultats

Nous allons présenter dans cette section différents résultats obtenus sur diverses séquences vidéos. Nous allons présenter les résultats avec les différentes méthodes que nous avons évoquées au cours de la thèse : utilisation des contours (extraits avec un détecteur standard ou alors utilisant les contours) et utilisation de la couleur.

Dans une première partie, nous présentons des résultats sur des images synthétiques permettant de mettre en avant les performances de la méthode de suivi utilisant les contours. Nous présentons des résultats de suivi du mouvement pour diverses séquences de mouvement. Tout au long de la thèse, nous avons fait évoluer les diverses tech-niques de suivi du mouvement. Nous montrerons les résultats des diverses techtech-niques sur différentes séquences réelles acquises aussi bien sur la plate-forme grimage qu’à Rennes dans le cadre du projetsemocap.

6.2.1 R´esultats synth´etiques

Les données synthétiques ont été créées à partir d’une estimation du mouvement sur une séquence vidéo réelle. Il s’agit donc d’un mouvement estimé que nous utilisons comme vérité terrain. Ce mouvement est donc réaliste et permet d’évaluer les perfor-mances des algorithmes sur des données idéales. Un modèle 3D est animé à partir de cette estimation. Ce modèle est projeté dans des images afin de créer les silhouettes et les contours de ce modèle. Nous utilisons les images générées comme données d’entrée de l’algorithme.

La figure 6.9 montre le modèle3D de référence dans différentes postures (premières lignes) ainsi que la pose estimée (secondes lignes). Les figures 6.8, 6.10, et 6.11 montrent une comparaison de l’estimation des paramètres angulaires avec la vérité terrain. Le graphique 6.8-(a) représente l’erreur moyenne exprimée en degrés entre les paramètres de pose de la vérité terrain et ceux estimés. Nous pouvons constater que l’erreur moyenne est de moins de deux degrés excepté à l’image 98 (où nous avons une erreur de l’ordre de 15 degrés). Cette dernière erreur est liée à la mauvaise estimation du mouvement des mains. Cependant, l’algorithme retrouve correctement les paramètres dans la suite du suivi. Le graphique 6.8-(b) représente l’erreur initiale et l’erreur après minimisation en utilisant la méthode associée aux contours avec la distance de Hausdorff (chapitre 5 section 5.2.2). L’erreur angulaire à l’image 98 se traduit par une erreur moyenne de l’ordre de 4 à 5 pixels.

Les figures 6.10 et 6.11 comparent de manière détaillée les trajectoires angulaires estimées avec les trajectoires de la vérité terrain. Nous présentons la comparaison pour les deux d.d.l. du coude et deux des trois degrés de liberté (d.d.l.) de l’épaule.

170 6.2 R´esultats

(a) (b)

Fig. 6.8: (a) – Erreur moyenne entre le mouvement simulé et le mouvement estimé, exprimée en degrés. (b) – Erreur moyenne exprimée en pixels avant minimisation (courbe la plus haute) et après minimisation (courbe basse).

6.2.2 Suivi de mouvements sur des s´equences r´eelles

Dans cette section, nous allons présenter différents résultats acquis avec différentes configurations de caméras.

Pour effectuer les acquisitions, nous avons utilisé deux systèmes, l’un avec 6 caméras `

a l’inria, et l’autre avec 4 caméras à Rennes. Les deux systèmes sont équivalents. Les différences résident dans les optiques des caméras et la flexibilité du système. A Rennes, nous avons opté pour un système démontable aisément. Les caméras sont donc montées sur pieds et dépla¸cables selon la configuration voulue. Sur la plate-forme grimage, les caméras sont montées sur un portique.

Dans le document Paramétrage et Capture Multicaméras du Mouvement Humain (Page 158-192)