• Aucun résultat trouvé

Acquisition en temps réel, identification et mise en correspondance de données

N/A
N/A
Protected

Academic year: 2021

Partager "Acquisition en temps réel, identification et mise en correspondance de données"

Copied!
176
0
0

Texte intégral

(1)

Faculté des Sciences appliquées Laboratoire de l’Image : Synthèse et Analyse (LISA)

Acquisition en temps réel, identification et mise en correspondance de données

3D : application à la magnétoencéphalographie

Laurent Engels

Promotrice : Prof. Nadine Warzée Manuscrit présenté en vue

(2)

Cette thèse est dédiée à Jean Firket et au Dr. Olivier Engels.

(3)

Remerciements

Une thèse est un travail de longue haleine qui ne pourrait être réalisé sans l’aide de nombreuses personnes. C’est pour cela que je tiens à remercier toutes les per- sonnes ayant contribué à sa réalisation, en espérant oublier personne.

Tout d’abord, ma promotrice, Nadine Warzée, pour m’avoir accueilli au sein du laboratoire LISA et de m’avoir permis de me lancer dans ce projet. Je tiens également à la remercier pour tous ses conseils durant ces années, ainsi que ses lectures et relectures lors de la phase de rédaction.

Le Dr. Serge Goldman, le Dr. Xavier De Tiège et Marc Op de Beeck ainsi que tout le reste du service pour tout le temps qu’ils m’ont consacré à l’hôpital Erasme, mais également pour les essais au labo.

David Wikler pour avoir lancé ce projet.

Tous les membres du Lisa pour l’ambiance de ces dernières années : Audrey, Christine, Olivier, Arlette, Ivan, Frédéric, Xavier, Pierre, Benoît, Arnaud, Rudy, Quentin, Juan Carlos, Patrick, Alexandre et Philippe. En particulier mes collègues de bureau, Laurent Mundeleer, Cyril Krykwinski et Quentin Lurkin pour m’avoir soutenu, pour leurs avis et relectures, mais également pour ne jamais avoir refusé de tester mes prototypes, même si ceux-ci exi- geaient de ramper par terre.

Audrey Cauchie pour tous ces moments ainsi que tout le reste.

Thierry Leloup pour ses conseils avisés.

Antoine Nonclercq pour la relecture de ce texte.

Claude Verbeek et Geoffrey Vanbienne pour la réalisation du dôme et de la salle, ainsi que tous les petits bricolages qu’ils ont réalisés et les bons moments passés avec eux.

Mon grand-père, non seulement pour m’avoir montré la « voie de l’ingénieur », mais surtout pour m’avoir transmis sa soif de toujours apprendre.

Mes parents et mes deux frères, Olivier et Jérôme, pour leur aide, leurs relec- tures et pour m’avoir permis d’être là !

(4)

Table des matières

Glossaire 10

1 Introduction 11

2 État de l’art des techniques d’acquisition 3D 14

2.1 Introduction . . . 14

2.2 Domaines d’applications . . . 14

2.3 Techniques d’acquisition 3D : points et modèles complets . . . 17

2.3.1 Introduction . . . 17

2.3.2 Système avec marqueurs, capteurs et stylets . . . 17

2.3.2.1 Les systèmes optiques . . . 18

Les marqueurs de couleurs . . . 19

Les marqueurs binaires . . . 22

Les marqueurs réfléchissants . . . 26

Conclusion sur les systèmes optiques . . . 28

2.3.2.2 Autres systèmes . . . 28

Systèmes avec stylet . . . 28

(5)

Systèmes magnétiques . . . 29

Systèmes intertiels . . . 29

2.3.3 Systèmes sans marqueur . . . 29

2.3.3.1 Caméras classiques . . . 30

Caméras stéréoscopiques . . . 30

Approximation à l’aide d’un octree . . . 31

Modélisation automatique à l’aide de silhouettes . . 33

2.3.3.2 Les scanners 3D . . . 34

Scanner 3D par triangulation laser . . . 34

Caméras temps de vol . . . 39

Scanner 3D par lumière structurée . . . 41

Autres . . . 43

2.4 Conclusion et résumé . . . 43

3 Contrôle du maintien 45 3.1 Introduction . . . 45

3.2 Conseils de sécurité lorsque l’on travaille en face d’un écran . . . . 47

3.3 Description de l’application et choix des techniques d’acquisitions 48 3.4 Premier prototype : utilisation de deux webcams infrarouges en stéréovision . . . 50

3.4.1 Matériels . . . 50

3.4.2 Méthode . . . 51

3.4.2.1 Localisation des marqueurs . . . 52

Localisation des potentiels marqueurs dans les images infrarouges . . . 52

(6)

Calcul de la position 3D des marqueurs . . . 53

Contrôle de la position correcte du bandeau . . . . 56

3.4.2.2 Analyse de la posture . . . 57

3.5 Second prototype : utilisation d’une caméra temps de vol . . . 58

3.5.1 Matériels . . . 58

3.5.2 Méthode . . . 59

3.5.2.1 Détermination des points remarquables . . . 59

3.5.2.2 Analyse de la posture . . . 61

3.6 Résultats et discussion . . . 63

3.7 Conclusion . . . 64

4 Localisation et identification des électrodes EEG et des antennes MEG 65 4.1 Introduction . . . 65

4.2 L’imagerie cérébrale fonctionnelle . . . 66

4.2.1 Objectif . . . 66

4.2.2 Techniques . . . 66

4.2.2.1 Description de l’IRMf, de l’EEG et de la MEG . 66 4.2.2.2 Complémentarité entre l’IRMf, l’EEG et la MEG 69 4.3 Acquisition des électrodes EEG et des antennes MEG . . . 71

4.3.1 Localisation des points dans l’espace : application aux élec- trodes EEG et aux antennes MEG . . . 71

4.3.1.1 Introduction . . . 71

4.3.1.2 Le système 10-20 . . . 73

(7)

4.3.1.3 Techniques de localisation existantes . . . 76

Méthodes manuelles . . . 76

Systèmes électromagnétiques . . . 77

Localisation par ultrasons . . . 77

Pointeur localisé par un dispositif optique infrarouge 77 Utilisation des images de la résonance magnétique . 78 Caméra unique . . . 79

Caméras multiples . . . 79

4.3.2 Étude du système existant : Polhemus . . . 81

4.3.2.1 Introduction . . . 81

4.3.2.2 Matériels et méthodologie . . . 82

4.3.2.3 Résultats . . . 86

4.3.2.4 Discussion . . . 92

4.3.2.5 Conclusion . . . 94

4.3.3 Nouveau système d’acquisition . . . 94

4.3.3.1 Introduction . . . 94

4.3.3.2 Matériels . . . 95

Dôme . . . 98

Salle d’acquisition . . . 103

Logiciels . . . 104

4.3.3.3 Méthode . . . 106

Segmentation des marqueurs . . . 106

Calibrage . . . 107

(8)

Calcul de la coordonnée 3D . . . 111

Élimination du bruit . . . 112

Identification . . . 114

Méthodes existantes . . . 114

Identification par recalage non-rigide . . . 116

Iterative Closest Point (ICP) . . . 117

4.3.3.4 Présentation de la plateforme logicielle . . . 118

4.3.3.5 Conditions d’expérimentations . . . 121

4.3.3.6 Résultats . . . 122

4.3.3.7 Discussion . . . 125

4.3.3.8 Conclusion . . . 126

5 Recalage MEG/EEG - IRMf 128 5.1 Introduction . . . 128

5.2 Acquisition de points supplémentaires à l’aide de lasers . . . 131

5.2.1 Introduction . . . 131

5.2.2 Matériels et méthode . . . 132

5.2.3 Résultats et discussion . . . 135

5.2.4 Conclusion . . . 137

5.3 Modélisation 3D à l’aide des profils . . . 137

5.3.1 Introduction . . . 137

5.3.2 Matériels et méthode . . . 138

5.3.3 Résultats et discussion . . . 141

(9)

5.3.4 Conclusion . . . 142

5.4 Utilisation d’un scanner 3D instantané . . . 143

5.4.1 Introduction . . . 143

5.4.2 Matériels et méthode . . . 144

Matériel . . . 144

Conditions d’expérimentations . . . 147

Logiciel . . . 150

5.4.3 Résultats . . . 151

Premier protocole : recalage sur fantôme (modèle IRM si- mulé) . . . 151

Deuxième protocole : recalage sur patient . . . 154

Troisième protocale : recalage sur fantôme, avec utilisation de l’IRM . . . 155

5.4.4 Discussion . . . 156

5.4.5 Conclusion . . . 157

5.5 Conclusion sur le recalage . . . 157

6 Perspectives futures et autres applications 158 6.1 Perspectives futures . . . 158

6.1.1 Système de localisation et d’identification des électrodes et des antennes . . . 158

6.1.2 Recalage EEG/MEG et IRMf . . . 159

6.1.3 Utilisation effective sur patients . . . 159

6.2 Autres applications . . . 159

6.2.1 Suivi des mouvements de doigts d’un pianiste . . . 159

6.2.2 Contrôle du patient en protonthérapie . . . 160

6.2.3 Contrôle de la position de l’œil pour le Gamma Knife . . 162

(10)

7 Conclusion 163

Bibliographie 166

Références . . . 166 Références en ligne . . . 173

Publications 175

(11)

Glossaire

EEG : Electroencéphalographie (page 67).

HPIcoils :head position indicatior coils, également appelés « antennes », per- mettent de localiser le patient dans la MEG (page 68).

IRM(f) : Imagerie par résonance magnétique (fonctionnelle) (page 66).

Kinect : caméra 3D par lumière structurée (page 41).

MEG : Magnétoencéphalographie (page 68).

Optitrack : Caméra 2D infrarouge (page 95).

Polhemus : système électromagnétique de localisation 3D (page 35).

SEM : terme générique pour les systèmes électromagnétiques de localisation 3D (page 81).

TrackingTools : logiciel et bibliothèque permettant de gérer les caméras Op- titrack (page 104).

(12)

CHAPITRE 1

Introduction

Les techniques d’imagerie sont de plus en plus présentes. On les retrouve dans le monde du divertissement mais aussi dans de nombreux autres domaines dont la médecine où elles fournissent une aide précieuse pour le diagnostic. Apparue ré- cemment, la magnétoencéphalographie (MEG) mesure les champs magnétiques induits par l’activité électrique des neurones du cerveau. Elle complète d’autres technologies existantes, en particulier l’électroencéphalographie (EEG) et l’ima- gerie par résonance magnétique fonctionnelle (IRMf). La mise en commun de leurs données aboutit à des modèles d’activité d’un haut degré de précision, permettant notamment de localiser les sources d’activités cérébrales, comme les crises d’épilepsie.

Lors d’un examen MEG/EEG, le patient porte un bonnet muni d’électrodes de l’EEG et d’antennes de la MEG. Il est nécessaire de connaître la position en 3D de chacun de ces éléments. Actuellement la méthode utilisée à l’hôpital Erasme, à Bruxelles, impose un temps de préparation du patient nettement trop long, ce qui limite le nombre de personnes pouvant être examinées. Le facteur d’interprétation étant élevé, il est possible que l’opérateur confonde deux électrodes. C’est également un désagrément pour le patient qui doit subir de l’ordre d’une heure de préparatifs avant l’examen proprement dit. Le processus de préparation doit être recommencé si des mouvements déplacent le bonnet.

La mise en correspondance des données MEG/EEG et IRMf s’effectue grâce à la transformation permettant de passer de l’espace MEG/EEG à celui de l’IRMf (ou inversement). Son calcul nécessite l’acquisition d’un très grand nombre de

(13)

points supplémentaires reconstituant dans l’idéal un modèle 3D de la tête du patient. Ces points sont ensuite recalés avec le modèle extrait des images de la résonance magnétique.

Le but de cette thèse est la recherche et le développement d’un système per- mettant d’accélérer les étapes de localisation et d’identification des électrodes et des antennes utilisées lors d’un examen MEG/EEG, tout en gardant une préci- sion suffisante. Ce système devra satisfaire les conditions imposées par la MEG, notamment le placement aléatoire d’éléments sur le bonnet. La problématique du recalage sera également abordée en complétant notre système de localisation afin d’acquérir les points supplémentaires nécessaires pour cette étape.

Avant d’aborder le développement de ce système, un état de l’art des méthodes d’acquisition de données 3D a été réalisé. En effet, la localisation de points et la modélisation d’objets en 3D a pris un véritable essor ces dernières années et le chapitre 2 présente un aperçu des techniques existantes. Il se divise en deux grandes catégories : la localisation de points particuliers, qui repose sur l’utili- sation de marqueurs ou de capteurs, et l’acquisition de modèles 3D, partiels ou complets, en utilisant des algorithmes ou des appareils spécifiques. Dans l’appli- cation étudiée ici, la première catégorie correspond plus à la problématique des électrodes, tandis que la seconde est mieux adaptée pour la mise en correspon- dance des données.

Dans le chapitre 3, deux de ces techniques sont testées dans un problème de la vie courante : le contrôle du maintien en face d’un écran d’un ordinateur.

Cette application étudie la posture d’une personne travaillant sur un ordinateur et le prévient en temps réel si celle-ci est incorrecte ou dangereuse pour son dos.

Deux versions ont été développées, se basant sur des techniques avec et sans marqueurs.

Le chapitre 4 traite du développement du système de localisation des électrodes et des antennes. Il débute par un état de l’art des différentes techniques utilisées pour localiser des électrodes, suivi par une analyse approfondie du système le plus couramment utilisé. Le nouveau système de localisation développé au cours de cette thèse, sous forme de deux variantes différentes, est ensuite présenté ainsi que les résultats obtenus.

Le chapitre 5 décrit les trois méthodes imaginées pour résoudre le problème du recalage entre les données MEG/EEG et la résonance magnétique.

Le chapitre 6 traite des perspectives futures de ce travail et des améliorations qui pourraient y être apportées. Des exemples d’applications, ayant un but tout

(14)

à fait différent mais se basant sur les systèmes d’acquisition développés, sont présentés.

Ce document se termine par les conclusions suivies des publications ayant été réalisées au cours de cette thèse.

(15)

CHAPITRE 2

État de l’art des techniques d’acquisition 3D

2.1 Introduction

De nombreux appareils et techniques d’acquisition 3D ont été développés ces dernières années, de plus en plus de domaines faisant appel à ce procédé. Nous en citerons quelques-uns à titre d’exemple. Les techniques d’acquisition peuvent être classées en deux catégories : les systèmes avec marqueurs et les systèmes sans marqueur. Plusieurs systèmes appartenant à ces deux catégories et pouvant apporter une solution aux problèmes que nous voulons résoudre seront ensuite décrits.

2.2 Domaines d’applications

Ingénierie et construction

En ingénierie et construction, la métrologie assistée par ordinateur permet un contrôle de qualité et de fiabilité de la construction de pièces. Un certain nombre de points sont acquis sur une pièce usinée et sont ensuite comparés avec le modèle de CAO. Les scanners 3D peuvent aussi analyser les fonds marins [38]

ou reproduire un site de construction.

(16)

Archéologie

L’archéologie est aussi demandeur de la numérisation. Ce domaine exploite plu- sieurs possibilités des modèles 3D. Un premier avantage est la capacité de mani- puler une pièce sur un ordinateur sans devoir la toucher manuellement, évitant tout risque de détérioration. Ensuite, des simulations informatiques sont réali- sables comme la reconstruction d’un objet à partir de plusieurs fragments [90].

Un autre avantage est la possibilité de multiplier des pièces, soit virtuellement, c’est-à-dire que le modèle informatique sera envoyé à plusieurs personnes, soit physiquement à l’aide d’imprimantes 3D. La reconstruction et la rénovation de sites historiques utilisent également la 3D. Des anciennes statues abîmées sont scannées en 3D et restaurées virtuellement à l’aide de logiciels [117]. Un bras articulé, relié à l’ordinateur, guide ensuite le sculpteur lors de la reproduction (figure 2.2.1). Une autre catégorie d’applications est la visite virtuelle de sites.

Certains endroits sont soit difficilement accessibles, soit en très mauvais état de conservation. Ces sites peuvent être scannés dans leur entièreté, permettant aux personnes de visiter une reproduction virtuelle, agrémentée de bâtiments comme ils devaient se trouver à l’origine ou bien encore de personnages reproduisant la vie de l’époque.

Figure2.2.1 – Reproduction d’une statue de la cathédrale de Reims. Les points blancs sur la statue originale ont servi pour l’acquisition 3D.

Divertissement

Le monde du divertissement est un gros consommateur de 3D. Que ce soit pour le cinéma ou les jeux vidéo, la capture de mouvements (ou terme plus commun, la

(17)

motion capture) est un procédé que l’on rencontre couramment. La technique la plus classique est d’habiller un acteur avec des vêtements équipés d’une multitude de marqueurs. Les positions sont récupérées par diverses méthodes, ce qui fournit un squelette qui servira de base pour l’animation du personnage (figure 2.2.2).

Des maquettes d’objets ou de personnages peuvent également être scannées, simplifiant ou remplaçant l’étape de la modélisation.

Figure 2.2.2 – Principe demotion capture,de l’acteur jusqu’au modèle de syn- thèse [123].

Sport

De plus en plus de techniques 3D sont utilisées pour analyser les performances des sportifs, leur permettant ainsi de corriger leurs mouvements et d’améliorer leurs performances.

Médical

Finalement le domaine médical utilise également les techniques d’acquisitions 3D. Les modèles peuvent servir pour le guidage lors d’opération, comme par exemple pour aider à replacer les os fracturés [53]. En orthodontie, les acquisi- tions servent actuellement à la préparation d’appareils dentaires, de couronnes...

Conclusion

Dans tous ces projets, on distingue deux classes d’acquisition : l’acquisition de points particuliers et celle de modèles complets. Les premiers utilisent des mar-

(18)

queurs ou des capteurs pour indiquer les points à acquérir, fournissent des mo- dèles plus légers et sont également utilisés quand la notion de temps réel rentre en jeu. Les modèles complets offrent des rendus visuels beaucoup plus aboutis, mais au détriment d’un temps d’acquisition souvent plus élevé et surtout une extraction des points d’intérêt nettement plus difficile.

2.3 Techniques d’acquisition 3D : points et mo- dèles complets

2.3.1 Introduction

Les techniques d’acquisition 3D sont de plus en plus nombreuses et ont des domaines d’applications très variés. Ainsi, il est tout aussi bien possible de nu- mériser en 3D un petit os qu’un bâtiment complet. Les problèmes posés dans ce travail concernent principalement la tête d’un humain. La liste des techniques citées dans ce chapitre sera donc limitée aux systèmes dont l’espace de travail, c’est-à-dire le volume d’acquisition, est proche de ces dimensions. En particulier, on s’intéressera aux critères suivants :

La précision.

La possibilité de réaliser les localisations en temps réel.

La possibilité d’identifier des points en temps réel.

L’intégration qui reprend la compatibilité avec les environnements de travail et les contraintes imposées à l’utilisateur.

Le prix.

Concernant les environnements de travail, c’est surtout la magnétoencéphalogra- phie qui impose des règles d’utilisation plus strictes. En effet, en cas d’utilisation de marqueurs, ceux-ci doivent être à la fois plats et non magnétiques.

2.3.2 Système avec marqueurs, capteurs et stylets

Il existe différents systèmes pour localiser des points particuliers en 3D. Les plus répandus sont les systèmes optiques, électro-mécaniques, magnétiques et

(19)

inertiels. Ils utilisent tous, soit des marqueurs (passifs ou actifs), soit des capteurs aux différents endroits qui doivent être localisés en 3D. Les systèmes les plus répandus sont les systèmes optiques, dont plusieurs types de marqueurs sont décrits dans la section suivante.

2.3.2.1 Les systèmes optiques

Les systèmes suivants nécessitent de placer sur l’utilisateur des marqueurs à des endroits définis. On distingue deux types de marqueurs : les marqueurs passifs et actifs. Une fois repérées, les positions 3D sont calculées par stéréovision [30, 18].

La stéréovision a pour but d’obtenir des informations 3D à partir d’images 2D, reproduisant ainsi la vision stéréoscopique humaine. Le principe se base sur la redondance d’informations présente dans les images obtenues par deux ou plu- sieurs caméras proches l’une de l’autre. Pour les systèmes suivants, le marqueur est recherché dans chaque image et la mise en correspondance permet de trouver les coordonnées 3D, comme cela sera vu au chapitre 3. Afin de gagner robustesse, précision ou élargir la zone de travail, il est possible de rajouter d’autres caméras.

Les caméras sont calibrées, c’est-à-dire qu’on connaît à la fois leurs paramètres internes (calibrage intrinsèque) et leur position les unes par rapport aux autres (calibrage extrinsèque). La précision d’un tel système dépend directement de la précision de la segmentation des marqueurs, celle-ci dépendant de la méthode utilisée mais aussi de la qualité des caméras ainsi que de leur calibrage.

Les marqueurs actifs sont alimentés en courant. Ils ont l’avantage de faciliter l’identification et donc la mise en correspondance des points d’intérêts dans les différentes images. Ils sont cependant encombrants à cause des différents fils que l’utilisateur doit porter. PhaseSpace [114], Northern Digital [111] et PhoeniX Technologies [115] présentent des systèmes de ce type.

Les marqueurs passifs, au contraire, n’ont pas ce problème. Ils sont en revanche plus difficiles à identifier que les marqueurs actifs. Plusieurs types de marqueurs passifs ont été testés :

Les marqueurs de couleurs.

Les marqueurs binaires.

Les marqueurs réfléchissants.

(20)

Les marqueurs de couleurs

Les marqueurs sont repérés dans l’image grâce à leur couleur. Il faut donc choisir une couleur bien distinguable de ce qui se trouve dans l’image, par exemple le jaune. Les coordonnées des marqueurs dans la scène sont calculées par stéréovi- sion. Comme les marqueurs peuvent être éclairés par une lumière naturelle ou artificielle, se retrouver dans l’ombre ou directement sous la source de lumière, la couleur sous laquelle ils apparaissent sur l’image peut fortement varier. Il faut donc d’abord traiter l’image avant d’y rechercher les marqueurs. Ce traitement s’appelle la normalisation de la couleur. Cette théorie met en évidence la capa- cité de la vision de l’humain de s’adapter aux changements de luminosité grâce à l’œil et au cerveau, permettant ainsi de percevoir la couleur originale des ob- jets sous différentes illuminations. Les caméras n’étant pas aussi développées, on peut obtenir des images très différentes entre ce que l’on voit et ce que la caméra voit. Une scène en contre-jour est un bon exemple. Les marqueurs qui nous paraissent jaunes risquent donc d’apparaître d’une toute autre couleur sur l’image prise par la caméra.

L’algorithme du single-scale retinex (SSE) [39] a pour but de réduire la diffé- rence entre une image d’une scène obtenue par une caméra et celle vue par un observateur humain. Il doit donc à la fois retrouver dans une image les cou- leurs originales des objets, mais également accentuer les détails dans les zones sombres. L’algorithme ajuste l’intensité d’un pixel en fonction de celle de ses voisins. L’intensité des voisins est pondérée par une fonction gaussienne, dite fonction d’encerclement.

Ri(x, y) =logIi(x, y)−log[F(x, y)∗Ii(x, y)]

où :

x,y sont les coordonnés du pixel.

Ii(x, y) est l’intensité du pixel dans la composante i (par exemple R, G ou B si nous utilisons cet espace).

F(x, y) est la fonction d’encerclement.

F(x, y) = Ke−(x2+y2)/c2

où :– c et K sont deux constantes. c est fixée arbitrairement etK est choisie de manière à ce que

(21)

ZZ

F(x, y) dxdy= 1

Figure 2.3.1 – Image originale [107].

Figure 2.3.2 – Single Scale Retinex utilisé avec différentes valeurs des para- mètres de c.

Le single-scale retinex ne fournit pas de résultats à la fois satisfaisants pour la restauration des détails dans les zones d’ombre et au niveau du rendu des couleurs (figures 2.3.1 et 2.3.2).

L’algorithme dumulti-scale retinex (MSR) [39] effectue une somme pondérée de résultats provenant du SSE (figure 2.3.3). On peut cependant remarquer que l’image obtenue de cette façon a été fortement assombrie et désaturée. Cela est d’autant plus vrai que l’on s’écarte de l’hypothèse du « monde gris » (grayworld assumption). Cette hypothèse énonce le fait que pour une image, les valeurs

(22)

moyennes de chaque composante (R-G-B) sont égales. Pour notre image origi- nale, nous ne sommes en effet pas dans cette condition. En effet, ses composants R-G-B valent respectivement 179, 99 et 105.

Figure 2.3.3 – Multi-scale retinex.

Une dernière évolution de l’algorithme, leMulti-Scale Retinex with Color Resto- ration (MSRCR) [71] a pour but de fournir des images aux couleurs proches des couleurs réelles, même en cas de violation de l’hypothèse citée précédemment. On obtient finalement notre image normalisée (figure 2.3.4). La couleur dominante a disparu, des détails ont des couleurs plus facilement reconnaissables (blanc des yeux, plumes bleues) et d’autres sont plus visibles dans les zones d’ombre.

Figure 2.3.4 – Image d’origine et après application du MSRCR

Résultats

La figure 2.3.5 montre les résultats obtenus après la normalisation de la couleur, pour un même marqueur photographié sous différentes conditions de lumino- sité. On peut y remarquer une certaine homogénéité des couleurs sauf dans les conditions extrêmes (extrême gauche et droite sur la figure). Malheureusement,

(23)

avec des capteurs de la qualité de ceux que l’on trouve dans les webcams et qui ont tendance à rapidement brûler les détails, on se trouve souvent dans de telles conditions.

Figure 2.3.5 – Un même marqueur photographié sous différentes luminosités.

En haut, l’image obtenue par la caméra. En bas, la même image après normali- sation de la couleur.

Avantages et inconvénients Avantages :

Il est possible d’utiliser des couleurs différentes pour identifier les marqueurs.

Les marqueurs peuvent être fabriqués à partir de plusieurs matériaux : papier, carton, plastique... Ce qui rend le système compatible avec la majorité des environnements. Cependant, si celui-ci est bruité, il faut augmenter la taille des marqueurs, ce qui n’est pas toujours possible.

C’est un système qui peut être très bon marché. Deux webcams et une feuille de couleur suffisent pour obtenir un système de base.

Inconvénients :

Les couleurs peuvent être confondues avec l’environnement, rendant la seg- mentation imprécise.

La normalisation des couleurs n’étant pas parfaite, plusieurs points risquent de ne pas être localisés.

Le traitement des couleurs ralentit le traitement des données, rendant l’utili- sation en temps réel difficile.

Les marqueurs binaires

La détection des marqueurs de couleurs détermine un point particulier dans l’image. Ces marqueurs n’offrent cependant aucune information supplémentaire.

(24)

En particulier, la position en 3D du marqueur est difficile voire impossible à connaître si celui-ci n’est détecté que par une seule caméra. Les marqueurs codés, dont le code-barres est l’exemple le plus connu, sont des marqueurs contenant in- trinsèquement une certaine quantité d’informations (figure 2.3.6). Contrairement aux autres systèmes utilisant la stéréovision, il est possible avec ces marqueurs d’en déduire leur position, leur orientation et leur identifiant à l’aide d’une seule caméra. La bibliothèque ARToolkit d’Hirokazu Kato [41, 42] utilise ce type de marqueurs pour des applications de réalité augmentée, c’est-à-dire des images virtuelles superposées à des fonds réels et permet entre autres de déterminer la position 3D d’un marqueur à partir d’une seule caméra.

Figure 2.3.6 – Différents marqueurs codés. A droite, celui utilisé par Kato [41].

Pour ce dernier type, les marqueurs se différencient par le dessin à l’intérieur du carré blanc (ici un kanji japonais).

Principe de fonctionnement

Avant le lancement de l’application, la caméra est calibrée et les marqueurs sont connus, à la fois par leur dessin intérieur mais aussi par leur taille physique.

Chaque image provenant de la caméra est tout d’abord transformée en image binaire. Les formes s’apparentant à des carrés sont recherchées. La position et l’orientation du marqueur sont calculées et le dessin au centre de celui-ci est analysé, permettant ainsi l’identification (figure 2.3.7).

(25)

Figure 2.3.7 – Principe de fonctionnement des marqueurs avec en exemple la superposition d’un modèle 3D.

(26)

Avantages et inconvénients

Avantages :

La localisation 3D s’effectue en temps réel à l’aide d’une seule caméra. Ce- pendant, le calcul de la position absolue dans l’espace est moins évident car il est alors nécessaire de soit toujours avoir le marqueur « origine » visible par chaque caméra, soit calculer la position des marqueurs par rapport à un autre marqueur dont la position est connue.

L’identification des marqueurs est immédiate, également à l’aide d’une seule caméra.

Tout comme les marqueurs de couleurs, les marqueurs sont en papier, les rendant compatibles avec tous les environnements.

C’est un système extrêmement bon marché, une seule caméra et une feuille de papier imprimée forme un système de base.

Inconvénients :

Ce système est moins précis (erreur de 1 cm au-delà d’une distance de 1 m, [18]).

Si l’utilisateur bouge pendant l’acquisition, ses mouvements doivent rester re- lativement lents pour éviter les images floues. Sinon il devient impossible d’en extraire les données (figure 2.3.8).

Les marqueurs ne peuvent pas être physiquement trop petits (minimum 2 cm pour une visibilité à 50 cm) afin d’être toujours repérés. Si on se limite au volume de la tête, le nombre de marqueurs est fortement limité.

Figure 2.3.8 – Extraction du dessin impossible.

(27)

Autres systèmes utilisant des marqueurs codés

Le système utilisant une seule caméra cité précédemment n’est pas le seul à se baser sur des marqueurs binaires. Il existe d’autres systèmes utilisant à la fois ces marqueurs et la stéréovision, comme le système de neuronavigation de Claron [98] (figure 2.3.9). On obtient alors des systèmes avec des précisions annoncées de 0.20 mm. Ils sont cependant très coûteux et la taille des marqueurs reste trop importante pour nos applications (minimum 1.5 cm).

Figure 2.3.9 – Système de neuronavigation de Claron [98].

Les marqueurs réfléchissants

Les marqueurs réfléchissants se présentent généralement sous forme des petites sphères de 1 à 3 cm de diamètre ou sous forme de bandes comme on les re- trouve sur certains vêtements de sécurité. Elles sont recouvertes d’un matériau qui réfléchit de manière optimale la lumière émise. Tout comme les marqueurs de

(28)

couleurs, les coordonnées sont calculées par stéréovision. Afin de ne pas éblouir l’utilisateur, des LEDs infrarouges (λ > 800 nm) sont utilisées comme source lumineuse. Les capteurs numériques des caméras, webcam ou appareils photos numériques sont sensibles à l’infrarouge et sont donc munis de filtres ne lais- sant passer que la lumière visible afin de ne pas surexposer les images. Dans ce cas-ci, c’est justement le phénomène inverse qui est désiré. Les filtres passe-haut ont été remplacés par des filtres passe-bas. Certains systèmes utilisent des LEDs pulsantes, c’est-à-dire qu’elles n’illuminent la scène qu’une image sur deux. Il suffit alors de soustraire cette paire d’images pour en obtenir une nouvelle ne contenant plus que les marqueurs.

C’est sur ces marqueurs réfléchissants que notre choix s’est porté pour les appli- cations décrites aux chapitres 3 et 4.

Avantages et inconvénients Avantages :

Les images obtenues sont très faciles à segmenter, rendant ce système très précis.

Cette segmentation rapide permet également une localisation temps réel.

Même s’il n’est pas possible d’utiliser les marqueurs sphériques à cause des contraintes que nous avons imposées, les marqueurs plats peuvent être utilisés à la place et ils ne perturbent pas les environnements magnétiques. De plus, leur taille peut être assez petite : des marqueurs de 2 mm sont repérés par une caméra d’une résolution de 640x480 pixels à une distance de 50 cm. Leur forme peut être aussi quelconque : ronde, carrée mais également trouée...

La lumière principalement utilisée est infrarouge, c’est-à-dire qu’elle est invi- sible pour l’utilisateur.

La source lumineuse peut se situer au niveau de la caméra, mais également directement servir de marqueur. Par exemple : un système dont chaque mar- queur serait une LED IR. La Wii de Nintendo fonctionne sur ce schéma.

Inconvénients :

Des réflexions parasites peuvent avoir lieu sur des objets réfléchissants, faisant apparaître des points parasites.

Tous les marqueurs apparaissant blancs sur l’image finale, une identification immédiate n’est pas possible. Une solution est de grouper plusieurs marqueurs sur un corps rigide.

Le soleil étant une source lumineuse importante, y compris d’infrarouge, ces systèmes sont difficilement exploitables à l’extérieur ou près d’une fenêtre.

Même s’il est possible de réaliser des systèmes bon marché [19, 20], les caméras infrarouges sont beaucoup plus onéreuses que les modèles classiques.

(29)

Conclusion sur les systèmes optiques

Les systèmes optiques sont fortement répandus et présentent effectivement plu- sieurs avantages :

Ils peuvent être très précis.

La plupart des systèmes optiques sont capables de localiser plusieurs points à la fois et en temps réel.

Ils existent de nombreuses variantes différentes, avec des caméras et des mar- queurs divers. Ils peuvent donc s’adapter en fonction de l’application ou du budget.

Parmi les inconvénients, on peut citer :

Il faut une ligne de vue directe entre la caméra et le marqueur, sinon celui- ci sera masqué. Pour limiter ces occlusions, il faut augmenter le nombre de caméras.

Pour certains marqueurs, lorsque la localisation 3D est réalisée, il faut encore procéder à une étape d’identification.

Quel que soit le type de marqueur utilisé, il y a des risques d’interférences avec la lumière environnante si celle-ci altère les couleurs (marqueurs de couleurs) ou brûle l’image (marqueurs binaires et réfléchissants).

L’utilisation même des marqueurs est intrusive. Les marqueurs nécessitent d’être fixés par un moyen quelconque : attache, colle... Pour certains endroits comme le visage, cela peut être problématique.

2.3.2.2 Autres systèmes

Systèmes avec stylet

Le principe est d’utiliser un stylet pour pointer les points que l’on veut acqué- rir. Ensuite, généralement à l’aide d’un bouton, on valide l’acquisition. Il existe plusieurs variantes de ce système qui utilisent des techniques différentes pour localiser le stylet : champs magnétiques, acoustiques, caméras optiques...

Ces systèmes seront décrits plus en détails dans le chapitre 4.

(30)

Systèmes magnétiques

Ce système se divise en deux parties. D’un côté, des émetteurs de champ ma- gnétique statique prennent la place des marqueurs. De l’autre côté, des capteurs détectent leur position et leur orientation.

Ce type de système engendre de nombreux problèmes d’interférences (câbles, métal...) et s’avère inutilisable pour une application liée à la magnétoencéphalo- graphie, environnement extrêmement sensible aux champs magnétiques.

Systèmes inertiels

Les capteurs regroupent à la fois un capteur de mouvement (accéléromètres), d’orientation (gyroscopes) et de position (magnétomètres). Ils ne sont cependant pas très adaptés pour un volume comme celui d’une tête puisque les capteurs ont une taille de l’ordre 12 cm3. De plus, ils visent plus l’analyse de mouvement que la localisation de points particuliers puisque la partie « position » de ces capteurs est sujette à des problèmes de dérive.

2.3.3 Systèmes sans marqueur

Les systèmes avec marqueurs ont l’avantage de pouvoir traiter plus facilement une série de points particuliers. En revanche, ils sont intrusifs et se révèlent inadaptés pour l’acquisition d’un grand nombre de points, voir d’un modèle complet.

La suite de ce chapitre est consacrée à des systèmes sans marqueur et sans contact avec l’objet à acquérir. Ces systèmes sont de plus en plus utilisés dans des domaines tels que la surveillance, l’interfaçage homme-machine et le jeu vidéo.

On distingue deux grandes classes de matériels dans cette catégorie : les caméras classiques et les caméras ou scanners 3D. Elles sont toutes les deux basées sur des systèmes optiques.

Les critères observés resteront les mêmes. Cependant, l’identification automa- tique de points particuliers sur un modèle 3D étant difficile, on regardera si la qualité des résultats rend au moins possible une identification manuelle.

(31)

2.3.3.1 Caméras classiques

Caméras stéréoscopiques

Ces caméras utilisent la stéréovision passive, se basant uniquement sur les infor- mations disponibles dans la scène et sans en rajouter elles-mêmes (marqueurs, pointeur laser...). La mise en correspondance des informations, est assez com- plexe car elle fait appel à une étape d’extraction de points caractéristiques (angle, changement de contraste...). Au final, on obtient une carte de profondeur de la scène.

Figure 2.3.10 – Image originale et la carte de profondeur obtenue [83].

Les caméras passives (figure 2.3.11) donnent des informations de profondeur insuffisantes pour produire un modèle 3D valable (figure 2.3.10). Elles servi- ront surtout pour donner une estimation de distance (détection de collision par exemple), de surveillance (présence d’une personne dans une salle) ou lorsqu’on souhaite reproduire la profondeur d’une scène sans pour autant la modéliser précisément (appareils photos 3D).

Figure 2.3.11 – Caméra stéréoscopique de Videre Design [121].

(32)

Avantages et inconvénients

Avantages :

L’acquisition de points se fait en temps réel.

Deux caméras suffisent pour obtenir un système fonctionnel de base.

Ce système est assez souple. Il suffit de rajouter des caméras pour couvrir une zone plus grande.

C’est un système qui peut être bon marché (prix de deux caméras). Plusieurs appareils numériques grand public équipés de ce système sont déjà disponibles sur le marché.

Inconvénients :

Les modèles obtenus sont imprécis.

L’identification de points est quasiment impossible. Certains détails ne sont pas modélisés (Par exemple les yeux sur la figure 2.3.10).

Comme tous les systèmes multi-caméras, une phase de calibrage est nécessaire.

Approximation à l’aide d’un octree

L’idée générale est de considérer l’espace comme un grand cube, lui-même divisé en cubes. Quelques caméras, généralement trois ou quatre, sont disposées autour de l’individu. Dans un premier temps, ces caméras filment l’environnement vide afin de pouvoir soustraire l’arrière-plan par la suite. La personne à suivre est comprise dans ce grand cube, qui va être sculpté par un raffinement progressif des sous-cubes (figure 2.3.12). Pour chaque caméra, on élimine l’arrière-plan et on projette chaque sous-cube sur l’image. Si un sous-cube projeté est compris dans la silhouette de la personne ou en comprend une partie, il est gardé et subdivisé en 8 nouveaux sous-cubes. Sinon, il est supprimé. A la fin de l’analyse des images et lorsque le nombre d’itération souhaité est atteint, il ne reste plus qu’un ensemble de voxels, les plus petits sous-cubes, qui enveloppent le modèle que l’on souhaite acquérir : c’est le visual hull [50].

(33)

Figure 2.3.12 – Le sujet est englobé par un cube subdivisé en cubes plus pe- tits. Les projections de ces sous-cubes ne comprenant aucune partie de l’image d’utilisateur sont éliminés (ici en gris). A droite, l’utilisateur et sonvisual hull.

De manière générale, levisual hull est le plus grand objet conforme à un ensemble de silhouettes de l’objet à acquérir [26]. C’est le résultat de l’intersection des cônes de silhouette de chacune des caméras présentes (figure 2.3.13). Ces cônes représentent les cônes de projections, limités aux silhouettes de l’objet.

Figure 2.3.13 – Intersection des cônes de silhouette [123].

Cette méthode est notamment utilisée pour le suivi de mouvements [11, 13, 12].

Les voxels sont alors regroupés selon un modèle, générant ainsi un squelette qui sera analysé pour la capture ou le suivi de mouvements.

Avantages et inconvénients

Avantages :

Ce système fournit rapidement un visual hull.

Aucun marqueur et aucun matériel spécifique autre que des caméras classiques n’est nécessaire, le rendant accessible niveau prix.

(34)

Inconvénients :

La méthode est plus adaptée à la création de volumes approchés (servant par exemple dans le cas d’analyse temps réel) que de la modélisation spatiale précise.

La segmentation du fond n’est pas toujours aisée, celui-ci pouvant varier dans le temps, soit par un déplacement d’un objet ou d’une personne, soit par un changement de luminosité.

L’identification de points particuliers est impossible, ceux-ci étant englobés dans des voxels.

Modélisation automatique à l’aide de silhouettes

Assez similaire à la technique précédente, ce type d’acquisition 3D [55, 22, 77]

utilise les contours créés à partir d’une séquence de photos prises autour d’un objet (figure 2.3.14) devant un arrière plan contrasté. Ces silhouettes sont déta- chées de leur fond et assemblées les unes aux autres en se basant sur l’axe de rotation du système pour former une approximation de l’objet (figure 2.3.15) . Plusieurs méthodes existent pour obtenir les images :

L’objet reste fixe et la caméra unique tourne autour de l’objet.

L’objet reste fixe et on multiplie le nombre de caméras.

L’objet est mobile (généralement posé sur une table tournante) et la caméra unique reste fixe.

Figure 2.3.14 – Exemple d’une série d’images d’une tête. La série complète comprend 72 images [22].

(35)

Figure 2.3.15 – Modèle 3D obtenu [22].

Avantages et inconvénients

Avantages :

Il fournit des modèles plus précis que le système précédent.

Dans le cas de l’utilisation de plusieurs caméras, la personne n’est présente que le temps que les appareils fassent leur photo. En réalité, comme ils sont tous synchronisés, ce temps se réduit à celui d’une seule photo. Cependant, comme il peut y avoir un post-traitement sur les images et en prenant en compte le temps de l’algorithme de la création du modèle, il n’est pas possible de faire du temps réel.

L’identification de points particuliers devient possible.

Inconvénients :

Pour un bon résultat, il faut un grand nombre d’images. Des trois méthodes citées, seule celle utilisant plusieurs caméras est réalisable dans ce cadre-ci. Il y a un trop grand risque de mouvement si une caméra tourne autour de la tête et placer celle-ci sur un plateau tournant est tout bonnement impossible.

Pour faciliter la segmentation des silhouettes, un fond homogène est nécessaire.

Le prix est variable mais la solution des caméras multiples est la plus onéreuse.

2.3.3.2 Les scanners 3D

Scanner 3D par triangulation laser

Le scanner laser par triangulation est un scanner actif qui utilise un laser pour sonder son environnement [59]. Le motif lumineux projeté est habituellement un point ou une ligne laser, mais on peut également en retrouver d’autres comme

(36)

des grilles ou des volumes. Un motif simple est plus facile à traiter mais donne moins de points simultanément. Dans le cas d’un point laser, le scanner utilise un capteur (appareil photo ou autre) pour situer le point. En fonction de la distance jusqu’à une surface de l’objet à acquérir, le point apparaît à un endroit différent dans le champ de vision de l’appareil. Le point laser, le capteur et l’émetteur laser forment un triangle, d’où le nom de triangulation (figure 2.3.16) .

Figure 2.3.16 – Principe de triangulation.

On retrouve cependant plus souvent un laser ligne comme motif. C’est le cas notamment du Polhemus FastSCAN[116]. La ligne est projetée sur le modèle à acquérir et une caméra enregistre sa déformation (figure 2.3.17). Les coordonnées des points qui composent la ligne sont obtenus par triangulation.

Figure2.3.17 – Projection d’un laser ligne sur l’objet (a) et image de la caméra (b).

(37)

Il existe des modèles manuels (Polhemus) et automatiques (NextEngine [110]).

Dans le cas des scanners manuels, l’opérateur manipule un bras équipé d’une ou plusieurs caméras (figure 2.3.18), d’un émetteur laser et d’un récepteur électro- magnétique pour repérer la position du bras par rapport à une balise fixe. L’objet restant fixe, l’opérateur se déplace et scanne bande par bande les différentes ré- gions souhaitées de l’objet. Même si des étapes de post-traitement limitent le problème, l’acquisition répétée d’une même région provoque l’apparition d’arté- facts. Si le sujet à scanner peut bouger, par exemple un humain, un récepteur électromagnétique est placé sur le sujet (bandeau, casque...) afin de compenser les mouvements. L’acquisition d’un objet de la taille d’une tête adulte prend entre 5 à 15 minutes.

Figure 2.3.18 – Polhemus FastSCAN avec le bras, comprenant une caméra et le laser [116].

Ces scanners existent également sous forme automatique (figure 2.3.19). Le scan- ner est alors fixe. Il projette le motif laser sur l’objet qui peut être placé sur un plateau tournant (figure 2.3.20). A la fin de chaque acquisition, une rotation du plateau découvre une nouvelle partie de l’objet. Au besoin, des points sont marqués (marqueurs, étiquettes...) afin de faciliter l’assemblage des différentes acquisitions. Il n’est cependant pas obligatoire de faire tourner le plateau à 360°

ni même de s’en servir. Pour un visage humain, il est nécessaire de fixer la tête du sujet afin d’éviter les mouvements. La durée pour une telle acquisition est d’un peu plus d’une minute.

(38)

Figure 2.3.19 – Scanner automatique NextEngine HD.

Figure2.3.20 – Scanner en fonctionnement. Les lasers sont projetés sur l’objet, placé sur une table tournante.

Dans le cas manuel ou automatique, il est à noter que les lasers utilisés sont nocifs pour les yeux et il est obligatoire que le sujet garde les yeux fermés lors d’une acquisition d’un visage. Cependant, les scanners automatiques sont trop lents pour éviter les mouvements du sujet et n’ont pas de dispositifs pour les compenser.

(39)

Figure 2.3.21 – NextEngine utilisé

sur un sujet humain. Figure 2.3.22 – Résultat pour un sujet humain.

Les figures 2.3.21 et 2.3.22 montrent l’acquisition d’un visage humain et le ré- sultat. Bien que le modèle résultant soit loin d’être parfait, il fournit cependant de nombreux points qui pourraient servir dans certaines applications, comme le recalage d’informations. Cependant, la lenteur et le désagrément causés par les lasers rendent ces appareils difficilement exploitables pour ce genre d’applica- tions.

Avantages et inconvénients

Avantages :

Il permet l’acquisition précise d’un très grand nombre de points, même si les modèles sont généralement incomplets.

On obtient à la fois les points et le maillage. Il est possible de repérer des points caractéristiques du visage.

L’acquisition cible une région particulière (celle du motif). Le fond n’inter- vient donc pas, même s’il est conseillé de travailler dans un environnement assez sombre.

Inconvénients :

Les résultats sont bruités.

L’acquisition est trop lente pour être utilisée pour la modélisation d’une tête.

Il faut alors soit un système pour compenser les mouvements, soit immobiliser la tête.

Le laser est dangereux pour les yeux.

Les systèmes sont onéreux avec des prix commençant à partir de 2000€ et montant à plus de 20.000€ en fonction des systèmes.

(40)

Caméras temps de vol

La technique du temps de vol [29, 78] est une méthode d’acquisition rapide de la distance par un dispositif optique. Les caméras temps de vol utilisent une méthode de mesure sans contact basée sur la mesure du temps de propagation aller et retour de la lumière entre le capteur et l’objet à scanner. Cette mesure est effectuée indépendamment pour chaque pixel de la caméra, permettant ainsi une acquisition complète de la scène. La précision spatiale d’une caméra temps de vol dépend de la précision de la mesure du temps de retour et de son capteur, dont la résolution reste relativement faible comparée aux caméras classiques (de 176x144 à 484x648 pixels) [67].

Les caméras sont divisées en 3 parties principales :

L’émetteur de lumière, constitué de LEDs ou lasers infrarouges. Cette partie va illuminer la scène.

Le capteur, qui pour chaque pixel calcule le temps d’aller-retour de la lumière émise.

L’objectif, capable de laisser passer la lumière émise. Il est généralement muni d’un filtre passe-bande.

Le temps mis par la lumière pour parcourir la distance aller-retour (Time Of Flight ou TOF) est donné par la relation suivante :

T OF = 2.D c

D est la distance mesurée et c est la vitesse de la lumière.

Cette valeur de TOF peut être mesurée directement ou indirectement :

soit une impulsion lumineuse est émise et son temps de parcours est mesuré (méthode directe)

soit une onde lumineuse permanente est émise (par exemple une onde sinusoï- dale) à une certaine fréquence et on mesure le déphasage entre l’onde émise et l’onde reçue.

(41)

Cette seconde méthode de mesure (dite Continuously Modulated) est plus fré- quente car elle nécessite moins de composants électroniques. Elle pose par contre problème lorsqu’un déphasage d’une période complète se produit, les éléments situés dans le fond sont alors ramenés à l’avant-plan. Pour les MESA SwissRan- ger, ce phénomène se produit à une distance de 7,5 m pour la SR3000 [35] et 10 m pour la SR4000 (figure 2.3.23, [36]).

Ces caméras sont cependant très bruitées et manquent de précision pour certains modèles : des erreurs de 10 mm peuvent survenir pour la MESA SwissRanger 4000 pour des distances de 0.8 à 5 m malgré une fréquence de 50 images/seconde.

Des problèmes d’interférence peuvent également apparaître si plusieurs caméras (et donc si plusieurs sources lumineuses) sont utilisées. Il est donc impossible d’obtenir un modèle de la tête complète avec ce système. Les objets réfléchissants perturbent également l’acquisition puisqu’ils réfléchissent la lumière sur d’autres objets.

Figure 2.3.23 – Caméra temps de vol MESA SwissRanger 4000.

Des exemples de résultats ainsi qu’une application utilisant ce type de dispositif sont présentés au chapitre 3.

Avantages et inconvénients Avantages :

Ces caméras fournissent des informations 3D en temps réel.

Elles ne posent pas de problème pour les yeux.

C’est un système peu encombrant.

Inconvénients :

La précision spatiale est très faible et les résultats sont très bruités.

Des interférences apparaissent si plusieurs appareils sont utilisés rendant im- possible l’acquisition d’une tête complète.

Ces caméras sont également onéreuses. Il faut compter plus de 8000€ pour la MESA Swissranger 4000.

(42)

Scanner 3D par lumière structurée

Parfois confondus avec les caméras temps de vol, les scanners par lumière struc- turée utilisent un projecteur pour afficher des lignes, des grilles ou autres motifs lumineux sur l’objet à acquérir (figure 2.3.24). Des caméras sont placées à côté du projecteur. Dans les images, les motifs apparaissent déformés. Les coordonnées 3D sont calculées par triangulation.

Figure 2.3.24 – Pattern lumineux projeté par la Kinect [118].

On obtient un nuage de points 3D (figure 2.3.25), qui peut éventuellement conte- nir des informations de couleur si une caméra classique est adjointe au système, comme c’est le cas de la Kinect (figure 2.3.26) de Microsoft [2], initialement développée par la société PrimeSense.

Ces scanners ont également l’avantage d’être très rapides (30 images/seconde pour la Kinect) et sont actuellement plus précis que les caméras temps de vol.

Zhang et al. [92] présente un scanner de ce type capable de filmer en 3D texturée et en temps réel un visage avec une résolution de 532x500 points et un niveau de bruit très faible.

(43)

Figure 2.3.25 – Images obtenues à l’aide d’une Kinect (sans couleur).

Figure 2.3.26 – Kinect de Microsoft.

Des dispositifs beaucoup plus précis se basant sur ce système existent également.

Les caméras sont remplacées par des appareils photos, ce qui veut dire qu’il n’est plus possible d’obtenir un suivi en temps réel. Un projecteur émet un motif sur l’objet qui est photographié par deux appareils photos. Ces dispositifs peuvent également fournir la texture (figure 2.3.27). Un scanner de ce type sera utilisé dans la section 5.4.

Figure 2.3.27 – Résultat texturé

(44)

Avantages et inconvénients

Avantages :

Ces caméras sont plus précises et moins bruitées que les systèmes temps de vol.

Certains modèles fournissent également les données 3D en temps réel. Les autres sacrifient cette possibilité au profit d’une précision beaucoup plus grande.

Des points ou des parties du visage sont facilement identifiables manuellement.

On trouve des caméras de ce type à des prix grands publics.

Inconvénients :

Tous les systèmes, par exemple la Kinect, ne sont pas suffisamment précis pour les applications étudiées ici.

Le problème des interférences est toujours présent si l’on utilise plusieurs scan- ners. Il faut donc se contenter que d’un seul appareil et donc que d’une partie du visage.

Les modèles les plus précis sont plus onéreux que les premières modèles par triangulation laser. Ils restent cependant moins chers que les caméras temps de vol.

Autres

D’autres technologies existent mais ne rentrent pas dans le cadre du domaine d’application étudié. Parmi celles-ci on peut citer la résonance magnétique ainsi que tous les autres scanners médicaux. Plusieurs autres techniques d’acquisitions spécifiques à la localisation d’électrodes seront vus au chapitre 4.

2.4 Conclusion et résumé

Ce tour d’horizon des différentes techniques d’acquisitions montrent qu’il n’existe pas une technique absolue. Même en supposant un budget illimité, certains sys- tèmes sont beaucoup plus adaptés à un type de problème qu’un autre.

Le tableau 2.1 résume les caractéristiques des différentes techniques. On remar- quera qu’aucune méthode ne se distingue réellement dans le domaine de l’in- tégration : soit les marqueurs sont trop imposants (par exemple les marqueurs binaires), soit il y a des problèmes d’arrière-plan (approximation à l’aide d’un

(45)

octree), soit les contraintes sont trop importantes pour l’utilisateur (laser projeté dans les yeux).

On retiendra en particulier les méthodes des marqueurs réfléchissants pour lo- caliser des points particuliers, ainsi que les caméras temps de vol et les scanners par lumière structurée pour l’acquisition rapide d’un modèle 3D.

Précision Localisation en temps

réel

Identification Intégration Prix

Marqueurs de

couleurs + - ++ + +++

Marqueurs

binaires +(+)* ++ +++ - +(+)*

Marqueurs

réfléchissants ++ +++ + + -

Caméras sté-

réoscopiques - - ++ - - - +

Approximation à l’aide d’un octree

- + - - - +

Modélisation à l’aide de silhouettes

+ - - + -

Scanner 3D par

triangulation laser

++ - - - - - -

Caméras

temps de vol + ++ - + - -

Scanner 3D par lumière structurée

+(+)* ++ - + -

* Dépend du système utilisé.

Table2.1 – Résumé des caractéristiques des différentes techniques d’acquisition.

(46)

CHAPITRE 3

Contrôle du maintien

3.1 Introduction

Afin de pouvoir mettre en œuvre et comparer les différents types de techniques d’acquisition citées précédemment, nous avons développé une application dont le but est de contrôler la posture d’une personne et plus spécifiquement lorsque celle-ci travaille devant un ordinateur. Des messages d’information seront affichés en temps réel pour prévenir la personne si celle-ci adopte une posture inadaptée devant son écran.

Dans nos pays, 80% de la population souffre de mal de dos. Pour les nombreuses personnes qui passent beaucoup de temps assis au travail, ce système peut les aider à adopter une meilleure position de travail et éviter ainsi facilement des pathologies à la nuque ou au dos. Un exemple typique est celui des employés travaillant toute la journée devant leur ordinateur, souvent dans une position inadéquate et souffrant de douleurs à la nuque.

Ce système pourrait les informer d’une situation ergonomique plus appropriée en les avertissant s’ils restent dans une position dangereuse trop longtemps.

Un petit nombre de systèmes ayant pour but le contrôle du maintien existe, comme le Visomate de Homi (figure 3.1.1, [104]). Mais cet appareil se contente de contrôler la distance entre l’utilisateur et l’écran.

(47)

Figure 3.1.1 – Le Visomate [104].

D’autres recherches se focalisent plus sur les déformations de la colonne verté- brale et son contrôle à distance [28]. La posture du sujet est acquise à l’aide d’un 3D MADMAC [94], qui est un système d’acquisition à lumière structurée utilisant un projecteur et une caméra CCD. Les données sont ensuite transmises par réseau au praticien qui pourra les analyser a posteriori.

A côté des solutions optiques, des systèmes utilisant des techniques alternatives sont en cours de développement. Des capteurs inertiels contrôlent la posture et des vibreurs informent en temps réel l’utilisateur lorsque celui-ci s’écarte de la position idéale [4].

Ayant un but un peu différent, le système Ergo-Wide3 de Clarte [99] plonge l’utilisateur dans une reproduction virtuelle de son environnement de travail à l’aide d’une cave d’immersion (SASLAB, figure 3.1.2). Il peut reproduire ses mouvements habituels, qui sont analysés grâce à la combinaison qu’il porte. Les parties du corps qui souffrent le plus lors d’un mouvement lui sont indiquées en temps réel et il peut déplacer virtuellement des éléments de l’environnement afin d’obtenir une configuration optimale. Cependant, une fois la simulation termi- née, l’utilisateur n’a plus de retour sur les risques potentiels dus à un mauvais mouvement ou une posture inadéquate.

(48)

Figure 3.1.2 – Ergo-Wide3 de Clarte [99].

3.2 Conseils de sécurité lorsque l’on travaille en face d’un écran

Plusieurs exigences et conseils pour le travail en face d’un écran sont décrits dans la norme ISO9241-5 [86] (figure 3.2.1). Parmi ces points, on peut en mettre quelques-uns en évidence :

La colonne vertébrale doit être droite.

L’angle de vision idéal est de 35° et ne doit pas dépasser les 40°.

La distance entre les yeux de l’utilisateur et l’écran doit se situer entre 45 et 75 cm.

Figure 3.2.1 – Position correcte

(49)

La figure 3.2.2 indique la différence de pression sur la colonne. Dans une position correcte, il est possible de réduire l’effort de 25%. Cependant, rester uniquement dans cette position peut également être nocif pour les muscles du dos. Il faut idéalement détacher ses yeux de l’écran toutes les 15 minutes et fixer un objet lointain. Il faut donc contrôler la durée d’immobilité de l’utilisateur et au besoin le prévenir de soit bouger (toutes les 15 minutes), soit faire une pause (toutes les 2 heures).

Figure 3.2.2 – Pression sur la colonne vertébrale dans une bonne (gauche) et mauvaise (droite) position.

3.3 Description de l’application et choix des tech- niques d’acquisitions

On désire réaliser une application qui indique à un utilisateur travaillant en face d’un écran si sa posture est inadéquate. Cette application tournera en arrière- plan et indiquera par un signal sonore ou visuel (comme choisi ici) si un chan- gement de posture est conseillé.

Les erreurs de positionnement suivantes seront en particulier signalées à l’utili- sateur :

La colonne vertébrale n’est pas droite.

L’inclinaison de la tête n’est pas bonne.

L’utilisateur est trop près de l’écran.

(50)

L’utilisateur est dans la même position, même correcte, depuis trop longtemps (15 minutes pour la tête, 2 heures pour le corps).

Aucune restriction sur l’environnement n’a été imposée pour cette application.

Le système doit donc être suffisamment robuste pour fonctionner dans des condi- tions variables : changements de luminosité, modifications de l’arrière-plan, autres personnes traversant la salle, perturbations provoquées par un autre écran d’or- dinateur ou une télévision...

Parmi les techniques citées au chapitre 2, deux méthodes ont été retenues pour développer des versions différentes de cette application : l’une avec marqueurs et l’autre sans.

Les marqueurs réfléchissants ont été choisis par rapport aux autres par le fait qu’ils sont faciles à extraire dans un environnement bruité (figure 3.3.1), comme une scène d’intérieur. Des marqueurs sphériques de 1 cm de diamètre se sont révélés suffisants pour cette application.

La caméra temps de vol a été sélectionnée pour sa capacité à fournir des images 3D en temps réel. Elle a été également retenue grâce à la disponibilité de cette technologie au moment du développement de cette application. En effet, d’autres systèmes, utilisant le principe de lumière structurée comme la Kinect, n’exis- taient pas ou n’étaient pas encore accessibles.

Les deux prototypes ont été testés avec 10 personnes.

Figure 3.3.1 – Exemple de marqueurs réfléchissants utilisés dans un environne- ment non contrôlé.

(51)

3.4 Premier prototype : utilisation de deux web- cams infrarouges en stéréovision

3.4.1 Matériels

Dans cette version, le système est constitué de deux webcams et d’un bandeau frontal. L’utilisateur porte le bandeau qui est muni de trois marqueurs réfléchis- sants, des sphères d’1 cm de diamètre, positionnés selon un motif triangulaire (triangle équilatéral, côté : 5 cm ; figure 3.4.1). C’est uniquement sur base de ceux-ci que la posture de l’utilisateur sera déduite.

Les deux webcams1, distantes entre-elles de 18 cm, sont placées au-dessus de l’écran (figure 3.4.2) et des LEDs infrarouges (λ = 850 nm, schéma électrique représenté sur la figure 3.4.3) sont disposées tout autour des objectifs. Les axes optiques des caméras sont parallèles. Des filtres infrarouges remplacent les filtres de base qui ne laissent passer initialement que la lumière visible. Après ce chan- gement, seule la lumière infrarouge atteint le capteur. Au final, on obtient des images noires avec des zones blanches, correspondant aux marqueurs.

Figure 3.4.1 – Bandeau avec les trois marqueurs réfléchissants

1. Creative Webcam Live ! [100] : capteur CCD avec une résolution de 640x480 à 30 images/seconde

(52)

Figure 3.4.2 – Webcams infrarouges en stéréovision

Figure 3.4.3 – Schéma électrique des dispositifs d’éclairage infrarouge

3.4.2 Méthode

L’analyse de la posture se sépare en deux parties : la localisation des marqueurs et l’analyse de la posture proprement dite à l’aide de ces marqueurs.

(53)

3.4.2.1 Localisation des marqueurs

Localisation des potentiels marqueurs dans les images infrarouges

Plusieurs étapes de traitement sont nécessaires pour détecter correctement les marqueurs :

1. Seuillage de l’image.

2. Localisation des marqueurs potentiels dans l’image.

3. Calcul de la position 3D des candidats marqueurs localisés.

4. Détection du motif triangulaire.

Après un seuillage, un filtre médian (taille du noyau 7x7) est appliqué pour limi- ter le bruit, en particulier éliminer les pixels isolés. Les réflexions de la lumière naturelle sur certains objets métalliques peuvent ajouter des zones blanches, gê- nant la localisation des marqueurs. Les marqueurs sont déterminés parmi les candidats restants de la manière suivante en se basant sur les connaissances a priori :

Comme les marqueurs sont sphériques, on recherche tous les objets de forme circulaire (figure 3.4.4). Toutes les zones dont le rapport hauteur/largeur est inférieur à 1−delta ou supérieur à 1 +delta sont éliminées. Pour cette appli- cation, la valeur dedelta a été fixée à 0.2.

Les candidats dont l’aire est supérieure à 400 pixels sont également éliminés.

Il n’y a cependant pas de limite inférieure, un filtre médian ayant déjà été appliqué.

Finalement, le motif est utilisé pour éliminer les derniers candidats. Cette étape est réalisée après le calcul de la position 3D des candidats.

Références

Documents relatifs

Identifiant de l'observation ou de la mesure sur le milieu humide Date de début de l'observation ou de la mesure sur le milieu humide Heure du début de l'observation ou de la mesure

Des simulations avec fantˆomes num´eriques sont e ff ectu´ees pour ´evaluer la qualit´e de reconstruction de la m´ethode pr´esent´ee ici en fonction du nombre de lignes par trame n

● Utilisation de 2 sondes linéaires complémentaires d'une séquence cible - Une sonde marquée en 3' par un marqueur fluorescent, qui émet une fluorescence verte. - Une sonde

Ensuite, nous avons réalisé des mesures en temps réel de chaque système (luciole avec antenne à cavité céramique, trois antennes PIFAs et les deux antennes IFAs avec

Dans cette thèse nous cherchons à obtenir en temps réel des informations 3 D sur une scène et plus particulièrement sur un utilisateur interagissant avec une application finale..

Nombre d'agents dans cette file d'attente de précision qui sont à l'état Non prêt, un état où les agents sont connectés mais n'effectuent aucune activité de traitement d'appel et

• En ce qui concerne les données issues du canal Vianavigo, les horaires de passages à l’arrêt sont fournis en temps d’attente exprimés en minutes.

Estonie », la Grande Chambre de la Cour européenne des droits de l’homme a considéré que la condamnation d’un site de presse en ligne à raison de commentaires postés par