Ré-observabilité des points caractéristiques pour le calibrage et le positionnement d'un capteur multi-caméra

(1)

RÉ-OBSERVABILITÉ DES POINTS

CARACTÉRISTIQUES POUR LE CALIBRAGE ET

LE POSITIONNEMENT D’UN CAPTEUR

MULTI-CAMÉRA

Thèse présentée

à la Faculté des études supérieures de l’Université Laval dans le cadre du programme de doctorat en génie électrique

pour l’obtention du grade de Philosophiae Doctor (Ph.D.)

Faculté des Sciences et Génies UNIVERSITÉ LAVAL

QUÉBEC

2011

c

(2)

Le calibrage et le positionnement de caméras reposent sur l’extraction de caracté-ristiques dans l’image et leur reconnaissance dans les images subséquentes. Une carac-téristique est une région de l’image localement saillante à laquelle sont associées une position et une description de l’apparence de cette région.

Les algorithmes de calibrage et de positionnement reposent sur l’hypothèse qu’un ensemble de caractéristiques correspondantes est l’observation du même point physique de la scène. Toutefois, cette hypothèse n’est pas nécessairement respectée par toutes les caractéristiques correspondantes. Les causes de la présence de ces caractéristiques nui-sibles sont multiples, allant de biais induits par la méthode de localisation dans l’image, jusqu’à la déformation de l’image lorsque la caméra change de point de vue. Le princi-pal défi du calibrage et du positionnement est donc l’identification de caractéristiques fiables.

Pour pallier ce problème, nous introduisons le concept de ré-observabilité d’une ca-ractéristique. Ce concept regroupe l’unicité du point physique et la reconnaissance. Un point de la scène est défini par ses observations dans les images et par les poses associées à ces images. Ainsi, une caractéristique doit être localisée le plus précisément possible dans l’image. Pour ce faire, nous avons identifié les biais affectant la localisation des caractéristiques dans l’image en calibrage pour une scène contrôlée et en positionne-ment où le capteur évolue dans une scène inconnue. Pour chaque biais, nous proposons une solution simple permettant de réduire, voire éliminer le biais. Ceci a mené au dé-veloppement de nouveaux détecteurs de caractéristiques. Ensuite, à partir de plusieurs images, nous évaluons la cohérence entre les observations et les poses de la caméra à l’aide de critères multi-vue. Les caractéristiques nuisibles peuvent alors être identifiées. L’aspect reconnaissance est traité en évaluant la distinction des caractéristiques qui peuvent être distinctes localement ou globalement dans la scène. Une application directe de ce concept concerne la visibilité des caractéristiques où l’observation d’une carac-téristique distincte globalement renforce la probabilité d’observer une caraccarac-téristique

(3)

distincte localement si elles ont été observées conjointement. Chacun des concepts de la ré-observabilité est appuyé par une application réelle de calibrage et de positionnement d’un capteur multi-caméra.

(4)

Résumé ii

Table des matières iv

Table des figures vi

1 Introduction 2

1.1 Ré-observabilité . . . 7

1.2 Plan de la thèse . . . 14

2 Ré-observabilité appliquée au calibrage 16 2.1 Marqueurs et biais . . . 17

2.1.1 Jonctions : biais et détection . . . 20

2.1.2 Ellipses : biais et détection . . . 38

2.1.3 Comparaison de la précision des marqueurs . . . 54

2.2 Reconnaissance . . . 66

2.2.1 Invariant projectif . . . 67

2.2.2 Reconnaissance à partir d’invariants projectifs . . . 69

2.2.3 Exploration de la cible . . . 70

2.2.4 Validation expérimentale . . . 70

2.3 Conclusion . . . 74

3 Ré-observabilité appliquée au positionnement 75 3.1 Marqueurs naturels . . . 76

3.1.1 Répétabilité . . . 80

3.1.2 Localisation . . . 82

3.2 Marqueurs artificiels . . . 85

3.2.1 De la fonction LoG au rayon d’une région . . . 87

3.2.2 Estimation itérative de l’ellipse duale . . . 88

3.3 Reconnaissance . . . 93

3.3.1 Invariance du descripteur . . . 93

(5)

3.3.3 Stabilité des descripteurs par rapport aux changements de point de vue . . . 96 3.4 Conclusion . . . 99 4 Applications 100 4.1 Calibrage . . . 100 4.1.1 Calibrage mono-caméra . . . 101

4.1.2 Calibrage d’un capteur multi-caméra . . . 112

4.1.3 Calibrage d’un capteur à lumière structurée . . . 124

4.1.4 Conclusion . . . 137

4.2 Positionnement . . . 138

4.2.1 Reconnaissance et pose relative . . . 141

4.2.2 Cartographie . . . 150

4.2.3 Évaluation multi-vue . . . 153

4.2.4 Relocalisation . . . 159

4.2.5 Intégration des concepts . . . 160

4.2.7 Conclusion et discussion . . . 177

5 Conclusion 181 5.1 Rétrospective : survol des contributions . . . 181

5.2 Prospective : réflexions et travaux à poursuivre . . . 185

5.2.1 Qualité d’un point . . . 185

5.2.2 Incertitude . . . 186

5.2.3 Travaux futurs . . . 186

(6)

1.1 Exemples d’applications en vision numérique . . . 2

1.2 Le calibrage de la caméra consiste à retrouver la relation . . . 3

1.3 Une caractéristique virtuelle . . . 5

1.4 La reconnaissance d’une caractéristique non distincte . . . 8

1.5 Ré-observabilité d’un point physique (simulation) . . . 9

1.6 Les caractéristiques extraites par le détecteur de Harris . . . 10

1.7 Suivi du glissement d’une caractéristique . . . 11

1.8 Suivi du glissement d’une caractéristique virtuelle . . . 13

2.1 Les trois types de marqueur utilisés en calibrage de caméra . . . 17

2.2 Ré-observabilité d’une jonction sous deux points de vue différents . . . 18

2.3 Un cercle observé de deux points de vue différents . . . 19

2.4 L’interpolation parabolique . . . 21

2.5 La réponse de l’opérateur Harris sur une jonction-X . . . 22

2.6 Biais de localisation causé par l’échelle d’intégration . . . 23

2.7 Droites définies par le gradient près d’une jonction . . . 24

2.8 Évaluation du gradient de l’image . . . 25

2.9 Repondération du gradient pour réduire le biais près de la jonction . . 26

2.10 Réduction du biais dans l’estimation du gradient . . . 27

2.11 Biais introduit par le poids gaussien en 1D . . . 28

2.12 Localisation d’un coin en utilisant l’opérateur de Forstner . . . 28

2.13 L’opérateur ASN identifie les pôles et leur région de support . . . 30

2.14 Distance entre la jonction réelle et le point détecté . . . 31

2.15 Les coefficients d’une interpolation bilinéaire selon la position du point 33 2.16 Jonctions et régions de support obtenues avec l’opérateur ASN . . . 36

2.17 Les trois étapes principales de l’estimation d’une ellipse . . . 38

2.18 Les droites parallèles au gradient du contour d’un cercle . . . 40

2.19 Image d’une cible de calibrage avec marqueurs circulaires . . . 41

2.20 Estimer une ellipse duale à partir d’une région . . . 42

2.21 Erreur algébrique dans l’espace dual . . . 45

2.22 Analyse du biais de l’erreur algébrique des ellipses . . . 46

(7)

2.24 Procédure pour identifier la région EDO . . . 48

2.25 Déplacement du centre dû à des variations d’éclairage . . . 51

2.26 Région contribuant à l’estimation de l’ellipse . . . 52

2.27 Erreur de localisation de l’ellipse par rapport à la région d’estimation . 53 2.28 Erreur de localisation vs échelle et position . . . 56

2.29 Erreur en fonction de la taille de la région d’estimation . . . 57

2.30 Erreur de localisation par rapport au flou en fonction du bruit . . . 59

2.31 Erreur de localisation en présence de distorsion radiale . . . 61

2.32 Biais de localisation d’un cercle en présence de distorsion radiale . . . . 63

2.33 Erreur de localisation de l’opérateur EPO . . . 64

2.34 Cible de calibrage précise . . . 66

2.35 Exemple de correspondance entre l’image et la cible . . . 72

2.36 Première et seconde distance minimale entre les invariants . . . 73

3.1 L’opérateur SIFT . . . 77

3.2 Dans l’approche SURF . . . 78

3.3 Positions de la caméra virtuelle pendant l’acquisition des images (plan) 81 3.4 Répétabilité en fonction du changement de point de vue . . . 82

3.5 Histogrammes montrant le déplacement maximum . . . 83

3.6 L’ajout de marqueurs artificiels dans une scène . . . 85

3.7 La fonction gaussienne et ses dérivées . . . 87

3.8 Régions détectées par la fonction LoG . . . 88

3.9 Estimation itérative d’une ellipse à partir d’une région circulaire . . . . 89

3.10 Estimation itérative d’ellipses dans une image réelle . . . 91

3.11 Le descripteur SIFT . . . 94

3.12 Montage virtuel permettant d’évaluer les descripteurs . . . 96

3.13 Nombre de caractéristiques locales et globales correctement appariées . 97 3.14 Dégradation du descripteur SIFT et SURF . . . 98

4.1 Représentation physique d’une caméra . . . 101

4.2 Correction de la distorsion pour le cas d’une ellipse . . . 106

4.3 Positions de la caméra pour le calibrage mono-caméra . . . 108

4.4 Évolution de l’écart-type et de l’incertitude des paramètres intrinsèques 109 4.5 Incertitude sur la pose de la première image . . . 110

4.6 Modèle d’un capteur multi-caméra . . . 112

4.7 Évolution de l’écart-type et de l’incertitude de la pose relative . . . 115

4.8 Le capteur multi-caméra 3DLS développé au LVSN . . . 117

4.9 (Cas 1) Positions du capteur . . . 117

4.10 (Cas 1) Vecteurs moyens de l’erreur résiduelle . . . 118

4.11 (Cas 1) Erreur épipolaire moyenne de chaque paire d’images . . . 119

(8)

4.13 Déplacement de marqueurs induit par une rotation . . . 120

4.14 (Cas 2) Vecteurs moyens de l’erreur résiduelle . . . 121

4.15 (Cas 2) Les 34 poses du capteur obtenues après le calibrage . . . 121

4.16 (Cas 2) Erreur épipolaire moyenne de chaque paire d’images . . . 122

4.17 (Cas 2) Combinaison de 34 reconstructions d’un plan . . . 122

4.18 La caméra est calibrée à partir d’une cible plane . . . 124

4.19 Patron de la cible de calibrage . . . 128

4.20 Acquisition des données (1/3) . . . 129

4.23 Deux points de vue de la cible de calibrage . . . 133

4.24 Vecteurs moyens de l’erreur résiduelle (SLS) . . . 134

4.25 Amplitude de la distorsion radiale (SLS) . . . 134

4.26 La surface reconstruite d’un plan (SLS) . . . 135

4.27 Reconstruction 3D d’un objet connu (SLS) . . . 136

4.28 Deux modèles de caméra . . . 140

4.29 Description de la pose d’un capteur stéréo . . . 144

4.30 Poses de la caméra servant à la validation . . . 155

4.31 Observations du point (critère MVM) . . . 156

4.32 Les neuf poses du capteur observant une scène plane . . . 164

4.33 Les poses du capteur utilisées pour générer la séquence d’images . . . . 165

4.34 Carte de la scène construite pendant le positionnement (plan) . . . 166

4.35 Erreur sur le plan et nombre d’observation . . . 166

4.36 Les 40 poses du capteur virtuel (sphère) . . . 167

4.37 Les poses estimées (sphère) . . . 168

4.38 Histogramme du nombre d’observations des points du modèle (sphère) . 169 4.39 Progression de l’exploration de la scène (sphère) . . . 170

4.40 Le plateau du capteur 3DLS . . . 171

4.41 Les 41 poses du capteur 3DLS . . . 173

4.42 Nombre d’observations des points du modèle (3DLS) . . . 174

4.43 Caractéristiques détectées (3DLS) . . . 175

4.44 Les marqueurs circulaires du plateau du capteur 3DLS . . . 178 4.45 Les groupes de trois marqueurs circulaires du plateau du capteur 3DLS 178

(9)

Introduction

La vision numérique se définit comme l’interprétation d’images par l’ordinateur. Le domaine d’application est vaste et un sous-domaine particulièrement intéressant est la photogrammétrie. Ici, la caméra devient un outil de mesure qui sert, par exemple, à mesurer la surface d’un objet en 3D (architecture, contrôle de qualité), assembler des photos (cartographie aériennes, photo-panorama), en réalité augmentée (effets spéciaux au cinéma, jeux vidéo), etc. Des exemples sont illustrés à la Fig.1.1.

Durant les 10 dernières années, il y a eu un progrès considérable en photogrammétrie. La caméra numérique s’est progressivement transformée en un outil flexible et "utili-sable" hors des laboratoires. Ce sont des travaux pionniers tels que la reconstruction 3D à partir d’une caméra en main de Pollefeys [1], ou encore le système de positionnement en temps réel de Davison [6], qui ont poussé la recherche. Parallèlement, le chercheur canadien D.Lowe a publié en 1999 un article clé sur la détection et l’appariement de caractéristiques image[7, 8] : le SIFT (Scale Invariant Feature Transform). Cette publi-cation est encore la référence en détection et appariement 10 ans plus tard. Les idées qui y sont présentées ont grandement simplifié le problème de correspondance entre images ont permis à des chercheurs provenant de domaines connexes, comme la reconnaissance

(a) (b) (c) (d) (e)

Figure 1.1 – Exemples d’applications en vision numérique. a) Reconstruction 3D à partir d’une caméra en main [1]. b) Inspection industrielle avec le capteur laser Keyence [2]. c) Cartographie aérienne [3]. d) Effets spéciaux au cinéma [4]. e) Réalité augmentée interactive avec les cartes de baseball Topps [5].

(10)

? ? (a) ? (b) ? (c)

Figure1.2 – a) Le calibrage de la caméra consiste à retrouver la relation entre les pixels de l’image et la scène, incluant la pose de la caméra par rapport à la scène. b) La pose absolue de la caméra est retrouvée par les contraintes provenant de l’intersection entre les rayons projecteurs associés aux points observés dans l’image et leurs correspondants 3D. c) La pose relative entre deux points de vue est retrouvée par les contraintes prove-nant de l’intersection des rayons projecteurs associés aux points correspondants entre les images.

et la classification, d’utiliser la caméra numérique comme source de données [9, 10]. Dans plusieurs applications, dont celles illustrées à la Fig.1.1, l’estimation de la pose1

de la caméra est particulièrement importante : elle permet de combiner l’infor-mation extraite de plusieurs images. La première description de l’estil’infor-mation de pose à partir d’images remonte en 1841 dans les travaux du chercheur allemand J.A. Grunert [11] sur la "ressection spatiale". Des points images étaient alors identifiés et mis en correspondance manuellement entre les photographies. C’est en 1980, lorsque la vision numérique a fait ses véritables débuts, que les algorithmes d’extraction et de calcul au-tomatique de pose ont commencé à apparaître [12]. Il est maintenant possible de traiter des milliers d’images avec une intervention minimale de l’usager, une chose impossible auparavant.

L’approche la plus simple pour obtenir la pose d’une caméra est à partir de points correspondants entre l’image et la scène. Pour l’instant, considérons un point image comme une position dans l’image en 2D (x, y) ou encore un point dans la scène décrit par les coordonnées 3D (x, y, z). Lorsque la scène est connue, la configuration des points dans l’image ne peut être observée que d’une position et orientation bien précise de la caméra ; on peut ainsi retrouver la pose absolue de la caméra, voir Fig.1.2(b). Lorsque la scène est inconnue, le changement de configuration de points image correspondants entre deux images permet de retrouver simultanément la pose relative entre les deux points de vue et les positions des points observés par rapport aux caméras [13]. La Fig.1.2(c)illustre ce problème. Lorsque plus de deux images sont disponibles, la caméra découvre la scène de façon incrémentale avec chaque nouvelle image.

Obtenir la pose de la caméra cache un sous-problème fondamental : le calibrage

(11)

de la caméra. Le calibrage consiste à établir les paramètres d’un modèle décrivant la relation mathématique entre les pixels de l’image 2D et les coordonnées 3D d’une scène connue, comme l’illustre la Fig.1.2(a). Une fois la caméra calibrée, chaque point de l’image devient un vecteur dans l’espace de la scène, appelé un rayon projecteur. La Fig.1.2(b)montre cinq segments de droite correspondant aux rayons projecteurs associés aux points image. On sous-estime souvent l’importance du calibrage. En effet, le calcul de pose repose sur des contraintes mathématiques établies à partir de l’intersection des rayons projecteurs avec les points 3D de la scène dans le cas de la pose absolue (Fig.1.2(b)), ou encore de l’intersection des rayons projecteurs émanant de points ré-observés entre deux images pour le cas de la pose relative (Fig.1.2(c)). Une erreur dans les paramètres de calibrage fait en sorte que la direction du rayon projecteur est erronée. Cette erreur se propage directement dans le calcul de pose.

L’aspect critique du calibrage et du positionnement devient maintenant clair : les points images, qui sont à la base de ces applications, devront être de grande qualité. Avant de définir ce qu’est un point de grande qualité, nous devons définir ce qu’est un point. Un point est en fait une position précise où l’on peut observer une caractéris-tique de la scène imagée. Cette caractériscaractéris-tique devra être distincte et répétable dans le sens où on pourra l’observer dans d’autres images. Généralement, une caractéristique correspond à une structure de la scène dont l’apparence est localement distincte : par exemple, la jonction des arêtes d’un carré, ou encore le centre d’un disque contrasté. L’aspect sémantique de la scène est inconnu pour l’ordinateur. Dans ce cas, observer une caractéristique revient d’abord à évaluer la salliance locale de l’image I dans le voisinage de chaque pixel x à l’aide d’une fonction f(I(x)), pour ensuite identifier les positions u où cette fonction est maximale :

f (I(x)) → u. (1.1)

Ainsi, la caractéristique est associée à un ensemble de pixels distincts. Plusieurs fonctions f(I(x)) permettant d’évaluer la saillance ont été proposées dans la littérature. Pour l’instant, laissons de coté en quoi cette fonction consiste pour nous concentrer sur les qualités que devra avoir une caractéristique.

Dans l’image, on voudra que la position détectée soit précise, stable face au bruit et surtout non biaisée. La détection est généralement suivie d’une étape de localisa-tion précise pour connaître la posilocalisa-tion de la caractéristique à l’intérieur même du pixel. Pendant cette étape de raffinement, l’incertitude sur la position peut aussi être évaluée. L’incertitude permet de qualifier la précision en fonction des bruits pouvant dégrader l’image (flou, distorsion, gain trop élevé, etc). Toutefois, comme nous le verrons dans la prochaine section, même si elle est précise, la localisation n’est pas toujours fiable : elle peut être biaisée. Ce biais, imputable à la fonction utilisée pour observer la caractéris-tique, nuit à l’application exploitant les caractéristiques. Dans ce cas, l’incertitude ne permet pas de détecter ce problème, car elle qualifie la précision et non l’exactitude de

(12)

(a) (b)

Figure1.3 – a) Une caractéristique virtuelle ne correspond pas à une structure réelle de l’image. b) En s’adaptant à la structure de l’image, l’opérateur ASN [14] s’adapte au contenu de l’image et peut arriver à éviter ces caractéristiques virtuelles.

la localisation. De plus, l’interaction entre les structures connexes de l’image peut aussi créer de fausses caractéristiques, situé à cheval sur deux structures, tel que montré sur la Fig.1.3(a). Ces fausses caractéristiques sont généralement observées aux frontières de deux objets situés à des distances différentes de la caméra. Elles n’existent dans l’image que pour un point de vue particulier, mais n’existent pas dans la scène : elles sont créées par la fonction de détection. Dans cette situation, il serait aussi avantageux que l’opérateur de détection-estimation s’adapte au contenu de l’image afin d’éviter ces intéractions [14]. Ainsi, il pourrait identifier correctement les caractéristiques présentes (Fig.1.3(b) ). Si une fausse caractéristique est tout de même détectée, un système de positionnement devra être en mesure d’évaluer la fiabilité à partir de plusieurs images. Pour plusieurs images, on souhaitera que les caractéristiques image correspondent à la projection du même point physique de la scène. Cet hypothèse d’un même point physique est supposée par tous les algorithmes de calibrage et de positionnement. La véracité de cet énoncé est impossible à évaluer à partir d’une seule image. Contraire-ment à ce qui est généraleContraire-ment admis, ce n’est pas toujours le cas. Un biais dans la localisation explique partiellement pourquoi on n’observe pas nécessairement le même point physique. La seconde partie de l’explication réside dans la structure de la scène ayant permis l’observation d’une caractéristique. Lorsque projetés dans l’image, les ob-jets à différentes profondeurs se superposent et leurs interactions donnent naissance à des caractéristiques virtuelles. La position de ce type de caractéristique est instable selon le point de vue, car les objets, situés à différentes profondeurs, ne se déplacent pas de la même façon dans l’image lorsque le point de vue change. Dans cette situation, la seconde apparition d’une caractéristique virtuelle risque fort de ne pas correspondre à la même intersection dans la scène. Par exemple, les trois caractéristiques montrées à la Fig.1.3 ne seraient pas ré-observables étant donné que le point physique variera selon le point de vue. Dans cette situation, un critère multi-vue évaluant la cohérence entre l’ensemble des observations d’une caractéristique et les poses de la caméra per-met d’identifier ces faux points. Ce critère multi-vue est présenté dans la section 4.2.

(13)

L’aspect multi-vue est important et nous y reviendrons tout au long de la thèse. Nous avons énoncé quelques-unes des principales qualités que l’on souhaite d’une caractéristique. Ces qualités sont les propriétés définissant la ré-observabilité d’une ca-ractéristique. Les implications de la ré-observabilité sont différentes selon l’application étudiée. En calibrage, la scène est en fait une cible fabriquée selon un modèle précis. La position absolue des marqueurs sur la la cible est considérée exacte et ces derniers sont donc fiables. Pour s’en assurer, une cible spéciale a été manufacturée : les marqueurs de la cible sont constitués de dépôts de chrome sur une plaque de verre "opal" dont la position est connue à une précision supérieure à 10µm. L’erreur dans la position des marqueurs est si faible que la caméra ne peut pas l’observer. Malgré cette grande précision, la fonction d’observation ainsi que le bruit de l’image peuvent nuire, voire biaiser la localisation du marqueur et conséquemment le calibrage en entier. Comme la scène est contrôlée, le type de marqueur à localiser est prédéterminé, mais encore faudra-t-il le déterminer : des cercles, un patron de damiers ou encore des carrés ? Le défi du calibrage sera donc d’identifier et éliminer les biais qui affectent la localisation des marqueurs pour ensuite déterminer quels marqueurs utiliser.

En comparaison, le positionnement2

est un problème significativement plus com-plexe que le calibrage. Les biais de localisation qui affectent le calibrage affectent aussi le positionnement. Toutefois, contrairement au calibrage, les caractéristiques qui peuvent être observées ne sont pas nécessairement ré-observables. Le capteur peut rencontrer des points virtuels qui ne sont visibles que sous certains points de vue, la structure ayant permis l’observation d’une caractéristique peut se déformer de façon imprévisible pendant le déplacement de la caméra, la localisation peut être biaisée, etc. Il est donc primordial d’identifier les caractéristiques les plus fiables dans l’image, et ensuite évaluer leur fiabilité à l’aide de plusieurs points de vue.

Pour simplifier la recherche de caractéristiques fiables, il a longtemps été suggéré d’ajouter des marqueurs contrastés à la scène tels que des disques blancs ou noirs, comme on fait en calibrage. C’est d’ailleurs la norme en industrie. Il est aussi pos-sible de projeter des caractéristiques à l’aide d’un projecteur à lumière cohérente3

(ou non-cohérente). Pour augmenter la flexibilité de l’application et éviter de modifier la scène, on privilégie les caractéristiques naturellement présentes dans la scène. Toutefois, lorsque les caractéristiques naturelles sont insuffisantes ou simplement absentes, il est inévitable d’ajouter des marqueurs. Dans ce cas, le capteur devra être en mesure de les identifier simultanément aux caractéristiques naturelles. Le chapitre3traitera ces deux problèmes.

La thèse proposée ici s’intéresse aux qualités que devra avoir une caractéristique pour être ré-observable. Ce concept est décrit dans la prochaine section. Nous verrons que la ré-observabilité comprend deux aspects, soit un aspect géométrique lié à la

corres-2. calcul de la pose 3. LASER

(14)

pondance entre le point physique et ses observations dans l’image, mais aussi un aspect de reconnaissance. En effet, une caractéristique localisée précisément dans l’image, mais impossible à reconnaître sous des points de vue différents n’est pas d’une grande utilité.

1.1 Ré-observabilité

La ré-observabilité est un concept clé qui comporte deux aspects fondamentaux : la reconnaissance de la caractéristique et l’unicité du point physique. Pour illustrer le premier concept, supposons que l’on dispose d’une fonction f(x) qui permet d’extraire un ensemble de caractéristiques d’une image (Eq.1.1). Reconnaître une caractéristique consiste à identifier cette caractéristique extraite d’une première image ai ∈ A parmi

un ensemble de caractéristiques provenant d’une autre image bi ∈ B. Pour ce faire, un

opérateur de comparaison que nous appellerons CMP (ai, bj) ≥ 0, est utilisé (la valeur

retournée sera donc une valeur absolue ou élevée au carré). Cet opérateur peut comparer directement les pixels de l’image autour des caractéristiques, ou encore comparer la topologie des caractéristiques, i.e. l’organisation spatiale, pour déduire indirectement la correspondance.

Une approche simple et très utilisée pour identifier deux caractéristiques corres-pondantes est de conserver la paire (ai, bj) pour laquelle la comparaison indique une

différence minimale et sous un seuil absolu ǫ :

ai ↔ bj →

(

CMP(ai, bj) < ǫ

CMP(ai, bj) < CMP(ai, bk) ∀ bk ∈ B | j 6= k

(1.2)

En pratique, cette méthode est peu efficace, car la proximité entre les candidats entraîne un grand nombre d’appariements erronés. Ces derniers peuvent être plus nombreux que les appariements corrects. Pour visualiser le problème, l’algorithme de détection SIFT [8] a été appliqué sur deux images prises de points de vue différents. En plus de retourner des points, SIFT retourne un descripteur orienté invariant à l’échelle de l’image. Ainsi, le descripteur d’un point reste similaire pour un changement de point de vue limité. La Fig.1.4 montre deux cas réels de tentative de recherche de correspondances. Chaque ligne montre un cas où le premier icône sur la gauche montre une caractéristique extraite d’une première image les icônes à sa droite sont les correspondants possibles extraits d’une seconde image. Les régions extraites ont été réorientées pour montrer la similarité. Évidemment, le nombre de mauvais appariements sera réduit si le seuil de comparaison est plus sévère. Toutefois, comme le descripteur est affecté par le changement de point de vue, nous risquons d’éliminer les bonnes correspondances. Une solution tout aussi simple, mais très efficace, est de prendre en compte l’ambiguïté d’une correspondance :

ai ↔ bj →

(

CMP(ai, bj) < ǫ

CMP(ai, bj) < α · CMP(ai, bk) ∀bk ∈ B | j 6= k

(15)

(a)

(b)

Figure1.4 – La reconnaissance d’une caractéristique non distincte. Pour chaque ligne, le premier icône sur la gauche montre une caractéristique extraite d’une première image les icônes à sa droite sont les correspondants possibles extraits d’une seconde image. Les régions extraites ont été réorientées pour montrer la similarité. La ressemblance entre les régions associées aux caractéristiques rend la correspondance ambiguë et résulte en de faux appariements, malgré un seuil de comparaison sévère sur l’Eq.1.2 utilisé pour la reconnaissance.

L’ajout du seuil relatif α4

élimine les cas ambigus où deux caractéristiques sont très semblables, mais où une seconde possibilité de correspondance rend la décision risquée. On évalue ainsi la distinction globale de la caractéristique. En effet, une caractéristique respectant cette condition se distingue des autres. Avec ce critère, le seuil absolu de comparaison peut être relaxé, sans que le nombre de mauvais appariements n’augmente significativement. Évidemment, ces appariements doivent ensuite être validés.

Généralement, un ensemble d’appariements est validé en renforçant la relation géo-métrique entre les images [15]. La relation géométrique utilisée est en fait la géométrie épipolaire. À partir d’un point d’une première image, la géométrie épipolaire détermine une droite, la droite épipolaire, sur laquelle doit se trouver son correspondant dans une seconde image [16]. L’estimation de la relation géométrique est réalisée à partir d’un nombre minimal de correspondances afin de diminuer le risque d’inclure une correspon-dance invalide dans l’estimation. Comme de nombreuses corresponcorrespon-dances sont établies, l’estimation est réalisée à l’intérieur d’un algorithme robuste de type RANSAC [12]. Cet algorithme tire sa robustesse du fait que l’estimation est répétée plusieurs fois à partir d’ensembles de correspondances choisies aléatoirement. La relation géométrique ayant validé le plus grand nombre de correspondances est conservée.

Il est aussi possible de tenter d’établir de nouvelles correspondances en exploitant la

(16)

Figure 1.5 – Ré-observabilité d’un point physique X associé à une caractéristique ui et au centre de projection de la caméra Ci, tel que défini par l’Eq.1.4. Lorsque la

caméra se déplace à la position Cj, on dit que la caractéristique est ré-observable si le

rayon projecteur associé à sa nouvelle observation uj croise le même point physique X.

Dans le schéma, u′

j n’est donc pas une nouvelle observation de X.

relation géométrique obtenue. Le nombre de candidats correspondant à une caractéris-tique est considérablement réduit si la recherche est faite le long de la droite épipolaire. Dans ce cas, les correspondances ainsi obtenues sont considérées comme distinctes lo-calement. Ce concept de distinction locale et globale est un aspect important de la ré-observabilité. Nous verrons plus loin qu’il permet de déterminer la visibilité d’une caractéristique lorsque la caméra revisite une région de la scène.

Cette étape de validation ne permet pas de déterminer si les correspondances sont les observations du même point physique. Ce concept, que nous appelons l’unicité du point physique, est le second aspect de la ré-observabilité que nous avons défini comme suit :

Une caractéristique est ré-observée sous plusieurs points de vue si tous les rayons passant par les coordonnées images f(x) → ui de la caractéristique

et le centre de projection Ci de la caméra associé à cette vue, se confondent

en un seul point physique :

Ci+ λiui = X ∀ i. (1.4)

Dans cette définition, le facteur λi est unique pour chaque image. La Fig.1.5illustre

les interprétations de cette équation. Ainsi, nous pourrons atteindre le point 3D X en multipliant le rayon projecteur associé au point image ui par un facteur λi, idem pour

le point uj. Toutefois, un biais dans la localisation qui résulterait en l’observation du

point u′

j empêcherait de rejoindre X : le point n’est donc pas ré-observé. Cette

défini-tion peut aussi tenir compte de l’erreur de localisadéfini-tion dans l’image causée notamment par le bruit. On peut expliciter l’erreur de localisation en interprétant l’équation 1.4 différemment : en supposant observer un point physique unique, l’erreur dans l’image vǫ

est ajoutée au point idéal ui afin d’obtenir le point observé bui = ui+ vǫ. C’est d’ailleurs

(17)

(a) (b) (c) (d) (e)

Figure1.6 – a) Les caractéristiques extraites par le détecteur de Harris [23], montrées en bleu, ne correspondent pas aux intersections des arêtes du rectangle qui sont tracées en blanc. Les images en (b), (c), (d) et (e) sont des agrandissements de l’image en (a). [17] et de calibrage [18, 19,20].

Dans ce contexte, nous serions tentés de qualifier le point physique associé aux ob-servations. Idéalement, si on fait abstraction du bruit, la combinaison de toutes les intersections de deux rayons projecteurs d’une caractéristique observée dans plusieurs images produirait un seul point X. Dans un contexte réel, où le bruit et la discrétisa-tion de l’image perturbent l’extracdiscrétisa-tion des caractéristiques, les rayons projecteurs ne se croisent pas exactement : ils forment un nuage de points. Dans ce cas, il a été dé-montré par Hartley[21], et ensuite par Stewénius [22], que le problème de ressection à partir de deux et trois vues comporte plusieurs solutions possibles. En fait, l’analyse de Stewénius a montré qu’il y a 47 solutions au problème de ressection à partir de trois vues, dont une seule est optimale. L’analyse du point 3D associé aux observations d’une caractéristique est donc relativement complexe. Toutefois, on remarque que la position 3D d’une caractéristique est une information redondante : une caractéristique est entièrement définie par ses observations et les poses de la caméra. Cette remarque est importante puisqu’elle servira de base pour évaluer la ré-observabilité d’un point selon plusieurs points de vue sans interpréter directement sa réalisation dans la scène. Ainsi, un point de la scène est ré-observable si ses observations sont cohérentes avec les poses de la caméra.

Plusieurs facteurs, dont le bruit et la fonction d’observation, peuvent nuire à la ré-observabilité d’un point. Ce biais peut aussi être causé par un changement de point de vue. L’exemple le plus simple de biais dans l’image est visible lors de la localisation du coin d’un rectangle. Dans la Fig.1.6, les quatre droites tracées en noir forment un rectangle et sont utilisées pour générer une image de sorte que la valeur d’intensité d’un pixel est proportionnelle à son aire à l’intérieur du rectangle. On peut alors évaluer le biais en comparant les positions des jonctions détectées avec celles utilisées pour générer l’image. Le détecteur utilisé dans ce cas-ci est celui de Harris [23]. On remarque que la localisation est systématiquement biaisée vers l’intérieur du coin. Ce biais systématique varie selon l’angle d’ouverture du coin et même selon la taille de la région utilisée pour calculer la réponse de l’opérateur. Le chapitre2présente une analyse détaillée des causes

(18)

(a) (b)

Figure 1.7 – Suivi du glissement d’une caractéristique image selon le point de vue. a) Des caractéristiques SIFT sont détectées et appariées dans une séquence d’images acquise le long de la trajectoire montrée. b) Les caractéristiques sont re-projetées sur la scène plane. La couleur du point correspond à la position de la caméra le long de la trajectoire.

de ce biais ainsi que des solutions pour l’éliminer.

Un second exemple de biais, cette fois attribuable au changement de point de vue, est illustré par la Fig.1.7. Dans cette simulation, une caméra observe une scène plane en se déplaçant le long d’une trajectoire en arc donnée par la courbe variant du rouge au jaune. La scène plane est composée d’une texture plaquée sur le plan Z = 0, voir Fig.1.7(a). Pour chaque image de la séquence, un ensemble de caractéristiques SIFT [8] est détecté puis apparié. On dispose donc de plusieurs observations d’une même caractéristique selon différents points de vue. Les observations de deux caractéristiques sont montrées dans la partie droite de la figure. Il s’agit d’un agrandissement de la scène où ont été tracés les points d’intersection entre les rayons projecteurs des caractéristiques images et le plan de la scène. La couleur d’un point correspond à la position de la caméra le long de la trajectoire. Dans la Fig.1.7(b), l’amas de gauche (1), forme une droite montrant un glissement systématique de la position pendant le déplacement de la caméra. Dans ce cas, l’extraction du point est perturbée par la déformation de la structure de l’image. Ce problème sera étudié dans le chapitre 3 traitant du positionnement. Une question intéressante qui sera étudiée est pourquoi l’amas de droite (2) est moins affecté.

Un glissement peut aussi se produire dans un cas idéal où la déformation projective de l’image n’est pas en cause. Lorsqu’une scène présente des discontinuités de pro-fondeur, une caractéristique située sur la frontière des discontinuités peut glisser. Les caractéristiques détectées par l’opérateur de Harris-Forstner [23, 24] sont situées aux jonctions des arêtes de l’image et sont donc particulièrement sensibles à ce problème. Les arêtes sont en fait des variations rapides des niveaux d’intensités de l’image. Elles sont créées par une discontinuité de texture ou encore à la frontière des objets. La Fig.1.8 illustre cette situation. Dans cette simulation, la caméra observe une scène constituée de deux plans superposés qui sont illustrés sur 1.8(a). L’image sur la Fig.1.8(b) est

(19)

la première image de la séquence. L’opérateur de Forstner a été utilisé pour détecter les caractéristiques de chaque image. Deux caractéristiques intéressantes, situées près de la discontinuité des plans, ont été suivies dans la séquence. La Fig.1.8(c) montre deux groupes de points correspondant à l’intersection des rayons projecteurs associés aux deux caractéristiques suivies avec le plan texturé de la scène. La caractéristique notée (1) glisse pendant le déplacement de la caméra. Elle est située à cheval sur la discontinuité de profondeur et glisse suivant le déplacement inégal des arêtes. Cette ca-ractéristique n’est donc pas ré-observable selon la définition donnée par l’Eq.1.4malgré que son apparence demeure identique. La caractéristique notée (2) est générée par la texture du plan et n’est pas affectée par ce problème.

Dans ces exemples, deux types de détecteurs ont été utilisés, le détecteur de coin de Harris et le détecteur de région SIFT de Lowe. Il est maintenant reconnu qu’il n’existe pas de caractéristique générique [25,26]. L’abondante littérature sur le sujet et les nom-breuses publications en faisant la revue en sont la preuve [27,28,29]. Ce qui ressort de ces publications est que c’est l’application qui définit le type de caractéristiques inté-ressantes. Une application axée sur la reconnaissance d’objet souhaitera un opérateur générant un très grand nombre de caractéristiques distinctes sans se soucier de la pré-cision de la localisation dans l’image. À l’inverse, une application de calibrage nécessite des caractéristiques très précises, mais peu distinctes, car la scène est contrôlée : la reconnaissance peut être réalisée sans exploiter l’apparence.

Nous allons étudier le calibrage et le positionnement de caméra en mettant l’ac-cent sur les caractéristiques et leur qualité de ré-observabilité respective. En calibrage, l’aspect reconnaissance sera moins important puisque la scène est contrôlée. Les carac-téristiques pourront être reconnues indirectement par la topologie. Par contre, l’unicité du point physique sera cruciale puisque la précision et surtout l’exactitude des para-mètres estimés reposent sur l’absence de biais dans la localisation. En positionnement, nous verrons au chapitre3qu’il existe un compromis entre la reconnaissance et l’unicité du point physique. En effet, une caractéristique qui correspond à une région de l’image riche en détail est distincte et reconnaissable, mais sa position sera aussi plus facilement perturbée par des déformations projectives.

Du point de vue méthodologique, nous avons analysé les biais qui affectent la locali-sation des caractéristiques dans l’image dans des expériences réelles et des simulations. Avant tout, si l’on n’élimine pas les biais, on ne peut pas espérer ré-observer une carac-téristique. Une analyse de la littérature n’a pas révélé de méthode unificatrice couvrant les différents aspects de la ré-observabilité. Cependant, des publications faisant la revue de plusieurs détecteurs de caractéristiques [30, 31, 32] ont analysé la répétabilité et, dans certains cas, la localisation des points caractéristiques sans toutefois s’intéresser aux biais affectant la localisation. En calibrage, nous avons étudié les marqueurs de type jonction et marqueurs circulaires pour ensuite analyser et corriger les biais rencontrés. Les analyses et solutions aux biais sont validées à l’aide d’images d’une cible précise

(20)

(a)

(b) (c)

Figure1.8 – Suivi du glissement d’une caractéristique virtuelle selon le point de vue. a) Deux caractéristiques sont détectées par l’opérateur de Forstner et suivies dans une séquence d’images. La trajectoire de la caméra est montrée par la courbe variant de rouge à jaune. La scène est composée d’un plan texturé surmonté d’un plan gris. b) Première image de la séquence. c) Agrandissement du plan texturé de la scène sur lequel est tracée la re-projection des observations de deux caractéristiques.

(21)

(précision de l’ordre de 10 µm) ainsi que par des simulations exhaustives reproduisant les conditions réelles de calibrage. Dans ce dernier cas, la position des caractéristiques est connue exactement, ce qui permet de valider la position retrouvée. Ensuite, nous avons étudié la ré-observabilité des caractéristiques dans le contexte du positionnement. Des expériences réelles et des simulations ont permis de générer des mesures qualifiant la ré-observabilité des points. Les méthodes proposées pour réduire les biais ont été va-lidées statistiquement en étudiant le comportement des caractéristiques sous plusieurs points de vue. Nous avons également étudié comment le point de vue affecte la recon-naissance en simulation pour ensuite valider par des expériences réelles avec le capteur 3DLS5

développé au LSVN6

. Tous les concepts développés sont implantés dans une application réelle, testée en laboratoire avec ce capteur ; toutefois, la validation finale sera l’expérience des utilisateurs.

1.2 Plan de la thèse

Dans cette thèse, plusieurs méthodes ont été développées dans le but de renforcer le concept de ré-observabilité. Le positionnement et le calibrage de caméra ne sont pas des idées nouvelles. Par contre, l’importance de la détection et de la ré-observabilité a souvent été négligée. Les trois prochains chapitres expliquent comment identifier des caractéristiques respectant les principes de ré-observabilité dans le contexte du calibrage et du positionnement d’un capteur multi-caméra.

Le chapitre 2 est consacré à l’analyse des biais de localisation de marqueurs en calibrage. Le calibrage se démarque des autres applications dans le sens où la scène est contrôlée et connue : les caractéristiques présentes dans la scène sont donc fiables. L’objectif est donc de définir l’algorithme de détection optimal en vue de réduire, voire éliminer, les biais qui affectent la localisation. Pour ce faire, une nouvelle philosophie est mise de l’avant où l’on souhaite réduire les étapes intermédiaires entre l’information extraite et les pixels de l’image : les caractéristiques sont localisées en évitant d’être détectées au préalable. Suivant cette philosophie, nous proposons un nouveau détecteur de jonctions qui se veut robuste aux changements de points de vue. En s’adaptant au contenu de l’image, il est en mesure de réduire considérablement les biais pendant la localisation d’une jonction comparativement aux méthodes actuelles. Dans le même ordre d’idée, nous proposons un algorithme d’estimation d’ellipses qui évite l’extraction des points de contour en exploitant directement le gradient du contour. Finalement, nous présentons une méthode efficace de reconnaissance des marqueurs permettant d’associer les marqueurs observés dans l’image avec ceux de la cible.

Suivant la même structure, le chapitre 3 reprend l’analyse des biais et la recon-naissance dans le contexte du positionnement d’un capteur multi-caméra. Le défi du

5. 3D Light Studio

(22)

positionnement repose sur le fait que le contenu de la scène est inconnu. Les détecteurs de caractéristiques que nous avons développés sont analysés et comparés aux détec-teurs actuels en vue de sélectionner ceux qui sont les mieux adaptés au positionnement. Comme l’ajout de marqueurs à la scène peut bénéficier au positionnement, nous propo-sons une adaptation de l’algorithme de localisation d’ellipses pour les scènes naturelles. Ce dernier problème n’est pas trivial, car les scènes naturelles comportent plusieurs élé-ments inconnu nuisant à la détection. Ensuite, la reconnaissance des caractéristiques est analysée par rapport aux distorsions de l’image causées par les changements de points de vues. En effet, la précision de la localisation est fondamentale dans une application de positionnement, mais la reconnaissance prend toute son importance. Pour pallier ce problème, nous proposons une approche basée sur la distinction locale et globale des caractéristiques.

Le chapitre4présente des applications réelles appuyant les principes de ré-observabilité en calibrage et en positionnement. Premièrement, nous présentons une application de calibrage géométrique à partir d’ellipses pour un capteur multi-caméra. Le dévelop-pement comporte une analyse approfondie portant sur des sources d’erreurs souvent négligées telles que la distorsion due aux lentilles sur l’estimation des ellipses7

. La mé-thode de calibrage est ensuite adaptée à un système à lumière structurée comportant une caméra et un projecteur. Le projecteur est modélisé comme une caméra malgré qu’il ne puisse pas faire l’acquisition d’images. Une application de positionnement de capteur stéréo est finalement présentée. Une attention particulière est donnée aux mé-thodes d’estimation minimales, où la pose est calculée à partir du nombre minimal de points permettant d’obtenir une solution. Un aspect intéressant du positionnement d’un capteur stéréo est lié au fait que les caméras travaillent comme une seule entité. En effet, les caractéristiques proviennent des deux caméras, sans avoir à être vues simultanément par les deux caméras ; certaines caractéristiques peuvent même être virtuellement loca-lisées en dehors des images afin d’accélérer la reconnaissance de régions de la scène qui ont déjà été visitées. Pendant son exploitation, le système de positionnement analyse constamment la cohérence multi-vue entre les observations d’un point de la scène et les poses d’où il a été observé.

Finalement, un survol des contributions est présenté dans le chapitre 5 suivi d’une série de réflexions sur les travaux à poursuivre.

(23)

Ré-observabilité appliquée au calibrage

Dans une application de vision 3D, il est essentiel de connaître la relation entre les co-ordonnées 3D de la scène et les coco-ordonnées dans l’image. Cette relation est déterminée par le calibrage de la caméra. Il existe deux approches de calibrage, l’autocalibrage et le calibrage géométrique. Dans les deux cas, on obtiendra les paramètres intrinsèques de la caméra (focales, point principal, coefficients de distorsion radiale et tangentielle) qui déterminent les rayons projecteurs associés aux points image. Le calibrage géométrique est obtenu à partir d’images d’une cible connue. On localise précisément les marqueurs dans les images pour obtenir des correspondances entre les points images 2D et les coordonnées 3D des marqueurs qui sont elles aussi connues très précisément. On peut alors retrouver simultanément la pose1

de la caméra et ses paramètres intrinsèques2 . En autocalibrage, on procède différemment en découplant les paramètres intrinsèques de la pose pour retrouver uniquement les paramètres intrinsèques. En supposant observer une scène rigide, il est possible de poser des contraintes sur les paramètres intrinsèques qui demeurent constants d’une image à l’autre [33]. Bien qu’intéressantes d’un point de vue mathématique, en pratique les méthodes d’autocalibrage forment des systèmes d’équations qui sont moins bien conditionnées mathématiquement que ceux de calibrage géométrique [34]. Toutefois, dans l’application qui nous intéresse, le positionnement d’un capteur multi-caméra, il sera nécessaire de connaître la pose relative des caméras. Comme le calibrage géométrique de la caméra est la seule méthode qui estime ces deux quantités, il sera privilégié. Désormais, le calibrage géométrique sera référé directement comme le calibrage de la caméra.

Dans la section précédente, une grande importance a été donnée aux deux concepts associés à la ré-observabilité. En calibrage, le concept de reconnaissance est relaxé puisque la scène est en fait une cible fabriquée selon un modèle précis. La topologie des caractéristiques est telle qu’elle permet une reconnaissance robuste et simple basée sur les invariants projectifs. La méthode de reconnaissance sera détaillée à la section 2.2. Le second concept de la réobservabilité, donné par l’Eq.1.4, est nettement plus

1. La pose réfère aux paramètres extrinsèques ou à l’orientation externe de la caméra. 2. On utilise aussi l’appellation orientation interne de la caméra

(24)

(a) (b) (c)

Figure 2.1 – Les trois types de marqueur utilisés en calibrage de caméra. critique ; les marqueurs sont extraits d’une image bruitée et perturbée par des défor-mations (transfordéfor-mations projectives, distorsion, discrétisation, etc.). Ces perturbations nuisent et biaisent la localisation.

La présence de bruit dans l’image est inévitable et perturbera la localisation. L’al-gorithme de localisation devra donc avoir une grande robustesse face au bruit. Pour réduire l’effet du bruit sur les paramètres de calibrage, on exploite la redondance don-née par plusieurs images. Comme les paramètres intrinsèques sont constants pour toutes les images, l’estimation en bénéficiera.

Pour obtenir un calibrage fiable, les images de la cible sont acquises sous des points de vue où l’angle entre la caméra et la cible varie jusqu’à 45 degrés. L’ensemble des poses formera alors un réseau fortement convergent dont bénéficie l’estimation [34]. Le but est d’éviter que les paramètres intrinsèques soient couplés à la pose. Toutefois, face à ces grandes variations d’angles, l’image sera fortement déformée par la projection. Comme la cible est construite, on évitera que les marqueurs dans l’image ne puissent se super-poser. La tâche de la détection est ainsi grandement simplifiée. Toutefois, contrairement au bruit qui est aléatoire, la déformation peut biaiser la localisation des marqueurs de façon systématique, ce qui faussera les résultats du calibrage. Quelques exemples de biais ont été donnés dans l’introduction (Fig.1.6). L’objectif de cette section est donc de déterminer et éliminer les biais qui affectent la localisation, pour ensuite décider quel type de marqueur est le mieux adapté au calibrage. La prochaine section présente l’étude de trois marqueurs de base.

2.1 Marqueurs et biais

Il y a trois types de marqueurs utilisés en calibrage : le carré, le damier et le cercle. La Fig.2.1 montre un exemple de chacun. Le carré et le damier sont certainement les marqueurs les plus utilisés. Ils sont généralement regroupés dans la même catégo-rie puisqu’ils diffèrent seulement par le nombre d’arêtes formant le marqueur. Dans la littérature, les caractéristiques correspondant à ces marqueurs sont référées comme

(25)

Z

X

Figure 2.2 – Ré-observabilité d’une jonction sous deux points de vue différents. La jonction est située au point d’intersection des arêtes du marqueur, illustré sur le schéma du haut par la transition de gris à noir de l’intensité des droites. L’intersection dans l’image correspond directement à l’intersection dans la scène. Les images du bas montrent le marqueur photogrammétrique tel qu’il serait observé sous les deux points de vue.

coins-L ou jonction-X, la lettre indiquant la forme de la structure. La popularité de ce type de marqueur est en partie due au fait qu’il est un observable direct. On parle d’observable direct lorsque la caractéristique est directement visible dans l’image et qu’il y a correspondance directe entre le point image et le point physique. La Fig.2.1 illustre très bien ce concept pour une caractéristique de type jonction. Le rayon projec-teur associé au point d’intersection des arêtes de la jonction image passe par le point d’intersection des arêtes du marqueur. Cette propriété est un atout, car elle simplifie le modèle décrivant la relation entre l’image et la cible. Le très populaire kit de calibrage de J-Y.Bouguet [35] utilise une cible sur laquelle est imprimée un damier. Comme il est conceptuellement simple, l’algorithme a même été intégré à OpenCV, un ensemble de librairies de programmation pour la vision numérique [36]. Les jonctions sont aussi utilisées pour estimer la distorsion de l’image due aux lentilles par un algorithme qu’on pourrait qualifier d’autocalibrage ; le calibrage est partiel puisqu’on retrouve seulement la distorsion. Cette méthode exploite le fait qu’un ensemble de jonctions colinéaires dans la scène resteront colinéaires dans l’image, peu importe le point de vue. La déviation de la colinéarité est alors uniquement due à la distorsion de l’image. La méthode de calibrage "plumbline", initialement proposée par Brown en 1971 [37], évalue et corrige la distorsion en exploitant ce principe.

Le troisième marqueur utilisé en calibrage est le cercle. Contrairement au coin, le centre d’un cercle est un observable indirect. En effet, le centre n’existe pas dans l’image, il est obtenu indirectement par l’équation de l’ellipse qui décrit le contour du

(26)

(a) (b)

Figure2.3 – Un cercle observé de deux points de vue différents. Le centre du cercle a été imprimé en blanc sur la cible. L’ellipse détectée a été tracée en jaune et une croix blanche marque son centre. On remarque que le centre de l’ellipse ne correspond pas au centre du cercle.

marqueur. De plus, le centre d’une ellipse ne correspond pas au centre du cercle dont elle est l’image ; il y a un biais entre les deux dû à la projection, comme l’illustre la Fig.2.3. Dans cette figure, un cercle est observé de deux points de vue différents. L’ellipse image résultante est estimée à partir du plus grand contour visible. Cette dernière est tracée en jaune dans l’image. Le centre du cercle a été imprimé en blanc sur la cible avant l’acquisition. Clairement, le centre du cercle ne correspond pas au centre de l’ellipse observée. Cette particularité confirme le statut d’observable indirect du centre du cercle. Le biais sera analysé à la section2.1.2. C’est probablement l’incompréhension de ce biais qui a causé la plus faible utilisation des marqueurs circulaires par rapport aux patrons de damiers en calibrage. L’intérêt des marqueurs circulaires vient de la grande précision avec laquelle on peut les localiser dans l’image. D’ailleurs, la grande précision de localisation des marqueurs circulaires est la motivation derrière la méthode de calibrage par Heikkila [20].

(27)

2.1.1 Jonctions : biais et détection

La jonction est le résultat de l’intersection des structures de l’image. Que cette structure soit générée par une texture sur une surface, ou encore l’interaction entre des objets réels, dans l’image la jonction est localisée à l’intersection d’arêtes. Pour l’ordinateur, une arête est observée en analysant le gradient de l’image. En effet, les arêtes de l’image sont des transitions rapides du niveau d’intensité de l’image. Comme l’image est 2D, le gradient est obtenu en calculant les dérivées verticale et horizontale des niveaux d’intensité. En combinant les deux dérivées obtenues à chaque pixel, nous obtenons un ensemble de vecteurs correspondant au gradient de l’image. Pour observer une jonction, la méthode classique consiste à identifier les endroits où les vecteurs associés au gradient comportent localement deux composantes orthogonales fortes.

Mathématiquement, ceci revient à analyser les composantes principales d’un estimé local de la matrice de covariance du gradient pour chaque position de l’image. Le détec-teur de Forstner ainsi que ses variantes comme le détecdétec-teur de Harris, procèdent de cette façon [38,23]. Ce type d’approche est particulièrement intéressant puisqu’il permet de détecter une grande variété de jonctions comme le coin-L et les jonctions Y, T, et X. Comme ces approches ne détectent pas la jonction elle-même, mais plutôt un indice de sa présence, l’observation est donc indirecte et la position retrouvée est généralement biaisée. Dans cette section, nous analyserons trois principaux biais qui perturbent la détection des jonctions : le biais d’intégration, le biais gaussien et le biais dans le calcul du gradient. Pour chaque biais, une solution est proposée.

Avant d’étudier les biais, il faut définir la notation qui sera utilisée. Étant donné un point x = (x, y) de l’image I, le gradient ∇I(x, σd) évalué à l’échelle de dérivation σdest

défini comme ∇I(x, σd) = (Ix, Iy)T. Les vecteurs Ixet Iy sont obtenus par la convolution

de l’image I avec la dérivée de la fonction Gaussienne ∂

∂xg(σd) au point x le long des

directions horizontale x et verticale y. La matrice de covariance du gradient, Γ(x, σd),

évaluée à la position x pour l’échelle de dérivation σd est alors définie comme suit :

Γ(x, σd) = ∇I∇IT = " I2 x IxIy IxIy Iy2 # . (2.1)

Pour obtenir un estimé local moyen Γ de la covariance Γ, la fonction gaussienne 2D d’échelle σI est généralement utilisée pour intégrer le gradient au point x0 = (x0, y0)

dans un voisinage N :

Γ(x0, σd, σI) =

Z

N

Γ(x, σd)g(x − x0, σI)dx. (2.2)

Le voisinage est limité à une fenêtre N(x0, s) centrée à x0 et de taille s. L’analyse

des deux valeurs propres (µ1 < µ2) de la matrice Γ2×2 permet de déterminer le degré

d’isotropie de la structure locale présente dans la fenêtre d’intégration. Ainsi, une grande différence entre les valeurs propres indique une texture anisotropique comme une arête.

(28)

Figure2.4 – L’interpolation parabolique est utilisée pour retrouver la position exacte du maximum d’une fonction 2D discrète. La position interpolée est située au point maximum d’un paraboloïde ajusté sur les valeurs de la fonction de détection. Le point vert indique le maximum.

L’égalité entre les deux valeurs indiquera la présence d’une jonction. Dans [39], Tomasi suggère de trouver les endroits où la plus petite valeur propre est localement maximale et plus grande qu’un seuil s :

µ1 > s. (2.3)

Un seuil est nécessaire, car le bruit présent dans l’image génère des détections dans les régions uniformes. Pour éviter de calculer explicitement les valeurs propres, il est possible d’évaluer une combinaison de la trace (T r(Γ) = µ1 + µ2) et du déterminant

(Det(Γ) = µ1µ2) de l’estimé local de la matrice de covariance. Comme l’a démontré

Lowe [8], le ratio des valeurs propres µ1 = rµ2 est donné par la relation suivante :

T r(Γ)2 Det(Γ) = (µ1+ µ2)2 µ1µ2 = (rµ2+ µ2) 2 rµ2 2 = (r + 1) 2 r . (2.4)

Basé sur ce concept, l’opérateur de Harris identifie les maximums locaux de la fonc-tion suivante : Det(Γ) − 0.04T r(Γ)2 _[₂₃_{]. Le facteur 0.04 a été choisi empiriquement.}

Forstner a proposé une mesure similaire [38]. Après avoir évalué la fonction de détection pour chaque pixel de l’image, les maximums locaux sont identifiés ; ce sont des positions entières, la position fractionnaire exacte demeure inconnue. On peut ensuite interpoler la position exacte du maximum en ajustant une fonction quadratique sur les 9 valeurs de la réponse Z autour de son maximum : ax2

i + bxiyi + cyi2 + dxi + eyi + f = Zi

[40]. Il y a donc six variables inconnues pour neuf équations. On trouve la solution par moindres carrés. Le maximum exact est à la position où les dérivées partielles selon x et y sont nulles : x0 = be−2cd_4ac−b2,bd−2ae

4ac−b2

. Le schéma de la Fig.2.4 illustre l’interpolation où le maximum est indiqué par un point vert.

Avant de poursuivre, il est important de discuter de l’échelle de dérivation σd.

Idéa-lement, l’échelle du filtre dérivateur serait adaptée localement au profil d’une arête. Ainsi, le gradient d’une arête idéale (step edge) dans une image sans bruit pourrait

(29)

(a) 45 50 55 44 46 48 50 52 54 56 0.5 1 1.5 2 2.5 3 3.5 4 (b) (c)

Figure2.5 – La réponse de l’opérateur Harris sur une jonction-X varie avec l’échelle d’intégration. a) Image de la jonction. b) Maximums locaux détectés en bleu pour une échelle d’intégration variant de σi = [0.4 4]. c) Une fenêtre d’intégration centrée à

l’intérieur du coin a une réponse plus forte, montrée par un rouge plus foncé. C’est le biais d’intégration.

être obtenu avec un filtre s’étendant sur 2 pixels. En pratique, l’image est bruitée. Un filtre plus large sera moins sensible au bruit, mais intégrera une plus grande région lors de la convolution. Dans cette situation, le filtre risque d’inclure plus d’une transition d’intensité de l’image, ce qui perturbe le calcul de la dérivée. De plus, sa réponse sera étendue sur plusieurs pixels perpendiculairement à l’arête, rendant la détection et lo-calisation d’un maximum plus difficile. Il y a donc un compromis à faire sur l’échelle, entre le niveau de bruit et la capacité du gradient à bien représenter la structure de l’image. Dans cette thèse, la précision est privilégiée : nous avons choisi empiriquement une échelle de dérivation faible (σd= 1) qui permet un résultat précis et fiable dans la

plupart des conditions de bruit. Biais : Analyse et solution Biais d’intégration

Contrairement à ce que la littérature suggère, l’interprétation de la position du maxi-mum de la fonction de détection comme étant la position de la jonction est erronée. Le schéma de la Fig2.5(b) est un bon exemple de cette observation où la position des maximums détectés varie en fonction de l’échelle. Dans le cas d’un coin-L, la réponse maximum de l’opérateur est biaisée vers l’intérieur du coin. Le biais dépend de l’échelle d’intégration et de l’angle d’ouverture du coin. Ce biais a d’ailleurs été étudié par Rohr [41] dans le cas des coins idéaux. Comme l’ouverture observée du coin dépend du point de vue de la caméra, le point image détecté ne correspondra plus au même point phy-sique pour une nouvelle observation sous un point de vue différent. Pour évaluer l’ordre de grandeur de ce biais, l’opérateur de Harris a été appliqué sur une image montrant un coin dont l’ouverture varie. Le coin est composé de deux droites s’intersectant à

(30)

(a) (b) 20 40 60 80 100 120 0 1 2 3 4 5

Angle d'ouverture (degrés)

B ia is ( pi xel s) Détection de base Détection raffinée (c)

Figure2.6 – Biais de localisation causé par l’échelle d’intégration. Le biais est évalué pour un coin dont l’ouverture varie de 35 à 135 degrés, montré en a) et b) respecti-vement. c) Distance entre le point détecté et la jonction réelle par rapport à l’angle d’ouverture du coin avant et après l’étape de raffinement proposée par Forstner [38]. la position souhaitée du coin. L’angle entre les droites représente l’ouverture du coin. L’image du coin est générée de telle sorte que le niveau d’intensité d’un pixel est pro-portionnel à l’aire du pixel à l’intérieur du coin. L’image est ensuite convoluée avec un filtre gaussien σ = 3. La Fig.2.6(c) montre deux courbes obtenues pour des coins dont l’angle d’ouverture varie de 35 à 135 degrés avec un pas de deux degrés. Un exemple de coin à 35 degrés et 135 degrés est donné sur les Fig.2.6(a)et Fig.2.6(b)respectivement. Pour tracer les courbes, 15 images de coins à des positions sous-pixel aléatoires sont générées à chaque pas d’angle. Le biais est donné par la distance entre la position du coin détectée et celle utilisée pour générer l’image. La courbe détection de base de la Fig.2.6(c)donne le biais du détecteur de Harris en fonction de l’angle d’ouverture où il atteint jusqu’à 5 pixels.

La cause du biais est simple, une fenêtre d’intégration située à l’intérieur du coin inclut une plus grande portion des côtés du coin ; les valeurs propres seront donc plus fortes à l’intérieur du coin que sur le coin lui-même (voir Fig.2.5(c)). En théorie, si on disposait d’une image de résolution infinie montrant une arête idéale, le biais serait nul. En pratique, l’image n’est pas parfaitement nette car la caméra est rarement parfaite-ment au focus, et les arêtes ne sont donc pas idéales : la transition d’une arête s’étend sur plusieurs pixels et est bruitée. Dans cette situation, l’échelle d’intégration doit être suffisamment grande pour couvrir la région de transition des arêtes et la jonction tout en donnant une certaine robustesse au bruit. Le cas de la jonction-X est différent, car l’opérateur bénéficie de la symétrie miroir dans la structure du gradient. Ainsi, une grande échelle d’intégration couvrant la jonction et ses arêtes ne sera pas biaisée. Tou-tefois, une petite échelle d’intégration répondra de façon complètement différente ; ce seront les quatre coin-L formant la jonction-X qui seront détectés, comme l’illustre la Fig.2.5(b).

(31)

(a) (b)

Figure 2.7 – Droites définies par le gradient près d’une jonction de type a) ’X’ et b) ’L’. Un segment d’intensité claire indique un gradient fort. La droite bleu-clair marque le maximum du gradient le long de la jonction.

Généralement, le choix de l’échelle d’intégration est fait en fonction de l’échelle de dérivation. Ainsi, une échelle σd= 1 impliquera que 2 < σI < 4. Le facteur est déterminé

empiriquement. Dans la Fig.2.5(b), on voit comment le choix de ces échelles affecte le comportement de la détection. Pour générer ces résultats, l’échelle de dérivation est fixée à σd= 1 et l’échelle d’intégration varie de σI = [0.4 : 4]. Les points détectés par

l’opérateur de Harris sont tracés en bleu et sont superposés à la jonction. On voit le nombre de points détectés passer de quatre pour une échelle fine, à un seul pour une échelle grossière.

Dans [38], Forstner propose une méthode radicalement différente pour raffiner l’es-timé de la position et ainsi réduire le biais dû à l’échelle d’intégration. Pour ce faire, il propose de minimiser la somme pondérée des distances d(x0, x) entre le point de

référence x0 et les segments de droites lx passant par les points x de son voisinage.

Les droites sont orthogonales au gradient ∇I(x, σd), i.e. parallèle à l’arête. Le poids

de chaque droite est proportionnel au carré de la norme du gradient. Il s’agit donc du point le plus près de l’ensemble des droites dans le voisinage du point détecté x0. La

fonction minimisée est la suivante : b

x0 = argmin x0

Z

d2(x0, lx) k∇I(x, σd)k2gσI(x − x0)dx (2.5)

où ˜x indique que x est en coordonnées homogènes. La Fig.2.7 aide à visualiser com-ment les segcom-ments de droite orthogonaux au gradient convergent vers la position de la jonction. Le ton de gris de la droite indique la norme du gradient.

Cette étape de raffinement rapproche significativement la position estimée de la position réelle, comme le montre la courbe détection raffinée de la Fig.2.6(c). Elle est particulièrement intéressante puisque la position raffinée n’a pas à être au centre de la fenêtre de détection N. En pratique, nous avons observé des déplacements de l’ordre du pixel. On peut donc considérablement réduire le biais dû à l’échelle d’intégration. Toutefois, comme le montre la courbe, la position obtenue n’est toujours pas exactement

(32)

(a) (b)

Figure 2.8 – Le gradient de l’image représente la transition des niveaux d’intensité dans la fenêtre de dérivation. a) Le gradient est correctement évalué lorsque la fenêtre couvre une seule direction de transition. b) La présence de plus d’une structure dans la fenêtre du filtre biaise le calcul de la dérivée.

sur la jonction. De plus, elle est toujours sensible à l’angle d’ouverture du coin. Biais dans le calcul du gradient

Un second biais est dû au procédé de dérivation. Comme la résolution de l’image n’est pas infinie et que le filtre de dérivation n’a pas une taille nulle, le gradient est perturbé près d’une jonction. Le gradient brut est calculé par la convolution d’un filtre dérivatif de taille finie, généralement une fenêtre de 5x5 pixels. Lorsque la fenêtre du filtre est centrée sur un coin, tel qu’illustré à la Fig.2.8, la présence de plusieurs struc-tures orientées différemment dans la fenêtre perturbe le calcul de la dérivée numérique. Le problème est visible sur la Fig.2.7où le gradient est superposé à l’image de jonctions X et L. La position exacte de la jonction est à l’endroit où se croisent les droites rouges. Le maximum de la norme du gradient, indiqué en bleu clair, ne croise pas la jonction, il est à l’intérieur. L’effet est encore plus marqué lorsque l’angle d’ouverture est faible. Comme l’opérateur de Forstner pondère la contribution de chaque droites par la norme du gradient au carré, il est biaisé vers l’intérieur du coin. Ce biais est significativement réduit dans le cas d’une jonction-X, Fig.2.7(a), particulièrement lorsque la fenêtre est centrée sur la jonction. La symétrie circulaire du gradient compense le biais. Cette ca-ractéristique est d’ailleurs exploitée par les marqueurs photogrammétriques et le damier (Fig.2.1(c)).

Afin de corriger ce biais, nous proposons de pondérer à la baisse la norme du gradient dans le voisinage de la jonction. L’estimation de la position de la jonction, donnée par l’Eq.2.5, sera donc moins affectée. Pour ce faire, on remarque que le ratio des valeurs propres (µ1 = rµ2 | r = 1) de l’estimé local de la matrice de covariance du gradient

Γσd calculé à l’échelle de dérivation σd indique la présence de plus d’une orientation de