Mesures de distance - Reconstruction et alignement en vision 3D : points, droites, plans et cam

Nous examinons plusieurs mesures de distance entre entités géométriques (points, droites, plans, etc.), leurs fomulations algébriques et leurs caractéristiques. Ces mesures de distance sont utilisées tout au long de cette thèse dans les algorithmes d’estimation de transformation géométrique (par exemple de la matrice fondamentale). La mesure de distance “naturelle” entre entités géometriques est la distance Euclidienne, dont l’expression algébrique est souvent non-linéaire lorsque des coordonnées homogènes sont utilisées. De plus, certaines entités manipulées peuvent ne pas être de nature finie, en particulier lors de l’utilisation d’espaces projectifs, ce qui empêche l’utilisation d’une distance Euclidienne. Pour ces raisons, nous passons en revue des mesures de distance algébriques, basées sur une comparaison directe des vecteurs de coordonnées homogènes. Ces distances sont biaisées par rapport à la distance Euclidienne et n’ont pas de signification géométrique physique. Leur expression algébrique est souvent bilinéaire, et permet de construire des systèmes linéaires, par exemple l’algorithme des huit points pour l’estimation de la matrice fondamentale. Dans certains cas, le biais peut être exprimé explicitement via un facteur de biais. Certains algorithmes d’estimation utilisent cette propriété via un schéma de moindres carrés linéaires repondérés itérativement. Ces algorithmes sont souvent appelés quasi-linéaires. L’estimation d’entités géométriques est étudiée dans la section suivante.

Nous commençons par examiner les distances Euclidiennes puis algébriques, et enfin les facteurs de biais.

2.5.1 Distances Euclidiennes

Nous introduisons les distances Euclidiennes entre différentes entités et en différentes dimensions. Nous formulons ces distances en termes de coordonnées homogènes. Notons que la distance Euclidienne n’est définie qu’entre un point (variété de dimension 1) et une hypersurface (variété de dimension comprise entre 1 et p− 1).

Par exemple, on peut mesurer une distance Euclidienne entre un point 3D et un plan, entre un point 3D et une droite 3D ou entre deux points 3D. Les distances Euclidiennes ne sont définies qu’en espaces métrique et Euclidien.

Distance point-point. La distance entre deux pointsx et y de l’espace Euclidien de dimension p, représentés respectivement par des vecteurs de coordonnées homogènes de taille ((p + 1)× 1) notés xT ∼ (¯xT x) et

y^T∼ (¯yT y), avec x= 0 et y = 0, est donnée par :

d²_{P P}(x, y) = ^x^¯ x −^y^¯

y2. (2.13)

Distance point-hyperplan. La distance entre un pointx et un hyperplan Π (par exemple une droite si p =

2 ou un plan si p = 3), représentés respectivement par des vecteurs de coordonnées homogènes de taille ((p + 1)× 1) notés x et Π, avec x = 0 et ¯Π = 0, est donnée par :

d²_{P H}(x, Π) = ^(x

TΠ)²

x2 ¯Π2. (2.14)

Autres. Une distance Euclidienne peut aussi être calculée entre des points et des variétés linéaires ou non-linéaires de dimension quelconque. Il n’existe pas forcement de formulation analytique pour ces distances, comme par exemple pour la distance entre un point et une conique dans le plan Euclidien.

2.5. MESURES DE DISTANCE 13

2.5.2 Distances algébriques

Nous considérons deux types de distances algébriques. Le premier concerne la comparaison d’entités de même dimension, par exemple deux points ou deux droites. Il est induit par la comparaison directe des vecteurs de coordonnées homogènes. Le deuxième type concerne la distance entre entités de dimensions différentes, par exemple entre un point et un hyperplan, et se formule à partir des contraintes algébriques entre les vecteurs de coordonnées homogènes. Ces distances algébriques n’ont pas de signification géométrique physique.

Distance vecteur-vecteur. Considérons les vecteurs de coordonnées homogènes x et y de taille ((p + 1)×1).

L’égalité des entités géométriques représentées par ces vecteurs est traduite par l’égalité à un facteur près de ces derniers, x∼ y. Cette dernière est équivalente à l’égalité des rapports entre les différents coefficients :

(x∼ y) ⇔ ^x^k x_l ⁼

y_k

y_l^, ^{k = 1 . . . p + 1, l = 1 . . . p + 1, l > k} ⇔ xky_l = x_ly_k, k = 1 . . . p + 1, l = 1 . . . p + 1, l > k.

Parmi ces p(p + 1)/2 équations, seules p sont indépendantes. Cependant, on ne peut pas en sélectionner p à priori dans le cas général, car si un coefficient s’annule, les équations incluant ce coefficient dégénèrent. Par exemple si x₁ = 0, toutes les équations avec k = 1 ou l = 1 dégénèrent. Nous formulons donc la distance

algébrique entre deux vecteurs de coordonnées homogènes par la formulation bilinéaire suivante :

d²_{A_V V}(x, y) = p+1 k=1 p+1 l=1,l>k (x_ky_l− xly_k)².

Une autre manière de formuler cette distance est de considérer la matrice D de taille ((p + 1)× (p + 1)) définie

par :

D = xyT− yxT.

Les coefficients de cette matrice correspondent aux équations ci-dessus et s’annulent lorsque les vecteurs x et y sont égaux à un facteur près. La norme de cette matrice est proportionnelle à la distance algébrique entre x et y :

d²_{A_V V}(x, y) = ¹

2xy^T− yx^T2. (2.15)

La mesure de distance algébrique définie ci-dessus concerne deux vecteurs de coordonnées homogènes. Ces derniers peuvent représenter des points, des droites, des plans ou n’importe quelles autres entités géométriques, finies ou infinies. Par exemple, nous l’utilisons au chapitre 8 pour comparer les coordonnées de Plücker de droites 3D. Elle n’a pas de sens géométrique physique. En particulier, sa valeur dépend du facteur d’échelle libre de ses arguments. En dimension deux, c’est à dire dans le plan projectif, nous obtenons la formule suivante entre les vecteurs-3 m et n :

d²_{A_V V}(m, n) = m ∧ n2. (2.16)

Cas de points de l’espace Euclidien. Considérons le cas où les arguments x et y de la distance algébrique représentent des pointsx et y de espace Euclidien, c’est à dire x = 0 et y = 0. Notons qu’on ne peut pas poser de contraintes similaires sur les coordonnées homogènes des hyperplans ou autres variétés. Dans ce cas, on sait que les p équations impliquant x et y ne dégénèrent pas. On peut donc construire un système de p équations minimal :

En dimension 2, c’est à dire dans le plan Euclidien, nous obtenons la formule suivante pour la distance algé-brique entre les pointsm et n avec m3 = 0 et n3 = 0 :

d²_{A_P P}(m, n) = S(m ∧ n)2 avec S = 1 0 0 0 1 0 . (2.18)

Cette formule sera utilisée entre autres lors de la comparaison de points mesurés dans une image et de points prédits par un modèle 3D.

Distance point-hyperplan. La condition algébrique pour qu’un point de coordonnées x soit sur un hyperplan de coordonnées Π (par exemple en dimension 2, pour qu’un point soit sur une droite) est x^TΠ = 0. Cette condition induit la distance algébrique suivante :

d²_{A_P H}(x, Π) = (x^TΠ)². (2.19)

2.5.3 Relier les distances Euclidiennes et algébriques

Les distances Euclidienne et algébrique sont différentes. On dit que la distance algébrique est biaisée par rapport à la distance Euclidienne, qui elle, a un sens physique. Le facteur de biais reliant les distances Eucli-dienne et algébrique est formulé explicitement ci-dessous, pour les deux types de distances EucliEucli-dienne données ci-dessus : les distances point-point et point-hyperplan de l’espace Euclidien.

Distance point-point. Examinons les expressions (2.13) et (2.17) des distances Euclidienne et algébrique entre deux pointsx et y de l’espace Euclidien :

d²_{P P}(x, y) = ^x^¯ x −^y^¯

d²_{A_P P}(x, y) = x¯y − y¯x2.

Il est trivial de voir que si l’on multiplie la distance Euclidienne par xy, on obtient la distance algébrique, d’où la définition suivante du facteur de biais noté w_{P P} :

d²_{P P}(x, y) = w²_{P P} d²_{A_P P}(x, y) (2.20)

w²_{P P}(x, y) = ¹

x2y2. (2.21)

Distance point-hyperplan. Examinons les expressions (2.14) et (2.19) des distances Euclidienne et algé-brique entre un pointx et un hyperplan Π de l’espace Euclidien :

d²_{P H}(x, Π) = ^(x

TΠ)2

x2 ¯Π2

d²_{A_P H}(x, Π) = (x^TΠ)².

Similairement au cas précédent, ces deux distances sont reliées par un facteur de biais noté wP H et défini par :

d²_{P H}(x, Π) = w²_{P H} d²_{A_P H}(x, Π) (2.22)

w²_{P H}(x, Π) = ¹

2.6. ESTIMATION D’ENTITÉS GÉOMÉTRIQUES, OPTIMISATION LINÉAIRE ET QUASI-LINÉAIRE 15

2.6 Estimation d’entités géométriques, optimisation linéaire et quasi-linéaire

L’estimation d’entités géométriques est un sujet très général englobant de nombreux problèmes abordés dans cette thèse, et plus généralement en vision par ordinateur, tels la triangulation à partir d’images ou le calcul de la matrice fondamentale. La majorité des algorithmes d’estimation sont basés sur la comparaison de primitives géométriques mesurées et de primitives prédites par un modèle. Les coordonnées homogènes des primitives prédites s’expriment souvent de manière linéaire en termes des inconnues. Les transformations peuvent être estimées par la résolution au sens des moindres carrés de systèmes linéaires. L’erreur minimisée, en d’autres termes la fonction de coût, s’écrit comme une somme de distances algébriques entre les primitives mesurées et les primitives prédites.

La minimisation d’une fonction de coût basée sur une distance algébrique n’est pas forcement une bonne méthode. Elle est souvent utilisée pour initialiser la minimisation itérative d’une fonction de coût non-linéaire basée sur une distance Euclidienne. Des techniques de minimisation non-linéaire générales sont présentés au chapitre 3 dans le cadre de l’ajustement de faisceaux. Nous présentons dans cette section une technique itérative plus spécifique dite quasi-linéaire. Cette technique est basée sur le fait qu’une distance Euclidienne est reliée à une distance algébrique par un facteur de biais. L’optimisation quasi-linéaire utilise un schéma de moindres carrés itérativement repondérés, permettant l’estimation des facteurs de biais.

Afin d’expliquer de manière concrète les différents concepts présentés dans cette section, nous les illustrons sur l’exemple de l’estimation d’une homographie 2D à partir de correspondances de points image. Cette idée provient du chapitre 3 du livre de Hartley et Zisserman [93]. Considérons un ensemble de m correspondances de points mesurésqj ↔ q

j, reliés par une homographie 2D représentée par la matrice (3×3) H, c’est à dire que

si les mesures de ces points n’étaient pas bruitées, on aurait q

j ∼ Hqj. Sauf mention contraire, nous supposons que ces correspondances donnent suffisamment de contraintes pour définir une unique homographie 2D : au moins 4 correspondances sont définies, et les points de chaque image définissent une base du plan projectif (aucun sous-ensemble de m− 1 points n’est colinéaire).

Notons que le problème de l’estimation “optimale” d’une homographie, dans le sens du maximum de vrai-semblance, rentre dans le cadre des algorithmes d’ajustement de faisceaux étudiés au chapitre 3, et n’est pas traité dans cette section.

Pour plus de détails sur la résolution de systèmes linéaires, nous renvoyons au livre de Golub et Van Loan [71] et [119, 156]. Cette section est organisée comme suit. Nous formulons un estimateur linéaire pour homo-graphie 2D, basé sur la résolution au sens des moindres carrés d’un système linéaire homogène. Nous montrons ensuite comment une fonction de coût basée sur la distance Euclidienne peut être minimisée par optimisation quasi-linéaire. Finalement, nous présentons la résolution au sens des moindres carrés d’un système linéaire non homogène puis une technique d’optimisation linéaire sous contraintes linéaires.

2.6.1 Optimisation linéaire

Nous formulons un système linéaire pour l’estimation d’une homographie 2D puis donnons une technique de résolution au sens des moindres carrés basée sur la décomposition en valeurs singulières. Enfin, nous analy-sons la fonction de coût minimisée par cet algorithme.

2.6.1.1 Formulation du système linéaire

La formulation donnée ci-dessous est très proche de celle de Hartley et Zisserman [93, §3.1]. Les contraintes exploitées sont issues du fait que l’homographie H transfère un point sur son correspondant dans l’autre image : q

j ∼ Hqj. L’égalité à un facteur près entre deux vecteurs de coordonnées homogènes implique que le produit vectoriel s’annule, ce qui donne les 3 équations q

j ∧ (Hqj) = 0_(3×1). Parmi ces 3 équations, seules 2 sont indépendantes. Dans le cas général, on ne peut pas sélectionner 2 équations a priori. Par exemple siqj ouq_j est à l’infini, alors les deux premières équations sont linéairement dépendantes. Par contre, lorsque des points image, c’est à dire du plan Euclidien, sont considérés, on peut omettre la troisième équation, et ne retenir que les deux premières :

j ∧ (Hqj)

où la matrice S, définie par l’équation (2.18), sert à sélectionner les deux premières équations. Réorganisons cette expression en termes d’un vecteur-9 h contenant les coefficients de H, et défini comme h = vect(H) :

A_jh = 0 avec A_j_(2×9) = 0^T_(3×1) −q j,3^q^Tj q j,2^q^Tj q j,3^q^Tj 0^T_(3×1) −q j,1^q^Tj , et la notation qT j ∼ (q

j,1 ^qj,2 ^qj,3 ^{). En empilant les équations obtenues pour chaque correspondance de points,} on obtient le système linéaire suivant :

Ah = 0 avec AT

(2m×9) = (· · · AT

j · · · ). (2.24)

Un tel système, avec un membre droit nul, est appelé un système homogène, par opposition aux systèmes de la forme Ax = b avec b= 0. En l’absence de bruit sur la position des points, c’est à dire lorsque les points sont

exactement mis en correspondance par une homographie 2D, la matrice A est de rang 8 et a un espace nul de dimension 1. Dans ce cas, une solution exacte pour H est donnée par un vecteur nul de A.

2.6.1.2 Résolution au sens des moindres carrés

Lorsque les points ne se correspondent pas exactement par une homographie 2D, le rang de la matrice A est plein. Elle n’a donc pas d’espace nul, ce qui reflète le fait qu’il n’existe pas de solution exacte pour H. On résout alors le système en minimisant un certain critère d’erreur. La résolution au sens des moindres carrés minimise le critère suivant :

CA = Ah2. (2.25)

L’indice A indique que la fonction de coût est algébrique (voir ci-dessous). La matrice H étant définie à un facteur près, h est un vecteur de coordonnées homogènes, dont l’échelle est fixée par la contrainteh2 = 1.

La solution minimisantCAsous la contrainte h2 = 1 est donnée par le vecteur singulier associé à la plus

petite valeur singulière de la matrice A. On peut calculer ce vecteur par la décomposition en valeurs singulières de A : A ∼ UΣVT. La solution recherchée est donnée par la colonne de V associée à la plus petite valeur singulière, en pratique, la dernière colonne de V.

Notons que si une homographie 2D n’est pas déterminée de manière unique, c’est à dire si le nombre de correspondances de points est inférieur à 4, ou si les points ne sont pas en position générale, alors on obtient une famille de solutions. Cette famille est paramétrée par les “derniers” vecteurs singuliers de A (les vecteurs singuliers associés aux plus petites valeurs singulières). Le degré de dégénérescence détermine combien de vecteurs singuliers forment la famille de solutions. Par exemple, avec 3 correspondances de points, on obtient une famille de dimension 2, dont une base est fournie par les 3 “derniers” vecteurs singuliers de A. Si le degré de dégénérescence est inconnu a priori, il peut être déterminé en analysant les valeurs singulières de A. De manière plus générale, on arrive à un problème de choix de modèle. Nous n’abordons pas ce problème dans cette thèse et renvoyons aux travaux de Torr et al. [212] et de Kanatani [111].

2.6.1.3 Fonction de coût induite

Développons la fonction de coût (2.25) par un chemin inverse à la construction du système linéaire :

CA = Ah2 = _m j=1Ajh2 = _m j=1S[q j]∧Hq_j2 = _m j=1^d²A_P P(q j,Hq_j), (2.26) où d²_{A_P P} est la distance algébrique point-point donnée par l’équation (2.18). La résolution au sens des moindres carrés minimise donc la somme des carrés des distances algébriques entre les points de la deuxième image et les points de la première image transférés par l’homographie. De manière générale, un tel critère est appelé une

erreur de transfert non symétrique. On peut faire plusieurs remarques par rapport à ce critère : (i) il n’est pas

symétrique, dans le sens où les deux images n’ont pas le même rôle (l’erreur est minimisée dans la deuxième image seulement), et (ii) il est biaisé par rapport à un critère qui serait basé sur une distance Euclidienne pour comparer les points.

2.6. ESTIMATION D’ENTITÉS GÉOMÉTRIQUES, OPTIMISATION LINÉAIRE ET QUASI-LINÉAIRE 17

2.6.1.4 Normalisation des données

Hartley [86] montre qu’une simple normalisation des points image améliore énormement le calcul de la matrice fondamentale avec l’algorithme linéaire des huit points. Cette normalisation consiste à translater le centroïde des points image au centre du repère et à appliquer un facteur d’échelle tel que la distance moyenne des points à l’origine soit√

2. De manière plus générale, cette normalisation améliore les résultats de la plupart

des algorithmes linéaires, voir par exemple [93]. Hartley montre que la normalisation améliore le conditionne-ment numérique du système linéaire. Depuis, d’autres explications ont été proposées. En particulier, Mühlich et Mester [149] et Chojnacki et al. [41] montrent que la normalisation rend l’erreur algébrique minimisée par l’algorithme linéaire plus proche de l’erreur de reprojection (voir le chapitre 3).

Tout nos algorithmes comportent une normalisation des données, les algorithmes linéaires comme les al-gorithmes non-linéaires. Lorsque plusieurs images sont traitées, nous choisissons la même normalisation dans toutes les images, afin de ne pas modifier leurs contributions relatives au système d’équations.

2.6.2 Optimisation quasi-linéaire

Modifions la fonction de coût (2.25) afin de lui donner un sens physique. Pour ce faire, remplaçons la distance algébrique par la distance Euclidienne point-point dans l’équation (2.26). Ceci définit la fonction de coût suivante : C = m j=1 d²_{P P}(q j,Hq_j).

Cette fonction de coût est non-linéaire. Tous les termes correspondants des fonctions de coûtC et CAsont reliés par un facteur de biais, dont la valeur dépend de la transformation géométrique inconnue. Les facteurs de biais sont formulés d’après l’équation (2.21) :

w²_{P P}(q

j,Hqj) = ¹

j,3²^(h^T3q_j)2, (2.27)

où h₃est la troisième ligne de la matrice H. Les deux fonctions de coût sont donc reliées par un ensemble de tels facteurs. Cela suggère un schéma de minimisation itératif, basé sur les moindres carrés linéaires itérativement repondérés. Une solution biaisée minimisant CA est calculée, basée sur la résolution au sens des moindres carrés d’un système linéaire. A partir de cette solution, les facteurs de biais sont estimés, et le système linéaire est repondéré. Ces deux étapes sont itérées jusqu’à convergence. Ce type d’algorithme est souvent appelé

quasi-linéaire. Dans le cadre des problèmes de vision par ordinateur, c’est à dire avec un bruit sur les données et des

erreurs résiduelles peu élevées, la plupart des algorithmes quasi-linéaires convergent après 2 à 5 itérations. Les avantages sont la simplicité d’implantation par rapport à un algorithme plus général de type Newton nécessitant le calcul des dérivées de la fonction de coût (voir le chapitre 3, §3.6), et le temps de calcul nécessaire pour une itération, en général inférieur aux autres algorithmes minimisant une erreur Euclidienne. L’algorithme d’estimation quasi-linéaire d’une homographie 2D est résumé dans le tableau 2.2. La convergence peut être déterminée de différentes manières. Par exemple, on peut seuiller la distance entre deux vecteurs de facteurs de biais consécutifs, ou entre deux erreurs résiduelles consécutives.

L’optimisation quasi-linéaire est utilisée entre autres par Hartley [91] pour l’estimation du tenseur trifocal et par Demirdjian et Horaud [51] pour l’estimation d’une homographie 3D.

Quasi-linéarisation d’un algorithme linéaire. Comme illustré ci-dessus sur l’exemple de l’estimation d’une homographie 2D, un algorithme linéaire peut être “quasi-linéarisé”, sous certaines conditions. Si il minimise une fonction de coût pouvant être écrite comme une somme de distances algébriques pour lesquelles il existe une distance Euclidienne équivalente, alors il peut être quasi-linéarisé. La fonction de coût minimisée par l’al-gorithme quasi-linéaire est obtenue en remplaçant la distance algébrique par la distance Euclidienne dans la fonction de coût de l’algorithme linéaire. Il existe une distance Euclidienne entre les points et les hyperplans de nature finie, par exemple entre un point et une droite image, et entre les points finis. Par contre, il n’existe

1. Initialisation : former le système linéaire représenté par la matrice A = A₀ donnée par l’équation (2.24), initialiser le compteur d’itération k = 0 ;

2. Estimation : résoudre le système au sens des moindres carrés par décomposition en valeurs singulières de Ak: min_h_k,hk2=1Akh_k2;

3. Correction du biais : former Ak+1 en repondérant Ak par les facteurs de biais définis par l’équation (2.27) ;

4. Itération : k → k + 1, itérer les étapes 2 et 3 jusqu’à convergence.

TAB. 2.2 – Algorithme d’estimation quasi-linéaire d’une homographie 2D à partir de correspondances de points image. Cet algorithme minimise la somme des distances Euclidiennes entre les points de l’image de droite et les points de l’image de gauche, transférés par l’homographie.

pas de distance Euclidienne entre deux hyperplans, alors que ces derniers peuvent être comparés par la distance algébrique dV V donnée par l’équation (2.15).

2.6.3 Systèmes non homogènes

Certains problèmes examinés dans cette thèse conduisent à la résolution de systèmes non homogènes de la forme Ax = b avec b= 0. Dans le cas de l’estimation d’une homographie 2D, on peut en fixer l’échelle

telle que l’un de ses coefficients, par exemple H₃₃, soit égal à 1. On obtient alors un système non homogène. Hartley et Zisserman [93, §3.1.2] montrent que cette modélisation peut conduire à des instabilités numériques si la solution pour H est telle que H₃₃est proche de 0.

Un système non homogène Ax = b a une solution unique lorsque le rang de A est plein². La solution au sens des moindres carrés minimise le critère d’erreur suivant :

CA = Ax − b2.

Elle est donnée par la résolution des équations normales induites par le système :

ATAx = ATb

x = (A^TA)⁻¹AT

A†

où A†_{est appelée une pseudo-inverse de A. Les méthodes d’optimisation présentées au chapitre 3 nécessitent} la résolution d’équations normales. Dans certains cas, ces équations normales impliquent une matrice A dont le rang, noté a, n’est pas plein, ce qui implique que le rang de A^TA n’est pas plein non plus. Si (r × c) est la taille

Dans le document Reconstruction et alignement en vision 3D : points, droites, plans et caméras (Page 25-33)