Reconstruction par factorisation

A l’exception de situations dégénérées (surfaces critiques, plusieurs solutions pour des données mini-males, caméra stationnaire), il existe une seule famille de solutions satisfaisant l’équation (5.1). Elles sont reliées entre elles par des transformations projectives : sif(P

i

)

mi

;

p

)

np

gest une reconstruc-tion projective, alors, pour toute transformareconstruc-tion projective non singuli`ere T, l’ensemble

f(P

i

T ,1

)

mi

;

(TQ

p

)

np

gen est aussi une.

En présence de bruit affectant la position des points image, une solution exacte n’est normalement pas possible et il faut définir un critère selon lequel on peut déterminer une reconstruction optimale. Le critère généralement admis est la minimisation de la somme des carrés des distances entre les points reprojetés et ceux mesurés. Il s’agit du critère de maximum de vraisemblance sous hypothèse d’un bruit gaussien (voir 3.7). L’utilisation de ce critère engendre une formulation non linéaire de la fonction de coût à minimiser et l’estimation se fait avec des algorithmes numériques adéquates. Il s’agit d’une méthode standard, introduite par Mohr et al. [129, 130], qui est la spécialisation de l’ajustement de faisceaux au cas non calibré. Le problème habituel des méthodes d’optimisation non linéaire est le besoin d’une bonne initialisation des paramètres. La recherche se concentre donc sur le développement de méthodes ne nécessitant pas une telle initialisation, qui sont sous-optimales mais qui fournissent un bon point de départ pour une éventuelle phase d’optimisation.

Nous proposons dans la suite une méthode de reconstruction projective qui prend en compte simultanément toutes les données et qui ne s’appuie pas sur une préférence de quelques vues ou points pour fixer le repère projectif de reconstruction.

5.3 Reconstruction par factorisation

5.3.1 Cam´eras affines

La reconstruction 3D par factorisation a été introduite par Tomasi et Kanade, dans le cas d’une sé-quence d’images orthographiques [202] (voir aussi l’approche contemporaine de Debrunner et Ahuja [43]). Le principe de leur méthode est très simple ; considérons l’équation de projection réduite d’une caméra affine (cf. 2.2.3.1) : q

ip

1 = P

i

0 0 T 1 Q

p

;

o`uq

ip

etQ

p

sont les coordonn´ees non homog`enes des points image et 3D respectivement², etP

i

est une matrice de projection de dimension23. On peut regrouper les projections de

n

points dans

m

vues dans une seule grande ´equation matricielle :

W 0 B B B @ q 11 q 12 q 1

n

q 21 q 22 q 2

n

.. . .._. . .. .._. q

m

1 q

m

2 q

mn

1 C C C A 2

m

n

= 0 B B B @ P 1 P 2 .. . P

m

1 C C C A 2

m

3 , Q 1 Q 2 Q

n

n :

2. Afin d’obtenir l’équation de projection réduite, les points dans chaque image et les points 3D doivent être transformés tels que leurs centres de gravité se trouvent à l’origine des repères correspondants.

5.3. RECONSTRUCTION PAR FACTORISATION 79

La matrice W est appelée la matrice des mesures parce qu’elle contient toutes les données – les coordonnées des points image.West le produit de la matrice de projection composite et de la matrice de structure composite, toutes deux de rang au plus 3 (ayant seulement 3 colonnes ou 3 lignes). Par conséquent,West aussi de rang au plus 3. C’est l’observation clé pour la méthode de reconstruction proposée. Considérons une décomposition en valeurs singulières deW:

W=U

m

n

V T

n

;

o`uest la matrice diagonale des valeurs singuli`eres dont au plus 3 sont non nulles. Si l’on recompose

W par multiplication des matrices du côté droit de l’équation précédente, il y a donc seulement 3 colonnes deUet 3 lignes deV

qui interviennent dans les calculs (voir aussi la figure 5.1). Soient

U 0

etV 0

les matrices compos´ees de ces colonnes ou lignes et 0

la matrice diagonale des 3 valeurs singulières non nulles. On observe alors l’égalité suivante :

W=U 0 2

m

3 0 33 V 0 T 3

n

: Soit 0 = 00 000

une d´ecomposition quelconque de 0

. Alors, avec les matrices U 00 = U 0 00 et V 00 T = 000 V 0 T , nous avons : W=U 00 2

m

3 V 00 T 3

n

Cette ´equation signifie queU 00

etV 00T

constituent une reconstruction admissible de la sc`ene :U 00

joue le rˆole de matrice de projection composite etV

00 T

celui de matrice de structure composite. Cette interpr´etation est admissible puisque la reprojection des points 3D reproduit les points image (qui sont contenus dans W). La reconstruction n’est qu’affine puisque, pour toute transformation T

33 non singuli`ere,U 00 T ,1 etTV 00 T

interpr`etent aussi bien les donn´ees.

W U U’ ’ V’^T

0

s₁ 2 s 3 s = = = = SVD V^T

FIG. 5.1: Principe de la factorisation. La matriceWest de rang 3 ce qui se manifeste par l’existence de seulement trois valeurs singuli`eres non nulles (s

1 ;s

2ets

3). Les parties ombr´ees des matricesU;

etV T

sont donc((inutiles )).

Jusqu’ici nous n’avons pas parlé de bruit dans les coordonnées image. En présence de bruit, la matrice des mesures ne sera plus de rang 3, mais généralement de rang plein. Pour combattre le bruit, on détermine alors une matrice b

Wde rang 3 qui approche bien la matrice des mesuresW. Ensuite on peut factoriser b

Wcomme d´ecrit ci-dessus. En pratique, la d´etermination de b

Wet sa factorisation se font en une seule étape : on effectue une décomposition en valeurs singulières deW et on annule toutes les valeurs singulières sauf les trois plus grandes. On retient seulement les colonnes et lignes de U et V

singuli`eres. Si l’on multiplie les matricesU 00

etV 00

obtenues, on obtient la matrice b

Wde rang 3, qui approche au mieuxW, au sens de la norme spectrale [68] et mˆeme de la norme de Frobenius [168] :

b W= argmin W 0

;

rang(W 0 )=3 jjW,W 0 jj

F :

Ce constat signifie que la reconstructionf(P

i

)

;

p

)gobtenue en factorisantW, est optimale, au sens du crit`ere des erreurs de reprojection (voir la section 3.7), puisquejjW,

b W jj

F

= P

i;pd

ip;

i

p

) 2 . 5.3.2 Cam´eras perspectives

Nous considérons maintenant le cas des caméras perspectives, où l’équation de projection prend la forme :

ip

i

p :

Contrairement au cas affine, nous ne pouvons pas ´eliminer les facteurs d’´echelle

ip

. En pratique, les points extraits d’une image sont donnés en coordonnées non homogènes, c’est-à-dire implicite-ment multipliées avec un scalaire tel que la troisième coordonnée est égale à 1; donc, le (( vrai ))

facteur d’´echelle n’est pas mesurable. Nous allons appeler les facteurs d’´echelle inconnus

ip

les profondeurs projectives³. Ce nom a été choisi parce que ces facteurs contiennent toute l’informa-tion nécessaire pour la reconstrucl’informa-tion projective. Leur déterminal’informa-tion est en effet équivalente à une reconstruction projective dans le formalisme de l’image composite [207, 208].

Les profondeurs projectives sont li´ees aux ((vraies))profondeurs comme suit. SiQ

p

etq

ip

sont représentés en coordonnées étendues (1comme dernière coordonnée) et siP

i

est normalis´ee tel que le sous-vecteur(P

i

;

i

;

i

)est unitaire, alors la profondeur projective

ip

est la vraie profondeur deQ

p

, c’est-`a-dire sa distance du plan focal de la cam´era.

L’ensemble des équations de projection peuvent être regroupées en une seule équation matricielle de dimension3

m

n

: W 0 B B B @

11 q 11

12 q 12

n

q 1

n

21 q 21

22 q 22

n

q 2

n

.. . .._. . .. .._.

m

1 q

m

2 q

m

mn

1 C C C A 3

m

n

= 0 B B B @ P 1 P 2 .. . P

m

1 C C C A 3

m

4 , Q 1 Q 2 Q

n

n :

(5.2) En analogie au cas affine, nous appelonsWla matrice des mesures, bien qu’elle contienne les fac-teurs d’´echelle

ip

qui ne sont pas mesur´es. Il est clair queWest de rang au plus 4. Ceci n’est pourtant vrai que si les profondeurs projectives correctes sont utilis´ees. Malheureusement, les

ip

sont perdues lors de la projection et regrouper les coordonnées image étendues (1comme 3ê coordonnée) résulte en une matriceWqui est généralement de rang plein et ne permet pas sa factorisation en mouvement et structure.

Si nous étions capables de déterminer les profondeurs projectives correctes, nous pourrions cons-truire une matrice des mesures avec des coordonnées image correctement échelonnées, qui sera de rang 4. Ensuite, la structure 3D de la scène et le calibrage projectif des caméras peuvent être déter-minés par le même schéma de factorisation que pour la caméra affine. Dans le cas présent, on obtient

3. Cette d´esignation n’a pas le mˆeme sens que les((profondeurs projectives))de Shashua, qui sont des birapports le long de rayons de projection [174].

Dans le document Vision 3D non calibrée : contributions à la reconstruction projective et étude des mouvements critiques pour l'auto-calibrage (Page 93-96)

i

mi

;

p

np

i

mi

;

p

np

5.3 Reconstruction par factorisation

ip

i

p

;

ip

p

i

n

m

n

n

m

m

mn

m

n

m

m

n

n :

m

n

n

n

n

n

m

n

m

n

0

;

F :

i

;

p

F

i;pd

ip;

i

p

ip

ip

i

p :

ip

ip

p

ip

i

i

;

i

;

i

ip

p

m

n







n

n







n

ip

ip

ip

ip

m

m

mn

ip

ip