Asservissement visuel des paramètres d’acquisition

L A notion de pré-traitement est relativement vague et peut désigner trois types d’opération.

3.1 Géo-localisation des vidéos aériennes

3.1.2 Asservissement visuel des paramètres d’acquisition

Afin de pouvoir estimer les paramètres d’acquisition d’une vidéo de manière incrémentale, c’est-à-dire à mesure que ses images sont acquises, il est préférable de ne pas employer la technique de calibration basée sur des correspondances entre points 3D et projections 2D. En effet, pour atteindre un bon niveau de précision, cette méthode requiert soit un important ef- fort d’annotation manuelle pour chaque image, qui rendrait l’approche globale inefficace, soit un modèle tri-dimensionnel extrêmement précis de la scène, ce qui constitue une hypothèse peu réaliste dans le cadre de l’observation aérienne. Cependant, un modèle tri-dimensionnel ap- proximatif de la scène peut suffire à estimer de manière très précise les paramètres d’acquisition d’une image donnée, à l’aide de la technique d’asservissement visuel.

L’idée de cette méthode est de guider l’estimation des paramètres d’acquisition, à l’aide du recalage entre l’image considérée et le rendu d’un modèle 3D de la scène, généré grâce à l’estimation courante des paramètres d’acquisition. En d’autres termes, les paramètres d’acquisition sont ajustés itérativement jusqu’à ce que le modèle 3D de la scène soit parfaitement aligné avec l’image considérée (voir figure 3.2). En pratique, cette méthode est constituée de deux étapes. La première étape consiste à obtenir une estimation grossière des paramètres d’acquisition de

3.1.2 - Asservissement visuel CH. 3 - PRÉ-TRAITEMENT l’image considérée. Pour cela, nous avons développé [15] un algorithme de prédiction, qui es- time les paramètres d’acquisition de l’image courante en exploitant ceux estimés pour l’image précédente. La seconde étape consiste à corriger l’estimation des paramètres d’acquisition de l’image courante, en exploitant un modèle 3D de la scène observée. Pour cela, nous utilisons un algorithme de correction guidé par une matrice Jacobienne particulière [15], dont la dérivation est présentée en annexe.

Le reste de cette section décrit la méthode employée en termes techniques. Le pseudo- code de cette méthode, appliquée à l’estimation des paramètres d’acquisition d’une séquence d’images, est fourni par l’algorithme3.2.

Notations dans le cas restreint Pour commencer, nous définissons les notations communes aux deux étapes de la méthode, dans le cas restreint où les paramètres intrinsèques de calibration (distances focales et coordonnées 2D du point d’intersection entre l’axe optique et le plan image de la caméra, également appelé point principal) sont supposés connus. Soient deux ca- méras C1 et C2, associées aux images I1 et I2, observant une scène contenant un plan π (par

exemple le plan dominant du sol), caractérisé par sa normale nπ et sa distance à l’origine dπ.

Nous désignons par xe₁ et xe₂ les vecteurs contenant les paramètres extrinsèques (position et orientation) de chaque caméra, et par xi₁et xi₂les vecteurs contenant les paramètres intrinsèques de calibration. Nous désignons alors par x1✏ !xe1xi1" et x2✏ !xe2 xi2" la concaténation des pa-

ramètres extrinsèques et intrinsèques pour chaque caméra. Enfin, nous désignons par dxe les paramètres extrinsèques de la caméra C2, exprimés dans le système de coordonnées défini par

x₁. En d’autres termes, dxe représente le changement de position et d’orientation subi par C2

par rapport à la position et à l’orientation de C1. Ces vecteurs sont exprimés comme suit :

xe 1✏ ✏ ψ1 θ1 φ1 x1 y1 z1 ✘T xe 2✏ ✏ ψ2 θ2 φ2 x2 y2 z2 ✘T dxe✏✏ dψ dθ dφ dx dy dz ✘T (3.2) xi 1✏ ✏ f x1 f y1 ox1 oy1 ✘T xi 2✏ ✏ f x2 f y2 ox2 oy2 ✘T

Dans ces expressions,♣ψ1,θ1,φ1$, ♣ψ2,θ2,φ2$ et ♣dψ,dθ,dφ$ représentent les orientations selon la convention ZY X d’Euler (encore appelée convention de Tait-Bryan, fréquemment utilisée pour représenter les orientation de véhicules aériens).♣x1,y1,z1$, ♣x2,y2,z2$ et ♣dx,dy,dz$ re- présentent les positions linéaires 3D. Enfin, ♣ f x1,f y1$ et ♣ f x2,f y2$ représentent les distances focales horizontales et verticales, et ♣ox1,oy1$ et ♣ox2,oy2$ représentent les coordonnées des points principaux.

Soit H_{2 1}l’homographie recalant l’image I2par rapport à l’image I1selon le planπ. La no-

tation 2% 1 est utilisée ici pour rappeler que H_{2 1}transforme les coordonnées 2D de l’image I1 vers les coordonnées 2D de l’image I2. Par ailleurs, notons que dans le reste de cette sec-

tion, toutes les homographies considérées effectueront un recalage selon le plan π, même si cela n’est pas mentionné explicitement. Il a été démontré dans [52, § 13.1] que H_{2 1} pouvait être exprimée analytiquement en fonction de nπ, dπ et des matrices de projections des deux

images. Cependant, l’expression associée ne fait pas apparaître clairement les paramètres d’acquisition de chaque image. Nous avons donc déterminé une expression analytique de l’homographie H2 1recalant I2 par rapport à I1, que nous noterons H_{2 1}f ♣x1,x2,nπ,dπ$, en fonction des paramètres d’acquisition des deux images (voir l’expression analytique démontrée en annexe, section A.1.1). Dans la suite, nous désignerons par vec♣☎$ la fonction transformant une matrice 3✂ 3 en un vecteur colonne2 contenant tous les éléments de la matrice sauf l’élément constant d’indice ♣3,3$. Alors, sous l’hypothèse que les paramètres d’acquisition x1 et x2sont 2. Ce vecteur colonne n’est composé que de 8 lignes, du fait que dans la représentation canonique des homographies, le neuvième élément est constant égal à 1 et qu’il n’y a donc pas lieu de le prendre en compte.

CH. 3 - PRÉ-TRAITEMENT 3.1.2 - Asservissement visuel proches, il est possible de linéariser l’expression de vec H_{2 1}f ✟par rapport à dx :

vec H₂f₁♣x1,x2,nπ,dπ!

✟

✓ hId♣xi1,xi2! # JH♣x1,x

2,nπ,dπ! ☎ dx (3.3) Les expressions analytiques du terme constant de la linéarisation hId♣xi1,x

2! ainsi que de la

matrice jacobienne JH♣x1,x

2,nπ,dπ! sont données en annexe, sectionA.1.2.

Notations dans le cas général Dans le cas général, les paramètres de calibrations ne sont pas connus et peuvent également être estimés par la méthode d’asservissement visuel. Nous désignons toujours par x1et x2les vecteurs contenant l’ensemble des paramètres d’acquisition

(position et orientation, distances focales et coordonnées du point principal) de chaque caméra. Ces vecteurs sont exprimés comme suit :

x1✏✏ ψ1 θ1 φ1 x1 y1 z1 f x1 f y1 ox1 oy1 ✘T

x2✏✏ ψ2 θ2 φ2 x2 y2 z2 f x2 f y2 ox2 oy2 ✘T

(3.4) Les quantités scalaires intervenant dans ces expressions sont définies de la même manière que pour le cas restreint. Sous l’hypothèse que les paramètres d’acquisition x1 et x2 sont

proches, il est possible de linéariser vec H₂f₁✟par rapport à dx : vec H₂f₁♣x1,x2,nπ,dπ!

✟

✓ vec♣ID! # JH♣x1,nπ,dπ! ☎ dx (3.5) où ID représente la matrice identité. L’expression analytique de la nouvelle matrice jacobienne JH♣x1,nπ,dπ! est donnée en annexe, tableA.2.

Il est intéressant de remarquer que les équations 3.3 et 3.5 définissent une relation entre d’une part, les variations de poses dx entre les caméras C1et C2, et d’autre part, l’homographie

de recalage H_{2 1} de I2 par rapport à I1. En d’autres termes, connaissant les variations de pa-

ramètres d’acquisition entre deux caméras, il est possible de calculer de manière très précise l’homographie de recalage entre les images correspondantes. Mieux, il est à l’inverse possible, connaissant l’homographie de recalage entre les deux images, d’estimer les variations de para- mètres d’acquisition entre les deux caméras. Notons toutefois que cela nécessite la connaissance des paramètres du plan dominantπ, qui peuvent être calculés si un modèle 3D de la scène est connu. Cette relation est au cœur de notre méthode d’asservissement visuel, dont les détails des étapes de prédiction et de correction sont donnés ci-dessous.

Prédiction Considérons maintenant que les paramètres d’acquisition x1de la caméra C1sont

connus et cherchons à estimer ceux de la caméra C2. Les deux images étant disponibles, il est

possible d’estimer l’homographie ♣H_{2 1}recalant I2par rapport à I1 à l’aide d’un algorithme de

recalage [123]. En pratique, nous estimons cette homographie à l’aide d’un algorithme RAN- SAC [45] appliqué sur des appariements de points SURF [5] extraits des deux images3. Nous souhaitons alors déterminer la variation de paramètres d’acquisition dx expliquant au mieux l’homographie mesurée ♣H2 1. Cela revient à estimer les paramètres d’acquisition♣x2 pour les-

quels la fonction x"# vec H₂f₁♣x1,x,nπ,dπ! ✟

✁vec ♣H_{2 1}✟s’annule. Ce problème peut donc être résolu grâce à la méthode de Newton pour les fonctions non-linéaires à plusieurs variables, algorithme d’estimation itératif mis en œuvre dans l’étape Prédiction de l’algorithme3.2.

Cette étape de prédiction est très rapide et est en pratique limitée par le temps nécessaire pour mesurer l’homographie de recalage ♣H2 1 entre les deux images. En revanche, l’erreur

d’estimation dépend directement de la précision avec laquelle les paramètres d’acquisition x1 3. Les points SURF sont des points d’intérêt similaires aux points SIFT, bien que moins discriminants, mais qui présentent l’avantage de pouvoir être extraits plus rapidement, ce qui est souhaitable pour une méthode de traitement en ligne.

3.1.2 - Asservissement visuel CH. 3 - PRÉ-TRAITEMENT

Entrées : Images courante Inet précédente In✁1, estimation des paramètres d’acquisition précédents♣xn✁1et mo-

dèle 3D de la scène, choix entre méthode de correction rapide ou précise Sorties : Estimation des paramètres d’acquisition courants♣xn

1: Déterminer les paramètres nπ et dπdu plan dominant dans le modèle 3D par moindres carrés

. . . .

2: Trouver l’homographie ♣Hn!n✁1recalant Inpar rapport à In✁1 ➍ Étape de Prédiction

3: x! ♣xn✁1

4: Faire

5: Calculer H_nf_!_n_✁₁♣♣xn✁1,x,nπ,dπ#

6: Résoudre (SVD) par rapport à dx : JH♣♣xn✁1,nπ,dπ#☎dx ✏ vec!♣Hn!n✁1 ✟

✁vec!H_nf_!_n_✁₁♣♣xn✁1,x,nπ,dπ# ✟ 7: Mettre à jour x grâce au décalage dx (accumulation des paramètres linéaires, composition des matrices de

rotation)

8: Jusqu’à convergence (dx proche de zéro) 9: #xn! x

. . . .

10: x! #xn ➍ Étape de Correction

11: Si Méthode de correction précise Alors

12: Faire

13: Générer l’image Ir♣x# de rendu du modèle 3D selon x

14: Trouver l’homographie ♣Hn!r♣x# recalant Inpar rapport à Ir♣x#

15: Résoudre (SVD) par rapport à dx : JH♣x,nπ,dπ# ☎ dx ✏ vec !

ID✟✁ vec!♣H_r_!_n♣x#✟

16: Mettre à jour x grâce au décalage dx (accumulation des paramètres linéaires, composition des matrices de rotation)

17: Jusqu’à convergence (dx proche de zéro)

18: Sinon

19: Générer l’image Ir♣#xn# de rendu du modèle 3D selon #xn

20: Trouver l’homographie ♣Hn!r♣#xn# recalant Inpar rapport à Ir♣#xn#

21: Faire

22: Calculer Hnf!r♣#xn,x,nπ,dπ#

23: Résoudre (SVD) par rapport à dx : JH♣#xn,nπ,dπ# ☎ dx ✏ vec!♣Hn!r♣#xn# ✟

✁ vec!Hnf!r♣#xn,x,nπ,dπ#

✟ 24: Mettre à jour x grâce au décalage dx (accumulation des paramètres linéaires, composition des matrices

de rotation)

25: Jusqu’à convergence (dx proche de zéro)

26: Fin Si 27: ♣xn! x

ALGORITHME3.2 – Algorithme d’asservissement visuel pour l’estimation incrémentale des pa-

ramètres d’acquisition des images d’une vidéo, à l’aide d’un modèle 3D de la scène.

sont connus. Or, dans la plupart des cas, nous ne disposerons que d’une estimation approxi- mative♣x1 de ces paramètres. Par conséquent, dans le cas d’une utilisation séquentielle de cet

algorithme, par exemple lors de l’estimation des paramètres d’acquisition de chaque image d’une vidéo, ce problème risque d’engendrer une accumulation de l’erreur d’estimation. Correction Pour éviter cette accumulation d’erreurs, nous utilisons l’approche basée sur l’asservissement visuel pour corriger la prédiction des paramètres d’acquisition à l’aide du modèle 3D d’apparence, qui sert alors de référence pour la localisation. Soit !x2 une estimation gros-

sière des paramètres d’acquisition de l’image I2, en pratique fournie par l’étape de prédiction

ci-dessus. Désignons par Ir♣x! l’image obtenue par rendu du modèle 3D selon les paramètres

d’acquisition x, et soit ♣Hr 2♣x! l’homographie recalant l’image Ir♣x! par rapport à l’image I2,

estimée par la méthode évoquée plus haut (points SURF [5] + RANSAC [45]). Nous souhaitons déterminer les paramètres d’acquisition x2tels que l’homographie recalant l’image réelle I2par

rapport à l’image Ir♣x2!, rendue selon x2, soit égale à la matrice identité. Cela revient à esti-

mer les paramètres d’acquisition♣x2 pour lesquels la fonction x"# vec

H_{r 2}f ♣x2,x,nπ,dπ! ✟

CH. 3 - PRÉ-TRAITEMENT 3.1.2 - Asservissement visuel vec ID✟s’annule. Cependant, l’évaluation de cette fonction nécessite la connaissance des vrais

paramètres d’acquisition x2, que nous cherchons à déterminer. Par conséquent, nous rempla-

çons l’expression analytique H_{r 2}f ♣x2,x,nπ,dπ! par l’homographie ♣Hr 2♣x! mesurée empiri- quement, ce qui est possible à condition que le plan π décrive effectivement le plan dominant dans la scène. Comme précédemment, ce problème peut alors être résolu grâce à la méthode de Newton pour les fonctions non-linéaires à plusieurs variables, dont l’algorithme est mis en œuvre dans l’étape Correction de l’algorithme3.2.

Remarquons que cette étape de correction est assez lente puisqu’elle nécessite à chaque itération un rendu du modèle 3D et une estimation de l’homographie de recalage entre I2 et

Ir. Néanmoins, en pratique, l’étape de prédiction employée au préalable permet de trouver une

valeur d’initialisation très proche de la valeur optimale et par conséquent, le nombre d’itérations requises pour la convergence de l’étape de correction est généralement faible. Toutefois, une approche alternative, plus rapide mais moins précise, peut consister à appliquer une seconde fois l’étape de prédiction, non plus à l’aide de l’image précédente mais à l’aide cette fois d’un rendu du modèle 3D, généré depuis l’estimation du point de vue courant (voir l’algorithme3.2). Dans tous les cas, il est crucial d’appliquer une correction à l’estimation issue de l’étape de prédiction, afin d’éviter la divergence de l’erreur associée.

Pour finir, notons que les étapes de prédiction et de correction présentées ci-dessus reposent sur la résolution d’un système linéaire d’équations, qui est sur-contraint, dans le cas restreint où les paramètres de calibrations sont connus, et sous-contraint, dans le cas général où ces paramètres sont inconnus. Par conséquent, dans les deux cas, la résolution est effectuée de ma- nière approchée à l’aide de la méthode par décomposition en valeurs singulières (SVD). Cette méthode de résolution permet d’obtenir le décalage dx approchant au mieux les contraintes ex- primées par le système linéaire, au sens des moindres carrés. Dans le cas restreint, où le système est sur-contraint, ceci permet d’obtenir la solution permettant de faire le meilleur compromis entre toutes les contraintes disponibles. Dans le cas général, où le système est sous contraint, ceci permet de trouver le vecteur dx de norme minimale permettant de satisfaire les contraintes disponibles. Cependant dans ce dernier cas, le nombre insuffisant de contraintes peut avoir pour conséquence de faire diverger l’estimation de l’algorithme d’asservissement visuel. En pratique, nous avons pu limiter cette divergence en effectuant un amortissement sur les paramètres de ca- libration4.

Comme pour l’algorithme de géo-localisation présenté à la section précédente, cette mé- thode par asservissement visuel a une complexité algorithmique linéaire par rapport au nombre d’image à traiter. Cependant, elle est un peu plus rapide en pratique, ce qui est intéressant pour le traitement en ligne de la vidéo de test. Les résultats d’évaluation, relatifs à la précision d’estimation de cette méthode, sont présentés et analysés à la section6.2.1.

Dans le document Détection de changements entre vidéos aériennes avec trajectoires arbitraires (Page 66-70)