• Aucun résultat trouvé

Critère de minimisation de l’enveloppe visuelle

4.3 Estimation de l’alignement

4.3.2 Critère de minimisation de l’enveloppe visuelle

Comme nous venons de le présenter, nous avons cherchés à définir un critère d’estima- tion, permettant de mesurer la pertinence de l’alignement d’un objet 3D face à un autre. L’étape cruciale dans la construction d’un estimateur est la recherche d’un critère per- tinent permettant l’évaluation des différentes approches. Pour définir un tel estimateur, nous avons donc tenté de comprendre ce que veut dire l’expression usuelle : “bien aligné”, et ceci, dans le but d’extraire l’information pertinente des silhouettes, obtenues par pro- jection, selon les trois axes du repère 3D (voir remarque 4.3). En effet, avant de pouvoir juger, de manière automatique, de la justesse d’un quelconque alignement, il faut d’abord savoir ce qu’un humain penserait. Mais surtout, comment il analyserait cette pose, et ceci, dans le but de donner, si ce n’est pas une valeur, au moins une approximation de sa perti- nence. Finalement, c’est un critère d’alignement de l’objet 3D par rapport aux trois axes : −

x , −y et −z que nous avons cherchés, plutôt qu’une recherche plus précise, incluant miroir

et ordre de ces mêmes axes, ce que nous traiterons dans la suite de ce chapitre.

Remarque 4.3. Les méthodes d’indexation par le contenu, que nous intro-

duirons par la suite, sont basées sur la capture de silhouettes, obtenues par projection de l’objet 3D sur un espace en deux dimensions. Pour simplifier la compréhension de l’estimation de l’alignement, nous allons supposer la cap- ture de seulement trois silhouettes résultant de la projection d’un modèle en

direction des trois axes principaux du repère 3D, −x , −y et −z . Le but de cette

étape est de trouver une pose cohérente de cet objet, et ceci, de manière rapide et si possible robuste.

Étant difficile d’évaluer un alignement directement sur l’objet 3D, nous avons voulu en caractériser la justesse par rapport au repère 3D. Dans ce sens, nous avons choisi de juger une pose en fonction du rendu qu’elle offrira en deux dimensions plutôt qu’en trois. Nous avons donc cherché un critère sur les silhouettes 2D, et non directement sur le modèle 3D.

Relation à la psychologie cognitive

En psychologie cognitive, qui étudie les grandes fonctions psychologiques de l’être hu- main telles que le raisonnement, la résolution de problèmes ou la perception, Lemaire [67] a mis en évidence que l’être humain identifie des objets grâce à la représentation men- tale qu’il s’en fait. En particulier, Marr [69] et Biederman [15] montrent que l’orientation des objets joue un rôle très important pour la reconnaissance d’un objet, but de notre indexation.

En effet, lors de la comparaison d’un objet avec son image mentale, un humain est plus rapide si l’objet est aligné de telle sorte que l’information qu’il contient soit maximale (voir section 4.2.1). Ainsi, dans la figure 4.7, l’image mentale qu’un humain se fait d’un verre est plus proche de (a) que de (b) ou (c). Ceci vient du fait que dans le cas d’une représentation binaire, noir et blanc, c’est la vue(a) qui véhicule le plus d’informations.

(a) Verre vu de face (b) Verre vu de dessus (c) Verre vu de biais (d) Verre vu de face avec une rotation

Figure 4.7 – Exemple d’un verre vu de face (a), vu de dessus (b), vu de biais(c)et vu de

face avec une rotation (d). Il est clair que la représentation mentale qu’un humain se fait

de celui-ci se rapproche plus de la vue (a)car elle fournit un maximum d’informations et

non pas des représentations (b), (c) ou (d).

D’autre part, Leek [66] a montré que la reconnaissance d’un objet est plus facile pour un humain lorsque celui-ci est aligné selon ses axes de symétrie et qu’une rotation par rapport à ceux-ci complique la tâche d’identification. Un humain choisira donc plutôt la représentation(a) que(d).

Dans d’autres études, Marr [69] et Quinlan et Humphreys [101] montrent que nous apportons une très grande importance à la symétrie des objets pour leur représentation mentale. En effet, un humain représentera une table ou une chaise avec les pieds alignés car cette orientation tient compte des axes de symétrie et offre, de ce fait, plus d’informations (voir figure 4.8).

Finalement, la fonction de l’objet peut aider un humain à décider de la position dans laquelle il se le représente. En effet, son utilité influence parfois la représentation mentale que l’homme se fait de l’objet réel. Cependant, étant donné que cette dernière notion né- cessite une information sémantique dont l’étude sort du cadre de notre thèse.

(a) Chaise avec les pieds bien alignés

(b) Chaise avec les pieds mal alignés

Figure 4.8 – Exemple d’une chaise alignée de deux manières. La première(a) représente

une chaise avec les pieds bien alignés tandis que (b)montre celle-ci avec les pieds décalés.

La représentation mentale qu’un humain se fait de cet objet se rapproche plus de la vue

(a) car elle répond à un alignement tenant compte des symétries du modèle 3D alors que

la représentation (b) néglige ces informations (voir Leek Leek [66]).

En accord avec ses différentes notions de psychologie cognitive, mais aussi avec nos propres contraintes (voir section4.3.1) nous avons cherché un critère permettant d’estimer l’orientation d’un objet 3D, à partir de sa représentation 2D sous forme de silhouettes.

Recherche du critère d’estimation de l’alignement

La première approche qui peut paraître pertinente est : “la maximisation des aires des silhouettes extraites”, et ceci, de manière itérative pour les trois silhouettes obtenues par projection, selon les axes du repère 3D. En effet, si l’on prend l’exemple d’une chaise, la première silhouette d’aire maximale correspond bien au dossier de celle-ci. Tandis que la seconde, qui doit être orthogonale à la première, correspond à l’assise. Cela semble être correct. Cependant, d’autres exemples font ressortir des contradictions.

Prenons le cas particulier d’une table. La première silhouette représentera bien le pla- teau de celle-ci, en revanche, la seconde, au lieu d’aligner les pieds de la table préféra faire en sorte qu’ils soient tous visibles afin de maximiser l’aire de la silhouette (voir la vue (b) de la figure 4.8). Un exemple encore plus simple (voir figure 4.9) permet de se rendre compte de l’ambiguïté qui apparaît lorsque l’on veut aligner certains objets 3D. En effet, pour ce “L” en 3D nous devrions chercher la silhouette ayant une aire maximale. Cependant, même si nous nous attendrions à choisir, pour celle-ci, la partie la plus longue, l’algorithme décrit choisira de coucher l’objet de travers, comme représenté sur la figure. En effet, d’après le théorème de Pythagore, la pose qui maximise l’aire de la projection 2D correspond à celle qui maximise l’hypoténuse du triangle formée par les deux barres du “L”. À cause de ces incohérences, nous avons décidé de choisir comme critère : “la minimi- sation de l’aire globale” – équivalente à la somme des aires des surfaces engendrées par les trois silhouettes – plutôt que leur maximisation. En effet, cet algorithme résout les problèmes soulevés pour la précédente approche. Même si ce critère d’estimation semble

(a) Objet 3D “L” initial (b) Pose maximisant l’aire des projections

(c) Objet “L” bien aligné

Figure 4.9 – Cas de l’alignement d’un objet 3D(a)en suivant l’approche de maximisation

des aires.(b)représente l’alignement optimale en utilisant ce critère tandis que(c)montre

l’alignement vu par un humain. Il est clair que l’alignement trouvé est incorrect car en cherchant à maximiser les aires, l’algorithme ne tient pas compte des surfaces planes et

de leur alignement avec la prise de vue. En revanche (c) tient compte de ces paramètres

et offre un alignement cohérent.

à première vu, illogique, il s’avère très cohérent pour le jugement d’une pose par rapport à une autre, et ceci, pour deux raisons :

– La première est l’alignement des zones importantes, souvent caractérisées par de grandes surfaces planes, dans la direction d’un des axes du repère 3D.

– La seconde est la prise en compte des informations de symétries du modèle 3D. En effet, la minimisation locale (sur chaque silhouette) de l’aire, ne veut pas dire mi- nimisation globale (sur l’objet 3D). De ce fait, en cherchant à minimiser l’aire globale, l’algorithme présenté va préférer maximiser l’aire d’une zone sur une silhouette afin de la minimiser sur les autres, par exemple pour l’alignement d’un rectangle en 3D (voir

4.10). La figure 4.11 montre clairement que dans le cas d’une chaise le plateau est bien aligné et que les pieds le sont aussi. Il est intéressant de noter que dans ce cas, les critères d’orientation et de symétrie, en accord avec la psychologie cognitive, sont bien respectés répondant, de ce fait, à l’alignement qu’un humain aurait pu faire mentalement. Il faut tout de même noter que la méthode introduite propose un moyen de définir l’orientation d’un modèle 3D par rapport à un repère global, mais ne tient pas compte d’une éventuelle permutation d’axes ou d’un effet miroir.

Finalement, il est intéressant de noter que le critère choisi, basé sur la minimisation des projections tend à réduire le volume de la reconstruction de l’objet 3D. En effet, en utilisant trois silhouettes orthogonales, telles que dans la méthode, il est possible de reconstruire un modèle 3D avec des “voxels” (voir section 2.3.2 du chapitre 2). Il suffit pour cela de calculer les intersections entre les trois silhouettes est de placer un pixel 3D pour chacune d’entres elles. Ce critère de “minimisation du volume après reconstruction”, visible sur la figure 4.12, aurait pu aussi être choisi comme critère de sélection de la pose.

(a) Object 3D initial (b) Pose maximisant l’aire des projections

(c) Pose minimisant l’aire des projections

Figure 4.10 – Cas de l’alignement d’un objet 3D (a)en suivant l’approche de minimisa-

tion des aires. (b) représente l’alignement “optimale” en utilisant le précédent critère de

“maximisation“ tandis que (c) montre l’alignement utilisant le critère de “minimisation”.

Il est clair que cette dernière pose offre de meilleurs résultats, pour cet objet, que l’approche évaluée précédemment..

(a) Avion (b) Table (c) Verre

Figure 4.11 – Trois objets 3D alignés selon le critère de “minimisation” de l’aire des

projections.(a), (b) et (c)représentent respectivement un avion, une table et un verre.

(a) Objet 3D initial repré- sentant une chaise

(b) Reconstruction de la chaise avec l’approche par “maximisation”

(c) Reconstruction de la chaise avec l’approche par “minimisation”

Figure 4.12 – Reconstruction d’un objet(a) (une chaise). (b)présente le résultat avec le

critère de “maximisation” tandis que(c) présente le résultat avec le critère de “minimisa-

Formalisation du critère d’estimation de l’alignement

Pour trouver cet alignement “optimal”, par rapport à nos critères, nous définissons une rotation de l’objet 3D : Rρ,φ,θ de paramètres : (ρ, φ, θ) ∈ R3. Nous recherchons donc les paramètres de cette transformation qui vont minimiser l’aire des silhouettes, de l’objet 3D O, capturées sur les axes : −→x , −y et −z du repère 3D. Nous pouvons ainsi définir l’enveloppe

visuelle comme : EΘ = X v∈{−→x ,−y ,−z} f  (Pv◦ TΘ)(O)