Des méthodes alternatives - Formulation Bayésienne

3.2 Formulation Bayésienne

3.3.4 Des méthodes alternatives

La méthode d’optimisation stochastique par MCMC qui vient d’être proposée est adap- tée aux caractéristiques de notre problème, mais est relativement coûteuse en temps de calcul. Cette partie constitue un aparté dans lequel nous évoquons plusieurs méthodes alternatives permettant de simplifier notre problème d’optimisation, et qui soulèvent des pistes intéressantes pour le futur.

Modélisation par chaînes de Markov cachées après simplification des supports 2D La première méthode consiste à transformer notre modèle en processus causaux dans lesquels un bâtiment est considéré comme une association de séquences d’objets (voir la figure 3.10), tout en réduisant fortement l’espace des configurations par une discrétisation des paramètres. Nous simplifions ainsi les supports 2D de manière à obtenir des séquences de quadrilatères connectés (ces quadrilatères ont donc au plus deux voisins).

FIG. 3.10 – Simplification des emprises en séquences de supports 2D.

Pour chaque séquence de N supports, nous utilisons une chaîne de Markov cachée ho- mogène (Xt,Yt)Nt=1 dont le graphe de dépendance est illustré sur la figure 3.11. X = (Xt)t représente les états cachés (i.e. la séquence x d’objets paramétriques 3D) et Y = (Yt)t, la sé- quence des observations correspondantes. La probabilité de transition P(Xt+1=xt+1|Xt = xt)et la vraisemblance locale P(Yt =yt|Xt=xt)sont directement calculées à partir de l’ex- pression de la densité h définie dans le chapitre 3.2. L’espace des configurations est dis- crétisé afin d’utiliser un processus d’optimisation causal, en l’occurrence l’algorithme de Viterbi [Viterbi, 1967; Forney, 1973]. Le pas de discrétisation des paramètres joue un rôle

important dans le processus : il détermine le degré de précision de la modélisation, mais également les temps de calcul.

FIG. 3.11 – Graphe de dépendance de la chaîne de Markov cachée (Xt,Yt)N_t=1

Cette simplification en séquences d’objets est pénalisante dans la mesure où les jonctions complexes (jonctions en T ou en +) ne pourront plus être restituées correctement puisque les chaînes de Markov cachées sont indépendantes entre elles. Une des solutions consisterait à utiliser une modélisation par graphe hiérarchique à deux niveaux : le niveau inférieur correspondant aux séquences d’objets, le niveau supérieur permettant d’introduire des lois de dépendance entre les séquences. Une autre possibilité pourrait être d’utiliser les techniques de propagation des messages. Les méthodes de "belief propagation" semblent être bien adaptées, d’autant que les graphes de notre problème possèdent souvent peu de cycles. Les approches utilisant un formalisme fondée sur les modèles graphiques ouvrent, en tout cas, des perspectives particulièrement intéressantes.

En définitive, cette méthode est intéressante pour obtenir rapidement une modélisation approchée (i.e. avec un pas de discrétisation de l’ordre de deux mètres, une bonne régulari- sation, mais sans restitution des jonctions complexes) avec des temps de calcul très faibles (de l’ordre d’une seconde pour un bâtiment). Si l’on souhaite un degré de précision su- périeur, le processus par optimisation stochastique est alors mieux adapté. Cette méthode alternative est présentée de manière plus détaillée en annexe E.

Utilisation des méthodes de diffusion ?

Parmi les techniques d’optimisation relativement rapides, les méthodes utilisant les gra- dients énergétiques pour se déplacer dans l’espace des configurations sont très efficaces. Si l’énergie est convexe, une simple descente de gradient est suffisante pour atteindre la solution optimale. Dans le cas contraire, il existe des techniques de diffusion stochastique notamment les méthodes fondées sur les équations différentielles stochastiques [Kloeden et Platen, 1992; Salomon et al., 2002; Descombes et Zhizhina, 2004] ou celles couplées à des processus de sauts ("Jump-Diffusion") [Grenander et Miller, 1994; Srivastava et al., 2002; Han et al., 2004].

Dans ce paragraphe, nous regardons dans quelles mesures nous pourrions utiliser ce type de techniques d’optimisation. La principale contrainte est la dérivabilité de l’énergie. Du moins, la dérivée de l’énergie doit être facilement calculable ou estimable en tout point.

3.3 Optimisation 71

L’énergie de notre problème est donnée par l’expression suivante :

U(x) =

∑

i∈Q Γ32 (i)(Sxi,Yi) +β

∑

i./ j {xi∼axj} g(xi,xj) (3.23)

Or U(x) n’est pas dérivable en tout point de son espace d’état. Le terme a priori contient une fonction caractéristique et une fonction g non dérivables en tout point. C’est également le cas du terme d’attache aux données, où les fonctions d’équations des toits Sxi sont C1

par morceaux (les toits étant des associations connexes de plans). Une solution simple permettant de contourner le problème consiste à restreindre l’espace d’état et/ou modifier la formulation de U. Ainsi, nous pourrions simplifier le problème en considérant l’hypothèse suivante : les configurations dans lesquelles les objets voisins ne sont pas assemblables sont improbables. Cela signifie que l’on réduit l’espace aux configurations dans lesquelles les objets voisins sont assemblables. De plus, nous pourrions modifier certaines fonctions de manière à redéfinir notre énergie sous la forme :

b U(x) =

∑

i∈Q Γ32 (i)(Sxi,Yi) +β

∑

i./ j g0₍_xi_,_x_j₎ _(3.24)

où g0_{est une fonction de distance analogue à g mais définie en norme L}₂_{. b}_{U diffère de U par}

les normes utilisées dans l’a priori. Dès lors, si l’on dérive bU par rapport au kieme_paramètre de l’objet Xi, on obtient l’expression suivante :

d bU(x) dx(k) i = d dx(k) i Γ32 (i)(Sxi,Yi) +β

∑

j∈V(i) dg0₍_xi_,_x_j₎ dx(k) i (3.25)

La dernière difficulté concerne les fonctions d’équation des toits Sxi qui sont C1 par mor-

ceaux. Cela rend, par conséquent, le terme d’attache aux données non dérivable sur les bords des différentes parties des supports de toit. Une solution possible consiste à négliger la variation des différentes parties des supports dans l’expression de la dérivée. Dans ce cas, nous avons : dΓ32 (i)(Sxi,Yi) dx(k) i = d dx(k) i R Si|z −Yi| 3 2dm 2 3 ≈R Si|z −Yi| 3 2dm −13 ∑pR_S(p) i sign(z(p)₋_Y i)p|z(p)−Yi|dz_dx((p)k) i dm (3.26) où les S(p)

i correspondent aux différentes parties du support Si, chacune associée à un plan du toit, C1_{sur S}(p)

i . z est l’équation du toit et m représente la mesure de Lebesgue dans R2. Notre problème pourrait donc être abordé par des processus de diffusion, notamment par des techniques de "jump-diffusion" adaptées aux problèmes de reconnaissance d’objets multiples. Il faudrait alors voir dans quelles mesures les hypothèses et approximations réali- sées pour calculer le gradient de l’énergie pénalisent les résultats. Il serait particulièrement intéressant d’approfondir les recherches dans cette direction.

Dans le document Modèles stochastiques pour la reconstruction tridimensionnelle d'environnements urbains (Page 72-75)