• Aucun résultat trouvé

Limitations et analyse de configurations d’échec

4.5 Validation expérimentale

4.5.4 Limitations et analyse de configurations d’échec

Dans certaines situations particulières, le résultat obtenu avec l’algorithme MAC-RANSAC n’est pas pleinement satisfaisant. Il s’agit principalement de deux cas de figure que nous allons maintenant présenter.

4.5.4.1 Limitation de la géométrie épipolaire pour la détection multiple

Nous avons vu avec l’expérience de la figure4.21(c)que la détection de plusieurs objets avec la ma- trice fondamentale peut conduire à certaines ambiguïtés. En effet, en ajoutant une notion de profondeur, plusieurs solutions sont parfois possibles, et la géométrie épipolaire peut conduire à regrouper plusieurs objets ayant des mouvements différents entre les deux prises de vues. En pratique, cette ambiguïté se traduit au niveau de la sélection des inliers qui repose sur le calcul de l’erreur résiduelle entre des points et les lignes épipolaires. Dans l’exemple de la figure4.41, nous avons tracé les lignes épipolaires cor- respondant à la matrice fondamentale du groupe sélectionné (il s’agit de la même expérience que celle réalisée en figure 4.14(a)avec une transformation plane). On peut voir que les lignes épipolaires sont parallèles et horizontales, et les trois canettes sont regroupées au lieu d’être séparées. Du point de vue géométrique, tout se passe comme si les trois canettes de la seconde image étaient alignées selon l’axe optique de la caméra dans la première image.

FIG. 4.41 – Retour sur l’expérience de la figure4.14(a)dans le cas de la géométrie épipolaire. Illustra-

tion de l’ambiguïté de la géométrie épipolaire, où les trois objets sont regroupés. Tout se passe comme si les trois objets étaient alignés dans la première image selon l’axe optique de la caméra.

4.5.4.2 Limitation du découpage en sous-groupes

L’exemple de fusion de groupes de la figure 4.42 illustre un autre limitation de notre approche. L’utilisation itérative de MAC-RANSAC, sans utilisation du critère de découpage, nous donne pour cet exemple trois groupes. Un seul de ces groupes correspond à l’un des plans principaux de l’objet, les deux autres groupes résultant de la fusion de plusieurs plans. La procédure de découpage récursif en sous-groupes (algorithme4.4) permet de détecter un plan supplémentaire (celui du cheval) mais le plan horizontal n’est pas identifié comme tel. Deux autres groupes incorrects sont à la place détectés.

(a) Paires d’images représentant un objet avec plusieurs plans

(b) Résultat de la recherche de plans avec MAC-RANSAC sans découpage en sous-groupe

(c) Résultat de la recherche de plans avec MAC-RANSAC avec découpage en sous-groupe

FIG. 4.42 –Dans la paire d’images de la figure4.42(a)), l’objet possède plusieurs plans principaux que l’on souhaite détecter. Sans l’algorithme de découpage récursif, MAC-RANSAC identifie correctement un seul plan (figure4.42(b)). Avec notre procédure de détection de fusion, on récupère un plan supplé- mentaire (celui du cheval, en figure4.42(c)) mais on ne parvient pas à segmenter le reste des points selon des plans qui ont du sens.

Deuxième partie

Chapitre 5

Problématique

Cette deuxième partie du manuscrit est consacrée à l’étude de différentes applications du transport optimal. Nous allons dans ce chapitre présenter la théorie du transport de Monge-Kantorovich, puis rappeler quelques unes de ses applications en vision par ordinateur et traitement des images.

5.1 Présentation de la théorie du transport de Monge-Kantorovich

La théorie du transport optimal est formalisée pour la première fois en 1781 par Monge dans son mé- moire [Mon81] sur la « théorie des déblais et des remblais ». En 1942, Kantorovich [Kan42] propose une linéarisation de cette formulation, que nous décrivons dans ce qui suit. Soient f et g deux distributions de probabilité sur Rn, c’est-à-dire deux mesures positives et de somme 1. La distribution f peut être vue

comme un déblai que l’on va déplacer pour remplir le remblai (−g). Soit c(., .) une fonction de coût sur Rn× Rn. La quantité c(x, y) représente le coût du transport d’une masse élémentaire depuis x vers y.

On définit Π(f, g) comme l’ensemble des mesures de probabilité π sur Rn× Rnayant pour marginales

f et g, soit

Π(f, g) :={ π mesure de probabilité sur Rn× Rn;

∀A, B ∈ Rn π(A× Rn) = f (A) et π(Rn× B) = g(B) } .

Pour toute mesure π dans Π(f, g), on peut définir le coût de transport de la mesure f vers la mesure g par le plan π comme

Cπ(f, g) =

Z Z

x,y

c(x, y) dπ(x, y) . (5.1)

On appelle alors transport optimal la mesure π qui minimise le coût Cπ(f, g), quand elle existe. La

quantité infπ∈ΠCπ(f, g) est appelée le coût de transport optimal entre f et g.

Remarquons que le coût de transport optimal dépend fortement du choix de la fonction de coût c. Celle-ci est souvent désignée par le terme « distance au sol » (ground distance). Dans le cas où c(x, y) = ||x − y||p, ||.|| désignant la norme euclidienne, on peut montrer que (infπ∈ΠCπ(., .))

1

p est une distance

sur l’ensemble des mesures de probabilité sur Rnlorsque p ≥ 1. Cette distance est appelée distance de

Monge-Kantorovich, ou encore « p-Kantorovich norm » [ACB+03]. On note alors : MKp(f, g) = inf π∈Π(f,g) ZZ x,y||x − y|| pdπ(x, y) 1 p . (5.2)

On choisit généralement p > 1 pour avoir un coût strictement convexe (p = 2 le plus souvent). Ceci permet de s’assurer de certaines propriétés, telles que l’unicité de la solution et la préservation de l’ordre notamment1.

La distance de Monge-Kantorovich est très intéressante en pratique car elle permet de définir une mesure de dissimilarité entre deux distributions dont l’interprétation est très intuitive. Pour cette raison, la distance de Monge-Kantorovich est parfois appelée « distance Lpminimale » (Minimal Lpmetric).

Remarque 1 :

La problématique du transport optimal a été plusieurs fois redécouverte dans la littérature, avec parfois des formulations différentes. On trouve ainsi de nombreuses autres appellations pour désigner le fait de définir une distance comme un coût optimal de transport : la distance du « cantonnier » (Earth Mover Distance) la distance de Kantorovich (ou Kantorovich metric), la distance de Wasserstein, ou encore la distance de Mallows.

Transport optimal entre des mesures discrètes Bien que ce lien ne soit pas toujours explicitement

mentionné, de nombreux travaux en analyse d’images s’inscrivent dans le cadre du transport optimal. Ce sont généralement des histogrammes qui sont manipulés, et la distance de Monge-Kantorovich (5.1) est alors exprimée entre deux mesures discrètes sur une grille régulière en dimension n. Par exemple dans [SW83,WPR85], le transport est utilisé pour comparer des histogrammes de caractéristiques (tex- ture, forme, etc.).

En dehors des histogrammes, d’autres types de structures de données se prêtent également au pro- blème du transport. Par exemple dans [WPMK86], Werman et al. s’intéressent au problème de l’assigne- ment entre deux ensembles finis de points (Bipartite graph matching). Par la suite, Rubner et al. [RTG00] généralisent ce principe en introduisant le concept de « signature », un ensemble d’éléments pondérés (weighted bipartite graph). La signature d’une image {(xi, pi)}i=1,...,N se compose d’une liste d’élé-

ments {xi} caractéristiques (couleur, texture, etc.), et d’une liste de poids {pi} qui en mesurent la com-

position. Un histogramme h[i] peut ainsi être vu comme une signature particulière où les éléments {xi}

correspondent à une grille régulière, et où la liste de poids est telle que {pi = h[i]}. Il est important de

souligner que, contrairement au calcul d’une distribution empirique, le poids total d’une signature n’est pas normalisé. Le poids peut donc varier d’une image à une autre.

Rubner et al. définissent dans ce cadre de travail une distance entre signatures qu’ils nomment EMD pour « Earth Mover Distance ». Si les deux signatures ont le même poids, cette mesure n’est autre que le transport optimal entre les deux signatures, vues comme des mesures discrètes. Si les deux signatures sont de poids différent, ils proposent de calculer le coût de transport de la signature de masse totale la plus faible vers la signature de masse la plus élevée. Si les deux signatures s’écrivent f : {(xf[i], pf[i]) , ∀i =

1, . . . , Nf} et g : {(xg[j], pg[j]) , ∀j = 1, . . . , Ng} et ont pour poids totaux respectifs Pf =Pipf[i] et

Pg =Pjpg[j], alors la distanceEMD(f, g) s’écrit :

EMD(f, g) := min (αi,j)∈M PNf i=1 PNg j=1αi,jc(xf[i], xg[j]) PNf i=1 PNg j=1αi,j , (5.3) avec M =   (αi,j); αi,j ≥ 0, Ng X j=1 αi,j ≤ pf[i], Nf X i=1 αi,j ≤ pg[j], X i≤Nf,j≤Ng αi,j = minPf, Pg    où c(., .) est toujours le coût de transport d’une masse unitaire entre deux positions. Dans les travaux de Rubner, ce coût est généralement la distance euclidienne.

Remarque 2 :

L’intérêt de l’utilisation de signatures à la place d’histogrammes est discuté dans [LB01]. La différence entre ces deux approches est que l’EMD correspond à un transport partiel dans le premier cas. Levina et Beckel montrent que si le temps de calcul est ainsi réduit, cela se traduit également par des performances moindres en termes de taux de reconnaissance.

Les travaux de Rubner et al. [RTG00] ont contribué à populariser ce type d’approche en traitement d’images. À un tel point qu’il est devenu courant dans ce domaine d’utiliser le terme « EMD » pour désigner le calcul du transport optimal entre des histogrammes.

Nous rappelons dans la section suivante quelques applications en analyse d’images pour lesquelles le transport optimal a été employé. Ces applications peuvent être classées selon deux catégories. La première, logiquement, concerne l’utilisation de la distance de Monge-Kantorovich comme mesure de dissimilarité entre des histogrammes. La seconde catégorie englobe les applications où c’est le transport optimal en tant que tel qui est exploité.