• Aucun résultat trouvé

Modèle de Perception

Définition 8. (Application logarithme) L’application logarithme envoie des éléments du groupe vers l’algèbre

4.2.7 Expérimentation

Inférence des paramètres par simulation

L’algorithme présenté précédemment peut s’appliquer avec un descripteur image quelconque.

Nous avons donc voulu comparer les résultats obtenus selon les couches et réseaux utilisés. En effet, on peut supposer que dans le cas idéal sans perturbation les couches inférieures seront plus performantes car avec des champs réceptifs plus petits. Au contraire, les couches FC devraient être peu performantes. Cependant, en pratique, un objet est soumis à de nombreuses perturbations : changement d’illumination, occlusion, changement de point de vue. Dans ces cas-là, les couches inférieures devraient être plus sensibles aux variations locales. Le problème est donc de savoir quelles couches apportent un bon compromis entre robustesse face aux perturbations et sensibilité aux transformations de similarité.

Afin d’avoir une vérité terrain sur les paramètres à estimer, notre expérience se base sur des simulations 3D déjà présenté à la figure 4.13. La caméra se déplace linéairement tout en ayant une rotation selon ce même axe. Le centre de chaque objet est placé de manière identique. A noter que celui-ci ne se trouve pas sur l’axe optique de la caméra, ce qui va entraîner une translation de l’objet dans l’image. Nous avons ensuite trois scénarii : un idéal avec seulement l’objet sans aucune perturbation, un avec une illumination variante et le dernier avec de l’occlusion (cf figure 4.16).

Les résultats sont visibles pour chaque objet aux figures 4.17, 4.18, 4.19 et 4.20. On a noté par des segments verticaux bleu et rouge respectivement l’entrée de l’objet occlusif dans la bounding box de l’objet suivi et le début de l’occlusion.

Avant de commencer notre analyse, il faut noter que le faible nombre d’échantillons nous permet

(e) Img 25 (f) Img 50 (g) Img 75 (h) Img 100

Figure 4.16 – Images de l’expérience avec occlusion

au mieux de proposer certaines hypothèses ainsi que de valider empiriquement l’approche décrite dans cette section. Tout d’abord, considérons le cas idéal. Il est clair que toutes les couches de GoogLeNet donnent des résultats très médiocres, notamment pour l’estimation de la rotation. Cela pourrait être du aux fonctions de coûts intermédiaires utilisées lors de l’entraînement, qui partent des couchesInception_4a / Inception_4d. En effet, ces couches sont reliées à des couches FC qui n’ont plus de notion de spatialité. La profondeur des réseaux a également un rôle dans la déformation de la variété générée par les transformations de similarité sur l’image. Poole [PLR+16] montre qu’au fur et à mesure de la propagation dans le réseau, les variétés ont tendance à se complexifier.

Ce résultat s’observe encore ici avec VGG, qui a une structure similaire à AlexNet mais avec une plus grande profondeur : cela se traduit par une plus grande instabilité des estimations.

Les changements d’illuminations ne changent que peu les résultats. Le plus notable s’observe pour l’estimation de la rotation dans la séquencepoissonpour AlexNet. On remarque également concernant l’occlusion partielle des objets une plus grande robustesse du réseau AlexNet, là où VGG décroche dès l’apparition de l’objet responsable de l’occlusion dans la région de détection de l’objet. Ceci est attendu du fait de la plus grande capacité de réseau, de façon équivalente aux résultats de la section 4.2.4 sur la représentation d’instance.

Nous avons regroupé les erreurs moyennes dans les tables 4.3 et 4.4.

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(a) Erreur d’échelle

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(b) Erreur de rotation

Figure 4.17 – Erreur d’échelle et de rotation pour l’objet tête. La première ligne correspond au cas idéal, la seconde au changement d’illumination et la dernière avec occlusion. Les colonnes correspondent aux différents CNNs avec de gauche à droite : AlexNet, VGG et GoogLeNet

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(a) Erreur d’échelle

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(b) Erreur de rotation

Figure 4.18 – Erreur d’échelle et de rotation pour l’objet livre. La première ligne correspond au cas idéal, la seconde au changement d’illumination et la dernière avec occlusion. Les colonnes correspondent aux différents CNNs avec de gauche à droite : AlexNet, VGG et GoogLeNet

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(a) Erreur d’échelle

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(b) Erreur de rotation

Figure 4.19 – Erreur d’échelle et de rotation pour l’objet poisson. La première ligne correspond au cas idéal, la seconde au changement d’illumination et la dernière avec occlusion. Les colonnes correspondent aux différents CNNs avec de gauche à droite : AlexNet, VGG et GoogLeNet

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

AlexNet-Echelle

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

VGG-Echelle

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

GoogleNet-Echelle

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(a) Erreur d’échelle

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

AlexNet-Rotation

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

VGG-Rotation

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

GoogleNet-Rotation

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth AlexNet-fc7 AlexNet-fc6 AlexNet-conv5 AlexNet-conv4 AlexNet-conv3

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth VGG-fc7 VGG-fc6 VGG-conv53 VGG-conv52 VGG-conv43

-1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0

0 20 40 60 80 100

Ground truth GoogleNet-pool5 GoogleNet-I5a GoogleNet-pool4 GoogleNet-I4d GoogleNet-I4b

(b) Erreur de rotation

Figure 4.20 – Erreur d’échelle et de rotation pour l’objet tasse. La première ligne correspond au cas idéal, la seconde au changement d’illumination et la dernière avec occlusion. Les colonnes correspondent aux différents CNNs avec de gauche à droite : AlexNet, VGG et GoogLeNet

TêteLivrePoissonTasse S.O.A.O.S.O.A.O.S.O.A.O.S.O.A.O. AlexNet

fc787.34(35.82)133.17(89.97)86.30(32.40)75.58(26.75)26.42(16.9)140.52(87.60)72.68(32.98)131.83(99.40) fc666.3(17.65)65.32(40.65)47.40(11.14)42.72(20.46)33.82(17.58)132.91(88.84)40.8(17.49)105.78(77.35) conv510.65(4.12)31.61(23.73)6.63(2.22)10.49(9.35)6.62(3.46)130.95(82.85)4.33(2.61)19.39(18.55) conv410.49(2.36)18.25(14.27)3.02(0.94)8.69(8.00)5.20(1.63)104.95(72.68)2.42(1.25)19.22(19.11) conv314.07(2.80)16.15(10.56)5.06(1.05)9.02(7.18)7.92(1.83)44.16(30.45)2.08(0.94)19.68(19.08) VGG

fc787.04(44.63)68.91(65.08)59.95(41.84)215.44(159.52)132.45(64.93)69.81(69.80)43.56(23.66)90.15(55.74) fc662.70(37.40)60.16(51.43)69.03(41.22)93.06(70.69)103.52(60.01)82.76(82.71)27.81(23.39)66.50(53.24) conv5_398.66(57.94)110.02(81.24)28.90(12.22)31.76(25.44)50.12(38.61)54.43(53.59)9.90(8.25)41.08(33.47) conv5_237.49(20.13)70.48(60.28)4.84(2.52)18.42(17.72)27.20(16.34)133.88(72.03)6.96(3.03)73.91(38.69) conv4_312.19(11.22)11.31(10.87)2.18(1.74)15.42(13.29)10.55(6.14)55.82(46.52)5.47(2.05)23.55(17.96) GoogleNet

pool575.56(47.05)85.26(71.62)195.42(99.23)223.31(14.38)53.59(37.66)66.87(62.94)57.12(48.51)88.93(77.38) Inception_5a47.35(24.04)34.12(26.13)228.58(131.29)229.40(129.06)58.68(40.83)129.73(80.96)26.01(25.98)138.22(85.84) pool445.05(19.92)58.30(31.32)131.80(83.57)142.47(94.44)48.93(25.49)115.31(68.95)20.79(11.98)43.85(43.31) Inception_4d21.00(11.72)31.98(26.40)150.01(100.15)90.06(51.62)93.13(36.99)92.88(67.36)8.83(4.91)55.97(33.68) Inception_4b19.07(10.95)63.06(54.36)75.62(40.02)75.03(41.43)77.04(36.34)93.00(70.60)26.00(15.7)37.85(23.84) Table4.3–Erreursd’estimationsduparamètred’échelle.Echelle:103 TêteLivrePoissonTasse S.O.A.O.S.O.A.O.S.O.A.O.S.O.A.O. AlexNet

fc770.63(37.71)78.35(42.48)10.13(2.82)142.61(5.07)25.12(9.25)29.25(14.84)16.60(5.36)21.87(7.42) fc663.29(28.81)70.78(36.61)10.33(2.61)13.65(4.32)26.97(12.15)40.78(22.31)15.88(6.26)27.42(13.37) conv514.47(4.49)26.63(12.39)8.33(1.74)10.87(3.38)6.60(2.16)52.45(32.49)8.05(1.82)14.20(5.47) conv48.17(1.73)15.55(5.69)7.43(1.39)9.92(2.86)5.74(1.63)40.85(25.68)6.24(1.21)13.52(5.36) conv37.98(1.59)12.96(4.52)6.83(1.17)8.59(2.31)4.83(1.30)34.14(21.39)5.19(0.92)12.33(5.00) VGG

fc776.25(31.65)56.63(27.56)1.17(1.08)21.71(16.85)14.35(4.53)76.53(44.33)6.38(2.1)18.96(9.87) fc663.57(25.83)61.70(25.60)1.33(1.07)1.96(1.27)32.61(14.53)64.67(37.33)6.62(1.61)9.80(3.01) conv5_356.17(27.25)62.72(30.45)29.56(20.34)32.04(22.50)34.94(18.58)47.83(26.83)8.59(2.31)22.08(12.03) conv5_230.89(11.74)43.50(22.56)17.36(8.58)26.69(14.97)24.91(12.00)50.97(29.52)3.99(0.93)32.68(18.87) conv4_36.15(1.25)14.09(5.92)5.12(1.42)26.96(16.92)10.87(6.52)49.21(30.80)2.86(0.75)23.12(12.79) GoogleNet

pool568.80(37.96)79.97(41.56)79.14(44.40)73.91(38.35)70.13(36.62)70.74(38.7)30.00(15.12)50.83(28.20) Inception_5a46.35(23.96)69.02(35.80)68.06(36.97)71.87(39.42)61.57(30.08)67.25(34.94)41.36(18.91)78.54(41.27) pool440.44(20.71)54.52(27.61)75.10(41.77)73.41(40.27)57.91(29.72)74.12(39.62)34.43(15.91)63.42(33.70) Inception_4d36.78(18.34)57.02(30.09)72.50(39.87)77.74(42.15)45.70(22.84)71.83(39.76)22.67(8.84)59.61(33.58) Inception_4b61.94(32.09)70.03(38.05)75.28(41.65)78.23(42.79)65.67(35.57)75.97(40.93)45.55(24.24)69.58(38.58) Table4.4–Erreursd’estimationsdel’anglederotation.Unité:102 radians

Rotation Echelle Séquence Car4

Figure 4.21 – Exemple de tracking selon la méthode présentée à la section 4.2.6. Légende : fc7-AlexNet( ),fc7-VGG( ),conv5-AlexNet( ) etconv5_3-VGG( ). La première ligne corres-pond à la position initiale

Application sur des séquences vidéo

Afin de confirmer l’exploitation de notre méthode en pratique, notre algorithme a été appli-qué sur des vidéos prises manuellement par une Webcam. Les résultats qualitatifs sont visibles à

la figure 4.21 en utilisant différents descripteurs images. A chaque image, une seule itération de Gauss-Newton est effectuée. Conformément à l’expérience précédente, les descripteurs issus de couches entièrement connectées sont moins performants que les couches de convolutions les pré-cédant. Nous l’avons également testé sur des séquences du dataset [WLY13], avec les résultats sur la séquenceCar4à la dernière ligne de la figure 4.21. Bien que l’on obtienne des résultats corrects sur certaines séquences, notre algorithme reste limité au petit mouvement et aux objets rigides.

Il est toutefois possible, en effectuant plusieurs itérations de la mise à jour de Gauss-Newton, de suivre de plus grands mouvements mais au prix d’un temps de calcul élevé (calcul numérique des jacobiennes). De plus, pour avoir un véritable algorithme de suivi, il faudrait intégrer une mise à jour du descripteur de référence. L’idée est de resterdata drivenc’est à dire de représenter l’instance suivie par un ensemble de descripteurs et non par un modèle unique que l’on met à jour au fur à mesure. La poursuite de ce travail sera donc de trouver un critère permettant de savoir quand ajouter ou retirer un descripteur représentant un "mode" de l’instance. La formalisation qui va suivre a pour but d’obtenir des expressions permettant d’éviter le calcul numérique des jacobiennes à chaque ité-ration. De plus, elle pourrait également permettre, en utilisant les outils d’analyse matricielles, de mieux comprendre théoriquement les propriétés des descripteurs évoqués dans cette section.