Filtrage de la base d’apprentissage avec des boucles de pertinences si-

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots

3.5.6 Filtrage de la base d’apprentissage avec des boucles de pertinences si-

Les expériences précédentes ont mis en avant un résultat intéressant pour la simulation de l’utilisateur STO. Avec la stratégie MP, les modèles appris par bouclage de pertinence ob-tiennent en moyenne les mêmes performances après 30 itérations que ceux obtenus avec l’en-semble de la base d’apprentissage. Cela signifie qu’avec seulement 10% des images de la base d’apprentissage, les performances sont équivalentes. En regardant en détail les résultats pour chaque concept visuel (voir en annexe, page 172), ce seuil est même atteint plus tôt pour cer-taines classes. C’est le cas, par exemple, pour les bateaux o ù 10 itérations suffisent. Nous avons donc relancé cette simulation avec 100 itérations pour mieux observer le comportement des modèles. Les résultats sont reportés sur la figure 3.42. Nous remarquons que les performances continuent à croˆıtre pour atteindre un maximum au bout de 75 itérations. On a ensuite une décroissance lente qui, à terme, rejoint les performances des mod èles de référence lorsque toute la base d’apprentissage a été vue. A 75 itérations, on a un gain de performance d’environ 6%

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots 141 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0 50 100 150 200 250

proportion images pertinentes vues

Clics STO - Standard - MP

EQU - Alternee - MP EQU - Standard - MAO FIX - Alternee - MP FIX - Standard - MAO GRE2 - Alternee - MP GRE2 - Standard - MAO

FIG. 3.41 – Pascal VOC 2007, comparaison du nombre d’images pertinentes vues selon les

approches, en fonction du nombre de clics

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 10 20 30 40 50 60 70 80 90 100 MAP Iteration Ref. STO - Standard - MP 0 0.2 0.4 0.6 0.8 1 10 20 30 40 50 60 70 80 90 100

proportion images pertinentes vues

Iteration

Ref. STO - Standard - MP

FIG. 3.42 – Pascal VOC 2007, utilisation du bouclage de pertinence simul´e pour filtrer les

avec 1200 images marquées pour l’apprentissage, soit 24% de celles qui sont disponibles. Les résultats détaillés sont présentés dans le tableau 3.16.

global + local bouclage pertinence Sur 50 sessions standard 75 it´erations gain Ecart type Max Min aeroplane 0.5706 0.6377 11.76% 0.0040 0.6454 0.6285 bicycle 0.3263 0.4195 28.55% 0.0068 0.4285 0.4023 bird 0.3531 0.3785 7.19% 0.0039 0.3871 0.3714 boat 0.5379 0.5897 9.64% 0.0014 0.5960 0.5872 bottle 0.1870 0.2027 8.40% 0.0042 0.2098 0.1924 bus 0.3704 0.3955 6.77% 0.0051 0.4053 0.3829 car 0.5904 0.6097 3.27% 0.0018 0.6133 0.6050 cat 0.3536 0.3956 11.89% 0.0031 0.4007 0.3882 chair 0.4865 0.4850 -0.30% 0.0017 0.4889 0.4812 cow 0.1771 0.1871 5.62% 0.0063 0.2003 0.1753 diningtable 0.3181 0.3621 13.84% 0.0020 0.3664 0.3549 dog 0.3506 0.3265 -6.86% 0.0043 0.3364 0.3192 horse 0.5996 0.6860 14.40% 0.0029 0.6912 0.6808 motorbike 0.4673 0.4868 4.17% 0.0017 0.4901 0.4825 person 0.7845 0.7444 -5.11% 0.0076 0.7651 0.7245 pottedplant 0.2336 0.2331 -0.20% 0.0045 0.2441 0.2231 sheep 0.2279 0.2357 3.42% 0.0031 0.2446 0.2224 sofa 0.3240 0.3410 5.25% 0.0052 0.3501 0.3193 train 0.5908 0.6536 10.62% 0.0008 0.6562 0.6519 tvmonitor 0.3483 0.3419 -1.83% 0.0024 0.3481 0.3316 Moyenne 0.4099 0.4356 6.28% 0.0036 0.4434 0.4262

TAB. 3.16 – Pascal-VOC-2007, gain de MAP en utilisant le bouclage de pertinence simul´e sur

75 it´erations pour filter la base d’apprentissage

Nous rappelons que les résultats présentés sont une moyenne effectuée sur 50 sessions de bouclage de pertinence réalisées pour chaque concept avec 50 images pertinentes différentes pour les initialiser. L’écart type sur ces 50 sessions est très faible, indiquant par là une rela-tive indépendance du comportement observé par rapport aux conditions initiales. Pour chaque concept nous avons également isolé les sessions fournissant les meilleures et les plus mauvaises performances. Même dans ce dernier cas, on observe un gain sur l’approche standard.

On peut donc raisonnablement en déduire que la base d’apprentissage comporte trop d’ima-ges qui se comportent comme du bruit pour l’apprentissage. Le bouclage de pertinence simulé avec un utilisateur STO permet de filtrer cette base et d’en conserver les images utiles à l’ap-prentissage des modèles. De nombreux travaux ont été réalisés sur la réduction de la dimension des représentations visuelles pour augmenter les performances et r éduire les temps de calcul [Cun08], en revanche nous n’avons pas trouvé de références sur l’opération équivalente pour le filtrage des exemples d’apprentissage. Par nature, les SVM pondèrent déjà les exemples d’ap-prentissage dans les modèles des concepts visuels qu’ils produisent. Pour les frontières difficiles à déterminer, en raison d’exemples trop proches, la constante de régularisationC doit justement permettre un ajustement en tolérant la mauvaise classification de quelques images. La stabilité de la frontière peut donc être sujette à caution et expliquer le comportement que l’on observe.

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots 143

Nous avons initialiement fixé la constanteC = 1 après avoir observé que cette valeur fournis-sait généralement les meilleures performances (section 2.4.5). En utilisant une valeur beaucoup plus grande (C = 10 000) le même phénomène est observé, dans les mêmes proportions.

Nous refaisons cette même expérience en n’utilisant que les trois descripteurs globaux. Là encore, le même comportement est observé. Les performances de référence (MAP 0.3239) sont atteintes au bout de 39 itérations et le maximum pour les boucles de pertinence est obtenu à 90 itérations (MAP 0.3466), représentant alors un gain de 7%.

3.5.7 Conclusion

Globalement la stratégie MP est meilleure. Nous ne remarquons pas d’apport significatif de la stratégie MAO. Les seuls cas dans lesquels cette approche permet d’améliorer légèrement les performances sont en considérant le nombre de clics. Toutefois, en tant qu’utilisateur d’un tel système, nous préférons l’évaluation en fonction du nombre d’itérations. Même si marquer les différentes images présentes sur un écran prend du temps, il est facile d’avoir une IHM permettant de simplifier le marquage des exemples non-pertinents. En dehors de la simulation STO, les approches standard et alternée fournissent des modèles équivalents, mais l’approche alternée permet de voir légèrement plus d’images pertinentes. Cela signifie que la diversité des images supplémentaires ainsi ramenées ne permet pas d’affiner les modèles. Enfin, parmi les simulations d’utilisateurs, nous remarquons que l’approche STO est la plus pertinente dans nos deux scenarii. Nous avons des différences notables dans la mise en œuvre des expérimentations par rapport à [CTF08]. La base utilisée n’est pas la même et nous utilisons des représentations locales. De plus, nous utilisons une pondération dynamique des exemples marqués pour l’ap-prentissage des SVM. Ces choix peuvent expliquer les conclusions partiellement différentes que nous tirons de nos travaux.

Nous avons vu que l’utilisation du bouclage de pertinence simulé permettait de filtrer les images de la base d’apprentissage et d’obtenir ainsi de meilleurs modèles. Ces travaux doivent être poursuivis et étendus pour pouvoir fournir une m éthode fiable en vue d’optimiser les bases d’apprentissage.

CHAPITRE

4

Conclusions

“A trop vouloir analyser, on tue l’´emotion.”

Jean Loup Sieff, photographe franc¸ais (1933 - 2000)

Dans le document Vers une description efficace du contenu visuel pour l'annotation automatique d'images (Page 159-164)