• Aucun résultat trouvé

Filtrage de la base d’apprentissage avec des boucles de pertinences si-

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots

3.5.6 Filtrage de la base d’apprentissage avec des boucles de pertinences si-

Les exp´eriences pr´ec´edentes ont mis en avant un r´esultat int´eressant pour la simulation de l’utilisateur STO. Avec la strat´egie MP, les mod`eles appris par bouclage de pertinence ob-tiennent en moyenne les mˆemes performances apr`es 30 it´erations que ceux obtenus avec l’en-semble de la base d’apprentissage. Cela signifie qu’avec seulement 10% des images de la base d’apprentissage, les performances sont ´equivalentes. En regardant en d´etail les r´esultats pour chaque concept visuel (voir en annexe, page 172), ce seuil est mˆeme atteint plus tˆot pour cer-taines classes. C’est le cas, par exemple, pour les bateaux o `u 10 it´erations suffisent. Nous avons donc relanc´e cette simulation avec 100 it´erations pour mieux observer le comportement des mod`eles. Les r´esultats sont report´es sur la figure 3.42. Nous remarquons que les performances continuent `a croˆıtre pour atteindre un maximum au bout de 75 it´erations. On a ensuite une d´ecroissance lente qui, `a terme, rejoint les performances des mod `eles de r´ef´erence lorsque toute la base d’apprentissage a ´et´e vue. A 75 it´erations, on a un gain de performance d’environ 6%

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots 141 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0 50 100 150 200 250

proportion images pertinentes vues

Clics STO - Standard - MP

EQU - Alternee - MP EQU - Standard - MAO FIX - Alternee - MP FIX - Standard - MAO GRE2 - Alternee - MP GRE2 - Standard - MAO

FIG. 3.41 – Pascal VOC 2007, comparaison du nombre d’images pertinentes vues selon les

approches, en fonction du nombre de clics

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 10 20 30 40 50 60 70 80 90 100 MAP Iteration Ref. STO - Standard - MP 0 0.2 0.4 0.6 0.8 1 10 20 30 40 50 60 70 80 90 100

proportion images pertinentes vues

Iteration

Ref. STO - Standard - MP

FIG. 3.42 – Pascal VOC 2007, utilisation du bouclage de pertinence simul´e pour filtrer les

avec 1200 images marqu´ees pour l’apprentissage, soit 24% de celles qui sont disponibles. Les r´esultats d´etaill´es sont pr´esent´es dans le tableau 3.16.

global + local bouclage pertinence Sur 50 sessions standard 75 it´erations gain Ecart type Max Min aeroplane 0.5706 0.6377 11.76% 0.0040 0.6454 0.6285 bicycle 0.3263 0.4195 28.55% 0.0068 0.4285 0.4023 bird 0.3531 0.3785 7.19% 0.0039 0.3871 0.3714 boat 0.5379 0.5897 9.64% 0.0014 0.5960 0.5872 bottle 0.1870 0.2027 8.40% 0.0042 0.2098 0.1924 bus 0.3704 0.3955 6.77% 0.0051 0.4053 0.3829 car 0.5904 0.6097 3.27% 0.0018 0.6133 0.6050 cat 0.3536 0.3956 11.89% 0.0031 0.4007 0.3882 chair 0.4865 0.4850 -0.30% 0.0017 0.4889 0.4812 cow 0.1771 0.1871 5.62% 0.0063 0.2003 0.1753 diningtable 0.3181 0.3621 13.84% 0.0020 0.3664 0.3549 dog 0.3506 0.3265 -6.86% 0.0043 0.3364 0.3192 horse 0.5996 0.6860 14.40% 0.0029 0.6912 0.6808 motorbike 0.4673 0.4868 4.17% 0.0017 0.4901 0.4825 person 0.7845 0.7444 -5.11% 0.0076 0.7651 0.7245 pottedplant 0.2336 0.2331 -0.20% 0.0045 0.2441 0.2231 sheep 0.2279 0.2357 3.42% 0.0031 0.2446 0.2224 sofa 0.3240 0.3410 5.25% 0.0052 0.3501 0.3193 train 0.5908 0.6536 10.62% 0.0008 0.6562 0.6519 tvmonitor 0.3483 0.3419 -1.83% 0.0024 0.3481 0.3316 Moyenne 0.4099 0.4356 6.28% 0.0036 0.4434 0.4262

TAB. 3.16 – Pascal-VOC-2007, gain de MAP en utilisant le bouclage de pertinence simul´e sur

75 it´erations pour filter la base d’apprentissage

Nous rappelons que les r´esultats pr´esent´es sont une moyenne effectu´ee sur 50 sessions de bouclage de pertinence r´ealis´ees pour chaque concept avec 50 images pertinentes diff´erentes pour les initialiser. L’´ecart type sur ces 50 sessions est tr`es faible, indiquant par l`a une rela-tive ind´ependance du comportement observ´e par rapport aux conditions initiales. Pour chaque concept nous avons ´egalement isol´e les sessions fournissant les meilleures et les plus mauvaises performances. Mˆeme dans ce dernier cas, on observe un gain sur l’approche standard.

On peut donc raisonnablement en d´eduire que la base d’apprentissage comporte trop d’ima-ges qui se comportent comme du bruit pour l’apprentissage. Le bouclage de pertinence simul´e avec un utilisateur STO permet de filtrer cette base et d’en conserver les images utiles `a l’ap-prentissage des mod`eles. De nombreux travaux ont ´et´e r´ealis´es sur la r´eduction de la dimension des repr´esentations visuelles pour augmenter les performances et r ´eduire les temps de calcul [Cun08], en revanche nous n’avons pas trouv´e de r´ef´erences sur l’op´eration ´equivalente pour le filtrage des exemples d’apprentissage. Par nature, les SVM pond`erent d´ej`a les exemples d’ap-prentissage dans les mod`eles des concepts visuels qu’ils produisent. Pour les fronti`eres difficiles `a d´eterminer, en raison d’exemples trop proches, la constante de r´egularisationC doit justement permettre un ajustement en tol´erant la mauvaise classification de quelques images. La stabilit´e de la fronti`ere peut donc ˆetre sujette `a caution et expliquer le comportement que l’on observe.

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots 143

Nous avons initialiement fix´e la constanteC = 1 apr`es avoir observ´e que cette valeur fournis-sait g´en´eralement les meilleures performances (section 2.4.5). En utilisant une valeur beaucoup plus grande (C = 10 000) le mˆeme ph´enom`ene est observ´e, dans les mˆemes proportions.

Nous refaisons cette mˆeme exp´erience en n’utilisant que les trois descripteurs globaux. L`a encore, le mˆeme comportement est observ´e. Les performances de r´ef´erence (MAP 0.3239) sont atteintes au bout de 39 it´erations et le maximum pour les boucles de pertinence est obtenu `a 90 it´erations (MAP 0.3466), repr´esentant alors un gain de 7%.

3.5.7 Conclusion

Globalement la strat´egie MP est meilleure. Nous ne remarquons pas d’apport significatif de la strat´egie MAO. Les seuls cas dans lesquels cette approche permet d’am´eliorer l´eg`erement les performances sont en consid´erant le nombre de clics. Toutefois, en tant qu’utilisateur d’un tel syst`eme, nous pr´ef´erons l’´evaluation en fonction du nombre d’it´erations. Mˆeme si marquer les diff´erentes images pr´esentes sur un ´ecran prend du temps, il est facile d’avoir une IHM permettant de simplifier le marquage des exemples non-pertinents. En dehors de la simulation STO, les approches standard et altern´ee fournissent des mod`eles ´equivalents, mais l’approche altern´ee permet de voir l´eg`erement plus d’images pertinentes. Cela signifie que la diversit´e des images suppl´ementaires ainsi ramen´ees ne permet pas d’affiner les mod`eles. Enfin, parmi les simulations d’utilisateurs, nous remarquons que l’approche STO est la plus pertinente dans nos deux scenarii. Nous avons des diff´erences notables dans la mise en œuvre des exp´erimentations par rapport `a [CTF08]. La base utilis´ee n’est pas la mˆeme et nous utilisons des repr´esentations locales. De plus, nous utilisons une pond´eration dynamique des exemples marqu´es pour l’ap-prentissage des SVM. Ces choix peuvent expliquer les conclusions partiellement diff´erentes que nous tirons de nos travaux.

Nous avons vu que l’utilisation du bouclage de pertinence simul´e permettait de filtrer les images de la base d’apprentissage et d’obtenir ainsi de meilleurs mod`eles. Ces travaux doivent ˆetre poursuivis et ´etendus pour pouvoir fournir une m ´ethode fiable en vue d’optimiser les bases d’apprentissage.

CHAPITRE

4

Conclusions

“A trop vouloir analyser, on tue l’´emotion.”

Jean Loup Sieff, photographe franc¸ais (1933 - 2000)