• Aucun résultat trouvé

4.3 Validation qualitative

5.1.2 Protocole exp´erimental

Chaque base d’exemples est constitu´ee de paires d’objets segment´es (une r´ef´erence et un argument), positionn´es dans le mˆeme r´ef´erentiel et dont la relation spatiale est `a recon- naˆıtre. Tous les tests men´es dans cette section consistent `a reconnaˆıtre automatiquement la classe d’un nouvel exemple `a partir de caract´eristiques extraites d´ecrivant le positionne- ment relatif des objets (ainsi que des informations sur la forme de l’objet argument). Un classifieur de type Support Vector Machine (SVM) est utilis´e comme moteur de reconnais- sance pour attribuer une classe `a un exemple d´ecrit `a partir des caract´eristiques extraites. La comparaison de la qualit´e offerte par diff´erents espaces de caract´eristiques sera faite en fonction des performances de reconnaissance obtenues en sortie du syst`eme.

Nous ´evaluerons les diff´erentes contributions apport´ees par les variantes des m´eta- mod`eles au moyen des deux bases IME-OnDB et HCC-OnDB en mettant en œuvre un processus de validation crois´ee omni-scripteur. Ces contributions seront ´egalement ´evalu´ees en comparaison avec des descripteurs de positionnement relatifs classiquement utilis´es pour le positionnement relatif d’objets.

5.1.2.1 Processus de validation omni-scripteur

Les bases IME-OnDB et HCC-OnDB contiennent l’information sur l’identit´e des scrip- teurs ayant r´ealis´e les saisies, ce qui permet de mettre en place un processus de validation dit omni-scripteur. Dans ce cadre, nous distinguons les scripteurs de test des autres scrip- teurs. Les donn´ees sur lesquelles sont ´evalu´ees les qualit´es de description des diff´erentes m´ethodes proviennent de scripteurs diff´erents de ceux ayant produit les donn´ees qui per- mettent d’entraˆıner les mod`eles. Ce cadre de test correspond au cadre le plus g´en´eral et permet d’´eprouver le pouvoir de g´en´eralisation d’un espace de repr´esentation sans sous- estimer la variabilit´e inter-scripteur, comme c’est le risque lorsque les donn´ees sont divis´ees al´eatoirement en donn´ees d’apprentissage et de test.

Pour chacune des deux bases, on adoptera la m´ethode de validation crois´ee omni- scripteur suivante. La base B globale est d´ecoup´ee en 15 groupes B = ∪iBi,i=1..15 en

prenant soin de regrouper toutes les donn´ees d’un mˆeme scripteur dans le mˆeme groupe. Dans le cas de IME-OnDB, chaque groupe contient exactement les donn´ees d’un scripteur, tandis que dans le cas de HCC-OnDB, chaque groupe contient les donn´ees de 4 scripteurs (parmi les 60 scripteurs de la base). Le nombre d’exemples dans chaque groupe est environ de 370 pour la base IME-OnDB et de 70 pour la base HCC-OnDB. Pour une exp´erimenta- tion (c’est-`a-dire pour un espace de repr´esentation `a ´evaluer), nous proc´ederons `a 15 cycles d’apprentissage du classifieur, en laissant `a chaque fois de cˆot´e un groupe Bi diff´erent pour

l’apprentissage et en l’utilisant pour ´evaluer le classifieur appris sur les 14 autres groupes. C’est le score de reconnaissance moyen calcul´e sur les 15 exp´erimentations qui sera pr´esent´e dans chaque cas comme r´esum´e de la qualit´e d’une m´ethode de description.

5.1.2.2 Apprentissage et optimisation du classifieur

Le classifieur retenu pour ´evaluer la qualit´e de la description offerte par chaque espace de repr´esentation est un SVM muni d’un noyau gaussien. Les deux param`etres du SVM C (variable de coˆut des erreurs en apprentissage) et γ (param`etre de la fonction gaussienne) sont optimis´es par une recherche en grille faite ind´ependamment pour chaque apprentissage. L’optimisation consiste `a chercher la meilleure valeur conjointe de ces deux param`etres au moyen d’une validation crois´ee `a 10 groupes constitu´es al´eatoirement parmi la base d’ap- prentissage. La valeur du param`etre de coˆut, C, est cherch´ee parmi la gamme de valeurs sur l’´echelle logarithmique 10−1..104, et la valeur du param`etre γ est optimis´ee dans la gamme 10−4..101. Le crit`ere optimis´e au cours de cette recherche en grille est le taux de

reconnaissance sur la base de validation (un dixi`eme de la base d’apprentissage). Les pa- ram`etres retenus pour l’apprentissage du classifieur final sont donc ceux qui maximisent le taux moyen de reconnaissance sur la validation crois´ee `a 10 groupes.

5.1.2.3 Significativit´e des comparaisons

Le but de ces exp´erimentations ´etant de d´emontrer la sup´eriorit´e de certaines m´ethodes de description par rapport `a d’autres pour la tˆache de classification automatique d’exemples de relations spatiales, il est n´ecessaire d’´etablir un protocole permettant de mesurer la significativit´e des comparaisons effectu´ees entre les diff´erentes exp´erimentations.

La significativit´e statistique de la comparaison de diff´erents scores de reconnaissance obtenus par deux m´ethodes de description est renforc´ee lorsque le nombre de jeux de donn´ees compar´es augmente. Nous utiliserons cette propri´et´e pour asseoir au mieux la significativit´e de nos comparaisons. Dans notre protocole exp´erimental, les 30 taux de reconnaissance obtenus pour chaque m´ethode de description (15 tests omni-scripteur pour chaque base de donn´ees) peuvent ˆetre utilis´es pour renforcer la validit´e des comparaisons.

Plutˆot que de chercher `a mesurer l’´ecart type entre les taux de reconnaissance obte- nus par deux m´ethodes sur les 30 jeux de donn´ees, nous proposons de proc´eder `a un test statistique de type test t (ou de Student). Une simple mesure de l’´ecart-type serait peu informative dans notre contexte omni-scripteur car certaines exp´erimentations sont intrin- s`equement plus difficiles que d’autres. En effet, des styles de scripteurs particuliers peuvent rendre sp´ecialement difficile la reconnaissance de certains groupes de donn´ees Bi. L’´ecart

type des taux de reconnaissance obtenus par une m´ethode de description sur les 30 jeux de donn´ees sera in´evitablement affect´e par ces disparit´es.

Le principe du test t est de v´erifier l’hypoth`ese de la sup´eriorit´e de la moyenne d’une loi de probabilit´e par rapport `a une autre. Une statistique interm´ediaire peut ˆetre calcul´ee, tenant compte de l’´ecart de performance entre les deux m´ethodes compar´ees sur chaque jeu de donn´ees, du nombre de jeux de donn´ees et de l’´ecart type sur l’´ecart de performance entre les deux m´ethodes. Cette statistique peut ensuite ˆetre compar´ee `a la loi de Student tabul´ee, pour d´ecider, avec un niveau de confiance pr´ed´efini, si on peut affirmer que la m´ethode A est significativement meilleure que la m´ethode B. Le nombre de mesures (c’est-`a-dire le nombre de jeux de donn´ees) intervenant dans la comparaison d´etermine le nombre de degr´es de libert´es `a consid´erer pour la loi de Student `a appliquer.

Table 5.3: Caract´eristiques utilis´ees dans les exp´erimentations.

type d´esignation nombre description

forme f 9 caract´eristiques g´eom´etriques de forme

´echelle e 3 ratio boˆıtes englobantes

position b 9 caract´eristiques boˆıtes englobantes et centres position h 18 caract´eristiques issues de l’histogramme d’angles position m1 k ad´equation selon k directions, sans distance

position m2 n n m´eta-mod`eles (basiques)