Protocole exp´erimental - Validation qualitative

4.3 Validation qualitative

5.1.2 Protocole exp´erimental

Chaque base d’exemples est constituée de paires d’objets segmentés (une référence et un argument), positionnés dans le même référentiel et dont la relation spatiale est à recon- naˆıtre. Tous les tests menés dans cette section consistent à reconnaˆıtre automatiquement la classe d’un nouvel exemple à partir de caractéristiques extraites décrivant le positionnement relatif des objets (ainsi que des informations sur la forme de l’objet argument). Un classifieur de type Support Vector Machine (SVM) est utilisé comme moteur de reconnaissance pour attribuer une classe à un exemple décrit à partir des caractéristiques extraites. La comparaison de la qualité offerte par différents espaces de caractéristiques sera faite en fonction des performances de reconnaissance obtenues en sortie du système.

Nous évaluerons les différentes contributions apportées par les variantes des méta- modèles au moyen des deux bases IME-OnDB et HCC-OnDB en mettant en œuvre un processus de validation croisée omni-scripteur. Ces contributions seront également évaluées en comparaison avec des descripteurs de positionnement relatifs classiquement utilisés pour le positionnement relatif d’objets.

5.1.2.1 Processus de validation omni-scripteur

Les bases IME-OnDB et HCC-OnDB contiennent l’information sur l’identité des scripteurs ayant réalisé les saisies, ce qui permet de mettre en place un processus de validation dit omni-scripteur. Dans ce cadre, nous distinguons les scripteurs de test des autres scripteurs. Les données sur lesquelles sont évaluées les qualités de description des différentes méthodes proviennent de scripteurs différents de ceux ayant produit les données qui per- mettent d’entraˆıner les modèles. Ce cadre de test correspond au cadre le plus général et permet d’éprouver le pouvoir de généralisation d’un espace de représentation sans sous- estimer la variabilité inter-scripteur, comme c’est le risque lorsque les données sont divisées aléatoirement en données d’apprentissage et de test.

Pour chacune des deux bases, on adoptera la méthode de validation croisée omni- scripteur suivante. La base B globale est découpée en 15 groupes B = ∪iBi,i=1..15 en

prenant soin de regrouper toutes les données d’un même scripteur dans le même groupe. Dans le cas de IME-OnDB, chaque groupe contient exactement les données d’un scripteur, tandis que dans le cas de HCC-OnDB, chaque groupe contient les données de 4 scripteurs (parmi les 60 scripteurs de la base). Le nombre d’exemples dans chaque groupe est environ de 370 pour la base IME-OnDB et de 70 pour la base HCC-OnDB. Pour une expérimenta- tion (c’est-à-dire pour un espace de représentation à évaluer), nous procéderons à 15 cycles d’apprentissage du classifieur, en laissant à chaque fois de côté un groupe Bi différent pour

l’apprentissage et en l’utilisant pour évaluer le classifieur appris sur les 14 autres groupes. C’est le score de reconnaissance moyen calculé sur les 15 expérimentations qui sera présenté dans chaque cas comme résumé de la qualité d’une méthode de description.

5.1.2.2 Apprentissage et optimisation du classifieur

Le classifieur retenu pour évaluer la qualité de la description offerte par chaque espace de représentation est un SVM muni d’un noyau gaussien. Les deux paramètres du SVM C (variable de coût des erreurs en apprentissage) et γ (paramètre de la fonction gaussienne) sont optimisés par une recherche en grille faite indépendamment pour chaque apprentissage. L’optimisation consiste à chercher la meilleure valeur conjointe de ces deux paramètres au moyen d’une validation croisée à 10 groupes constitués aléatoirement parmi la base d’apprentissage. La valeur du paramètre de coût, C, est cherchée parmi la gamme de valeurs sur l’échelle logarithmique 10−1..104, et la valeur du paramètre γ est optimisée dans la gamme 10−4..101_{. Le critère optimisé au cours de cette recherche en grille est le taux de}

reconnaissance sur la base de validation (un dixième de la base d’apprentissage). Les pa- ramètres retenus pour l’apprentissage du classifieur final sont donc ceux qui maximisent le taux moyen de reconnaissance sur la validation croisée à 10 groupes.

5.1.2.3 Significativit´e des comparaisons

Le but de ces expérimentations étant de démontrer la supériorité de certaines méthodes de description par rapport à d’autres pour la tâche de classification automatique d’exemples de relations spatiales, il est nécessaire d’établir un protocole permettant de mesurer la significativité des comparaisons effectuées entre les différentes expérimentations.

La significativité statistique de la comparaison de différents scores de reconnaissance obtenus par deux méthodes de description est renforcée lorsque le nombre de jeux de données comparés augmente. Nous utiliserons cette propriété pour asseoir au mieux la significativité de nos comparaisons. Dans notre protocole expérimental, les 30 taux de reconnaissance obtenus pour chaque méthode de description (15 tests omni-scripteur pour chaque base de données) peuvent être utilisés pour renforcer la validité des comparaisons.

Plutôt que de chercher à mesurer l’écart type entre les taux de reconnaissance obtenus par deux méthodes sur les 30 jeux de données, nous proposons de procéder à un test statistique de type test t (ou de Student). Une simple mesure de l’écart-type serait peu informative dans notre contexte omni-scripteur car certaines expérimentations sont intrin- sèquement plus difficiles que d’autres. En effet, des styles de scripteurs particuliers peuvent rendre spécialement difficile la reconnaissance de certains groupes de données Bi. L’écart

type des taux de reconnaissance obtenus par une méthode de description sur les 30 jeux de données sera inévitablement affecté par ces disparités.

Le principe du test t est de vérifier l’hypothèse de la supériorité de la moyenne d’une loi de probabilité par rapport à une autre. Une statistique intermédiaire peut être calculée, tenant compte de l’écart de performance entre les deux méthodes comparées sur chaque jeu de données, du nombre de jeux de données et de l’écart type sur l’écart de performance entre les deux méthodes. Cette statistique peut ensuite être comparée à la loi de Student tabulée, pour décider, avec un niveau de confiance prédéfini, si on peut affirmer que la méthode A est significativement meilleure que la méthode B. Le nombre de mesures (c’est-à-dire le nombre de jeux de données) intervenant dans la comparaison détermine le nombre de degrés de libertés à considérer pour la loi de Student à appliquer.

Table 5.3: Caractéristiques utilisées dans les expérimentations.

type d´esignation nombre description

forme f 9 caractéristiques géométriques de forme

´echelle e 3 ratio boˆıtes englobantes

position b 9 caractéristiques boˆıtes englobantes et centres position h 18 caractéristiques issues de l’histogramme d’angles position m1 k adéquation selon k directions, sans distance

position m2 n n m´eta-mod`eles (basiques)

Dans le document Méta-modèles de positionnement spatial pour la reconnaissance de tracés manuscrits (Page 164-166)