• Aucun résultat trouvé

M´etriques

Dans le document The DART-Europe E-theses Portal (Page 100-105)

Plusieurs m´etriques ont ´et´e utilis´ees dans nos travaux. Certaines mesurent si la position des objets est bien trouv´ee sur des crit`eres g´eom´etriques. D’autres ont recours `a une reconnaissance du texte pour ´evaluer la d´etection en combinaison avec la tˆache finale. Ces m´ethodes ont chacune des avantages et des inconv´enients. Elles sont d´ecrites dans cette section.

7.2.1 Les m´ etriques g´ eom´ etriques

Tout d’abord, nous d´etaillons les m´etriques bas´ees sur la g´eom´etrie des objets d´etect´es. Elles ont pour avantage de se faire uniquement sur la position des objets et d’ˆetre peu intensives d’un point de vu du temps de calcul. De plus, la tˆache finale de reconnaissance du texte n’est pas r´ealis´ee, ce qui ´evite de devoir s´electionner la langue pr´esente dans chaque ligne et de cumuler les erreurs li´es `a la d´etection et `a la reconnaissance.

Intersection sur Union

Une premi`ere m´etrique que nous avons utilis´ee, bas´ee sur la g´eom´etrie des objets, est l’inter-section sur union (IoU). Comme son nom l’indique, le crit`ere de s´election est bas´e sur les aires de l’intersection et de l’union des objets r´ef´erences et hypoth`eses.

IoU(A,B) = Aire(A∩B)

Aire(A∪B) (7.1)

AvecAun rectangle hypoth`ese etBun rectangle r´ef´erence. On seuille ensuite les couples selon un seuilT, on consid`ere un couple (A,B) comme correct siIoU(A,B)> T. Si une boˆıte hypoth`ese est associ´ee `a plusieurs boˆıtes r´ef´erences, seule l’association avec la boˆıte r´ef´erence ayant la valeur d’IoU maximale est conserv´ee. La boˆıte r´ef´erence est alors retir´ee de la liste. On calcule ensuite pr´ecision, rappel et F-Mesure. Pour rappel :

P recision= N ombre corrects

N ombre hypotheses (7.2)

Rappel= N ombre corrects

N ombre ref erences (7.3)

F −M esure= 2P recision×Rappel

P recision+Rappel (7.4)

detEval

L’algorithme detEval [Wolf and Jolion, 2006], utilis´e fr´equemment dans les comp´etitions d’ob-jets textuels [Karatzas et al., 2015], permet de prendre en charge les cas o`u une boˆıte r´ef´erence se superpose avec plusieurs boˆıtes hypoth`eses et vice versa.

En notantσi,j le rappel au niveau des pixels entre une boˆıte r´ef´erenceGi et une boˆıte hypoth`ese Dj, en notant similairement τi,j la pr´ecision pixelique, et en d´efinissant des seuils tr et tp sur ces rappels et pr´ecisions, on associe la boˆıte Gi `a la boˆıte Gj si σi,j ≥ tr et τi,j ≥ tp. On peut ainsi d´efinir un rappelROBet une pr´ecisionPOBau niveau objet entre les ensembles de boˆıtes r´ef´erences Get hypoth`eses D.

Le terme fsc(k) permet d’apporter une p´enalit´e sur le fait d’avoir sur-segment´e ou sous seg-ment´e notre objet. Il est fix´e `a une valeur de 0.8 . Nous pouvons ensuite moyenner ces valeurs de

pr´ecision et de rappel pour diff´erentes valeurs de seuilstr et tp. Nous prenons un nombre T = 20 de ces valeurs sur l’intervalle [0,1]. Lorsque l’on fait varier tp, une valeur par d´efaut tr = 0.8 est utilis´ee. Respectivement, lorsque l’on fait varier tr, on utilise tp = 0.4. Utiliser des valeurs moyenn´ees de rappelROV et de pr´ecision POV permet une comparaison plus juste et robuste des algorithmes. On a :

Enfin, on peut calculer un score final sous forme de F-Mesure de ces pr´ecision et rappel moyenn´es.

detEvalScore= 2POV ×ROV

POV +ROV

(7.11)

ZoneMap

La m´etrique ZoneMap a ´et´e d´evelopp´ee par le Laboratoire National de m´etrologie et d’Es-sais (LNE) pour la comp´etition Maurdor [Galibert et al., 2014] [Brunessaux et al., 2014]. Son but premier est d’´evaluer la d´etection et la localisation des paragraphes pr´esents dans des images de documents mais cela peut ´egalement s’appliquer `a l’´evaluation de la segmentation des lignes.

Cette m´etrique est d´ecompos´ee en deux ´etapes. Tout d’abord, les objets r´ef´erences et hypo-th`eses sont r´eunis par groupes. Puis un score est ´etabli pour chaque groupe en fonction de la taille des zones de recouvrement.

La premi`ere ´etape va s’effectuer en calculant la force du lien entre chaque boˆıte r´ef´erence R et chaque boˆıte hypoth`eseH. Cette force f est d´efinie par l’´equation suivante :

f(R,H) = Cela signifie que plus une zone r´ef´erence et une zone hypoth`ese sont superpos´ees, plus la force

Fig. 7.3 – Illustration des diff´erentes sortes de groupement r´ealis´es par la m´etrique ZoneMap.

les liant sera forte. Ensuite, les zones sont group´ees par force de lien d´ecroissante tant qu’il n’y a pas `a la fois plusieurs boˆıtes hypoth`eses et plusieurs boˆıtes r´ef´erences dans le mˆeme groupe.

Les groupes appartiennent donc tous `a l’une des cat´egories illustr´ees en figure 7.3, c’est `a dire un appariement, une fusion, une s´eparation, un oubli ou une fausse acceptation.

Dans le cas d’un appariement, l’erreur est la surface pr´esente dans l’intersection des boˆıtes mais pas dans leur union. Pour une fusion ou une s´eparation, l’erreur est la surface pr´esente dans l’intersection de toutes les boˆıtes du groupe mais pas dans l’union des boˆıtes du couple r´ef´erence-hypoth`ese ayant le lien le plus fort. Enfin, pour un oubli ou une fausse acceptation, il s’agit de la surface de la boˆıte.

L’erreur totale, pour un document, est la somme des erreurs de tous les groupes normalis´ee par la surface totale des boˆıtes r´ef´erences.

Cette m´etrique, en prenant en compte les diff´erents types d’erreurs possibles, permet d’obtenir des r´esultats relativement bien corr´el´es avec la tˆache de reconnaissance du texte sur des tˆaches de segmentation de paragraphes en lignes [Moysset and Kermorvant, 2013]. On notera de plus que cette m´ethode pr´esente, par rapport `a une m´ethode plus simple comme l’IoU, l’avantage de nous donner des informations sur le type d’erreurs commises (c’est `a dire la proportion de fusions, de s´eparations, d’oublis ou de fausses acceptations).

Position des points

On peut ´egalement consid´erer un objet hypoth`ese (de vecteur de position x), en particulierˆ un point, comme correct si il est dans le voisinage imm´ediat d’un point r´ef´erence (de vecteur de positionx). C’est `a dire si :

kxˆ−xk1 < S/2 (7.13)

O`uS est la largeur de la zone d’acceptation qui est carr´ee. On s’arrange en outre pour que seul un point hypoth`ese puisse ˆetre associ´e `a chaque boˆıte r´ef´erence. Et on calcule pr´ecision, rappel et F-Mesure en fonction de ce crit`ere d’acceptation.

7.2.2 Les m´ etriques de reconnaissance

Pour se rapprocher de la tˆache finale, nous pouvons utiliser des m´etriques bas´ees sur la bonne reconnaissance du texte compris dans les images de lignes. Si ces m´ethodes sont plus compliqu´ees

`a mettre en place et n´ecessitent de savoir la langue `a utiliser, elles permettent de comparer de mani`ere plus juste des techniques ne faisant pas le mˆeme type d’erreurs.

Toutes ces m´ethodes utilisent des reconnaisseurs `a base de r´eseaux r´ecurrent [Moysset et al., 2014a] similaires `a celui d´etaill´e en partie 3.2 et utilisant des 2D-LSTMs dont le fonctionnement est d´ecrit en section 5.4. Trois r´eseaux diff´erents sont utilis´es pour, respec-tivement, le fran¸cais, l’anglais et l’arabe. Ces r´eseaux sont capables de reconnaˆıtre `a la fois de l’imprim´e et du manuscrit [Moysset et al., 2014b].

Le taux d’erreur mot

Le taux d’erreur mot (ou WER pour Word Error Rate) est une m´etrique qui compare deux s´equences de texte, la s´equence r´ef´erence et la s´equence hypoth`ese. Il est bas´e sur une distance de Levenshtein [Levenshtein, 1966]. On le calcule en prenant le ratio du nombre d’erreurs, qui est la somme du nombre de mots ins´er´es I, du nombre de mots substitu´es S et du nombre de mots omis O, sur le nombre de mots r´ef´erences N.

W ER= I +S+O

N (7.14)

L’alignement des s´equences est fait de mani`ere optimale `a l’aide d’un algorithme de

program-mation dynamique. On notera que plus l’erreur est basse, meilleur est le syst`eme et que l’erreur peut ˆetre sup´erieure `a 1 `a cause des insertions.

Le taux d’erreur caract`ere

Le taux d’erreur caract`ere (ou CER pour Character Error Rate) est identique au taux d’er-reur mot sauf que l’unit´e de base est la caract`ere au lieu d’ˆetre le mot. Il permet de pond´erer diff´eremment des mots reconnus `a quelques lettres pr`es de mots compl`etement erron´es.

Les sacs de mots

Les m´etriques WER et CER pr´esentent pour point limitant de s’appliquer aux s´equences uni-quement. Dans une approche de reconnaissance pleine page, les objets hypoth`eses peuvent ˆetre sous-segment´es ou sur-segment´es par rapport aux objets r´ef´erences. De plus, les mots (et similai-rement les lignes et les paragraphes) peuvent ˆetre plac´es libsimilai-rement sur la page, c’est `a dire sans ordre particulier. Pour ´eviter une ´etape d´elicate d’alignement entre les s´equences, nous utilisons la m´etrique dite de sacs de mots (ou BoW pourBag of Words). Cette m´etrique est particuli`erement adapt´ee `a l’´evaluation de tˆaches de reconnaissance pleine page [Pletschacher et al., 2015].

La m´etrique BoW va consid´erer l’ensemble des mots r´ef´erences et l’ensemble des mots hy-poth`eses pr´esents dans une page, sans se soucier de l’ordre. On va s’int´eresser au nombre C de mots pr´esents dans les deux ensembles, et consid´er´es comme correctement reconnus, au nombre de motsO pr´esents uniquement dans l’ensemble de r´ef´erence et consid´er´es comme des omissions ainsi qu’au nombre de motsI pr´esents uniquement dans l’ensemble hypoth`ese et consid´er´es comme des insertions. Les mots pr´esents plusieurs fois dans la page sont plac´es plusieurs fois dans les en-sembles, sans remise. On notera que une substitution (un mot mal reconnu) sera consid´er´e `a la fois comme une insertion et comme une omission. On calcule ensuite la pr´ecision C/(C+O) , le rappel C/(C+I) et la m´etrique BoW correspond `a la F-Mesure qui leur est associ´ee.

7.3 R´ esultats des diff´ erentes strat´ egies de reconnaissance

Dans le document The DART-Europe E-theses Portal (Page 100-105)