• Aucun résultat trouvé

D´etection des bords gauches des boˆıtes englobant les lignes

Dans le document The DART-Europe E-theses Portal (Page 91-94)

6.2 Description de trois strat´egies de reconnaissance pleine page

6.2.3 D´etection des bords gauches des boˆıtes englobant les lignes

Les exp´eriences de la Section 6.1.2 ont montr´e que, si la d´etection de la largeur des lignes de texte perturbe la pr´ecision des pr´edictions, cela n’est pas le cas pour la pr´ediction des hauteurs des lignes. Cela est probablement dˆu au fait que les hauteurs des lignes sont plus petites que leurs largeurs et, par cons´equent, restent incluses dans les champs r´eceptifs relatifs aux objets.

Pour cette raison, nous proposons une nouvelle strat´egie [Moysset et al., 2017] dans le but d’`a la fois ˆetre plus pr´ecis que l’approche pr´edisant directement les boˆıtes englobantes d´ecrite en Section 6.2.1 et d’´eviter le besoin d’optimisation combinatoire et d’appariement exprim´e par l’approche `a base de d´etection de coins d´ecrite en Section 6.2.2. Pour cela, nous utilisons un syst`eme entraˆın´e `a d´etecter uniquement les coordonn´ees d´efinissant les bords gauches des boˆıtes englobant les lignes de texte, et donc la position de leurs coins inf´erieurs gauches ainsi que leurs hauteurs, mais pas leurs largeurs. Au lieu de pr´edire cette largeur, elle est d´etermin´ee par l’´etape de reconnaissance de texte qui succ`ede `a la d´etection. Le reconnaisseur va `a la fois pr´edire le contenu du texte et quand le texte est termin´e.

Il est donn´e comme entr´ee `a ce reconnaisseur de texte une image dont le cˆot´e gauche est la position pr´edite par le r´eseau de localisation et dont le cˆot´e droit est le bord droit de l’image de la page correspondant. Cela signifie que d’autres objets textuels peuvent ˆetre pr´esents dans cette partie droite ajout´ee. Le reconnaisseur de texte est entraˆın´e pour apprendre `a les ignorer. Cette strat´egie est illustr´ee en Figure6.6.

Pour valider le fait que le reconnaisseur de texte soit capable de r´ealiser cette tˆache et donc de d´eterminer la position de la droite de la ligne de texte, nous comparons dans le Tableau 6.3 les taux de reconnaissance de texte obtenus pour des reconnaisseurs de texte entraˆın´es et ´evalu´es sur les boˆıtes r´ef´erences ou sur les boˆıtes d´efinies uniquement par les bords gauches de ces boˆıtes r´ef´erences et ´etendues jusqu’`a la limite droite de la page, incluant potentiellement d’autres objets textuels.

On observe que le taux d’erreur du syst`eme entraˆın´e et ´evalu´e sur les images d´efinies unique-ment par les bords gauches des lignes de texte vaut 9.8% et est proche du taux de reconnaissance de 9.0% du r´eseau entraˆın´e et ´evalu´e `a reconnaˆıtre le contenu des boˆıtes r´ef´erences. Ce faible ´ecart justifie la pertinence de cette strat´egie puisque cela montre que le r´eseau a appris `a faire abstrac-tion des objets pr´esents `a droite de la ligne sans trop perturber la qualit´e de reconnaissance du texte.

On note qu’un r´eapprentissage du reconnaisseur de texte est n´ecessaire puisque le syst`eme entraˆın´e sur les boˆıtes r´ef´erences est tr`es mauvais lorsqu’il est ´evalu´e sur les images d´efinies par les cˆot´es gauches uniquement. Ce qui s’explique ais´ement par la pr´esence d’autres ´el´ements textuels

`a droite du texte `a reconnaˆıtre ; ´el´ements qui seront consid´er´es comme des insertions.

(a)

(b)

(c)

Fig. 6.6 –Description de la strat´egie de localisation `a base de d´etection des bords gauches des boˆıtes englobantes. (a) D´etection des bords gauches des lignes de texte. (b) Extraction des images lignes corres-pondantes. (c) Reconnaissance du contenu des lignes de texte `a l’aide d’un reconnaisseur ayant appris `a ignorer le texte appartenant `a d’autres lignes. Le caract`ere ”fin de ligne” ajout´e (EOL) permet de faciliter cet entraˆınement.

Table6.3 –Taux d’erreur mot (WER) pour des r´eseaux de reconnaissance de texte entraˆın´es et ´evalu´es sur des boˆıtes r´ef´erences ou des boˆıtes d´efinies seulement par les cˆot´es gauches et ´etendues jusqu’au bord droit de l’image de la page. Pour les lignes en anglais de l’ensemble de validation de la base Maurdor.

Evalu´e sur les´ Evalu´e sur les boˆıtes´ Entraˆın´e sur boˆıtes r´ef´erences d´efinies par les cˆot´es gauches

Les boˆıtes r´ef´erences 9.0% 46.7%

Les boˆıtes d´efinies par les cˆot´es gauches 10.6% 9.8%

Exp´ eriences

Apr`es avoir d´efini, dans le chapitre5, les principales contributions apport´ees `a notre mod`ele de localisation de lignes et apr`es avoir propos´e trois strat´egies de reconnaissance pleine page dans le chapitre6, nous allons dans ce chapitre analyser les r´esultats de notre mod`ele et de ses diff´erentes variantes. Nous commen¸cons par, en Section 7.1, d´ecrire le cadre exp´erimental dans lequel sont effectu´ees nos exp´eriences et, en particulier, quelles bases de donn´ees et quelles m´etriques nous utilisons. Nous allons ensuite, en Section7.3, comparer les r´esultats de nos diff´erentes strat´egies de d´etection de lignes de texte aussi bien entre elles que par rapport `a des techniques de r´ef´erence.

Nous analysons ensuite, en Section 7.4 l’influence de certains param`etres importants de notre mod`ele. En particulier, nous nous int´eressons `a la transmission de l’information contextuelle `a l’aide de couches de 2D-LSTMs en Section7.4.1, `a la nature de la couche de sortie en Section7.4.2 et `a la fonction de coˆut utilis´ee en Section7.4.3. Enfin, nous ´etudions la r´epartition des temps de calculs en Section 7.5.

7.1 Protocole Exp´ erimental

La Section 7.1.1 d´ecrit les bases de donn´ees utilis´ees dans ce travail et justifie la cr´eation de diff´erents sous ensembles alors que la Section 7.2 d´ecrit les m´etriques utilis´ees. A la fois les bases de donn´ees et les m´etriques sont utilis´ees dans les r´esultats de reconnaissance pleine page de la Section7.3 et dans les ´etudes ablatives de la Section 7.4 qui justifient les choix de conception du mod`ele d´ecrit dans le chapitre5.

Dans le document The DART-Europe E-theses Portal (Page 91-94)