• Aucun résultat trouvé

Bases de la Comédie-Italienne

2.5 Conclusion

3.2.2 Bases de la Comédie-Italienne

Nous présentons dans cette section les deux bases d’images créées à partir des documents de la Comédie-Italienne. La première base est construite sur un unique registre TH-OC-53, tandis que la seconde, qui utilise les données de la plateforme participative, couvre un large éventail des registres disponibles.

Base sur le registre TH-OC-53

À l’aide de la méthode DMOS, nous avons tenté de détecter et segmenter automatiquement les zones de titre dans les registres. Cette méthode générique utilise un langage grammatical de descriptions créé pour cette tâche, avec un extracteur d’éléments terminaux basé sur les filtres de Kalman et un analyseur qui autorise la modification en cours d’étude pour s’adapter au document courant.

Une grammaire a été spécialement définie afin de détecter les filets présents dans les registres de la Comédie-Italienne qui, à certaines périodes, séparent les zones de date et de titre, et se trouvent dans les 25% du haut des pages. Cette étape permet d’obtenir des blocs de texte (Figure3.6a). Ensuite, la séparation en ligne est réalisée grâce à la méthodeSeams Carving(Arvanitopoulos et Süsstrunk2014) comme nous l’avons déjà présenté précédemment à la section 3.2.1. Finalement, une correction d’inclinaison ainsi qu’une normalisation de la hauteur des lignes sont réalisées (voir Figures3.6d et 3.6e).

(a) "Bloc original" (b) "Lignes médianes"

(c) "Lignes séparatrices" (d) "Ligne obtenue"

(e) "Ligne corrigée et recentrée"

Figure 3.6 – Étapes réalisées pour obtenir des lignes segmentées sur la Comédie-Italienne.

Nous avons constaté des erreurs engendrées à chaque étape du processus. Les méthodes de normalisation présentent des irrégularités sur les images finales. Suivant les registres ou les pages, du bruit s’ajoute sur les images, l’inclinaison est mal réalisée. La hauteur des majuscules, des hampes et des jambages est souvent responsable d’une mauvaise segmentation. Elles provoquent la segmentation d’une ligne en deux par exemple. Donc, parmi les lignes qui ont pu être segmentées et normalisées, nous avons opéré une sélection manuelle.

Finalement, 156 images de titre provenant du registre 53 ont été sélectionnées, car considérées comme idéales c’est-à-dire une ligne bien segmentée dont le(s) titre(s) ne sont pas coupés sur une autre ligne. Ces lignes ne contiennent pas uniquement des titres, mais également des mentions de jour de relâche.

Base multi-registres

Le système d’annotation assistée, décrit à la section 3.2.1, nous a permis de créer de nouvelles ressources d’images de lignes de titre étiquetées, et de formaliser les informations collectées dans un format dynamique. Grâce aux premières annotations collaboratives, de nouvelles segmentations de titres en bloc sont disponibles et assez fiables que nous pouvons traitées afin d’obtenir de nouvelles images de lignes de titres.

Pour cela, nous avons recueilli toutes les annotations relatives à la zone de titre réalisées sur la plateforme participative à la date du 30 juin 2017. Puis la détection et la segmentation en lignes ont été réalisées, comme décrites à la section3.2.1. La partie la plus fastidieuse a été de vérifier et segmenter manuellement les transcriptions candidates associées initialement aux zones de titres contenant plusieurs lignes. Pour rappel, la principale directive qui a été faite aux contributeurs pour les aider dans leurs tâches était d’utiliser une transcription diplomatique “souple”. Cela implique de ne pas mettre toutes les majuscules présentes dans les titres, transcrire en entier les termes qui ont été abrégés ainsi que moderniser, sans abréviation, les termes comme les dates où il est possible de trouver “7bre” à transcrire en “Septembre”. Ces directives concordent avec l’objectif de RECITAL, mais soulèvent des problèmes et questions pour utiliser les transcriptions candidates pour de la transcription automatique. En juin lorsque nous avons récupéré les informations liées aux zones de titres, il y avait encore assez peu de contributeurs, ce qui implique peu de propositions pour une même zone pour arriver à un consensus. Sur l’ensemble des zones, seulement 4,3 % convergeaient vers un consensus. De plus, parmi les 926 transcriptions candidates de titres, nous avons comptabilisé environ 40 % d’annotations par un membre de notre équipe, 30 % par des anonymes et le reste des contributeurs connus ont annoté moins de 10 % . Finalement, une seule

personne a réalisé la phase de post-annotation (moi). Ce travail a principalement consisté à remettre les majuscules et la ponctuation manquantes ou faire un consensus entre les différentes propositions par exemple {Julie La Clochette ; Julie, La clochette ; Julie, la clochette} pour “Julie, La Clochette” ; remettre ou corriger les abréviations, par exemple avec “86” proposé au lieu de “etc” ; et vérifier que les termes n’avaient pas été traduits comme “extravagante” qui avait été proposé au lieu “Stravagante”. Les cas où un utilisateur ne proposait pas de transcription pour une zone n’ont pas posé de problème lors de la validation des lignes, car il y avait dans chacun de ces cas une ou plusieurs propositions faites par d’autres contributeurs. Pour finir, il est difficile de fournir un accord inter-annotateur suite à cette annotation car les transcriptions candidates ont dû être coupées suite à la segmentation des zones en lignes et une seule personne a opéré la validation de ces transcriptions.

Finalement, 971 lignes de titre et leurs transcriptions ont pu être sélectionnées et validées avec l’outil décrit précédemment (voir section3.2.1). En dehors de la normalisation en hauteur des images, nous n’avons pas réalisé d’autres traitements comme la correction de l’inclinaison des lignes. Nous présentons 6 exemples pro- venant de 6 registres différents à la figure 3.8. Cet échantillon montre la diversité observée entre les registres en termes de papiers, d’encre, de style, de longueur et de langue (l’image 3.8a est en italien). La répartition du nombre d’images de titre collectées en fonction des registres est présentée à la figure 3.7.

Figure 3.7 – Répartition des images de titres finales suivant les registres