• Aucun résultat trouvé

Le déchiffrement collaboratif de manuscrits numérisés en mode image rend possible l’exploitation, sous forme de texte manipulable, d’un grand nombre de

documents patrimoniaux. Au-delà, ce travail collectif produit des données

d’apprentissage pour alimenter un algorithme de reconnaissance d’écriture

manuscrite.

OLIVIER BAUDE

TGIR Huma-Num et UMR Modyco

NICOLAS LARROUSSE

TGIR Huma-Num

FABRICE MELKA

Institut des mondes africains (IMAF) Consortium Archives des ethnologues

toujours automatisables. Les comptes rendus des réunions de l’OULIPO6 en sont un bon exemple, qui

s’apparentent plus à des œuvres d’art graphique qu’à des écrits classiques et pour lesquels ce type de trai tement serait totalement inefficace.

Sur Transcrire, la participation d’un grand nombre d’utilisateurs permet d’extraire davantage d’infor - mations de ces images et en moins de temps que ne pouvait le faire un scientifique isolé. Les résultats de ce déchiffrement collectif offrent ainsi une exploita- tion plus aisée de ces collections, un texte cherchable, éditable et manipulable. À partir de ces corpus transcrits, la fouille textuelle, la reconnaissance d’entités nommées ou l’édition numérique de sources primaires sont envisageables. De même, ces données vont enrichir les catalogues, les inventaires ou les bibliothèques numériques des partenaires du projet.

Par ailleurs, le processus de transcription associe pleinement les contributeurs à la démarche savante. Devenant expert d’une écriture, ils participent au nécessaire travail préparatoire de traitement des sources. De plus, la lecture de ces dernières leur fait découvrir une autre des étapes de cette démarche, la collecte de données.

Si les carnets sont les matériaux privilégiés pour ce projet, d’autres documents manuscrits les ont rejoints (notes de terrain et correspondances scienti- fiques) et quatre disciplines sont représentées : ethno- logie, archéologie, géographie et histoire. La plate- forme accueille à l’heure actuelle 10 collections et près de 12 000 pages numérisées. La dernière mise en ligne regroupe les notes de terrain de Thérèse Rivière. Ethnologue, elle mène en Algérie, avec Germaine Tillion, la première mission ethnographique sur l’Aurès : la fameuse mission Rivière-Tillion de 1935- 1936, dont certains matériaux n’ont été redécouverts que récemment7.

Ce sont déjà près de 7 500 pages qui ont été transcrites et 253 comptes utilisateurs ouverts, une

quinzaine étant très actifs, comme souvent pour ce type de projet. Chaque contributeur dispose d’un tableau de bord personnel afin de suivre son travail (derniers documents transcrits, historique des inter ventions) et cette participation est publiquement mise en valeur sur une zone dédiée de la page d’accueil du site. Pour toute exploitation future de ces transcrip- tions, les participants sont crédités8. Enfin, le compte

Twitter de la plateforme9 permet de communiquer sur

le projet et d’animer la communauté des transcripteurs. Le travail réalisé par cette communauté a par ailleurs suscité une autre utilisation plus originale. Afin de tester les possibilités de la reconnaissance d’écriture manuscrite (HTR, Handwritten Text Reco- gnition) et ses complémentarités avec la transcription manuelle, un projet utilisant le logiciel Transkribus10

a été initié par le Centre de recherche bretonne et celtique (CRBC). Il a ainsi été possible d’aligner les fichiers images et l’ensemble du texte de deux carnets de terrain d’Anatole Le Braz produit manuellement par les contributeurs de la plateforme Transcrire (450 pages). Il s’agissait de permettre la création de données d’apprentissage pour alimenter un algo- rithme de reconnaissance de texte manuscrit afin que celui-ci apprenne à déchiffrer l’écriture du célèbre folkloriste breton. Par la suite, il sera alors possible d’exécuter ce moteur HTR sur de nouveaux carnets afin d’obtenir des transcriptions générées automati- quement et ainsi juger de leur qualité et de celle de cet outil très prometteur.

La prise en charge de la plateforme Transcrire par une communauté scientifique au sein de la TGIR Huma-Num permet de s’appuyer sur les acquis du projet, en particulier sur l’expérience dans l’accompa- gnement des utilisateurs et la co-construction de savoirs. Elle ouvre également la voie à la mise en place d’autres outils d’enrichissement collaboratif, fondant ainsi de nouvelles pratiques savantes. ■

Outils et données 6. https://gallica.bnf.fr/blog/ 13032018/portrait-du-fonds- oulipo?mode=desktop 7. http://www.berose.fr/Un-destin- contrarie

8. Voir l’exemple du fonds du père de La Croix : http://fondspdlc.edel.univ- poitiers.fr/items/show/5855, où le nom de la transcriptrice fait partie des métadonnées.

9. https://twitter.com/transcrire 10. https://transkribus.eu/ Transkribus

Le chat écrivain, 1996 Polyester, acrylique sur toile, objets divers

200 x 300 x 150 cm Collection du musée d’Art moderne de la Ville de Paris © ADAGP, Paris 2020

1. La syntaxe rend compte de la structure d’une phrase. La syntaxe en dépendances le fait en établissant des relations entre les mots (par exemple, la relation sujet relie ici « syntaxe » à « fait »). 2. www.jeuxdemots.org - https://zombilingo.org - https://anawiki.essex.ac.uk/ phrasedetectives 3. Une anaphore est un procédé consistant à rappeler un mot ou groupe de mots précédemment énoncé par un terme grammatical (www.cnrtl.fr/ lexicographie/anaphore). 4. https://bisame.paris-sorbonne.fr/ recettes/

Outils et données

Les sciences participatives comme moyen de produc- tion de ressources linguistiques pour le traitement auto- matique des langues (TAL) ont fait leurs preuves sur des langues comme le français ou l’anglais. Les projets JeuxDeMots (production d’un réseau lexical), Zombi- Lingo (production de corpus annotés en syntaxe de dépendances1) ou Phrase Detectives2 (production de

corpus annotés en anaphore3) témoignent de l’intérêt

de former des locuteurs à des tâches linguistiques pour produire des ressources de qualité.

La plateforme « Bisame » (devenue « Recettes de Grammaire »4) a été développée pour tester la faisabi-

lité d’une telle entreprise pour la production de ressources linguistiques pour les langues peu dotées