Restituer le document numérique - Les modalités d’une reconstitution

Corpus et méthodologies

3.3 Les modalités d’une reconstitution

3.3.3 Restituer le document numérique

Lectio diﬃcilior potior : la restitution (leçon) la plus diﬃcile prime. Tel est l’un

des principes fondateurs du travail philologique. Il découle d’une compréhension fine du processus de transmission des textes : les copistes effectuent fréquemment des sur-corrections, en remplaçant un terme ou une expression rare par une tournure plus banale. Lorsque plusieurs manuscrits divergent, celui qui contient la formulation la plus ardue ou la plus insolite a plus de chance d’être fidèle au texte original.

La restitution des documents numérisés repose, en partie, sur un adage inversé :

lectio facilior prior, la lecture la plus facile prime. Les algorithmes de reconnaissance des

40Toutes ces fonctions ont été détaillées dans un article rédigé sur Sciences Communes : « Peut-on faire du data mining sur Gallica ? », http ://scoms.hypotheses.org/186

caractères ne sont pas des copistes ordinaires. Ils voient le texte, plus qu’ils ne lisent ; ils eﬀectuent des rapprochements lexicaux qui ne tiennent pas compte du contexte documentaire.

Nous trouvons un exemple emblématique de cette herméneutique inhabituelle dans notre corpus de chroniques boursières du Journal des débats. Au début des années 1850, le mot « celte » est l’un des fréquents : en 1852, nous dénombrons plus d’une centaine d’occurrences. Est-ce à dire que la chronique se passionne pour l’histoire gauloise ? Une série de comparaisons avec les textes originaux révèle une dérive structurelle. Opérant à partir d’un matériel typographique inadapté, l’algorithme s’obstine à apparier le déno-minatif celle à celte. Si nous avions respecté l’adage philologique, le texte OCRisé nous paraîtrait plus vraisemblable que les originaux conservés à la Bibliothèque Nationale de France. Dans la mesure où elle est incongrue, la mention des celtes dans une production journalistique dévolue à la couverture de l’actualité boursière respecte probablement les intentions originelles de l’auteur : aucun copiste n’aurait l’idée saugrenue d’introduire une terminologie inattendue.

La philologie du numérique reste de la philologie : elle préjuge des normes stylistiques des productions textuelles originelles et de leurs “copistes”, les OCRs. Seulement elle eﬀectue un processus inverse : il ne s’agit plus de privilégier les restitutions les plus inattendues mais, a contrario de normaliser le vocabulaire employé. Le philologue se doit de détecter et de corriger a posteriori des déviations structurelles. L’exercice est ardu. La normalité ne peut faire l’objet d’une déﬁnition a priori, mais doit s’adapter au régime de textualité des documents originels. Seule une lecture assidue des textes permet de se familiariser avec les récurrences, les automatismes, les contraintes et les interdits propres à une production documentaire. Grâce à cette acclimatation approfondie, nous pouvons envisager des corrections inapplicables dans d’autres contextes.

Par exemple, les chroniques boursières se conjuguent systématiquement à la troi-sième personne et à la première personne du pluriel : pour une combinaison de raisons (en particulier, le fait que la première chronique boursière française était un projet col-laboratif, fédérant une variété d’intervenants saint-simoniens), les marques de l’énon-ciation se cantonnent à un nous ou à un on. Cette contrainte spéciﬁque représente pour le correcteur une liberté supplémentaire. L’algorithme d’OCR transforme fréquemment l’article les en tes. La raison de cette métamorphose est la même que pour le passage de celles à celtes : les imprimeries des périodiques parisiens du milieu du xixe utilisent un caractère l empâté vers le bas. Lorsque l’exemplaire est partiellement altéré, le l est confondu avec un t. Pour la plupart des autres productions textuelles, la reconstitution

du les serait excessivement complexe (même un analyseur syntaxique ne parvient pas à diminuer les ambiguïtés). Dans le cas particulier de la chronique boursière, une simple substitution suﬃt : tous les tes sont remplacés par des les, sans générer de faux positifs, puisque les possessifs à la deuxième personne n’ont pas droit de cité dans la chronique. Par ailleurs, les versions textuelles des documents hébergés sur Gallica sont de qua-lité variable. La bibliothèque numérique exige fréquemment des taux de reconnaissance élevés (près de 99%), qui nécessitent parfois des corrections manuelles a posteriori. La presse pose cependant de grandes diﬃcultés. La structure des pages n’est pas uniforme. Outre des colonnes (que les logiciels de reconnaissance textuels, OCR ou Optical

Cha-racter Recognition, ne peinent aujourd’hui plus à reconnaître), elle intègre de nombreux

cadres et dispositifs textuels qui nuisent à l’identiﬁcation des articles et parties du jour-nal. La qualité des documents originaux s’avère inférieure à un livre : les pages, volantes, se tachent, l’encre coule, la texture du support se détériore. Pour toutes ces raisons, les exigences de reconnaissance ont été abaissées : sur la période 1836 à 1870, l’indice de ﬁabilité du Journal des débats tourne autour de 80%. Cet indice n’est cependant pas le même pour l’ensemble du texte journalistique : il est notablement plus bas pour les publicités ou pour les rubriques rédigées avec une police de taille inférieure.

La rubrique boursière est plutôt favorisée à cet égard. Le taux de ﬁabilité des chro-niques de Jules Paton se situe autour de 93-94% avec d’importantes variations d’un exemplaire à l’autre. Une galerie de graphiques en annexe41 reporte la proportion d’er-reurs dans les quatre premières années de notre corpus. On observe ainsi que pour les années 1852 et 1853 l’exactitude est inférieure et plus variable que pour les deux an-nées suivantes. Cette diﬀérenciation est peut-être corrélée à la position de la chronique hebdomadaire dans le journal. À partir de 1854, elle migre du feuilleton boursier de la dernière page vers le corps de la troisième page. Ainsi disposée à l’intérieur de l’exem-plaire, elle a pu être davantage préservée des altérations (telles que les taches causées par le stockage ou la manipulation).

Ce taux paraît problématique : près d’un mot sur quinze est erroné. L’utilisation d’un vaste corpus permet en principe de contourner le problème. Les récurrences structurelles demeureraient tout autant visibles et leur répartition ne seraient en rien altérées par des erreurs de transcriptions occasionnelles. La liste des principales occurrences des chroniques de Jules Paton pour l’année 1852 tend à vériﬁer cette loi des grands nombres : des déformations intermittentes ne sauraient ébranler le tableau général.

Mot Occurrences Fréquences (pour mille) 1 les 2788 37.92 2 des 1861 25.31 3 que 1444 19.64 4 est 1342 18.25 5 pour 1123 15.27 6 qui 993 13.51 7 une 761 10.35 8 sur 686 9.33 9 pas 684 9.30 10 par 604 8.22

Tab. 3.1 : Principales occurrences des chroniques de Jules Paton en 1852, ordonnées par leur fréquence : l’article « les » est attesté 2788 fois, et représente 37 mots pour mille

Pour autant, les erreurs sont-elles purement arbitraires ? Aﬀectent-elles autant tel mot que n’importe quel autre sans préférence a priori ? C’est le cas lorsque la recon-naissance optique est quasi-parfaite et ne dépend que des altérations ponctuelles du document original42. Or, bien que les technologies déployées sur Gallica soient de bonne qualité, elles se situent en-deçà de ce niveau idéal. On observe ainsi des erreurs struc-turelles, qui portent systématiquement sur le même type d’occurrences. Ces déviations récurrentes découlent pour l’essentiel des écarts entre le modèle générique du logiciel de reconnaissance de caractère et le cas particulier du corpus considéré. Le tableau n°3.2 recense les principales retranscriptions erronées dans le corpus de chroniques de Jules Paton pour l’année 1852 (associées à leur fréquence en mot pour 1000).

Erreur Fréquence Correction 1 celtes 3.28 celles 2 too 1.64 100 3 ceiles 0.39 celles 4 ioo 0.34 100 5 bâte 0.31 Bâle 6 t05 0.29 105 7 ies 0.26 les

Tab. 3.2 : Erreurs courantes

Ces erreurs peuvent être corrigées a posteriori en recourant à des algorithmes de substitution : les expressions régulières (ou rationnelles). Ces expressions

(communé-42Carolyn Strange et al., « Mining for the Meanings of a Murder : The Impact of OCR Quality on the Use of Digitized Historical Newspapers », vol. 8, no 1, 2014.

ment utilisées par plusieurs langages informatiques, dont Python) ciblent avec précision une occurrence ou une série d’occurrences. On voit dans le tableau n°3.2 que les pro-blèmes de retranscription des nombres découlent d’une saisie erronée de deux chiﬀres : 1 (confondu avec t ou i) et 0 (confondu avec o). La combinaison de ces deux erreurs produit des expressions curieuses (comme le mystérieux terme too, qui n’est pas un an-glicisme mais le nombre 100). Dans la même optique, le dénominatif celles (très souvent employé par Paton en 1852) engendre des dérivés imprévus : celtes, ceiles, cettes…

La série d’expressions régulières suivante remédie à certaines de ces diﬃcultés. L’uti-lisation de termes couramment associés (de après celles ou un nombre collé à t ou i) diminue la probabilité d’inclure des faux positifs.

1 texte = re.sub(ur" ([it])([\dO]+)( |\n|,|\.)", ur" 1\2\3", texte, re.UNICODE)

#remplacer un 1 ou un i lorsqu'ils sont au début d'un nombre

2 texte = re.sub(ur" (celtes|cènes|ceiies|cettes)( de )", ur" celles\2", texte, re.UNICODE) #remplacer les mauvaises occurrences de celles

D’autres erreurs structurelles ne se résolvent pas aussi facilement : l’utilisation des expressions régulières ne suﬃt pas à lever les ambiguïtés. En raison de leur petite taille (et du risque de les confondre avec de simples taches), les accents sont parfois éludés. Très fréquente dans le corpus, la préposition à s’assimile ainsi à la forme a du verbe avoir ; les participes passés passent ponctuellement pour des formes du présent (par exemple varié devient varie).

mot tag lemme lettre classe description 15 Le DET :ART le 2.00 article article 16 Trois NOM trois 5.00 noun noun 17 pour PRP pour 4.00 preposition preposition 18 100 NUM @card@ 3.00 numeral numeral 19 , PUN , 1.00 punctuation punctuation 20 qui PRO :REL qui 3.00 pronoun relative pronoun 21 avait VER :impf avoir 5.00 verb verb imperfect 22 ﬁni VER :pper ﬁnir 4.00 verb verb past participle 23 samedi NOM samedi 6.00 noun noun

24 dernier ADJ dernier 7.00 adjective adjective

25 a VER :pres avoir 1.00 verb verb present

26 69 NUM @card@ 2.00 numeral numeral

27 fr NOM <unknown> 2.00 noun noun

Ces erreurs en cascade limitent fortement l’amplitude et l’exactitude de plusieurs analyses postérieures. L’étude automatisée de la syntaxe (que nous évoquons plus en détail dans une section suivante) est ainsi partiellement biaisée : le tableau n°2 montre que le a sans accent (en rouge, en case 25) est classé comme une forme du verbe avoir. Dans la mesure où la détermination du verbe aﬀecte potentiellement la compréhension de nombreuses fonctions grammaticales, une simple mauvaise lecture d’accent peut déformer complètement notre interprétation des usages syntaxiques du corpus43.

Dans le document La formation de la chronique boursière dans la presse quotidienne française (1801-1870) : Métamorphoses textuelles d'un journalisme de données (Page 136-142)