• Aucun résultat trouvé

Chaque document est unique, et a pu subir des modifications qui lui sont propres. Mal- gré l’apparente homogénéité d’un fonds d’archives classé à une cote archivistique précise, il est inévitable de constater de nombreuses variabilités. Variabilités au niveau des contenus tout d’abord, avec l’intervention de multiples auteurs ou annotateurs, mais aussi, dans le cas de l’écriture manuscrite par exemple, des variations entre les lexiques utilisés, les notations et les symboles entre certaines parties du fonds documentaire. Variabilités au niveau de la structuration des contenus également, c’est à dire dans la mise en forme de documents : il n’est pas rare de voir les conventions changer entre certaines parties du fonds. Nous avons par exemple constaté, lors du traitement de registres de ventes du XVIIIesiècle siècle, des

variations dans le nombre de colonnes des tableaux (voirfigure 1.5).

Le passage à l’échelle est donc une source inévitable d’incertitude quant à la forme que vont réellement revêtir les données. Coüasnon [30] témoigne, après avoir procédé à l’ana- lyse de 165 000 formulaires du XIXesiècle, qu’il est impossible d’anticiper les problèmes

qui vont se produire lorsqu’on lance un traitement automatique.

On peut également indiquer que la taille des lexiques nécessaires peut rapidement de- venir gigantesque si on traite plusieurs milliers de pages. Dans le cas de registres de re- censement, la liste des patronymes peut atteindre plusieurs centaines de milliers de noms différents, au niveau national.

La connaissance relative aux documents qui doivent être traités ne peut donc pas être universelle pour l’ensemble des documents d’un fonds d’archives. Il faut s’attendre à ce que des erreurs se produisent.

1.2.2 Éléments favorables

Face à ces difficultés, il serait déraisonnable d’imaginer qu’il existe des solutions qui permettront de corriger toutes les erreurs qui se produiront. Toutefois, il est envisageable de tirer profit de certaines éléments favorables afin de guider, corriger, optimiser ou compléter l’interprétation de documents et atteindre un niveau de qualité acceptable pour la tâche considérée.

1.2.2.1 Contexte documentaire

Le contexte documentaire, que nous avons introduit en sous-section 1.1.4, permet de tirer profit de certaines propriétés intéressantes, et de faire du volume un atout. Que ce soit au sein d’une page ou de plusieurs, il est possible de :

– construire des systèmes de contraintes entre certains éléments, comme par exemple dans le cas des numéros de pages ;

– profiter des redondances entres les éléments « similaires ».

L’exploitation des redondance est particulièrement intéressante car elle permet de profi- ter de ce qu’on pourrait appeler un principe de stabilité locale qui s’appliquerait à différents niveaux d’abstraction du « langage documentaire » . Au niveau lexical, on peut alors faire l’hypothèse d’une certaine stabilité au niveau morphologique, qui permet par exemple, selon Nagy [80], de profiter de la stabilité d’une fonte dans un même mot afin de lever certaines ambiguïtés, comme le cas du i majuscule (I) et du l minuscule (l) qui seraient similaires dans deux fontes différentes, grâce aux caractères voisins.

Déjean et Meunier [32] exploitent ainsi la stabilité des titres en haut de page sur les pages voisines d’un livre, et nous avons également tiré profit de la stabilité du scripteur sur des pages voisines des registres de ventes présentés ensous-section 1.1.2.2. Dans le cas de

documents à la structure stable, comme des formulaires d’enrôlement miliaires par exemple, il est possible de profiter des images les moins dégradées pour détecter les dimensions des cases d’un type de formulaire et se servir de cette connaissance pour détecter les éléments structurants dans des images moins bien conservées.

1.2.2.2 Présence de l’humain au cours du processus

Nous reviendrons sur ce point auchapitre 4, mais nous pouvons déjà indiquer que la présence (pour ne pas dire l’omniprésence) de l’humain au cours du processus de déma- térialisation des documents, et tout particulièrement à la fin, lors de la consultation, peut être un avantage. L’humain bénéficie, en effet, de facultés supérieures à la machine pour l’analyse de fonds documentaires, en particulier dans sa capacité à exploiter un contexte extrêmement vaste lors de son interprétation [82, table 1]. Ceci pose la questions du ou des rôles à accorder à l’humain pour pouvoir bénéficier de ses capacités.

Précisons ici que dans ce manuscrit, nous ne nous intéresserons pas aux aspects er- gonomiques liés à la réalisation d’interfaces homme–machine, mais nous accorderons de l’importance aux données échangées et aux scénarios décrivant ces échanges.

1.2.2.3 Méthodes d’apprentissage artificiel

Nous appelons « apprentissage artificiel » la discipline qui vise à décrire les techniques permettant à un apprenant virtuel de trouver une fonction de classification ou de régression à partir d’observations du comportement d’un système idéal. Nous reprenons de Cornué- jols et al. [20] cette traduction du terme « machine learning ». Bien que l’utilisation de méthodes d’apprentissage artificiel soit tributaire d’une phase d’initialisation qui nécessite de fournir des exemples de résultats au système, les progrès en matière d’inférence de mo- dèles structurés ou de relations spatiales, semblent permettre d’espérer une augmentation de la qualité des résultats dès qu’un nombre suffisant d’exemples a pu être généré.

Toutefois, il convient de préciser qu’il s’agit d’un tout autre domaine de recherche que celui exploré dans cette thèse, et notre principal souci dans ce travail sera d’être compatible avec ces avancées pour permettre leur intégration, principalement en favorisant l’apport d’informations utiles à un système d’apprentissage au cours de la phase délicate d’amor- çage.

1.2.2.4 Méthodes de reconnaissance d’écriture manuscrite

À l’instar du domaine de l’apprentissage artificiel, le domaine de la reconnaissance de l’écriture manuscrite a largement progressé au cours de la dernière décennie. Une meilleure exploitation du contexte linguistique, ainsi qu’une meilleure tolérance aux variations du signal, ont permis la création d’outils présentant des taux de reconnaissance capables d’af- fronter des situations réelles [96,121,122].

De même que pour les techniques d’apprentissage artificiel, nous rechercherons dans ce travail à permettre l’exploitation de ces avancées, sans faire de proposition dans ce domaine.

1.3 Conclusion

Ce premier chapitre a permis d’introduire un certain nombre de notions essentielles pour la présentation de notre travail. Le contexte documentaire (voirsous-section 1.1.4), en par- ticulier, sera un concept central dans le reste de la présentation de nos travaux. Rappelons

que l’exploitation de ce dernier est indispensable lors de l’interprétation fine du contenu des documents. Cette interprétation est nécessaire pour fournir à l’utilisateur final de l’environ- nement de consultation dématérialisé (le lecteur) la possibilité d’exploiter pleinement les ouvrages mis à sa disposition, sans trop subir ce changement d’usage.

On a vu que les documents anciens présentent de nombreuses difficultés. À ce titre, ils peuvent être considérés comme des objets scientifiques représentatifs d’une grande catégo- rie de documents.

Ce chapitre a également été l’occasion de préciser le contour de notre démarche scienti- fique, et de commencer à identifier les contraintes que doit satisfaire un système capable de transcrire des documents anciens, grâce à une interprétation des contenus. Ce problème de transcription nécessite de nombreuses précautions afin d’éviter que le processus d’extrac- tion automatique de l’information soit globalement plus coûteux qu’une version intégrale- ment manuelle [6].

Les prochains chapitres de cette première partie seront donc consacrés à l’étude de trois aspects essentiels de l’interprétation de fonds documentaires.

– Lechapitre 2s’intéresse à la façon dont les approches existantes expriment la connais- sance à priorià propos des documents et automatisent l’utilisation cette dernière. La disponibilité de connaissances relatives aux contenus des documents et à leur orga- nisation est le principal élément limitant les possibilités de transcriptions de fonds d’archives.

– Lechapitre 3détaille comment les approches existantes représentent et exploitent au- tomatiquement le contexte documentaire. Considérer le fonds dans sa globalité per- met l’expression de nouvelles propriétés et leur exploitation automatique. Ce chapitre permettra de d’identifier des éléments indispensables pour fiabiliser le travail du sys- tème, mais aussi pour le guider, le valider, ou le compléter ; c’est à dire pour faire du volume de documents un atout.

– Lechapitre 4se focalise sur les manières dont les approches existantes tirent profit de la présence de l’humain et des capacités de ce dernier. La présence de l’humain tout au long du processus de dématérialisation des documents, à des moments et avec des rôles multiples, doit être mieux comprise et utilisée, afin de permettre de tirer profit des capacités supérieures de l’humain à interpréter des fonds documentaires.

Le chapitre2permettra de dessiner le contour des outils de référence que nous proposerons ensuite d’étendre, et les chapitres3et4permettront de mettre en lumière les éléments à in- tégrer dans le nouveau système d’interprétation de fonds documentaires que nous décrirons dans lapartie II.

Interprétation de documents

image par image

Introduction

Nous nous focalisons à présent sur l’étape d’extraction de contenus du processus de dématérialisation, qui consiste à passer d’une représentation de l’information sous forme d’image isolée (nous la considérerons en contexte avec d’autres pages dans lechapitre 3) à une représentation informatique structurée permettant une exploitation sémantique de son contenu. Dans le cas des registres de ventes présentés en introduction, dont un extrait est visible enfigure 2.1, il pourrait alors s’agir de produire les entrées illustrées en table 2.1 dans une base de données.