Description des étapes de l’activité A1 Gestion de corpus

C.3 Nombre d’occurrence et validité des candidats à la récession

2.3 Description des étapes de l’activité A1 Gestion de corpus

2.1 Étape préparatoire

Pour ces besoins le texte est converti en un format pivot qui consiste en une syntaxe LA_{TEX simple, assurant le découpage en}

unité documentaire et gestion de références. 2.1.1 Les pages : unité documentaire du corpus

Il s’agit de définir l’unité documentaire qui sera étudiée. En fonction des cas, cette unité documentaire peut être un fichier (texte) ou un sous partie de fichier (chapitre, section, paragraphe). En fonction de la qualité des données d’entrée, les résultats seront plus ou moins automatiques. Cette étape est primordiale : l’historien construit (ou plus exactement rend explicite) son objet d’étude.

Dans le cas de fichiers LA_{TEX le découpage est très bon, avec les fichiers TEI, odt, ou doc (MSWord) ce découpage est de}

qualité variable, souvent mauvais, dans le cas de fichier pdf ou text le découpage est très mauvais. Des options permettent de découper le texte par saut(s) de ligne (paragraphe) et d’agréger les paragraphes trop courts au plus long des paragraphes contigus. Quelques exemples d’objets d’étude :

— relations entre fichiers d’archives textuelles : l’unité documentaire sera le document, plus exactement le fichier texte issu de l’OCR.

— analyse de retranscription d’entretiens : l’unité documentaire pourra être la réponse à chaque question, dans ce cas certaines réponses à des questions pourront se lier avec des réponses à d’autres questions issues d’autres entretiens. Elle pourra aussi être l’entretien dans son ensemble, sans prêter attention aux questions. Des filtres (pattern d’expression régulière) retireront le texte des questions.

— relations qu’entretiennent les sous-parties de plusieurs mémoires : l’unité documentaire sera la sous-partie de mémoire. Un seuil permettra d’éviter les parties introductives non porteuses de contenu.

L’unité documentaire est par la suite appelée page. 2.1.2 Contenus extra-textuels

Pour l’analyse de documents hybrides textes/iconographie, cette première étape fait le tri. Seul le texte est conservé et les images sont extraites et mises en lien. Un système de références (pointeurs) similaires est mis en place pour la gestion de citations lors d’analyse de production scientifique (mémoire, thèse, article, etc.). Les références en les notes de bas de page / fin de documents sont supprimées du texte et mises en lien. Les références sont simplifiées et une structuration explicite permet de séparer l’auteur du titre de l’œuvre citée, un champ « autres indications » agrège toute sorte d’informations de la note de bas de page ou de fin de document. Les reprises de citations (ibidem, op.ci., etc.) abondamment utilisées en histoire sont remplacés par des liens explicite vers la référence. Des alertes pointent les reprises de citations qui ne semble pointer vers aucune citation pré-éxistante.

Cette gestion très approximative des contenus extra-textuels (références et images) serait un point à améliorer. Concernant les images, le but est de conserver la position dans le texte (page associée) pour être en mesure de proposer des illustrations des contenus analysés par la suite. En d’autres mots, on considère que l’image est décrite dans le texte d’une page et que l’analyse du texte sera une analyse indirecte de l’image que l’on pourra donc associer. Concernant les références, leur extraction et simplification permet de créer un premier type de réseau entre pages : celui de citation. Ce type de réseau est classiquement produit pour analyser à un degré très superficiel la littérature scientifique. Ce réseau est une information supplémentaire pour notre analyse.

Cette étape permet également d’élaguer le corpus de tous les motifs lexicaux récurrents numéro de page ou en-tête par exemple dans le cas de documents PDF.

2.1.3 Lemmatisation et PoS

Cette étape est prise en charge par le lemmatizer Treetagger (Schmid, 1994). Les mots initiaux sont conservés, les lemmes et les étiquettes morphosyntaxiques (PoS) y sont associées. Treetagger est ici utilisé directement, sans entraînement particulier, ni découpage en mots spécifiques.

À l’issue de la lemmatisation, une matrice de vecteurs (compressée CSR) pages-lemmes est produite. Cette matrice filtre les lemmes contenus dans une stop-list, les lemmes avec une fréquence d’occurrence supérieure à 0.05 (5%), les lemmes occurrant moins de 5 fois (filtre de term frequency), et ceux occurrant dans moins de 3 pages (filtre de document frequency). Un filtre spécial est conçu pour les mots occurrant dans quasiment toutes les pages. Les pages ne contenant pas les mots (non filtrés jusqu’alors) présent dans plus de 90% des documents sont marquées comme contenant l’absence du lemme. Puis les lemmes occurrant dans plus des 3 quarts des pages sont supprimés. Un premier modèle vectoriel du corpus est ainsi produit.

2.1.4 Vérification

Cette étape fonctionne en 2 temps. Dans un premier temps, elle vérifie que les textes ne contiennent pas une proportion trop importante de caractères typographiques hors de l’alphabet français, signe d’une mauvaise OCR. Une rapide vérification concerne

la présence d’anglais dans le texte. Cette vérification est réalisée très simplement : le nombre d’occurrence de quelques termes anglophones de base (« the », « is », « of ») doit être faible. Une vérification de proximité entre les documents est également réalisée pour éviter les documents trop similaires. Cette vérification prend 2 formes : une distance cosinus entre les vecteurs document-lemmes, une vérification par fenêtre glissante de n-gram. Les distances cosinus anormalement faibles par rapport à la moyenne du corpus sont signalées, ce sont souvent des erreurs susceptibles de corrompre les résultats par la suite. Ce sont par exemple des documents contenant les mêmes annexes ou une version brouillon d’un document et sa version finale. La fenêtre glissante de n-gram est une technique classique de détection de paraphrase. Une fenêtre de 100 lemmes est construite et un motif d’expression régulière recherche ces mots dans cet ordre avec de potentielles ellipses (mot manquant). Une alerte signale les recouvrements de plus de 10 mots sur les 100. Cette technique est très rustique, mais elle est suffisante dans la mesure où nous ne cherchons pas à détecter du plagiat à ce stade. Nous cherchons uniquement à éviter les grosses erreurs qui influenceraient l’analyse. Comme indiqué dans la section 1.1.1, Haruspex dans son ensemble pourrait être un système de détection de plagiat.

Dans un second temps cette opération vérifie les résultats du clustering (voir section 2.2). Si les clusters sont très dispropor- tionnés ou si la matrice des mélanges document-topic est très creuse, voire séparable alors il faut envisager de séparer le corpus en sous-corpus plus homogènes pour la suite du processus.

2.1.5 Les métadonnées

Si elles existent, les métadonnées du document sont récupérées. Par exemple dans le cas de document TEI ou PDF comportant des balises en en-tête ou associé dans le container sont récupérées : auteur, titre, date, etc. Si aucune métadonnée n’est présente ou détectée, alors nous tentons de récupérer ces données dans le nom du fichier et dans la première ligne du contenu. Les informations ciblées sont les dates et les noms propres. Dans tous les cas ces informations pré-remplissent un tableau que l’historien peut compléter. Le tableau est très libre : chaque ligne est une page chaque colonne une métadonnée. Il est alors possible de créer des colonnes selon les dimensions que l’on souhaite investiguer et les informations disponibles.

Une métadonnée additionnelle est produite par l’étape suivante : “Topic-modelling” (2.2). Les topics assignés aux pages sont enregistrés comme métadonnées (liste de numéros).

Cette étape est optionnelle, elle permet d’affiner les analyses et de perfectionner les connexions pour la valorisation de contenus.

2.2 Topic-modelling

Cette étape du processus est optionnelle mais fortement conseillée. Elle peut être employée avant ou après l’extraction de MWE. Après l’extraction d’expression-clés, on considère que les documents sont représentés par un vecteur d’expressions.

2.2.1 Objectif

Objectifs. Cette étape de préparation du corpus consiste à chercher des catégories latentes dans les pages du corpus. L’objectif est triple. (1) D’abord il s’agit de vérifier l’homogénéité du corpus. L’obtention d’un corpus homogène à moindre coût permet de diminuer le bruit des étapes suivantes. En effet à partir de la même page, les expressions extraites dépendent du contexte : les autres pages du corpus ou sous-corpus (voir section 3. Les pages d’un corpus homogène sont peu séparables en topics (figure 2.4b), voire tous les documents comportent une part égale de tous les topics (alors les topics sont peu séparables). Si le corpus n’est pas homogène (il existe des ensembles de documents presque disjoints) alors on sépare le corpus en sous-corpus homogènes avant de passer à l’étape suivante. On travaille alors séparément sur chaque cluster. Concrètement le clustering est conseillé quand le corpus dépasse 3.106mots et 200 pages (valeurs empiriques).

(2) Un objectif secondaire et complémentaire est de vérifier la qualité du corpus et éventuellement d’écarter les pages qui ne mériteraient pas de former un sous-corpus (hors-sujets), ou de repérer un topic de pages comportant une autre langue que le français ou l’anglais. (3) Le troisième objectif est de proposer un outil d’analyse à gros grain pour le corpus. En effet la contribution de chaque document à un topic et la définition de chaque topic en vecteur stochastique de lemmes peuvent produire une vue du corpus pour l’historien, améliorant sa compréhension, ou quantifiant des intuitions.

Choix d’une méthode. Les techniques de co-clustering sont jugées plus adéquates pour notre problème : vérifier la non- séparabilité des documents en topics malgré une séparabilité potentielle de topics (plusieurs topics distincts dans un document). Nous reprenons la notation décrite en état de l’art (section 4.2.3). À partir de notre matrice A, nous visons à obtenir un « topic- models » de 2 matrices de basses dimensionnalités : A ≈ H.W , avec W (n × k avec k << h) est une matrice page-topic et H (k × h) une matrice topic-lemmes (matrice des coefficients). Suite aux tests réalisés entre les 2 techniques les plus couramment utilisés : LDA et NMF, nous retenons la NMF. En effet cette technique permet un temps de traitement plus court et surtout, une meilleure séparabilité des topics, sans pour autant séparer les documents en topics. Ce choix pourrait être revu en fonction des avancées de l’état de l’art.

(a) Description des topics (ellipses) par des termes (caractères typographiques)

(b) Assignation des documents (numéros) dans des topics (ellipses)

FIGURE2.4 – Plusieurs topics (ellipses) aux termes (lettres à gauche) distincts peuvent être présent dans une même page (chiffres

Dans le document Proposition de chaînage des connaissances historiques et patrimoniales Approche multi-échelles et multi-critères de corpus textuels (Page 73-76)