Haruspex : une méthode de calculs de proximité entre documents et d’analyse de corpus de textes

C.3 Nombre d’occurrence et validité des candidats à la récession

2.1 Haruspex : une méthode de calculs de proximité entre documents et d’analyse de corpus de textes

1.1 Usages, contraintes, hypothèses et objectifs

1.1.1 Contextes d’utilisation

Haruspexest conçu pour assister l’historien dans l’étude d’un ou plusieurs corpus de textes pré-établi(s) en calculant des proximités de contenus entre textes.

Indépendant de tout domaine, en théorie, Haruspex peut saisir n’importe quel corpus de textes techniques. Il a néanmoins été conçu pour les corpus en histoire des sciences et des techniques. Les chapitres 3 et 4 recensent quelques usages des résultats de la méthode proposée.

Parmi les problèmes cités par la littérature, Haruspex pourrait notamment intervenir pour améliorer :

— les systèmes de recommandation basés sur les contenus (content based recommendation systems) pour les textes par exemple, dédiés au reviewing d’article scientifiques (Protasiewicz et al., 2016), ou à la constitution de bibliographies (Boo- nyasopon et al., 2011; Riel et al., 2008b).

— la phase de création de vecteur document pour des applications en patrimoine culturel (Collao et al., 2003).

— Les analyses de cycle de vie produit, notamment l’analyse de contenus non formatés dans la chaine de production comme envisagé par Kassner et al. (2014)

— la recherche de cas similaire dans des bases de données de rapport, notamment lié au management des risques (Zou et al., 2017).

— les tâches classiques d’exploration de brevets (patent-mining) (Souili et al., 2015)

— la détection fine de plagiat parmi des corpus limités via l’étude de paraphrase (ré-écritures).

1.1.2 Contraintes

Le chapitre précédent fixe les contraintes pour un usage en histoire, nous les récapitulons ici : — Contenus non structurés : les textes en entrée sont bruts.

— Métadonnées : toute métadonnée doit pouvoir être prise en compte, même hors standards de formalisation — Unité du corpus : aucune partie du corpus ne peut être considérée comme représentative de l’ensemble. — Unicité du corpus : les biais extérieurs sur les contenus du corpus doivent être minimisés.

— Qualité des données : certains mots peuvent être hors-dictionnaire (néologisme, jargon technique), mal orthographiés, ou manquant (OCR).

— Nuances : Les liens entre les éléments doivent être nuancés (pondérés) et ces pondérations doivent pouvoir être investi- guées.

1.1.3 Hypothèses

Le chapitre précédent développe la construction de ces hypothèses à partir de l’état de l’art. Nous les récapitulons ici. — La notion de récit est fondamentale en Histoire, les faits explicites ne sont pas directement de l’histoire.

— Les capacités de formalisation des connaissances qualitatives sont trop faibles. L’interaction avec l’historien est le seul moyen de produire des connaissances historiques.

— Il existe un intérêt à compléter la lecture qualitative d’un corpus textuel, par une analyse quantitative. — L’analyse d’un corpus peut se passer de contenus et de schémas de métadonnées en entrée

— La création manuelle de métadonnées est extrêmement fastidieuse et doit être évitée. — L’historien est principalement confronté à des corpus de moins de 20 000 pages. — Le corpus est connu qualitativement par l’historien

— L’éthique des humanités évite les processus boite noire. 1.1.4 Objectifs

Objectifs. L’objectif de Haruspex est de calculer des distances entre des unités de texte d’un corpus. Ces proximités permettent de créer des graphes multiples pondérés. Les proximités sont multi-échelles, de la vision d’ensemble à l’analyse approfondie de parties identifiées comme anomalies. Certaines anomalies peuvent être identifiées automatiquement. D’autres anomalies ainsi que les régularités sont à détecter via des représentations visuelles.

La liste suivante illustre les objectifs en termes d’analyse historique, et permet de saisir quelques cas d’utilisation. Cette liste est indicative et ne constitue pas l’exhaustivité des défis auquel Haruspex pourrait répondre. Elle est plutôt un extrait des questions pragmatiques rencontrées lors de séances interdisciplinaires avec des historiens. Ces questions ont guidé le développement d’Haruspex et le différencie d’autres outils de l’état de l’art (Chapitre 1).

— Proximité multi-échelle : Quels documents sont les plus proches d’un document donné ? à quel point sont-ils proches ? Que partagent-ils ? Quels sont leurs thématiques communes ?

— Intra-corpus : Quels sont les outsiders ou les leaders d’une thématique, comment sont-il reliés aux autres de la thématique ? du corpus ?

— Multi-dimensionnel : Certaines thématiques sont-elles contingentes (dépendante d’un temps ou d’un espace) ? Comment varie le leadership d’une vue du corpus à l’autre (par exemple derrière un filtre sémantique) ?

— Contenus : Les contenus des textes outsiders répondent-ils à une logique particulière ?

— Co-occurrences : Existe-t-il des dépendances entre certaines phrases-clés (co-occurrences) ? Est-ce contingent ?

— Connectivité : Quelle proximité entretiennent ces phrases-clés ou ces topics ? comment le quantifier ? Si ce sont des en- sembles disjoints, observe-t-on une connexion indirecte récurrente ?

— Anomalies : Y a-t-il des anomalies (ex : hors-sujets, forte connexion contingente) ? comment les qualifier ?

Ce n’est pas. Haruspexn’est pas un outil de formalisation des connaissances. Il n’est pas destiné au partage d’information, il est peu compatible avec les technologies web-sémantique. Il n’est pas non plus un outil permettant de comprendre un corpus sans l’avoir lu.

Il permet néanmoins une abstraction de contenus textuels en représentation de plus haut niveau. Pour cela il produit des (hyper-)graphes (flous) et utilise certaines de leurs propriétés. Dans la mesure du possible les informations issues de bases de connaissances établies sur le web (web-sémantique ou non) sont exploitées.

1.2 Proposition

Étapes. Pour répondre aux objectifs et aux défis, en respectant les contraintes énoncées nous proposons Haruspex. Cet ETL diffère du TAL avec apprentissage supervisé. Il est décomposable en la série d’éléments suivants (cf. fig. 2.2) :

A1 La gestion du corpus, incluant une option de topic-modelling par NMF. Cette étape est présentée en section “Gestion de corpus” (2).

A2 L’extraction de terminologie non supervisée, grâce à ANA+ une version améliorée de l’algorithme ANA (Enguehard et Pantera, 1995). Cette étape est présentée en section “Extraction d’expressions-clés” (3).

A3 Le post-traitement des expressions extraites, le calcul d’indicateurs assiste une modération manuelle, présenté en “Post- traitement des expressions” (4).

A4 Le calcul de proximités de documents pair-à-pair. Les mesures proposées incluent et améliorent les mesures classiques (tf- idf, cosinus, etc.). L’amélioration principale consiste à réfuter l’orthogonalité a priori des dimensions de vecteurs termes- documents. Cette partie est présentée en section “Création des liens entre pages” (5).

Dans le document Proposition de chaînage des connaissances historiques et patrimoniales Approche multi-échelles et multi-critères de corpus textuels (Page 71-73)