Retour sur les verrous scientifiques

Structure de données. Nous identifions une attente forte en termes de documentation et d’analyse. Dans le cas de la 3D cette attente est émergente. En témoignent les nombreux projets de recherche en « sémantisation » du patrimoine 3D de l’année 2017 seule : Extended matrix, ReSeed, HBIM, Inception, etc. (cf. section 2.3.3). Dans le cas plus général du patrimoine, des outils stables sont déjà largement déployés : les outils officiels pour musées ou les nombreux CMS pour projets hors-institution ; aussi les schémas de structure et de valeurs sont établis. (voir section 2.3.2). Ce besoin de documenter et de connecter diverses sources de connaissances (3D et sémantique par exemple) est renforcé par une perspective externaliste, aujourd’hui dominante en histoire des sciences et patrimoine technique. De ce fait les structures de données classiques (ontologies/thésaurus principalement) sont massivement utilisées comme solutions, elles permettent la documentation et la connexion des ressources (cf. section 2.2) dans une approche qui respecte 2 des défis énoncés mais en soulève d’autres.

La plupart des structure de l’état de l’art répondent à 2 verrous : — verrou 6 (approche multi-échelles)

— verrou 7 (approche multi-dimensionnelle).

Mais elles en relèvent pas entièrement les défis de l’analyse pour l’histoire et le patrimoine, en effet :

— verrou 2, non-restriction du domaine d’étude : les classes et relations sont pré-établies, ce qui ne correspond pas à une démarche d’historien. Le développement d’une ontologie spécifique à chaque corpus analysé serait chronophage, en rupture avec la notion de standard et peu intéressant pour dégager de nouvelles connaissances historiques ;

— verrou 4, logique floue : les standards des ontologies du patrimoine ne permettent que des relations binaires11_{, tandis}

que les humanités, nuançant leurs propos, se rapprochent davantage de la logique floue, des relations pondérées12. Les ontologies floues du patrimoine restent à établir (voir section 2.2), ce serait le rôle d’un consortium (type CIDOC), hors champs de cette thèse.

Instanciation des structures de données. Une structure de données sans instances et sans utilisation ne serait qu’une démons- tration intellectuelle, inutile en HN. Riel et al. (2008b) évoque également cette limitation et évite les ontologies. La constitution de ces sources de connaissances est un sujet aux enjeux dépassant les humanités. Des projets gigantesques s’y penchent à tra- vers le monde (DBpedia, Google KnowledgeGraph, NELL, etc.). Peupler les structures de données (souvent des ontologies mais pas nécessairement) est réalisé soit manuellement, soit automatiquement. Cela soulève les problèmes en lien avec les verrous suivantes :

— verrou 3 (unicité et unité du corpus) : l’instanciation automatique de structure pré-établies fait nécessairement appel à des algorithmes avec apprentissage supervisé. Or l’utilisation de données extérieures ou d’une partie pour le tout, (phase d’entraînement nécessaire aux algorithmes supervisés) est en contradiction avec le verrou énoncé.

— verrou 1 (patrimoine dynamique), l’instanciation « manuelle », précise, mais fastidieuse et avec un fort manque de rap- pel (faux négatifs) demeure la solution la plus utilisée dans les humanités. La mise à jour permanente des données du patrimoine demanderait un travail fastidieux permanent, en contradiction avec le verrou énoncé.

Nous avons également énoncé une critique de l’utopie de la bibliothèque universelle comme but unique. La bibliothèque universelle motive le développement des modèles de données très structurés. Nous rejetons cette logique. Nous estimons que l’usage doit guider la mise en œuvre, et nous déclarons que l’objet de cette thèse n’est pas la communication mais l’analyse. Alors, pour cette thèse, nous nous autorisons à refuser le support des ontologies et modèles de données trop structurés.

Apprentissage automatique et graphes libres. Nous nous éloignons donc des ontologies et nous nous tournons ver les graphes libres, l’extraction de terminologie et le clustering par apprentissage automatique. Ces méthodes plus « bas-niveau » ne s’inté- ressent plus directement à la représentation des connaissances mais au traitement de l’information capable de produire des connaissances après interprétation. Il s’agit d’une piste prometteuse pour l’analyse de contenu historique (cf. section 4). En effet ces techniques permettent de conserver la complexité du texte, elles respectent les verrous suivants :

— verrou 3 (unicité et unité du corpus : elles n’introduisent pas de biais ;

— verrou 2, non-restriction du domaine d’étude : elles n’introduisent pas de classes construites en amont ; — verrou 4, logique floue : elles évitent les arcs binaires en quantifiant les relations entre items.

Nous avons alors identifié une série de précautions qui permettraient d’améliorer les solutions existantes, tout en satisfai- sant les verrous pré-cités et en répondant aux critiques des humanités numériques (section 1.1.3). Ces précautions consistent notamment à intégrer les verrous respectés par les modèles structurés dans les graphes libres :

— verrou 6 approche multi-échelles : donner accès à plusieurs niveaux de lecture : produire une vision globale d’un corpus et permettre d’investiguer une relation jusqu’à la source. Ceci préserve la qualité des contenus et offre une traçabilité de l’information, la possibilité d’étudier les sources et les transformations.

— Favoriser l’interaction avec l’expert du domaine, seul garant de la qualité des contenus produits, au détriment des inférences automatiques, souvent pauvres au regard des capacités et des connaissances qualitatives de l’historien.

— Permettre l’intervention de l’historien.

— Dépasser la représentation orthogonale des mots (verrou 5 représentation des mots) pour prendre en compte la proximité sémantique entre mots en fonction du contexte d’usage local, au sein du corpus (respect des contraintes du verrou 3).

Chapitre 2

Proposition scientifique : Haruspex

« Ne cherche pas les significations, compte les mentions. »

Karen Spärck Jones

1 Introduction . . . 69 1.1 Usages, contraintes, hypothèses et objectifs . . . 69 1.2 Proposition . . . 70 2 Gestion de corpus . . . 71 2.1 Étape préparatoire . . . 72 2.2 Topic-modelling . . . 73 3 Extraction d’expressions-clés . . . 77 3.1 Description de la proposition : ANA+ . . . 77 3.2 Mécanismes de construction . . . 77 3.3 Organisation et produits d’ANA+ . . . 79 4 Post-traitement des expressions . . . 80 4.1 Classification des expressions . . . 81 4.2 Classement (ranking) des expressions . . . 82 4.3 Fusion . . . 83 4.4 Modération . . . 83 5 Création des liens entre pages . . . 84 5.1 Approche classiques et problèmes . . . 84 5.2 Proposition de création de liens . . . 85 6 Résultats . . . 91 6.1 Performance de l’extraction de terminologie . . . 91 6.2 Résultats de Haruspex . . . 93

On pourrait plagier la première partie du titre d’un article de Pierre Mounier pour ce chapitre : « Du discours aux données... », à condition de plagier la seconde partie du même titre pour le chapitre suivant (3) « ...et retours »1(Mounier, 2011).

Face à la production de textes techniques, riches et non-structurés, nous proposons Haruspex, un outil d’analyse et d’in- tégration de connaissances historiques. Le chapitre précédent (chapitre 1) place les enjeux et les défis à relever. Haruspex ne requiert ni classe de vocabulaire cible, ni modélisation de données a priori, ni supervision pour entraînement. Indépendant de tout domaine, il opère sur des corpus uniques, c’est-à-dire sur des corpus dont on considère le contenu seulement mais tout le contenu équitablement. Il a été conçu pour calculer des proximités entre textes.

En sortie, on obtient une base de données (multi-)graphe (flou) avec les textes en nœuds et les proximités en arêtes (floues non orientées). Des requêtes sur le graphe permettent des résultats quantitatifs et visuels, supports d’interaction avec l’historien, expert du domaine.

1 Introduction

Haruspexest un pipeline de type Extraire Transformer Charger (ETL) au sens large, c’est-à-dire un processus de transforma- tion de données et de chargement dans une base de données. Les transformations de données ici sont profondes et impliquent des algorithmes de TAL. En effet : Les données d’entrées sont des textes bruts ou faiblement structurés (figure 2.1a) ; La sortie est un multi-graphe flou de proximités entre les textes d’entrée (figure 2.1b). Ce graphe est alors analysé pour identifier des anomalies ou « chaînons singuliers » qui intéressent le spécialiste du corpus (figure 2.1c).

(a) Corpus de textes homogène, découpés

en unités lexicales (b) Réseau pondéré de textes, liens de thé- matique(s) commune(s) (proximité)

FIGURE2.1 – Haruspex : une méthode de calculs de proximité entre documents et d’analyse de corpus de textes

1.1 Usages, contraintes, hypothèses et objectifs

Dans le document Proposition de chaînage des connaissances historiques et patrimoniales Approche multi-échelles et multi-critères de corpus textuels (Page 66-71)

Chapitre 2

Proposition scientifique : Haruspex

Contents

1

Introduction

1.1

Usages, contraintes, hypothèses et objectifs