Le temps d’extraction de la terminologie par ANA+ est linéaire, proche de 1 seconde pour 20k mots

C.3 Nombre d’occurrence et validité des candidats à la récession

2.20 Le temps d’extraction de la terminologie par ANA+ est linéaire, proche de 1 seconde pour 20k mots

100 top 25% top 50% all fusion. SSC 0.99 0.89 0.78 0.59 0.81 UN 0.96 0.87 0.76 0.54 0.78 CIRP 0.91 0.84 0.71 0.48 0.70

TABLE2.5 – Précision de ANA+ sur différents corpus

6.1.2 Précision de ANA+

La précision présentée dans le tableau 2.5 est organisée par tranches de skip-grams classés (hiérarchisés).

Calcul de précision. La précision est le ratio entre la liste de skip-grams censurés (après avoir retiré manuellement toutes les extractions incorrectes) et les listes de skip-grams initiales. Les corpus sur lesquels la précision a été mesurée sont : Chimie du solide (CdS) en Français ; expertise de l’ICOMOS pour le patrimoine mondial de l’UNESCO (UN) en Français, et CIRP annals manufacturing technology (CIRP) en anglais. Toujours dans le tableau 2.5, la colonne « fusion. » (pour fusionnés) considère les résultats sur l’ensemble de l’extraction après avoir accepté toutes les propositions de fusions (voir section 4.3). La précision semble meilleure (peu de faux positifs) en français, et chute de manière constante (voir le tableau et la figure 2.5). Cela signifie que le classement (ranking, section 4.2) est efficace. En corollaire, la dernière colonne montre que les fusions proposées améliorent beaucoup la précision. En effet, la plupart des faux positifs sont fusionnés avec leurs parents et disparaissent donc de la liste. Précision et fusions. Une mesure de la précision des fusions donne un score approximatif de 0.85, c’est à dire que les propositions de fusion qui concernent des skip-grams qui auraient du être conservés sont rares. Les fusions erronées (c’est-à-dire les 0.15 restantes) impliquent une baisse de rappel. En effet, ces fusions erronées font disparaître de la liste des skip-grams qui auraient du être trouvés (faux négatif). En production, nous voulons éviter cet effet à tout prix. Pour cette raison, les fusions ne sont jamais automatiquement appliquées, l’expert valide toujours les propositions. Pour cette raison, la mesure de précision des fusions ne nous intéresse pas davantage. Néanmoins, pour la mesure des performances d’ANA+, nous retiendrons ces fusions automatiques qui améliorent le F-score.

6.1.3 Rappel et F-mesure

Comme proposé par Frantzi et al. (2000), pour faire face à la difficulté de compter les faux–positifs, nous mesurons une F-mesure relative. La procédure est la suivante :

1. Nous réalisons l’extraction de terminologie sur le même corpus avec ANA+ et avec TTC Termsuite (Cram et Daille, 2016). Les résultats sont 2 listes de skip-grams ordonnées.

rappel F-mesure corpus TS ANA+ TS ANA+ exact 0.60 0.61 0.58 0.69 racines 0.60 0.63 0.58 0.71 imbriqués 0.64 0.64 0.60 0.72

TABLE2.6 – Résultats comparés de rappel et F-mesure pour Termsuite (TS) et ANA+.

3. Seuls les skip-grams les mieux notés de la liste la plus longue sont conservés de sorte à ce que les 2 listes soient de même longueur.

4. Les 2 listes sont modérées par l’expert. La précision de ces listes est donc maximale (précision = 1). 5. Une liste de référence est construite de l’union (fusion) de ces 2 listes modérées.

6. Selon plusieurs filtres (lignes du tableau 2.6) les mots manquants dans une liste par rapport à la liste de référence sont considérés comme des faux négatifs. Le rappel et la F-mesure sont calculés sur cette base.

Le tableau 2.6 présente les résultats de rappel relatif pour le corpus de chimie du solide. Sur ce corpus la précision de ANA+ est 0.81 (après fusions, voir tableau 2.5) ; la précision de TTC termsuite est 0.57 par le même procédé (modération manuelle des résultats).

La ligne « exact » mesure l’écart brut entre les listes et la référence. La ligne « racines » considère les mots qui ont la même racine comme équivalent (ex : « supraconductivité » et « supraconducteur »), cela a pour effet de réduire légèrement la contribution de Termsuite à la liste de référence, et d’augmenter donc le rappel d’ANA+. La ligne « imbriqués » accepte les références incluses dans un skip-gram de l’une des 2 listes. L’avantage de Termsuite sur ce point signifie que Termsuite compose des MWE plus complexes que ANA+, par exemple Termsuite ne trouve pas « propriété mécanique » mais « propriété mécanique des fibres ». Une étude plus approfondie montre que « propriété mécanique » fait partie des éléments tronqués de la liste car mal notés.

6.2 Résultats de Haruspex

6.2.1 Interactions, interface, visualisation

Un des objectifs de Haruspex est d’offrir à l’historien de nouvelles vues de son corpus, de soulever de nouvelles questions de recherche et de proposer un moyen d’enquête quantitative. L’enjeu de cette étape, production de résultats de pipeline (ETL) est de proposer des vues adéquates. Cette notion est abordée plus précisément dans les chapitres 3 et 4. Dans un premier temps, la notion d’interface intervient fortement. En effet l’objectif n’est pas de produire des résultats de qualité historique « en autonomie » mais d’interagir au mieux avec les connaissances et les modes de travail de l’historien.

Jusqu’à maintenant nous entendions le terme « interface » dans une acceptation plus large que la forme graphique. Il s’agissait principalement d’expérience et d’interactions. Il faut maintenant intégrer la composante graphique, sans délaisser les interactions. La forme du résultat de Haruspex est un graphe multiple pondéré contenant tous les liens créés (section 5) entre les pages. Ce graphe n’est pas visualisable dans son ensemble malgré le faible nombre de nœuds (quelques centaines, rarement milliers, de pages maximum). En effet, il contient plusieurs dizaines de milliers de liens (essentiellement des liens-clés). Ce type de visualisation est compliqué à produire et offre de très faibles capacités d’interaction avec l’expert (illisible, difficile à manipuler). L’enjeu se situe donc entre le graphe impossible à visualiser dans l’ensemble et les connaissances qualitatives de l’historien. Cet enjeu prend la forme d’interactions médiatisées par une interface de visualisation de données. Les notions de multi-échelles et de multi-dimensions interviennent. L’interface est un nouveau support pour les interactions : elle donne les mots pour poser les questions.

6.2.2 Formalisation du processus

Le processus de production de graphes intéressant pour l’historien est donc réalisé avec l’historien. Ce processus itère sur la suite d’interactions suivantes :

1. Poser une question de recherche à partir des analyses existantes 2. Reformuler la question en une requête explicite vers la base de données 3. Visualiser les résultats de la requête (graphe par exemple)

4. Analyse quantitative et visuelle des résultats

Une représentation plus détaillée du processus est établie à partir d’un cas concret d’utilisation en section 1.2. 6.2.3 Mise en forme des résultats

Le résultat d’Haruspex est un graphe multiple pondéré contenant tous les liens créés (section 5) entre les pages. Il est sto- cké dans une base de données orientée graphe (neo4J). Des requêtes vers ce graphe permettent d’extraire certains aspects qui intéressent l’historien.

(a) Première interface d’Haruspex, réalisée avec Qt5 en 2015 (b) Seconde interface d’Haruspex, utilisant les technologies web en 2017

Dans le document Proposition de chaînage des connaissances historiques et patrimoniales Approche multi-échelles et multi-critères de corpus textuels (Page 94-96)