Les mesures de similarité - L’application du modèle

5.2 L’application du modèle

5.2.1 Les mesures de similarité

Pre-traitement des formules

Une fois les formules récupérées en se servant du modèle automatique de

reconnaissance, nous nous confrontons à trois problèmes qui doivent être réglés afin

de disposer d’un ensemble complet et bien organisé :

1. La récupération des formules non reconnues ou imparfaitement reconnues par le

modèle.

364. Ortí, Vocabulaire international de la diplomatique, p. 54. 365. Ibid., p. 54.

366. Ibid., p. 120. 367. Ibid., p. 55. 368. Ibid., p. 132.

5.2. L’application du modèle. 171

Notre modèle de reconnaissance nous fournit 15 % de faux positif ou faux négatifs

sur le total des formules étudiées, ce qui peut sembler considérable en regard de

notre objectif de proposer un portrait exhaustif des manières dont se présentent

les formulations. On pourrait craindre d’ignorer ainsi l’ensemble de grand intérêt

constitué par des erreurs concernant des formulations peu représentées dans le corpus

d’entraînement ou éloignées de la tradition. Heureusement pour nous, ces formulations

sont très attachées au glossaire courant mobilisé par le scribe et il n’existe finalement

que peu d’éléments qu’on puisse qualifier d’innovants. Y trouver un hapax (en dehors

des fautes d’orthographe et des faux lemmes), ou un terme isolé par rapport à la

tradition est rare et en général, même dans les formulations aberrantes, nous pouvons

attester de l’usage de termes bien connus du vocabulaire diplomatique.

2. Le dénombrement des formules qui ont été récupérées sur des unités plus larges

car elles se présentent fusionnées ou imbriquées :

Les parties du discours peuvent être constituées par des multiples formules ou

parties de formules. C’est le cas par exemple du préambule, de l’exposé, du dispositif,

qui portent souvent des multiples formules, citations et clauses. Dans d’autres cas,

surtout dans les parties plus brèves, mono-formulaires, les limites entre les formules

séquentielles se présentent parfois entravées par d’autres mots donnant l’impression

d’être fusionnées, imbriquées ou transposées. La formule se présente alors sous la forme

d’une sous-séquence, ce qui complique la récupération automatique et peut exiger un

nettoyage par un calcul de similarité au niveau des sous-unités. L’étiquetage originel ne

nous a pas fourni un niveau de finesse suffisant pour distinguer les formules à l’intérieur

des parties, ce qui exigerait d’ailleurs une annotation bien plus minutieuse.

3. La classement des formules en macro-groupes basés sur les caractères

couramment partagés.

Ce que nous cherchons à identifier n’est pas strictement les variations au sein

des formules, mais plutôt le rapport existant entre l’utilisation d’une formule et

les circonstances de production d’un acte. Pour y arriver, un regroupement des

formules selon les types ou les traditions est une étape indispensable. Il doit être

possible de rapprocher celles appartenant au même modèle scripturaire au-delà des

détails qui les différencient comme la transposition textuelle, les faux lemmes, les

changements de caractère syntaxique : abrégement, allongements, suppressions ou au

niveau sémantique : synonymes, périphrases, variations dans le style, la personne,

etc. Ainsi nous pouvons établir ce qui était de règle, ce qui s’éloigne du modèle, ce

qui est innovant et vérifier si les changements observés ont une relation avec l’action

juridique notifiée, les souscripteurs présents, le destinataire, l’affaire conclue, le lieu de

production, etc.

Ces trois problèmes, bien que relevant d’intérêts fort différents, peuvent être

abordés par une même solution, une routine de comparaison massive : transformation

en sacs de mots par n-grammes, extraction de la fréquence des termes et bi-grammes

(TF-IDF)

369

puis application des mesures de similarité : coefficient de Dice ou Cosinus.

Un exemple est ici plus parlant pour mettre en valeur ce protocole de travail.

369. Mesures statistiques d’évaluation de l’importance d’un terme contenu dans un document relativement à un corpus. TF : Fréquence du terme, IDF : Fréquence inverse de document

Prenons le début de trois chartes dont la troisième présente un problème de détection

sur la notification :

1ère charte :«Ego Stephanus, dominus de Neblento, notum facio omnibus tam

presentibus quam futuris, quod cum discordia verteretur inter Johannem, fratrem

meum, ex una parte, et ecclesiam Cluniacensem, ex altera, pacificata est in hunc

modum [...] »

370

2ème charte :«Noverint universi presentes pariter et futuri, quod ego Armandus

Chabrier, clericus, vendo domui de Grasac et trado et tibi Pagano pro eadem domo

recipienti, bona fide et sine dolo, per me et per meos [...] »

371

3ème charte :«Quodcumque firmum procliui temporis statu et inmitabile permanere

cupimus [...] quapropter omnibus tam presentibus quam absentibus esse notum

uolumus, quod placuit atque conuenit inter domnum Oddonem abbtem Cluniesem et

Vualfredum [...] »

372

Les problèmes de classification sont souvent des problèmes de détection des limites de la

formule. Donc, pour mener à bien une comparaison par sous-chaînes il faut proposer

une division des parties du discours par n-grammes. Pour rappel, le n-gramme fait

référence à une sous-séquence de n mots dans une séquence donné de mots. Soit W

d f

une séquence oùW

nous indique le début de la séquence et W

la fin et soit W

k n

une

sous-séquence avec les suivants conditions : k≥detn≤f, ayant alors un nombre fixe

de (n −k) + 1 items pour les sous-séquences on peut les extraire de façon itérative

(W

, W

_k+1^d+1

....) à partir de la séquence principale.

Ainsi, si on prend le premier exemple comme une séquence et qu’on établit la

génération de sous-séquences par fenêtres de 7 n-grammes nous avons ce résultat, la

sixième sous-séquence étant celle qui nous intéresse le plus car elle contient la formule

complète de notification plus adresse :

w

[’Ego’, ’Stephanus’, ’dominus’, ’de’, ’Neblento’, ’notum’, ’facio’],

w

[’Stephanus’, ’dominus’, ’de’, ’Neblento’, ’notum’, ’facio’, ’omnibus’],

w

³₉

[’dominus’, ’de’, ’Neblento’, ’notum’, ’facio’, ’omnibus’, ’tam’],

w

⁴₁₀

[’de’, ’Neblento’, ’notum’, ’facio’, ’omnibus’, ’tam’, ’presentibus’],

w

[’Neblento’, ’notum’, ’facio’, ’omnibus’, ’tam’, ’presentibus’, ’quam’],

w

[’notum’, ’facio’, ’omnibus’, ’tam’, ’presentibus’, ’quam’, ’futuris’],

Etc.

Alors si on opère une division de la phrase par 7 - 9n-grammes à un moment donné

on va arriver à isoler les trois sous-séquences de chaque séquence portant la formule

d’intérêt :

370. CBMA 6012, daté de 1228. Stephanus, seigneur de Neblanto, fait connaître l’accord conclu entre Johannes son frère et l’abbaye de Cluny

371. CBMA 6036, daté de 1229. Armandus Chabrier clerc vend au prieuré de Grazac le manse de Ceryata ; souscription par l’évêque du Puy-en-Velay, Étienne IV (1220 - 1231)

372. CBMA 1919, daté de 940. Odon, abbé de Cluny, échangent avec Vuarfredus et Vuarrina son épouse quatre champs situés à Lornanto.

5.2. L’application du modèle. 173

w

₁₂⁶

[’notum’, ’facio’, ’omnibus’, ’tam’, ’presentis’, ’quam’, ’futuris’]

w

₈¹

[’noverint’, ’universi’, ’presentes’, ’pariter’, ’et’, ’futuri’, ’quod’]

w

₁₈¹⁰

[’quapropter’, ’omnibus’, ’tam’, ’presentibus’, ’quam’, ’absentibus’, ’esse’,

’notum’, ’uolumus’]

Ces trois formules de notification et d’adresse universelle correspondent à des

sous-versions d’un même modèle, statistiquement le plus répandu dans notre base

de données. Les deux premières sont en fait plus proches puisque l’une est inspirée

par l’autre et l’évoque. Toutes les deux débutent par le même verbe noscere, mais

l’une l’employant dans une périphrase à la première personne du singulier et l’autre

le conjuguant à la troisième personne du pluriel, ce qui lui confère un air plus

impersonnel ; omnibus a été remplacé par un synonyme, universus, plus recherché

et avec une nuance un peu plus généraliste ; le comparatif d’égalité tam...quam a été

remplacé par un adverbe plus rarement usité, pariter, mais comportant le même sens

lexical. La troisième version s’éloigne plus des deux premières parce qu’elle vient d’une

notice d’échange et qu’elle dépend d’un formulaire bien plus ancien : la conjonction de

coordination quapropter ouvre et connecte la formule après un court préambule ; un

usage assez commun dans les anciens formulaires. Par contre, le changement portant

sur le tandem assez répandu de temporalité :presentes - futuri remplacé par un autre

plus fin, mais appelant plutôt à la spatialité :presentes - absentes semble une décision

personnelle du scribe. L’ordre même de la formule passe de la structure typique «

notification-adresse » trouvé massivement depuis le Xe siècle à « adresse-notification »

moins usitée ; l’usage du parfait exhortatifesse notum uolumusle rapproche des anciens

diplômes et des chartes épiscopales.

Malgré les différences entre ces trois formules, expliquées en partie parce que les

documents d’où elles proviennent sont séparés de trois siècles, les mots principaux de

la formule et le sens général demeurent intacts pour l’œil entraîné ; mais ce n’est pas le

cas pour la machine. Les trois genres de différences ici présentes – modifications dans la

déclinaison, usage de synonymes et surtout transposition des termes tant dans l’ordre

que dans la fonction – ont généré des changements à un niveau sémantique qui ont

naturellement affecté leur syntaxe, masquant la ressemblance entre les phrases. Pour y

remédier, la mesure de similarité doit se concentrer plus sur la proximité morphologique

que sur la détection de l’information partagée entre les formules.

La mesure deLevenshtein

373

était très pertinente pour le calcul de la distance entre

les entités nommées car on cherchait à surmonter des variations héterographiques

minimales affectant le plus souvent entre trois à cinq caractères. Mais quand la

comparaison porte sur des unités lexicales supérieures, avec un sens complet et

composées par des chaînes d’une moyenne de 8-10 mots (60-70 caractères) comme

dans le cas de l’adresse et de l’invocation, le nombre de caractères à supprimer, insérer

et remplacer pour passer d’une chaîne de mots à l’autre est bien plus élevé. De surcroît

si nous portons la comparaison au niveau des mots, la mesure de Levenshtein ne gère

bien la transposition des termes dont l’édition est coûteuse. En revanche, l’application

373. LiYujianet LiuBo. “A normalized Levenshtein distance metric”. In :IEEE transactions on pattern analysis and machine intelligence 29.6 (2007), p. 1091-1095

6º 7º 8º 9º 10º 11º 12º 13º X6

13 nosco facio omnis tam presens quam futurus quod cum

1 0 1 1 1 1 0 0 0

0 1 1 1 1 0 0 1 0

Y10

18 quapropter omnis tam presens quam absens sum nosco uolo

10º 11º 12º 13º 14º 15º 16º 17º 18º

Table 5.1 – Formules de notification 1 et 3 comparées au niveau du lemme dans le format

de “sac de mots” (bag-of-words)

du Coefficient de Dice

³⁷⁴

sur la version lemmatisée de chaque sous-séquence semble

une méthode de travail très efficace car il calcule les n-grammes partagés en dépit de

l’ordre. De fait, étant donné que les formulations utilisent un vocabulaire relativement

réduit et avec un niveau élevé de répétition, une versionweighted-Dice, qui récompense

les intersections portant sur des termes et associations-clés peut être empiriquement

calculé en se basant sur une mesure aussi simple que la fréquence de termes ou de

bi-grammes

³⁷⁵

.

Pour rappel, l’indice de Dice calcule l’information partagée, rapportée à la somme

des cardinalités. Alors, pour calculerDice(X, Y)étantXetY deux chaînes à comparer

et|X | le nombre de mots de la chaîneX et|Y | le nombre de mots de la chaîneY :

Dice(X, Y) = ²|X∩Y |

|X |+|Y | (5.1)

L’exemple ci-dessous montre la comparaison dans la version lemmatisée des

formules de notification 1 et 3 sous le format de “sac de mots”. L’ordre dans la

disposition des termes ainsi que la morphologie flexionnelle cessent d’être un facteur

déterminant pour privilégier les intersections dans le vocabulaire diplomatique présent

dans chaque typologie formulaire.

Si on fait le calcul : les deux sous-séquences ont une extension de 8 mots et 9 mots

et ils ont cinq termes en commun (nosco, omnis, presens, tam, futurus). Ainsi l’indice

de Dice entre les deux chaînes vaut :Dice(X, Y) =

₈₊₉²^∗⁵

= 0.59

Selon la tâche à évaluer, les exigences métriques peuvent varier. Pour la résolution

des problèmes de faux négatifs et de correspondance partielle, étant donné que

la comparaison est faite entre le groupe des formules récupérées et les documents

suspectés d’avoir une même typologie de formule, un coefficient égal ou supérieur à 0.35

est normalement suffisant pour bien détecter les formules manquantes. En revanche,

pour la troisième tâche qui cherche une ressemblance bien plus fine pour définir des

sous-groupes dans le groupe de formules, l’exigence doit être portée à 0.60 ou plus.

Cette routine qui mobilise des outils classiques du domaine de la récupération

de l’information demeure néanmoins plus empirique que théorique et les paramètres

doivent être modifiés selon les caractères particuliers de chaque formule ou partie du

374. Wael H. Gomaa et Aly Fahmy. “A survey of text similarity approaches”. In : International Journal of Computer Applications 68.13 (2013), p. 13-18

375. William Cavnar, John Trenkle et al. “N-gram-based text categorization”. In :Proceedings of SDAIR-94, 3rd annual symposium on document analysis and information retrieval. T. 161175. Citeseer. 1994

5.2. L’application du modèle. 175

discours. Elle épargne notablement des efforts dans le classement automatiquement,

mais on n’évite pas quelques nécessaires corrections à la main

376

Mesure/seq (1º , 2º) (1º , 3º) (2º , 3º) frequency % Levenshtein 52 67 40 (nosco, sum)

(sum, omnis) (nosco, facio) (tam, presens) (cunctus, fidelis) (presens, littera) (littera, inspicio) (universus, presens) (quam, futurus) (sum, cunctus) 0.58 0.31 0.19 0.18 0.18 0.17 0.17 0.16 0.15 0.15 Levenshtein lemmes ⁶³ ⁶³ ⁵² Dice lemmes ^0.46 ^0.63 ^0.27 Weighted Dice 0.69 0.87 0.43

Table 5.2 – Comparaison des résultats entre les différentes méthodes de mesure de

similarité.

376. Eva Pettersson et al. “Normalisation of historical text using context-sensitive weighted

Levenshtein distance and compound splitting”. In : Proceedings of the 19th Nordic conference of computational linguistics (Nodalida 2013). 2013, p. 163-179

Dans le document Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins. (Page 172-178)