5.2 L’application du modèle
5.2.1 Les mesures de similarité
Pre-traitement des formules
Une fois les formules récupérées en se servant du modèle automatique de
reconnaissance, nous nous confrontons à trois problèmes qui doivent être réglés afin
de disposer d’un ensemble complet et bien organisé :
1. La récupération des formules non reconnues ou imparfaitement reconnues par le
modèle.
364. Ortí, Vocabulaire international de la diplomatique, p. 54. 365. Ibid., p. 54.
366. Ibid., p. 120. 367. Ibid., p. 55. 368. Ibid., p. 132.
5.2. L’application du modèle. 171
Notre modèle de reconnaissance nous fournit 15 % de faux positif ou faux négatifs
sur le total des formules étudiées, ce qui peut sembler considérable en regard de
notre objectif de proposer un portrait exhaustif des manières dont se présentent
les formulations. On pourrait craindre d’ignorer ainsi l’ensemble de grand intérêt
constitué par des erreurs concernant des formulations peu représentées dans le corpus
d’entraînement ou éloignées de la tradition. Heureusement pour nous, ces formulations
sont très attachées au glossaire courant mobilisé par le scribe et il n’existe finalement
que peu d’éléments qu’on puisse qualifier d’innovants. Y trouver un hapax (en dehors
des fautes d’orthographe et des faux lemmes), ou un terme isolé par rapport à la
tradition est rare et en général, même dans les formulations aberrantes, nous pouvons
attester de l’usage de termes bien connus du vocabulaire diplomatique.
2. Le dénombrement des formules qui ont été récupérées sur des unités plus larges
car elles se présentent fusionnées ou imbriquées :
Les parties du discours peuvent être constituées par des multiples formules ou
parties de formules. C’est le cas par exemple du préambule, de l’exposé, du dispositif,
qui portent souvent des multiples formules, citations et clauses. Dans d’autres cas,
surtout dans les parties plus brèves, mono-formulaires, les limites entre les formules
séquentielles se présentent parfois entravées par d’autres mots donnant l’impression
d’être fusionnées, imbriquées ou transposées. La formule se présente alors sous la forme
d’une sous-séquence, ce qui complique la récupération automatique et peut exiger un
nettoyage par un calcul de similarité au niveau des sous-unités. L’étiquetage originel ne
nous a pas fourni un niveau de finesse suffisant pour distinguer les formules à l’intérieur
des parties, ce qui exigerait d’ailleurs une annotation bien plus minutieuse.
3. La classement des formules en macro-groupes basés sur les caractères
couramment partagés.
Ce que nous cherchons à identifier n’est pas strictement les variations au sein
des formules, mais plutôt le rapport existant entre l’utilisation d’une formule et
les circonstances de production d’un acte. Pour y arriver, un regroupement des
formules selon les types ou les traditions est une étape indispensable. Il doit être
possible de rapprocher celles appartenant au même modèle scripturaire au-delà des
détails qui les différencient comme la transposition textuelle, les faux lemmes, les
changements de caractère syntaxique : abrégement, allongements, suppressions ou au
niveau sémantique : synonymes, périphrases, variations dans le style, la personne,
etc. Ainsi nous pouvons établir ce qui était de règle, ce qui s’éloigne du modèle, ce
qui est innovant et vérifier si les changements observés ont une relation avec l’action
juridique notifiée, les souscripteurs présents, le destinataire, l’affaire conclue, le lieu de
production, etc.
Ces trois problèmes, bien que relevant d’intérêts fort différents, peuvent être
abordés par une même solution, une routine de comparaison massive : transformation
en sacs de mots par n-grammes, extraction de la fréquence des termes et bi-grammes
(TF-IDF)
369puis application des mesures de similarité : coefficient de Dice ou Cosinus.
Un exemple est ici plus parlant pour mettre en valeur ce protocole de travail.
369. Mesures statistiques d’évaluation de l’importance d’un terme contenu dans un document relativement à un corpus. TF : Fréquence du terme, IDF : Fréquence inverse de document
Prenons le début de trois chartes dont la troisième présente un problème de détection
sur la notification :
1ère charte :«Ego Stephanus, dominus de Neblento, notum facio omnibus tam
presentibus quam futuris, quod cum discordia verteretur inter Johannem, fratrem
meum, ex una parte, et ecclesiam Cluniacensem, ex altera, pacificata est in hunc
modum [...] »
3702ème charte :«Noverint universi presentes pariter et futuri, quod ego Armandus
Chabrier, clericus, vendo domui de Grasac et trado et tibi Pagano pro eadem domo
recipienti, bona fide et sine dolo, per me et per meos [...] »
3713ème charte :«Quodcumque firmum procliui temporis statu et inmitabile permanere
cupimus [...] quapropter omnibus tam presentibus quam absentibus esse notum
uolumus, quod placuit atque conuenit inter domnum Oddonem abbtem Cluniesem et
Vualfredum [...] »
372Les problèmes de classification sont souvent des problèmes de détection des limites de la
formule. Donc, pour mener à bien une comparaison par sous-chaînes il faut proposer
une division des parties du discours par n-grammes. Pour rappel, le n-gramme fait
référence à une sous-séquence de n mots dans une séquence donné de mots. Soit W
d fune séquence oùW
dnous indique le début de la séquence et W
fla fin et soit W
k nune
sous-séquence avec les suivants conditions : k≥detn≤f, ayant alors un nombre fixe
de (n −k) + 1 items pour les sous-séquences on peut les extraire de façon itérative
(W
dk
, W
k+1d+1....) à partir de la séquence principale.
Ainsi, si on prend le premier exemple comme une séquence et qu’on établit la
génération de sous-séquences par fenêtres de 7 n-grammes nous avons ce résultat, la
sixième sous-séquence étant celle qui nous intéresse le plus car elle contient la formule
complète de notification plus adresse :
w
17
[’Ego’, ’Stephanus’, ’dominus’, ’de’, ’Neblento’, ’notum’, ’facio’],
w
28
[’Stephanus’, ’dominus’, ’de’, ’Neblento’, ’notum’, ’facio’, ’omnibus’],
w
39[’dominus’, ’de’, ’Neblento’, ’notum’, ’facio’, ’omnibus’, ’tam’],
w
410[’de’, ’Neblento’, ’notum’, ’facio’, ’omnibus’, ’tam’, ’presentibus’],
w
511
[’Neblento’, ’notum’, ’facio’, ’omnibus’, ’tam’, ’presentibus’, ’quam’],
w
612
[’notum’, ’facio’, ’omnibus’, ’tam’, ’presentibus’, ’quam’, ’futuris’],
Etc.
Alors si on opère une division de la phrase par 7 - 9n-grammes à un moment donné
on va arriver à isoler les trois sous-séquences de chaque séquence portant la formule
d’intérêt :
370. CBMA 6012, daté de 1228. Stephanus, seigneur de Neblanto, fait connaître l’accord conclu entre Johannes son frère et l’abbaye de Cluny
371. CBMA 6036, daté de 1229. Armandus Chabrier clerc vend au prieuré de Grazac le manse de Ceryata ; souscription par l’évêque du Puy-en-Velay, Étienne IV (1220 - 1231)
372. CBMA 1919, daté de 940. Odon, abbé de Cluny, échangent avec Vuarfredus et Vuarrina son épouse quatre champs situés à Lornanto.
5.2. L’application du modèle. 173
w
126[’notum’, ’facio’, ’omnibus’, ’tam’, ’presentis’, ’quam’, ’futuris’]
w
81[’noverint’, ’universi’, ’presentes’, ’pariter’, ’et’, ’futuri’, ’quod’]
w
1810[’quapropter’, ’omnibus’, ’tam’, ’presentibus’, ’quam’, ’absentibus’, ’esse’,
’notum’, ’uolumus’]
Ces trois formules de notification et d’adresse universelle correspondent à des
sous-versions d’un même modèle, statistiquement le plus répandu dans notre base
de données. Les deux premières sont en fait plus proches puisque l’une est inspirée
par l’autre et l’évoque. Toutes les deux débutent par le même verbe noscere, mais
l’une l’employant dans une périphrase à la première personne du singulier et l’autre
le conjuguant à la troisième personne du pluriel, ce qui lui confère un air plus
impersonnel ; omnibus a été remplacé par un synonyme, universus, plus recherché
et avec une nuance un peu plus généraliste ; le comparatif d’égalité tam...quam a été
remplacé par un adverbe plus rarement usité, pariter, mais comportant le même sens
lexical. La troisième version s’éloigne plus des deux premières parce qu’elle vient d’une
notice d’échange et qu’elle dépend d’un formulaire bien plus ancien : la conjonction de
coordination quapropter ouvre et connecte la formule après un court préambule ; un
usage assez commun dans les anciens formulaires. Par contre, le changement portant
sur le tandem assez répandu de temporalité :presentes - futuri remplacé par un autre
plus fin, mais appelant plutôt à la spatialité :presentes - absentes semble une décision
personnelle du scribe. L’ordre même de la formule passe de la structure typique «
notification-adresse » trouvé massivement depuis le Xe siècle à « adresse-notification »
moins usitée ; l’usage du parfait exhortatifesse notum uolumusle rapproche des anciens
diplômes et des chartes épiscopales.
Malgré les différences entre ces trois formules, expliquées en partie parce que les
documents d’où elles proviennent sont séparés de trois siècles, les mots principaux de
la formule et le sens général demeurent intacts pour l’œil entraîné ; mais ce n’est pas le
cas pour la machine. Les trois genres de différences ici présentes – modifications dans la
déclinaison, usage de synonymes et surtout transposition des termes tant dans l’ordre
que dans la fonction – ont généré des changements à un niveau sémantique qui ont
naturellement affecté leur syntaxe, masquant la ressemblance entre les phrases. Pour y
remédier, la mesure de similarité doit se concentrer plus sur la proximité morphologique
que sur la détection de l’information partagée entre les formules.
La mesure deLevenshtein
373était très pertinente pour le calcul de la distance entre
les entités nommées car on cherchait à surmonter des variations héterographiques
minimales affectant le plus souvent entre trois à cinq caractères. Mais quand la
comparaison porte sur des unités lexicales supérieures, avec un sens complet et
composées par des chaînes d’une moyenne de 8-10 mots (60-70 caractères) comme
dans le cas de l’adresse et de l’invocation, le nombre de caractères à supprimer, insérer
et remplacer pour passer d’une chaîne de mots à l’autre est bien plus élevé. De surcroît
si nous portons la comparaison au niveau des mots, la mesure de Levenshtein ne gère
bien la transposition des termes dont l’édition est coûteuse. En revanche, l’application
373. LiYujianet LiuBo. “A normalized Levenshtein distance metric”. In :IEEE transactions on pattern analysis and machine intelligence 29.6 (2007), p. 1091-1095
6º 7º 8º 9º 10º 11º 12º 13º X6
13 nosco facio omnis tam presens quam futurus quod cum
1 0 1 1 1 1 0 0 0
0 1 1 1 1 0 0 1 0
Y10
18 quapropter omnis tam presens quam absens sum nosco uolo
10º 11º 12º 13º 14º 15º 16º 17º 18º
Table 5.1 – Formules de notification 1 et 3 comparées au niveau du lemme dans le format
de “sac de mots” (bag-of-words)
du Coefficient de Dice
374sur la version lemmatisée de chaque sous-séquence semble
une méthode de travail très efficace car il calcule les n-grammes partagés en dépit de
l’ordre. De fait, étant donné que les formulations utilisent un vocabulaire relativement
réduit et avec un niveau élevé de répétition, une versionweighted-Dice, qui récompense
les intersections portant sur des termes et associations-clés peut être empiriquement
calculé en se basant sur une mesure aussi simple que la fréquence de termes ou de
bi-grammes
375.
Pour rappel, l’indice de Dice calcule l’information partagée, rapportée à la somme
des cardinalités. Alors, pour calculerDice(X, Y)étantXetY deux chaînes à comparer
et|X | le nombre de mots de la chaîneX et|Y | le nombre de mots de la chaîneY :
Dice(X, Y) = 2|X∩Y |
|X |+|Y | (5.1)
L’exemple ci-dessous montre la comparaison dans la version lemmatisée des
formules de notification 1 et 3 sous le format de “sac de mots”. L’ordre dans la
disposition des termes ainsi que la morphologie flexionnelle cessent d’être un facteur
déterminant pour privilégier les intersections dans le vocabulaire diplomatique présent
dans chaque typologie formulaire.
Si on fait le calcul : les deux sous-séquences ont une extension de 8 mots et 9 mots
et ils ont cinq termes en commun (nosco, omnis, presens, tam, futurus). Ainsi l’indice
de Dice entre les deux chaînes vaut :Dice(X, Y) =
8+92∗5= 0.59
Selon la tâche à évaluer, les exigences métriques peuvent varier. Pour la résolution
des problèmes de faux négatifs et de correspondance partielle, étant donné que
la comparaison est faite entre le groupe des formules récupérées et les documents
suspectés d’avoir une même typologie de formule, un coefficient égal ou supérieur à 0.35
est normalement suffisant pour bien détecter les formules manquantes. En revanche,
pour la troisième tâche qui cherche une ressemblance bien plus fine pour définir des
sous-groupes dans le groupe de formules, l’exigence doit être portée à 0.60 ou plus.
Cette routine qui mobilise des outils classiques du domaine de la récupération
de l’information demeure néanmoins plus empirique que théorique et les paramètres
doivent être modifiés selon les caractères particuliers de chaque formule ou partie du
374. Wael H. Gomaa et Aly Fahmy. “A survey of text similarity approaches”. In : International Journal of Computer Applications 68.13 (2013), p. 13-18
375. William Cavnar, John Trenkle et al. “N-gram-based text categorization”. In :Proceedings of SDAIR-94, 3rd annual symposium on document analysis and information retrieval. T. 161175. Citeseer. 1994
5.2. L’application du modèle. 175
discours. Elle épargne notablement des efforts dans le classement automatiquement,
mais on n’évite pas quelques nécessaires corrections à la main
376Mesure/seq (1º , 2º) (1º , 3º) (2º , 3º) frequency % Levenshtein 52 67 40 (nosco, sum)
(sum, omnis) (nosco, facio) (tam, presens) (cunctus, fidelis) (presens, littera) (littera, inspicio) (universus, presens) (quam, futurus) (sum, cunctus) 0.58 0.31 0.19 0.18 0.18 0.17 0.17 0.16 0.15 0.15 Levenshtein lemmes 63 63 52 Dice lemmes 0.46 0.63 0.27 Weighted Dice 0.69 0.87 0.43
Table 5.2 – Comparaison des résultats entre les différentes méthodes de mesure de
similarité.
376. Eva Pettersson et al. “Normalisation of historical text using context-sensitive weighted
Levenshtein distance and compound splitting”. In : Proceedings of the 19th Nordic conference of computational linguistics (Nodalida 2013). 2013, p. 163-179