3.2 L’entrainement du modèle
3.2.2 Validation croisée et formation de sous-corpus
Partie indispensable de la validation d’un modèle, la validation croisée est faite en
répliquant de manière itérative la même comparaison training/test, mais en utilisant
des ensembles d’entrainement réduits. En bref, on forme de petits ensembles en
variant la composition de l’ensemble, en ce qui concerne la taille, la dimension, le
nombre d’observations ou en faisant un regroupement par affinités, qui dans notre
3.2. L’entrainement du modèle 101
cas correspond aux critères de la chronologie, des origines et des types. Ensuite, des
modèles sont entraînés avec les sous-ensembles et on teste leur robustesse face aux
autres ensembles d’entrainement ou face au corpus-test originel.
Cette ventilation maîtrisée du corpus peut constituer une réponse aux questions
posées par la concentration et la représentativité du corpus. En favorisant une bonne
vérification du niveau du surajustement du modèle, ainsi qu’une localisation des
sous-ensembles les plus problématiques, elle favorise l’extension du modèle à d’autres
corpus et valide notre approche générale. Par conséquent, afin d’obtenir un modèle
robuste et d’étudier l’impact des facteurs hétérogènes sur le corpus, il a fallu appliquer
trois sous-divisions dans le CBMA et construire un corpus test composé par des
documents provenant d’autres régions que la Bourgogne.
a. Lors de la première expérience, on a pratiqué une validation croisée imbriquée
(nested cross validation). Tout le corpus a été divisé en 10 parties (K
1...K
10) d’environ
500 documents. Ensuite on a entrainé dix modèles en progression arithmétique
(K
1, K
1+K
2, K
1+K
2+K
3). Pour chaque modèle généré, les mêmes protocoles de
validation que ceux du modèle général ont été appliqués. L’objectif était de trouver
le meilleur équilibre entre l’efficacité et la taille du sous-ensemble d’entraînement, afin
de développer un modèle moins dépendant du corpus d’origine, plus robuste sur des
corpus variés et moins exigeant en termes de ressources informatiques (Figure 3.3).
Cela permet également d’estimer la quantité d’annotations manuelles nécessaires pour
parvenir à un bon niveau de performance.
Figure 3.3 – Modélisations à partir des ensembles d’entrainement et test et validation
croisée.
b. Suivant des paramètres similaires, des sous-corpus ont été formés avec des
documents datés du même siècle. On a ainsi créé quatre ensembles servant à la fois
de corpus d’entraînement et de corpus test afin de réaliser des comparaisons 1 vs all
et vice-versa. Cette expérience pourrait être critiquée dans la mesure où il est assez
commun de trouver des chartes non datées, mal datées, mais surtout datées selon une
fourchette. Ce problème a été corrigé en plaçant une même charte à l’intérieur de deux
sous-corpus, si sa date estimée enjambait deux siècles – par exemple 980-1020. Comme
dans le cas précèdent, une validation croisée entre les quatre ensembles a permis de
faire des comparaisons plus précises et de vérifier l’effet de la variabilité ainsi que de
tester la robustesse du modèle sur différentes unités chronologiques, puis de valider ou
non l’application du modèle à une plage temporelle plus large.
c. L’une des observations les plus préoccupantes pendant la ventilation du corpus
était la présence de périodes et zones avec très peu voire aucune présence documentaire
dans le corpus annoté. Cette pénurie intrinsèque au corpus clunisien n’est pas
forcement la règle pour d’autres corpus proches. Afin de réduire l’impact de ce
manque de données, nous avons introduit une nouvelle modification dans le corpus
originellement annoté en ajoutant un sous-corpus de 400 documents supplémentaires
balisé à la main afin de couvrir les « zones grises » des IXe, XIIe et XIIIe siècles.
Puisque le corpus est très dense pour la période qui va de 940 à 1090, il n’a pas
été jugé nécessaire de couvrir les petits hiatus trouvés durant cet intervalle de temps.
L’objectif final était d’éviter de perdre, à cause de ces lacunes chronologiques, certaines
variétés scripturales et d’apporter des documents de la même époque en remplacement
de ceux perdus soit par sélection, soit à cause d’avatars historiques.
À cet effet nous avons sélectionné des actes provenant d’autres diocèses que celui
de Mâcon, à savoir, l’Yonne, Dijon, Autun, Nevers et Langres disponibles dans notre
corpus soit sous la forme de cartulaires soit sous la forme de recueils factices
219. Nous
avons privilégié des actes produits depuis la fin du XIe siècle jusqu’à la première
moitié du XIIIe siècle, lorsque la conservation du corpus clunisien fut prise en défaut.
De plus nous avons annoté 20 actes de l’edition de laBibliotheca cluniacensis dont les
documents à l’origine appartenant au chartrier clunisien avaient été détachés et ne sont
pas inclus dans l’édition de A. Bernard. Pour l’annotation de ce jeu de 400 documents
nous avons appliqué les mêmes protocoles et le nouveau standard d’annotation proposé
après les modifications sur le corpus originellement annoté.
d. Enfin, le test final réside dans la validation de la performance sur d’autres
219. CHARMASSE A. de, Cartulaire de l’Eglise d’Autun, 1978 (35 actes) ; LESPINASSE René de, Cartulaire du prieuré de la Charité-sur-Loire (Nièvre), 1887 (35 actes) ; QUANTIN Maximilien, Cartulaire général de l’Yonne, 1873 (70 actes) ; P. JUENIN, Nouvelle Histoire de l’abbaye royale et collégiale de Saint-Filibert et de la ville de Tournus, 1733 (25 actes) ; CHARRAULT abbé L., La chartreuse de Bellary (1209-1793), 1908, (20 actes) ; LESPINASSE René de, Les chartes de Saint-Etienne de Nevers, 1907 (20 actes) ; LALORE Ch., Chartes de l’abbaye de Mores, 1873 (30 actes) ; DUBY G., Recueil des pancartes de l’abbaye de la Ferté-sur-Grosne : 1113-1178, 1953 (15 actes) ; RICHARD J., Le Cartulaire de Marcigny-sur-Loire : 1045-1144, 1957 (15 actes) ; PROU M., VIDIER A., Recueil des chartes de l’abbaye de Saint-Benoît-sur-Loire, 1907 (25 actes) ; CHEVRIER G., CHAUME M., Chartes et documents de Saint-Bénigne de Dijon, prieurés et dépendances : des origines à 1300, 1943 (30 actes) ; MARILIER J. (abbé), Chartes et documents concernant l’abbaye de Cîteaux, 1098-1182, 1961 (15 actes) ; BERTHOUMEAU L., Du vol et de sa répression en Bourgogne sous l’ancien droit et Chartes de l’abbaye de Saint-Etienne de Dijon, de 1260 à 1270, 1914 (15 actes) ; LAURENT J., Cartulaires de l’abbaye de Molesmes, ancien diocèse de Langres, 916-1250, 1907 (30 actes) ; COTTIN H., Chartes de l’abbaye Saint-Etienne de Dijon, de 1291 à 1300, 1910 (20 actes) ; MARRIER M., Bibliotheca cluniacensis, 1614 (20 actes).