• Aucun résultat trouvé

3.2 L’entrainement du modèle

3.2.2 Validation croisée et formation de sous-corpus

Partie indispensable de la validation d’un modèle, la validation croisée est faite en

répliquant de manière itérative la même comparaison training/test, mais en utilisant

des ensembles d’entrainement réduits. En bref, on forme de petits ensembles en

variant la composition de l’ensemble, en ce qui concerne la taille, la dimension, le

nombre d’observations ou en faisant un regroupement par affinités, qui dans notre

3.2. L’entrainement du modèle 101

cas correspond aux critères de la chronologie, des origines et des types. Ensuite, des

modèles sont entraînés avec les sous-ensembles et on teste leur robustesse face aux

autres ensembles d’entrainement ou face au corpus-test originel.

Cette ventilation maîtrisée du corpus peut constituer une réponse aux questions

posées par la concentration et la représentativité du corpus. En favorisant une bonne

vérification du niveau du surajustement du modèle, ainsi qu’une localisation des

sous-ensembles les plus problématiques, elle favorise l’extension du modèle à d’autres

corpus et valide notre approche générale. Par conséquent, afin d’obtenir un modèle

robuste et d’étudier l’impact des facteurs hétérogènes sur le corpus, il a fallu appliquer

trois sous-divisions dans le CBMA et construire un corpus test composé par des

documents provenant d’autres régions que la Bourgogne.

a. Lors de la première expérience, on a pratiqué une validation croisée imbriquée

(nested cross validation). Tout le corpus a été divisé en 10 parties (K

1

...K

10

) d’environ

500 documents. Ensuite on a entrainé dix modèles en progression arithmétique

(K

1

, K

1

+K

2

, K

1

+K

2

+K

3

). Pour chaque modèle généré, les mêmes protocoles de

validation que ceux du modèle général ont été appliqués. L’objectif était de trouver

le meilleur équilibre entre l’efficacité et la taille du sous-ensemble d’entraînement, afin

de développer un modèle moins dépendant du corpus d’origine, plus robuste sur des

corpus variés et moins exigeant en termes de ressources informatiques (Figure 3.3).

Cela permet également d’estimer la quantité d’annotations manuelles nécessaires pour

parvenir à un bon niveau de performance.

Figure 3.3 – Modélisations à partir des ensembles d’entrainement et test et validation

croisée.

b. Suivant des paramètres similaires, des sous-corpus ont été formés avec des

documents datés du même siècle. On a ainsi créé quatre ensembles servant à la fois

de corpus d’entraînement et de corpus test afin de réaliser des comparaisons 1 vs all

et vice-versa. Cette expérience pourrait être critiquée dans la mesure où il est assez

commun de trouver des chartes non datées, mal datées, mais surtout datées selon une

fourchette. Ce problème a été corrigé en plaçant une même charte à l’intérieur de deux

sous-corpus, si sa date estimée enjambait deux siècles – par exemple 980-1020. Comme

dans le cas précèdent, une validation croisée entre les quatre ensembles a permis de

faire des comparaisons plus précises et de vérifier l’effet de la variabilité ainsi que de

tester la robustesse du modèle sur différentes unités chronologiques, puis de valider ou

non l’application du modèle à une plage temporelle plus large.

c. L’une des observations les plus préoccupantes pendant la ventilation du corpus

était la présence de périodes et zones avec très peu voire aucune présence documentaire

dans le corpus annoté. Cette pénurie intrinsèque au corpus clunisien n’est pas

forcement la règle pour d’autres corpus proches. Afin de réduire l’impact de ce

manque de données, nous avons introduit une nouvelle modification dans le corpus

originellement annoté en ajoutant un sous-corpus de 400 documents supplémentaires

balisé à la main afin de couvrir les « zones grises » des IXe, XIIe et XIIIe siècles.

Puisque le corpus est très dense pour la période qui va de 940 à 1090, il n’a pas

été jugé nécessaire de couvrir les petits hiatus trouvés durant cet intervalle de temps.

L’objectif final était d’éviter de perdre, à cause de ces lacunes chronologiques, certaines

variétés scripturales et d’apporter des documents de la même époque en remplacement

de ceux perdus soit par sélection, soit à cause d’avatars historiques.

À cet effet nous avons sélectionné des actes provenant d’autres diocèses que celui

de Mâcon, à savoir, l’Yonne, Dijon, Autun, Nevers et Langres disponibles dans notre

corpus soit sous la forme de cartulaires soit sous la forme de recueils factices

219

. Nous

avons privilégié des actes produits depuis la fin du XIe siècle jusqu’à la première

moitié du XIIIe siècle, lorsque la conservation du corpus clunisien fut prise en défaut.

De plus nous avons annoté 20 actes de l’edition de laBibliotheca cluniacensis dont les

documents à l’origine appartenant au chartrier clunisien avaient été détachés et ne sont

pas inclus dans l’édition de A. Bernard. Pour l’annotation de ce jeu de 400 documents

nous avons appliqué les mêmes protocoles et le nouveau standard d’annotation proposé

après les modifications sur le corpus originellement annoté.

d. Enfin, le test final réside dans la validation de la performance sur d’autres

219. CHARMASSE A. de, Cartulaire de l’Eglise d’Autun, 1978 (35 actes) ; LESPINASSE René de, Cartulaire du prieuré de la Charité-sur-Loire (Nièvre), 1887 (35 actes) ; QUANTIN Maximilien, Cartulaire général de l’Yonne, 1873 (70 actes) ; P. JUENIN, Nouvelle Histoire de l’abbaye royale et collégiale de Saint-Filibert et de la ville de Tournus, 1733 (25 actes) ; CHARRAULT abbé L., La chartreuse de Bellary (1209-1793), 1908, (20 actes) ; LESPINASSE René de, Les chartes de Saint-Etienne de Nevers, 1907 (20 actes) ; LALORE Ch., Chartes de l’abbaye de Mores, 1873 (30 actes) ; DUBY G., Recueil des pancartes de l’abbaye de la Ferté-sur-Grosne : 1113-1178, 1953 (15 actes) ; RICHARD J., Le Cartulaire de Marcigny-sur-Loire : 1045-1144, 1957 (15 actes) ; PROU M., VIDIER A., Recueil des chartes de l’abbaye de Saint-Benoît-sur-Loire, 1907 (25 actes) ; CHEVRIER G., CHAUME M., Chartes et documents de Saint-Bénigne de Dijon, prieurés et dépendances : des origines à 1300, 1943 (30 actes) ; MARILIER J. (abbé), Chartes et documents concernant l’abbaye de Cîteaux, 1098-1182, 1961 (15 actes) ; BERTHOUMEAU L., Du vol et de sa répression en Bourgogne sous l’ancien droit et Chartes de l’abbaye de Saint-Etienne de Dijon, de 1260 à 1270, 1914 (15 actes) ; LAURENT J., Cartulaires de l’abbaye de Molesmes, ancien diocèse de Langres, 916-1250, 1907 (30 actes) ; COTTIN H., Chartes de l’abbaye Saint-Etienne de Dijon, de 1291 à 1300, 1910 (20 actes) ; MARRIER M., Bibliotheca cluniacensis, 1614 (20 actes).

3.3. Modèle et algorithme 103