• Aucun résultat trouvé

Limites du corpus

2.1. Limites inhérentes à l'étude de textes médiévaux

Tout d'abord, la période d'étude se limitant aux textes médiévaux apporte son lot de contraintes et de paramètres inconnus. La première Bible imprimée par Gutenberg date de 1455, et « le premier livre imprimé à Séville sortit en 1476, un peu avant les premières publications de Valladolid (1481) et Tolède (1483)302 ». Par conséquent, les documents à notre disposition sont des manuscrits ou, à partir de la fin du XVe siècle, des incunables.

Il est souvent difficile voire impossible de savoir si le texte consulté est un original ou une copie d'un manuscrit antérieur auquel des modifications ou ajouts ont été apportés par un ou des copistes. Le « copiste n'est pas un simple calligraphe. Il cherche à comprendre ce qu'il écrit, et est ainsi conduit à retoucher le texte, à en améliorer la versification, à en rajeunir la langue, ou à l'adapter plus ou moins d'un dialecte à l'autre303. » De plus, « ces copies ont parfois été obtenues sous la dictée, ou transmises de mémoire – ce qui explique de nombreuses lacunes ou incohérences304. » Outre les lacunes, les textes peuvent présenter des erreurs de copie, de transcription – dans l'énoncé « si lo matera ó lo dañare 305 », il faut lire « matare » au lieu de « matera». Ces erreurs de transcription peuvent être d'origine humaine (calligraphie difficile à déchiffrer) ou informatique (reconnaissance défectueuse de caractères). Ainsi, le Corpus Biblia Medieval permet de comparer différentes versions de Livre d'Isaïe (Chapitre 27, verset 13) au sujet du retour des Juifs exilés :

302 Bartolomé Bennassar, Un siècle d'or espagnol, Paris : Robert Laffont, 1982, p. 269.

303 Lucien Clare, Jean-Claude Chevalier, Le Moyen-Âge espagnol, Paris : Armand Colin, 1972, p. 38.

304 Ibid.

305 CORDE, Fueros de Medinaceli, v. 1129, Tomás Muñoz y Romero, Madrid : Imprenta de José María Alonso, 1847.

a. E sera en aquel dia. sonara la | grand trompa. e uernan los que fueran | perdudos de tierra de los assirios. e los que | fueran echados en tierra de egypto. e | aoraran a dios en el sancto monte de iherusalem. [Manuscrit E8/E6]

b. & sera en aquel dia que se tandra a|lli con grant bozina. & uernan los que fueren perdi|dos de tierra delos de assiria. & los que eran echa|dos de tierra de egipto

& aoraran al sennor enel | sancto monte en iherusalem. [GE]

c. & sera en aquel dia sera tanida tuba [tronpa] gran|de & vernan los que fueren perdidos en tierra | de siria & los desarrados de tierra de egip|to & adoraran al señor enel monte santo | en ierusalem. [Arragel]

Ces extraits montrent l'emploi d'une forme en -ra et de deux formes en -re dans des propositions relatives associées à des propositions principales au futur (vernan = vendrán). La consultation des manuscrits permet d'écarter l'hypothèse d'une erreur commise lors de la numérisation des textes :

E8/E6 GE Arragel

Une fois écartée cette hypothèse, l'emploi de la forme en -re dans les extraits b et c ne peut qu'être liée à une erreur commise au Moyen Âge puisque cette forme est incompatible avec la référence à un événement passé (l'exil).

La datation des documents pose également problème. Parfois la date de composition du texte apparaît en toutes lettres dans le corps du document, par exemple « Era de mille & trezientos & sessenta & siete annos, diez días de Enero306 » ce qui ne préjuge aucunement de la date du manuscrit disponible mais fournit au moins une borne inférieure : 1367 ou plus exactement 1329. Il faut en effet soustraire 38 ans en raison du repère temporel choisi : non pas la naissance du Christ, mais la « fondation des provinces romaines en Espagne en 38 avant J.-C.307 ». À défaut, des éléments contextuels explicites (batailles, nom de souverains etc.) permettent la datation du texte original mais non des copies. Ainsi, les références historiques présentes dans le Poema de Fernán González permettent de situer sa

306 CORDE, Carta de resolución [Colección Diplomática de León], 1329, Santiago Domínguez Sánchez, Universidad de León (León), 1994, § 49, 10 103 L.

307 Virginie Dumanoir, Gabrielle Le Tallec-Lloret, Espagnol médiéval, Langue et littérature castillanes (XIIe-XVe), Rennes : PUR, 2006, p. 90.

rédaction originale entre 1250 et 1252308, mais le Poema ne nous est connu qu'à partir d'un seul manuscrit copié entre 1465 et 1479 (datation effectuée grâce au papier utilisé309). Trois copistes sont à l'origine du manuscrit conservé mais A. Veiga310 estime le nombre et la diversité des erreurs de copie trop élevé pour admettre qu'ils aient travaillé à partir du texte original. Il cite notamment l'altération de l'ordre de strophes, la répétition de mots (compaña compaña, 204c/205c), des confusions de personnages, des rimes altérées.

Un autre renseignement fait souvent défaut : l'identité de l'auteur. Or l'identification de l'auteur du texte original permet de prendre en compte ses caractéristiques propres (origine sociale, géographique) pouvant influencer le choix de formes verbales.

Reprenons l'exemple du Poema de Fernán González, Alexandre Veiga écrit à propos de son auteur :

No se sabe quién sea el autor. Nada hay en el Poema que indique su condición ni dónde vivía. El hecho de estar enterado de las tradiciones del monasterio de Arlanza, de conocerle, de citar a Piedrahita, Carazo, Salas y Hacinas, etc., no prueba fuese monje de Arlanza. […] Por otra parte, uno que vive en Arlanza no diría nunca que la fortaleza de Muñó estaba cerca de Lara, como apunta el Poema en la estrofa 380, puesto que dista más de cuarenta kilómetros; [...]

Por otra parte, presenta al Conde cazando dentro de un monte y cerca de su cumbre; […] Ahora bien; el monasterio está situado, no en la cima del monte, o dentro del monte, sino a orillas del río Arlanza y en terreno llano. Quien viviera ordinariamente en Arlanza no habría situado el monasterio donde le sitúa el Poema.311 [notre soulignement]

La figure 11 illustre le nombre de documents dans le CORDE dont l'auteur est cité. Avant 1350, moins de 5 % des textes ont un auteur connu. Le pourcentage d'œuvres écrites par de multiples auteurs (VV.AA.) est inférieur à 1 % avant 1550.

308 Alexandre Veiga, op. cit., p. 275.

309 F. de Bofarull y Sans (cité par Marden, 1904, p. XVI, n. 1), cité par A. Veiga, « ¿ Usos de cantara por cantase y condicionales en si tuviera en el Poema de Fernán González ? », Moenia, Santiago de Compostela : Universidade de Santiago de Compostela, 1999, vol. 5, p. 271-306, p. 275.

310 Alexandre Veiga, « Usos de cantara... », op. cit., p. 275-276.

311 Ibid., p. 275.

Fig. 11 : Évolution chronologique du pourcentage de textes dont l'auteur est connu (CORDE)

La méconnaissance de l'auteur et de ses spécificités géographiques, sociales, etc.

implique que les tentatives de description géographique de la (non-)concordance ne pourront être effectuées que sur un faible pourcentage de textes, entraînant ainsi un biais lors de l'analyse des résultats.

Les bases de données du CORDE et du Corpus del español présentent également des limites mais, leur fonctionnement étant différent, il est souvent possible d'utiliser l'une des bases à défaut des deux. Parmi les contraintes, citons tout d'abord l'impossibilité de formuler des requêtes contenant la négation no dans le CORDE (par exemple no creo que), cette recherche conduisant à n'afficher que les énoncés dans lesquels l'expression creo que est absente. No est en effet interprété comme un opérateur booléen. On peut contourner cette restriction en tapant non creo que dans le CORDE ou en exploitant le Corpus del español.

Autre contrainte du CORDE : la discrimination de la casse, des accents ou encore des sauts de ligne. De plus, le nombre de résultats consultables ne peut excéder 1000 occurrences ce qui nécessite de filtrer les résultats ou de procéder à des découpages chronologiques en prenant garde aux périodes charnières et aux datations larges (postérieure à..., antérieure à..., entre…

et…) pour éviter les doublons. À propos du CORDE, F. Javier Herrero Ruiz de Loizaga ajoute :

en el CORDE pueden verse ejemplos de obras castellanas de la segunda mitad del

XIII y primera del XIV (Castigos e documentos, Cifar, Crónica de 1344, Gran

Crónica de Alfonso XI), pero transmitidos en manuscritos del XV, e incluso posteriores312.

Certains des textes cités figurent dans notre corpus, ce qui invite à la prudence au moment d'identifier des évolutions chronologiques.

Quant au Corpus del Español, même s'il ne présente pas de limite du nombre de résultats, on peut regretter la limitation imposée du nombre de consultations journalières.

Mais en définitive, ces deux bases de données se révèlent complémentaires et le Corpus del Español a permis de mettre en évidence des tendances d'emploi sur de grands nombres d'occurrences.

2.2. Biais introduits lors de l'étude